- wget ftp://ftp.wwpdb.org/pub/pdb/derived_data/pdb_seqres.txt
- cat pdb_seqres.txt | grep -e "mol:protein" -A 1 \
| sed '/^--$/d' | grep -v "^>" \
| awk '{while(length($0)>=5){print substr($0,1,5);gsub(/^./,"")}}' \
| grep X -v | sort | uniq -c | sort -k 1 -n -r \
> prot_sorted_5peptide.count
第2個指令是計算個數的檔案,結果存在prot_sorted_5peptide.count裡面,計算的時間約莫是五分鐘,下面是分析的指令:
- echo "20^5" |bc -l
3200000 - wc -l prot_sorted_5peptide.count
2310002 prot_sorted_5peptide.count - head -n 5 prot_sorted_5peptide.count
126562 HHHHH
18892 SHHHH
18370 HHHHS
16691 HHHSS
16481 HHSSG - tail -n 5 prot_sorted_5peptide.count
1 AACEM
1 AACEF
1 AACCM
1 AACCK
1 AAAWC - grep "[[:space:]]1 " -c prot_sorted_5peptide.count
129427 - grep AAAAA prot_sorted_5peptide.count
5619 AAAAA - grep WWWWW -c prot_sorted_5peptide.count
0 - grep TITAN prot_sorted_5peptide.count
91 TITAN
- 五個連續氨基酸可能地出現的種類是320萬種
- PDB裡面五個連續氨基酸的種類是231萬種
代表有些組合是不會出現的,而且還有塊90萬種! - 最常出現的組合前五名
- 最少出現的組合(也就是只有出現一次)前五名,但應該有更多
- 只有出現一次的組合共有快13萬種
- 出現五支煙的個數,結果還不少唷
- 沒有出現WWWWW
- 總共有91個巨人
參考資料
- 統計PDB中蛋白質鍊的長度
- PDB裡面最長和最短的蛋白質序列
- 統計蛋白質資料庫
- Split large string into substrings Kent的回應
- grep regex whitespace behavior amenthes與Kamal的回應
- IUPAC numerical multiplier
- Pentapeptide repeat
沒有留言:
張貼留言