2017年8月6日 星期日

PDB中最常出現的氨基酸片段

想要知道五個連續氨基酸出現次數用下面兩個指令就可以得到:
  1. wget ftp://ftp.wwpdb.org/pub/pdb/derived_data/pdb_seqres.txt
  2. cat pdb_seqres.txt | grep -e "mol:protein" -A 1 \
    | sed '/^--$/d' | grep -v "^>" \
    | awk '{while(length($0)>=5){print substr($0,1,5);gsub(/^./,"")}}' \
    | grep X -v | sort | uniq -c | sort -k 1 -n -r \
    > prot_sorted_5peptide.count
第1個指令是下載當前所有PDB檔案序列pdb_seqres.txt,約122MB
第2個指令是計算個數的檔案,結果存在prot_sorted_5peptide.count裡面,計算的時間約莫是五分鐘,下面是分析的指令:
  1. echo "20^5" |bc -l
    3200000
  2. wc -l prot_sorted_5peptide.count
    2310002 prot_sorted_5peptide.count
  3. head -n 5 prot_sorted_5peptide.count
    126562 HHHHH
    18892 SHHHH
    18370 HHHHS
    16691 HHHSS
    16481 HHSSG
  4. tail -n 5 prot_sorted_5peptide.count
    1 AACEM 
    1 AACEF
    1 AACCM
    1 AACCK
    1 AAAWC 
  5. grep "[[:space:]]1 " -c prot_sorted_5peptide.count
    129427
  6. grep AAAAA prot_sorted_5peptide.count
    5619 AAAAA
  7. grep WWWWW -c prot_sorted_5peptide.count
    0
  8. grep TITAN prot_sorted_5peptide.count
    91 TITAN
上述分析指令的意思分別是:
  1. 五個連續氨基酸可能地出現的種類是320萬種
  2. PDB裡面五個連續氨基酸的種類是231萬種
    代表有些組合是不會出現的,而且還有塊90萬種!
  3. 最常出現的組合前五名
  4. 最少出現的組合(也就是只有出現一次)前五名,但應該有更多
  5. 只有出現一次的組合共有快13萬種
  6. 出現五支煙的個數,結果還不少唷
  7. 沒有出現WWWWW
  8. 總共有91個巨人


參考資料

_EOF_

沒有留言:

張貼留言