2017年1月17日 星期二

統計PDB中蛋白質鍊的長度

只要依序執行下面五個指令就能夠拿到所有protein chains的長度與敘述:
  • wget ftp://ftp.wwpdb.org/pub/pdb/derived_data/pdb_seqres.txt
  • grep "mol:protein" pdb_seqres.txt | sed -e's/  /!/' | cut -d'!' -f1 | sed -e's/^>//' | cut -d' ' -f1 > protein_seqres.id
  • grep "mol:protein" pdb_seqres.txt | sed -e's/  /!/' | cut -d'!' -f1 | sed -e's/^>//' | cut -d' ' -f3 | cut -d':' -f2 > protein_seqres.length
  • grep "mol:protein" pdb_seqres.txt | sed -e's/  /!/' | cut -d'!' -f2 > protein_seqres.des
  • paste -d'\t' protein_seqres.id protein_seqres.length protein_seqres.des > protein_seqres.csv
這些資訊存在protein_seqres.csv這個檔案裡面。用R可以簡單畫出下面的圖


不同顏色代表PDB code編號起始的字元,可以看到7, 8, 9開頭的個數很少,但是長度有偏長的趨向。
注意!這個統計是所有的chains,沒有拿掉重複出現的序列。一個簡單的估計方式來看PDB裡面總共有幾種蛋白質可以用下面的指令:
  • sort protein_seqres.des | uniq > protein_seqres.des.uniq
  • wc -l protein_seqres.des.uniq 
   46987 protein_seqres.des.uniq


_EOF_

沒有留言:

張貼留言