阿就操場啊~: 統計PDB中蛋白質鍊的長度

2017年1月17日星期二

只要依序執行下面五個指令就能夠拿到所有protein chains的長度與敘述：

wget ftp://ftp.wwpdb.org/pub/pdb/derived_data/pdb_seqres.txt
grep "mol:protein" pdb_seqres.txt | sed -e's/ /!/' | cut -d'!' -f1 | sed -e's/^>//' | cut -d' ' -f1 > protein_seqres.id
grep "mol:protein" pdb_seqres.txt | sed -e's/ /!/' | cut -d'!' -f1 | sed -e's/^>//' | cut -d' ' -f3 | cut -d':' -f2 > protein_seqres.length
grep "mol:protein" pdb_seqres.txt | sed -e's/ /!/' | cut -d'!' -f2 > protein_seqres.des
paste -d'\t' protein_seqres.id protein_seqres.length protein_seqres.des > protein_seqres.csv

這些資訊存在protein_seqres.csv這個檔案裡面。用Ｒ可以簡單畫出下面的圖

不同顏色代表PDB code編號起始的字元，可以看到7, 8, 9開頭的個數很少，但是長度有偏長的趨向。
注意！這個統計是所有的chains，沒有拿掉重複出現的序列。一個簡單的估計方式來看PDB裡面總共有幾種蛋白質可以用下面的指令：

46987 protein_seqres.des.uniq

_EOF_

阿就操場啊~