- wget ftp://ftp.wwpdb.org/pub/pdb/derived_data/pdb_seqres.txt
- grep "mol:protein" pdb_seqres.txt | sed -e's/ /!/' | cut -d'!' -f1 | sed -e's/^>//' | cut -d' ' -f1 > protein_seqres.id
- grep "mol:protein" pdb_seqres.txt | sed -e's/ /!/' | cut -d'!' -f1 | sed -e's/^>//' | cut -d' ' -f3 | cut -d':' -f2 > protein_seqres.length
- grep "mol:protein" pdb_seqres.txt | sed -e's/ /!/' | cut -d'!' -f2 > protein_seqres.des
- paste -d'\t' protein_seqres.id protein_seqres.length protein_seqres.des > protein_seqres.csv
不同顏色代表PDB code編號起始的字元,可以看到7, 8, 9開頭的個數很少,但是長度有偏長的趨向。
注意!這個統計是所有的chains,沒有拿掉重複出現的序列。一個簡單的估計方式來看PDB裡面總共有幾種蛋白質可以用下面的指令:
- sort protein_seqres.des | uniq > protein_seqres.des.uniq
- wc -l protein_seqres.des.uniq
_EOF_
沒有留言:
張貼留言