- wget ftp://ftp.wwpdb.org/pub/pdb/derived_data/pdb_entry_type.txt
- TOTAL=`cat pdb_entry_type.txt | wc -l`; echo $TOTAL
- head -n 5 pdb_entry_type.txt
- for TYPE in `cat pdb_entry_type.txt | cut -f 2 -d$'\t' | sort | uniq`; do printf "$TYPE "; NUM=`cat pdb_entry_type.txt | cut -f 2 -d$'\t' | grep $TYPE | wc -l`; printf "$NUM "; FRAC=`echo "scale=4; $NUM/$TOTAL" | bc -l`; echo $FRAC; done
- for METHOD in `cat pdb_entry_type.txt | cut -f 3 -d$'\t' | sort | uniq`; do printf "$METHOD "; NUM=`cat pdb_entry_type.txt | cut -f 3 -d$'\t' | grep $METHOD | wc -l`; printf "$NUM "; FRAC=`echo "scale=4; $NUM/$TOTAL" | bc -l`; echo $FRAC; done
以上的指令的意思分別是
- 抓所有PDB的列表,檔案大小約莫2.5M
- 計算總共有幾筆資料,目前是124286筆
124286 pdb_entry_type.txt - 看一下這個列表(pdb_entry_type.txt)的前面五行。第一欄位是PDB自己的編號,稱之為PDB id或是PDB code;第二欄代表這個巨分子類型;第三欄則是用來解出此巨分子立體結構的方法
100d nuc diffraction
101d nuc diffraction
101m prot diffraction
102d nuc diffraction
102l prot diffraction - 列出所有的巨分子類型,總共有五種,以單純蛋白質最多(約佔97.6%)
carb 18 .0001
nuc 8886 .0714
other 8 0
prot 121265 .9756
prot-nuc 5891 .0473 - 列出所有解結構的方法,主要三大類,已X-ray diffraction最多(佔約89.5%)
EM 1234 .0099
NMR 11668 .0938
diffraction 111182 .8945
other 202 .0016
_EOF_
沒有留言:
張貼留言