2016年11月11日 星期五

統計蛋白質資料庫

蛋白質資料庫(Protein Data Bank,簡稱PDB)上面存放著以蛋白質為主的生物巨分子立體結構資料。首頁顯示 "An Information Portal to 124286 Biological Macromolecular Structures",更多的統計資料可參考《PDB Statistics》。這邊用幾個簡單的指令來分析PDB這個資料庫
  1. wget ftp://ftp.wwpdb.org/pub/pdb/derived_data/pdb_entry_type.txt
  2. TOTAL=`cat pdb_entry_type.txt | wc -l`; echo $TOTAL
  3. head -n 5 pdb_entry_type.txt 
  4. for TYPE in `cat pdb_entry_type.txt | cut -f 2 -d$'\t' | sort | uniq`; do printf "$TYPE "; NUM=`cat pdb_entry_type.txt | cut -f 2 -d$'\t' | grep $TYPE | wc -l`; printf "$NUM "; FRAC=`echo "scale=4; $NUM/$TOTAL" | bc -l`; echo $FRAC; done
  5. for METHOD in `cat pdb_entry_type.txt | cut -f 3 -d$'\t' | sort | uniq`; do printf "$METHOD "; NUM=`cat pdb_entry_type.txt | cut -f 3 -d$'\t' | grep $METHOD | wc -l`; printf "$NUM "; FRAC=`echo "scale=4; $NUM/$TOTAL" | bc -l`; echo $FRAC; done

以上的指令的意思分別是
  1. 抓所有PDB的列表,檔案大小約莫2.5M
  2. 計算總共有幾筆資料,目前是124286筆
    124286 pdb_entry_type.txt
  3. 看一下這個列表(pdb_entry_type.txt)的前面五行。第一欄位是PDB自己的編號,稱之為PDB id或是PDB code;第二欄代表這個巨分子類型;第三欄則是用來解出此巨分子立體結構的方法
    100d    nuc diffraction
    101d    nuc diffraction
    101m    prot    diffraction
    102d    nuc diffraction
    102l    prot    diffraction
  4. 列出所有的巨分子類型,總共有五種,以單純蛋白質最多(約佔97.6%)
    carb        18 .0001
    nuc       8886 .0714
    other        8 0
    prot    121265 .9756
    prot-nuc  5891 .0473
  5. 列出所有解結構的方法,主要三大類,已X-ray diffraction最多(佔約89.5%)
    EM             1234 .0099
    NMR           11668 .0938
    diffraction  111182 .8945
    other           202 .0016

_EOF_

沒有留言:

張貼留言