2016年3月2日 星期三

使用Google Ngram Viewer看字詞出現頻率

想要知道某個詞是不是很熱門,可以觀察這個詞在所有書本裡面出現的頻率。如果某個詞出現頻率高,代表當時是比較流行的概念; 如果出現頻率低,則代表是個冷門字眼。

Jean-Baptiste Michel和Erez Lieberman Aiden發想的Google Books Ngram Viewer提供了這個字詞頻率分析功能。操作Google Ngram首先要決定文本資料庫(corpus),決定搜尋時使用的語言。其次是大小寫問題,如果大小寫都想要搜尋則是要勾選case-insensitive。最後是要不要把Ngram曲線平滑化,預設是平滑度是3。


以下提供兩個測試,搜尋英文文本資料庫、不分大小寫、平滑度設定為0

比較formosa, taiwan, republic of china


上述圖片來自此連結。這邊要注意formosa這個詞代表了很多地點,所以上面的藍線也會包含了關於這些地方的描述,不單單只表示台灣。目前我不知道怎樣排除這方面的問題


比較formosan, taiwanese


上面圖片來自此連結,這兩個詞代表的意思應該差不多,只是流行的年代不同。可以看到約莫在1970年以後,taiwanese就比formosan這個詞要流行,在這之前則通常是用formosan。

使用Ngram結果做推論時應注意的事項

要使用Google Ngram出來的結果解釋某些現象,必須要注意這些詞是來自特定選擇的文本,所以搜尋的結果反映的是這些文本的喜好,並不一定能夠代表全體現象。另外,有些詞不是專用的詞,這時候就可能會有誤導的可能。詳細的Google Books Ngram Viewer請參考英文維基百科的敘述

沒有留言:

張貼留言