阿就操場啊~: 使用Google Ngram Viewer看字詞出現頻率

2016年3月2日星期三

使用Google Ngram Viewer看字詞出現頻率

想要知道某個詞是不是很熱門，可以觀察這個詞在所有書本裡面出現的頻率。如果某個詞出現頻率高，代表當時是比較流行的概念; 如果出現頻率低，則代表是個冷門字眼。

由Jean-Baptiste Michel和Erez Lieberman Aiden發想的Google Books Ngram Viewer提供了這個字詞頻率分析功能。操作Google Ngram首先要決定文本資料庫(corpus)，決定搜尋時使用的語言。其次是大小寫問題，如果大小寫都想要搜尋則是要勾選case-insensitive。最後是要不要把Ngram曲線平滑化，預設是平滑度是3。

以下提供兩個測試，搜尋英文文本資料庫、不分大小寫、平滑度設定為0

比較formosa, taiwan, republic of china

上述圖片來自此連結。這邊要注意formosa這個詞代表了很多地點，所以上面的藍線也會包含了關於這些地方的描述，不單單只表示台灣。目前我不知道怎樣排除這方面的問題

比較formosan, taiwanese

上面圖片來自此連結，這兩個詞代表的意思應該差不多，只是流行的年代不同。可以看到約莫在1970年以後，taiwanese就比formosan這個詞要流行，在這之前則通常是用formosan。

使用Ngram結果做推論時應注意的事項

要使用Google Ngram出來的結果解釋某些現象，必須要注意這些詞是來自特定選擇的文本，所以搜尋的結果反映的是這些文本的喜好，並不一定能夠代表全體現象。另外，有些詞不是專用的詞，這時候就可能會有誤導的可能。詳細的Google Books Ngram Viewer請參考英文維基百科的敘述。

阿就操場啊~

2016年3月2日星期三

使用Google Ngram Viewer看字詞出現頻率

比較formosa, taiwan, republic of china

比較formosan, taiwanese

使用Ngram結果做推論時應注意的事項

沒有留言:

張貼留言

2016年3月2日 星期三

使用Google Ngram Viewer看字詞出現頻率

比較formosa, taiwan, republic of china

比較formosan, taiwanese

使用Ngram結果做推論時應注意的事項

沒有留言:

張貼留言

2016年3月2日星期三