由Jean-Baptiste Michel和Erez Lieberman Aiden發想的Google Books Ngram Viewer提供了這個字詞頻率分析功能。操作Google Ngram首先要決定文本資料庫(corpus),決定搜尋時使用的語言。其次是大小寫問題,如果大小寫都想要搜尋則是要勾選case-insensitive。最後是要不要把Ngram曲線平滑化,預設是平滑度是3。
以下提供兩個測試,搜尋英文文本資料庫、不分大小寫、平滑度設定為0
比較formosa, taiwan, republic of china

上述圖片來自此連結。這邊要注意formosa這個詞代表了很多地點,所以上面的藍線也會包含了關於這些地方的描述,不單單只表示台灣。目前我不知道怎樣排除這方面的問題
比較formosan, taiwanese

上面圖片來自此連結,這兩個詞代表的意思應該差不多,只是流行的年代不同。可以看到約莫在1970年以後,taiwanese就比formosan這個詞要流行,在這之前則通常是用formosan。
沒有留言:
張貼留言