顯示具有 Statistics統計 標籤的文章。 顯示所有文章
顯示具有 Statistics統計 標籤的文章。 顯示所有文章

2021年6月18日 星期五

計算投資回報的期望值

投入10萬,有99%會失敗;若那1%成功的會得到1億的回報,期望值是90萬。計算如下

  • 100,000,000 * 1% - 100,000 = 900,000 

2019年7月5日 星期五

靈敏度 ✕ 特異度 ✕ ROC曲線

在開發檢測方法的時候,通常都會有許多參數可以調整。例如說:
  • 提高靈敏度Sensitivity:故意把預測陽性的數目增多
  • 提高特異度Specificity:故意把預測陰性的數量增多

這時候需要一個方法來估算某檢測方法的好壞。其中一種方式就是畫出某種檢測方法的ROC curve(Receiver Operating Characteristic curve見維基百科上面的範例圖):
  • y軸 = Sensitivity = TPR:故y值越大越好
  • x軸 = 1 - Specificity = 1 - FPR:x值越小越好

2019年7月4日 星期四

混淆矩陣之 Accuracy, MCC, F1 score

前面兩篇文章談及預測準不準確的測量如下:
這兩種都是要用多個數字來看預測準不準,這邊要介紹的則是用一個數值來看。要注意的是,因為只有用一個數字,所以一些極端的狀況下反而會有誤導。這些數值包含了:
  • ACCAccuracy準確率。數值在0到1之間,越大越準
    • 一般的檢測最愛拿這個當作標準,但如果實際有與實際無的數量差很多,使用ACC無法判斷檢測是不是好的。
  • MCCMatthews correlation coefficient,數值會在-1到1之間
    • 數值靠近0:代表跟隨機亂猜差不多
    • 數值遠離0:正的代表預測的很準、負值代表是反指標
  • F1 score:又稱為F-score或F-measure

跟之前一樣,先把混淆矩陣confusion matrix寫出來:

2019年7月2日 星期二

混淆矩陣之 Precision vs. NPV

上一篇談及《Sensitivity vs. Specificity》,主要是以實際有無為的數量當作分母來判斷檢測好不好。這篇談及的則是檢測出陰陽當作分母來判斷好壞。下面則是所使用到的混淆矩陣(Confusion Matrix):

真實情況
有, +無, -



陽性 Positive, P(真陽性, TP)(偽陽性, FP)(P=TP+FP)
陰性 Negative, N(偽陰性, FN)(真陰性, TN)(N=FN+TN)

上述表格裡面使用(小括號)圈起來的代表是要填寫自然數,裡面縮寫分別代表:

2019年7月1日 星期一

混淆矩陣之 Sensitivity vs. Specificity

判斷一個預測的準確程度,會先把實際情形與預測結果的數量畫出一個矩陣,這個矩陣稱之為混淆矩陣(Confusion Matrix),畫出來就是下列的形式:

真實情況
有, +無, -



陽性 Positive, P(真陽性, TP)(偽陽性, FP)
陰性 Negative, N(偽陰性, FN)(真陰性, TN)
(y=TP+FN)(n=FP+TN)

上述表格裡面使用(小括號)圈起來的代表是要填寫自然數,裡面縮寫分別代表:

2018年12月25日 星期二

R語言使用lapply或sapply做T-tests

一個資料表中,根據某個欄做完分群後,想要對這些分群的某個數值做T檢定、甚至是兩兩做T檢定。這個時候可使用lapply(或sapply,會將lapply輸出表格化、易於判讀)來快速達成。以下舉例lapply與sapply要怎麼使用


## 1. 將InsectSpray資料表根據spray欄位使用split做分割

> d <- InsectSprays
> s <- split(d, d$spray)

## 2. 對於每個不同的spray裡面會一串count值,看這些數值的最大值與最小值等特性:

> tapply(df$count, df$spray, summary)
> lapply(s, function(x) summary(x$count))
> sapply(s, function(x) summary(x$count))
            A        B        C         D    E        F
Min.     7.00  7.00000 0.000000  2.000000 1.00  9.00000
1st Qu. 11.50 12.50000 1.000000  3.750000 2.75 12.50000
Median  14.00 16.50000 1.500000  5.000000 3.00 15.00000
Mean    14.50 15.33333 2.083333  4.916667 3.50 16.66667
3rd Qu. 17.75 17.50000 3.000000  5.000000 5.00 22.50000
Max.    23.00 21.00000 7.000000 12.000000 6.00 26.00000
這邊可以注意tapply與lapply出來的結果會是相同的,但用sapply比較易讀~
lapply與sapply的運作方式:先從s讀取出每個元素,將此元素存到後面的變數x裡面,後面的function在對於變數x做各種操作

2018年8月21日 星期二

員工平均薪資增加,但全體薪水卻都減少

某公司喊出「老闆降薪,增加高薪員工數量、增加全體員工的平均薪資」
實際上也真的如口號宣稱,老闆降了33%的薪水,員工平均薪資也都增加了
但,真的對員工好嗎?

2018年8月20日 星期一

平均房價下跌,但買房價格全都提高

標題這句「平均房價下跌,但每一位買房的人付出的價格都提高了」
是個看似矛盾卻真實存在的狀況

2018年5月21日 星期一

Clustering分群、Classification分類

當手上有一堆資料,每筆資料當成一個點,那可以做:
  • Clustering Analysis(群聚分析):將這些點依據親疏遠近分群。在分群之前並不一定會知道結果共會出現幾群,故用機器學習做分群屬於非監督式學習(unsupervised learning)
    例:將一個班級的人特性比較像的分在同一群之內
  • Statistical Classification(分類問題):將每個點分到已知的類別中。在分類之前已經知道有幾類,做分類只是建立已知類別的特性,故用機器學習做分類則屬於監督式學習(supervised learning)
    例:已知活潑與文靜兩類,將一個班級的人合理的分到這兩類中

2018年4月24日 星期二

R做One-Way ANOVA

One-Way Analysis of Variance,簡稱One-Way ANOVA。使用在當解釋變數為類別型(categorical)的時候,判斷不同類別的平均數(mean)是不是一樣對於每一個類別這個模式約可寫成:
  • y = u + e
而One-Way ANOVA就是在檢定下面的虛無假設是否成立:
  • u1 = u2 = ... = uk

下面用InsectSprays這個資料集來做One-Way ANOVA,也就是看使用不同殺蟲劑(類別型解釋變數),對於蟲子殘留數量的平均數是不是有影響:

2018年3月30日 星期五

計算變異數為何除以n-1而不是n

在計算樣本變異數(variance)或是的時候標準差(standard deviation),公式的是除以n-1而不是n,這是因為這樣計算出來的數值比較準。除以n-1而不是n這件事情在統計上稱為Bessel's correction(貝索校正),此種校正方法可以讓樣本變異數(sample variance)比較準確地估計母體變異數(population variance)。詳細的解釋請參考:
注意「除以n-1而不是n」這個校正,是當計算樣本變異數的目的在於估計母體變異數時才需要用貝索校正來讓估計比較準。

2018年3月14日 星期三

根據資料型態決定要使用的統計方法

根據變數型態與變數角色,用下表決定使用的統計方法


應變數的資料型態
數值型類別型
自變數的
資料型態
數值型Regression
GLM
Logistic
GLM
類別型Regression
ANOVA
GLM
Logistic
Chi2
GLM

上表的統計方法簡稱分別為:


簡單的判斷方式如下:
  • 應變數為數值,可用regression analysis
    若自變數是類別,則還可選用ANOVA
  • 應變數為類別,可用logistic regression analysis
    若自變數也為類別,還可用Chi-squared test
  • 不管哪一種應變數自變數組合都可以用GLM
_EOF_

2018年3月13日 星期二

統計裡的變數型態與變數角色

統計分析方法需要依據變數型態與變數角色來設計。變數型態分成:
  • 數值型(Numerical variable, quantitative variable):可以做+, -, *, ÷, log, exp等數值運算的數字,例如:
    • 0.1, 0.3, 0.5, 0.7
    • 2, 4, 6, 8, 10
  • 類別型(Categorical variable):如果是兩類特別稱為binary,但也可以是多類別,類別之間沒有決定排序的因子:
    • 性別:男、女。此為binary variable
    • 學校:台、清、交、成
  • Ordinal variable:特殊的類別型變數,有數值型的可以排序的性質,如:
    • 很不喜歡、不喜歡、普通、有點喜歡、很喜歡
    • 貧窮、小康、富有
變數角色則可以分:
  • 自變數(independent variable):或稱解釋變數(explanatory variable)
  • 應變數(dependent variable):或稱反應變數(response)、outcome variable、covariate等
_EOF_

2017年10月31日 星期二

Charles Zaiontz介紹用Excel做統計分析

Charles Zaiontz的網站Real Statistics Using Excel標榜著提供所有用Excel做統計的東西(Everything you need to do real statistical analysis using Excel),網站主題有:
_EOF_

2017年1月12日 星期四

使用R語言做抽樣

在R裡面用sample這個函式可以做抽樣,假設母群體是A, ..., Z 這26個大寫的英文字母:
  • sample(LETTERS, 1)
  • sample(LETTERS, 5)
  • sample(LETTERS)
依序是隨機一個字母、隨機抽5個字母。最後是隨機抽樣,將26個字母都抽出來,因此抽出來的排序每次都不一樣(random permutation)。

2016年8月9日 星期二

Pokémon出現的機率

假設每平方公里會有4隻Pokémons,不同區域出現機率都是相互獨立的,那麼任選一平方公里的範圍內,出現某個數量的Pokémons其機率為何?
  • 0隻:$ P\left ( 0, 4  \right )=\frac{e^{-4} 4^{0}}{0!}  \approx 1.83\% $
  • 1隻:$ P\left ( 1, 4 \right )=\frac{e^{-4} 4^{1}}{1!}  \approx 7.33\% $
  • 2隻:$ P\left ( 2, 4  \right )=\frac{e^{-4} 4^{2}}{2!}  \approx 14.65\% $
  • 3隻:$ P\left ( 3, 4  \right )=\frac{e^{-4} 4^{3}}{3!}  \approx 19.54\% $
  • 4隻:$ P\left ( 4, 4  \right )=\frac{e^{-4} 4^{4}}{4!}  \approx 19.54\% $
  • 5隻:$ P\left ( 0, 4  \right )=\frac{e^{-4} 4^{5}}{5!}  \approx 15.63\% $
  • 6隻:$ P\left ( 1, 4 \right )=\frac{e^{-4} 4^{6}}{6!}  \approx 10.42\% $
  • 7隻:$ P\left ( 2, 4  \right )=\frac{e^{-4} 4^{7}}{7!}  \approx 5.95\% $
  • 8隻:$ P\left ( 3, 4  \right )=\frac{e^{-4} 4^{8}}{8!}  \approx 2.98\% $
  • 9隻:$ P\left ( 4, 4  \right )=\frac{e^{-4} 4^{9}}{9!}  \approx 1.32\% $
  • 10隻:$ P\left ( 4, 4  \right )=\frac{e^{-4} 4^{10}}{10!}  \approx 0.53\% $
換句話說,任選一平方公里能夠抓到鬼的機率會是 $1-P\left ( 0, 4  \right ) \approx 98.17\%$

2016年8月8日 星期一

泊松分佈(Poisson Distribution)

假設某研究員平均每三年可以發表5篇期刊論文,那麼此研究員三年發表不到5篇的可能性為何?首先,我們列出剛好發表0, 1, 2, 3, 4篇論文的可能性:
  • 0篇:$ P\left ( 0, 5  \right )=\frac{e^{-5} 5^{0}}{0!} \approx  0.006737947 \approx 0.67\% $
  • 1篇:$ P\left ( 1, 5  \right )=\frac{e^{-5} 5^{1}}{1!} \approx  0.03368973 \approx 3.37\% $
  • 2篇:$ P\left ( 2, 5  \right )=\frac{e^{-5} 5^{2}}{2!} \approx  0.08422434 \approx 8.42\% $
  • 3篇:$ P\left ( 3, 5  \right )=\frac{e^{-5} 5^{3}}{3!} \approx 0.1403739 \approx 14.04\% $
  • 4篇:$ P\left ( 4, 5  \right )=\frac{e^{-5} 5^{4}}{4!} \approx 0.1754674 \approx 17.55\% $
也就是說即使有平均三年出5篇的實力,但實際上三年出不到5篇論文的可能性會是 (0.67+3.37+8.42+14.04+17.55) ≈ 44.05%,將近一半的機率達不到唷~

2016年4月6日 星期三

相關係數

相關係數(Correlation Coefficient, C.C.)是用來看兩個變項之間關聯性的量化數值。使用不同的方法計算通常會用不同的符號表示。像是Pearson的相關係數會叫做r、Spearman的相關係數會叫做ρ、Kendall的相關係數會叫做τ、Goddman and Kruskal的相關係數會叫做r、Pearson的相關係數會叫做γ。以下介紹相關係數的特性,內容參考GraphPad上的文章

不論是哪一個方法,算出來的相關係數會在-1到1之間
  • 1,完全正相關 (Perfect correlation)
  • 0到1,正相關
  • 0,無相關
  • -1到0,負相關
  • -1,完全負相關 (Perfect negative or inverse correlation)


2016年3月25日 星期五

半淨相關(Semipartial correlation)

Semipartial correlation中文翻譯半淨相關,此分析是用來了解某個因子如何被另外兩個因子所影響。套用前面身高、體重與年齡的例子,淨相關處理的問題是

“當排除掉年齡大小的因素以後,身高與體重的相關性是多少?” 
“當排除掉身高大小的因素以後,年齡與體重的相關性是多少?”

那麼半淨相關(Semipartial correlation)所想要解答的問題會是

當同時考慮身高與年齡時,(排除掉年齡後)身高獨自對體重的影響有多少?”
當同時考慮身高與年齡時(排除掉身高後年齡獨自對體重的影響有多少?”
當同時考慮身高與年齡時身高年齡共同對體重的影響有多少?”

2016年3月23日 星期三

淨相關(Partial correlation)的例子

Partial correlation中文翻譯成淨相關、偏相關或部分相關。做此分析是在找尋兩個因子之間有關係,是否是剛好兩者皆與另外一個因子相關,因而導致兩者有關係。以下舉個簡單的例子:

“身高與體重是否有關係?”

一般而言身高與體重應該會有關聯,高的應該會比較重、矮的應該會比較輕。這個時候,可以做關聯性分析,畫圖或是用相關係數來說明相關性有多強。

不過對於20歲以下的年輕人因為成長的關係,因此身高與體重皆另外與年齡有關。年紀小的比較矮、年紀大的比較高;年紀小的比較輕、年紀大的比較重。所以現在的例子變成:

當排除掉年齡大小的因素以後,身高與體重是否有關係?”

淨相關分析是幫忙回答這個問題的一個方法。此分析會排除(或是說控制了)另外一個變數(在此例子中是年齡)之後,計算原本兩個因子(在此例中是身高與體重)的關聯性,因此才會稱之為“淨”相關。