阿就操場啊~: Statistics統計

顯示具有 Statistics統計 標籤的文章。顯示所有文章

2021年6月18日星期五

計算投資回報的期望值

投入10萬，有99%會失敗；若那1%成功的會得到1億的回報，期望值是90萬。計算如下

100,000,000 * 1% - 100,000 = 900,000

靈敏度 ✕ 特異度 ✕ ROC曲線

在開發檢測方法的時候，通常都會有許多參數可以調整。例如說：

提高靈敏度Sensitivity：故意把預測陽性的數目增多
提高特異度Specificity：故意把預測陰性的數量增多

這時候需要一個方法來估算某檢測方法的好壞。其中一種方式就是畫出某種檢測方法的ROC curve（Receiver Operating Characteristic curve見維基百科上面的範例圖）：

y軸 = Sensitivity = TPR：故y值越大越好
x軸 = 1 - Specificity = 1 - FPR：x值越小越好

混淆矩陣之 Accuracy, MCC, F1 score

前面兩篇文章談及預測準不準確的測量如下：

《混淆矩陣之 Sensitivity vs. Specificity》：以實際有無數量為分母的好壞判斷
《混淆矩陣之 Precision vs. NPV》：以陰陽性數量為分母的好壞判斷

這兩種都是要用多個數字來看預測準不準，這邊要介紹的則是用一個數值來看。要注意的是，因為只有用一個數字，所以一些極端的狀況下反而會有誤導。這些數值包含了：

ACC：Accuracy、準確率。數值在0到1之間，越大越準

一般的檢測最愛拿這個當作標準，但如果實際有與實際無的數量差很多，使用ACC無法判斷檢測是不是好的。

MCC：Matthews correlation coefficient，數值會在-1到1之間

數值靠近0：代表跟隨機亂猜差不多
數值遠離0：正的代表預測的很準、負值代表是反指標

F1 score：又稱為F-score或F-measure

sensitivity與precision的調和平均數，在0到1之間越大越好

跟之前一樣，先把混淆矩陣confusion matrix寫出來：

混淆矩陣之 Sensitivity vs. Specificity

判斷一個預測的準確程度，會先把實際情形與預測結果的數量畫出一個矩陣，這個矩陣稱之為混淆矩陣（Confusion Matrix），畫出來就是下列的形式：

		真實情況
		有, +	無, -
預測結果	陽性 Positive, P	(真陽性, TP)	(偽陽性, FP)
預測結果	陰性 Negative, N	(偽陰性, FN)	(真陰性, TN)
		(y=TP+FN)	(n=FP+TN)

上述表格裡面使用(小括號)圈起來的代表是要填寫自然數，裡面縮寫分別代表：

R語言使用lapply或sapply做T-tests

一個資料表中，根據某個欄做完分群後，想要對這些分群的某個數值做T檢定、甚至是兩兩做T檢定。這個時候可使用lapply（或sapply，會將lapply輸出表格化、易於判讀）來快速達成。以下舉例lapply與sapply要怎麼使用

## 1. 將InsectSpray資料表根據spray欄位使用split做分割

> d <- InsectSprays
> s <- split(d, d$spray)

## 2. 對於每個不同的spray裡面會一串count值，看這些數值的最大值與最小值等特性：

> tapply(df$count, df$spray, summary)
> lapply(s, function(x) summary(x$count))
> sapply(s, function(x) summary(x$count))
            A        B        C         D    E        F
Min.     7.00  7.00000 0.000000  2.000000 1.00  9.00000
1st Qu. 11.50 12.50000 1.000000  3.750000 2.75 12.50000
Median  14.00 16.50000 1.500000  5.000000 3.00 15.00000
Mean    14.50 15.33333 2.083333  4.916667 3.50 16.66667
3rd Qu. 17.75 17.50000 3.000000  5.000000 5.00 22.50000
Max.    23.00 21.00000 7.000000 12.000000 6.00 26.00000

這邊可以注意tapply與lapply出來的結果會是相同的，但用sapply比較易讀～
lapply與sapply的運作方式：先從s讀取出每個元素，將此元素存到後面的變數x裡面，後面的function在對於變數x做各種操作

員工平均薪資增加，但全體薪水卻都減少

某公司喊出「老闆降薪，增加高薪員工數量、增加全體員工的平均薪資」
實際上也真的如口號宣稱，老闆降了33%的薪水，員工平均薪資也都增加了
但，真的對員工好嗎？

平均房價下跌，但買房價格全都提高

標題這句「平均房價下跌，但每一位買房的人付出的價格都提高了」
是個看似矛盾卻真實存在的狀況

Clustering分群、Classification分類

當手上有一堆資料，每筆資料當成一個點，那可以做：

Clustering Analysis（群聚分析）：將這些點依據親疏遠近分群。在分群之前並不一定會知道結果共會出現幾群，故用機器學習做分群屬於非監督式學習（unsupervised learning）
例：將一個班級的人特性比較像的分在同一群之內
Statistical Classification（分類問題）：將每個點分到已知的類別中。在分類之前已經知道有幾類，做分類只是建立已知類別的特性，故用機器學習做分類則屬於監督式學習（supervised learning）
例：已知活潑與文靜兩類，將一個班級的人合理的分到這兩類中

R做One-Way ANOVA

One-Way Analysis of Variance，簡稱One-Way ANOVA。使用在當解釋變數為類別型（categorical）的時候，判斷不同類別的平均數（mean）是不是一樣。對於每一個類別這個模式約可寫成：

y = u + e

而One-Way ANOVA就是在檢定下面的虛無假設是否成立：

u1 = u2 = ... = uk

下面用InsectSprays這個資料集來做One-Way ANOVA，也就是看使用不同殺蟲劑（類別型解釋變數），對於蟲子殘留數量的平均數是不是有影響：

在計算樣本變異數（variance）或是的時候標準差（standard deviation），公式的是除以n-1而不是n，這是因為這樣計算出來的數值比較準。除以n-1而不是n這件事情在統計上稱為Bessel's correction（貝索校正），此種校正方法可以讓樣本變異數（sample variance）比較準確地估計母體變異數（population variance）。詳細的解釋請參考：

《On an Absolute Criterion for Fitting Frequency Curves》
《統計學中算變異量為什麼要除以n-1？什麼是「自由度」？》
Wikipedia上的文章《Bessel's correction》
Wikipedia上的文章《Unbiased estimation of standard deviation》
Wikipedia上的文章《Jensen's inequality》

注意「除以n-1而不是n」這個校正，是當計算樣本變異數的目的在於估計母體變異數時才需要用貝索校正來讓估計比較準。

根據資料型態決定要使用的統計方法

根據變數型態與變數角色，用下表決定使用的統計方法

		應變數的資料型態
		數值型	類別型
自變數的資料型態	數值型	Regression GLM	Logistic GLM
自變數的資料型態	類別型	Regression ANOVA GLM	Logistic Chi² GLM

上表的統計方法簡稱分別為：

Regression：迴歸分析（Regression Analysis），常假設應變數為常態
ANOVA：變方分析（Analysis of Variance），常假設應變數為常態
Logistic：邏輯迴歸（Logistic Regression Analysis），應變數為binary
Chi²：卡方檢定（Chi-squared test），兩類別變數是否有關連
GLM：廣義線性分析（Generalized Linear Model）
Logistic Regression為其特例

簡單的判斷方式如下：

應變數為數值，可用regression analysis
若自變數是類別，則還可選用ANOVA
應變數為類別，可用logistic regression analysis
若自變數也為類別，還可用Chi-squared test
不管哪一種應變數自變數組合都可以用GLM

_EOF_

2018年3月13日星期二

統計裡的變數型態與變數角色

統計分析方法需要依據變數型態與變數角色來設計。變數型態分成：

數值型（Numerical variable, quantitative variable）：可以做+, -, *, ÷, log, exp等數值運算的數字，例如：

0.1, 0.3, 0.5, 0.7
2, 4, 6, 8, 10

類別型（Categorical variable）：如果是兩類特別稱為binary，但也可以是多類別，類別之間沒有決定排序的因子：

性別：男、女。此為binary variable
學校：台、清、交、成

Ordinal variable：特殊的類別型變數，有數值型的可以排序的性質，如：

很不喜歡、不喜歡、普通、有點喜歡、很喜歡
貧窮、小康、富有

變數角色則可以分：

自變數（independent variable）：或稱解釋變數（explanatory variable）
應變數（dependent variable）：或稱反應變數（response）、outcome variable、covariate等

_EOF_

2017年10月31日星期二

Charles Zaiontz介紹用Excel做統計分析

Charles Zaiontz的網站Real Statistics Using Excel標榜著提供所有用Excel做統計的東西（Everything you need to do real statistical analysis using Excel），網站主題有：

Home：簡單介紹要怎樣使用Excel做統計
Free Download：裡面一些範例與函式與Real Statistics Resource Pack免費下載
Basics：Excel環境，機率函數、敘述統計、假設檢定等Excel已經有的操作
Distributions：各種機率分佈
ANOVA：變異數分析
Miscellaneous：相關係數、可靠性、無母數分析、時間序列分析、存活率分析等
Regression：線性迴歸、log迴歸等等
Multivariate：多變數統計
Appendix：FAQs、相關的數學議題
Blogs：Real Statistics Resource Pack相關訊息
Tools：Excel與Real Statistics套件的函數說明與使用

_EOF_

2017年1月12日星期四

使用R語言做抽樣

在Ｒ裡面用sample這個函式可以做抽樣，假設母群體是A, ..., Z 這26個大寫的英文字母：

sample(LETTERS, 1)
sample(LETTERS, 5)
sample(LETTERS)

依序是隨機一個字母、隨機抽5個字母。最後是隨機抽樣，將26個字母都抽出來，因此抽出來的排序每次都不一樣（random permutation）。

Pokémon出現的機率

假設每平方公里會有4隻Pokémons，不同區域出現機率都是相互獨立的，那麼任選一平方公里的範圍內，出現某個數量的Pokémons其機率為何？

0隻：$ P\left ( 0, 4 \right )=\frac{e^{-4} 4^{0}}{0!} \approx 1.83\% $
1隻：$ P\left ( 1, 4 \right )=\frac{e^{-4} 4^{1}}{1!} \approx 7.33\% $
2隻：$ P\left ( 2, 4 \right )=\frac{e^{-4} 4^{2}}{2!} \approx 14.65\% $
3隻：$ P\left ( 3, 4 \right )=\frac{e^{-4} 4^{3}}{3!} \approx 19.54\% $
4隻：$ P\left ( 4, 4 \right )=\frac{e^{-4} 4^{4}}{4!} \approx 19.54\% $
5隻：$ P\left ( 0, 4 \right )=\frac{e^{-4} 4^{5}}{5!} \approx 15.63\% $
6隻：$ P\left ( 1, 4 \right )=\frac{e^{-4} 4^{6}}{6!} \approx 10.42\% $
7隻：$ P\left ( 2, 4 \right )=\frac{e^{-4} 4^{7}}{7!} \approx 5.95\% $
8隻：$ P\left ( 3, 4 \right )=\frac{e^{-4} 4^{8}}{8!} \approx 2.98\% $
9隻：$ P\left ( 4, 4 \right )=\frac{e^{-4} 4^{9}}{9!} \approx 1.32\% $
10隻：$ P\left ( 4, 4 \right )=\frac{e^{-4} 4^{10}}{10!} \approx 0.53\% $

換句話說，任選一平方公里能夠抓到鬼的機率會是 $1-P\left ( 0, 4 \right ) \approx 98.17\%$

泊松分佈（Poisson Distribution）

假設某研究員平均每三年可以發表5篇期刊論文，那麼此研究員三年發表不到5篇的可能性為何？首先，我們列出剛好發表0, 1, 2, 3, 4篇論文的可能性：

0篇：$ P\left ( 0, 5 \right )=\frac{e^{-5} 5^{0}}{0!} \approx 0.006737947 \approx 0.67\% $
1篇：$ P\left ( 1, 5 \right )=\frac{e^{-5} 5^{1}}{1!} \approx 0.03368973 \approx 3.37\% $
2篇：$ P\left ( 2, 5 \right )=\frac{e^{-5} 5^{2}}{2!} \approx 0.08422434 \approx 8.42\% $
3篇：$ P\left ( 3, 5 \right )=\frac{e^{-5} 5^{3}}{3!} \approx 0.1403739 \approx 14.04\% $
4篇：$ P\left ( 4, 5 \right )=\frac{e^{-5} 5^{4}}{4!} \approx 0.1754674 \approx 17.55\% $

也就是說即使有平均三年出5篇的實力，但實際上三年出不到5篇論文的可能性會是 (0.67+3.37+8.42+14.04+17.55) ≈ 44.05%，將近一半的機率達不到唷～

半淨相關（Semipartial correlation）

Semipartial correlation，中文翻譯成半淨相關，此分析是用來了解某個因子如何被另外兩個因子所影響。套用前面身高、體重與年齡的例子，淨相關處理的問題是

“當排除掉年齡大小的因素以後，身高與體重的相關性是多少？”
“當排除掉身高大小的因素以後，年齡與體重的相關性是多少？”

那麼半淨相關（Semipartial correlation）所想要解答的問題會是

“當同時考慮身高與年齡時，（排除掉年齡後）身高獨自對體重的影響有多少？”
“當同時考慮身高與年齡時，（排除掉身高後）年齡獨自對體重的影響有多少？”
“當同時考慮身高與年齡時，身高與年齡共同對體重的影響有多少？”

淨相關（Partial correlation）的例子

Partial correlation，中文翻譯成淨相關、偏相關或部分相關。做此分析是在找尋兩個因子之間有關係，是否是剛好兩者皆與另外一個因子相關，因而導致兩者有關係。以下舉個簡單的例子：

“身高與體重是否有關係？”

一般而言身高與體重應該會有關聯，高的應該會比較重、矮的應該會比較輕。這個時候，可以做關聯性分析，畫圖或是用相關係數來說明相關性有多強。

不過對於20歲以下的年輕人因為成長的關係，因此身高與體重皆另外與年齡有關。年紀小的比較矮、年紀大的比較高；年紀小的比較輕、年紀大的比較重。所以現在的例子變成：

“當排除掉年齡大小的因素以後，身高與體重是否有關係？”

淨相關分析是幫忙回答這個問題的一個方法。此分析會排除（或是說控制了）另外一個變數（在此例子中是年齡）之後，計算原本兩個因子（在此例中是身高與體重）的關聯性，因此才會稱之為“淨”相關。

訂閱：文章 (Atom)

2021年6月18日 星期五

2019年7月5日 星期五

2019年7月4日 星期四

2019年7月2日 星期二

2019年7月1日 星期一

2018年12月25日 星期二

## 1. 將InsectSpray資料表根據spray欄位使用split做分割

## 2. 對於每個不同的spray裡面會一串count值，看這些數值的最大值與最小值等特性：

2018年8月21日 星期二

2018年8月20日 星期一

2018年5月21日 星期一

2018年4月24日 星期二

2018年3月30日 星期五

2018年3月14日 星期三

2018年3月13日 星期二

2017年10月31日 星期二

2017年1月12日 星期四

2016年8月9日 星期二

2016年8月8日 星期一

2016年4月6日 星期三

2016年3月25日 星期五

2016年3月23日 星期三

2021年6月18日星期五

2019年7月5日星期五

2019年7月4日星期四

2019年7月2日星期二

2019年7月1日星期一

2018年12月25日星期二

2018年8月21日星期二

2018年8月20日星期一

2018年5月21日星期一

2018年4月24日星期二

2018年3月30日星期五

2018年3月14日星期三

2018年3月13日星期二

2017年10月31日星期二

2017年1月12日星期四

2016年8月9日星期二

2016年8月8日星期一

2016年4月6日星期三

2016年3月25日星期五

2016年3月23日星期三