[統計小角落] 中央極限定理(Central Limit Theorem)

Hung Jui, Hsu
May 16, 2021

--

以下將會說明及實作中央極限定理,若對數學證明有興趣,歡迎參考這篇文章裡的第[3]個連結(Central Limit Theorem)

https://rayhsu005.medium.com/%E6%95%B8%E5%AD%B8%E6%8E%A8%E5%B0%8E-c4a1157d675f

好的,馬上進入正題,什麼是中央極限定理呢?這個說明是這樣的 — —

用文字說明便是,從任一個分佈抽取n個樣本計算其平均之後,在經過上述的調整,這個隨機變數的分佈會趨近N(0,1)。這個定理奇妙的地方就在於,只要母體的平均數跟變異數存在,則不管他是什麼分佈,當樣本數抽得足夠多時,這個隨機變數便可以趨近於常態分佈。當然,如果母體本身就是常態分佈,那不管n是多少,x̅都會是常態分佈。如果母體是離散型或者偏度很大,那n便要很大才會趨近於常態。

以下用R來實作中央極限定理

上面這張圖是隨機抽取Exponential Distribution,每一個x̅裡面有n個樣本點,而為了看出x̅的分佈,所以總共抽取1000個x̅。第一排的圖是x̅的histogram,而第二排是q-q plot,可以發現x̅的分佈非常近似於常態分佈。

而這張圖則是隨機抽取Bernoulli(0.1),Bernoulli(0.1)是一個離散分佈而且偏度很大,所以可以看到在n = 50的時候x̅還很不像常態分佈。但是當n = 500的時候,x̅的分佈也近似於常態了。

應用

那中央極限定理可以用在哪裡呢?以下舉個例子來說明

假設某個國家的人的身高分佈未知,但是從歷史資料得知其平均為173,標準差為14,隨機抽取100個人,那這100個人身高的平均值小於170的機率是多少?

這邊就可以使用中央極限定理,一般來說當樣本數大於30,x̅就會趨近於常態分佈,所以依此便可以計算出z-score

再經由查表或是電腦計算便可得出p-value為0.016,代表說這100個人的平均身高小於170的機率為0.016

本篇所用到的程式碼在這裡,歡迎參考~

謝謝你的閱讀,如果你覺得這篇文章有幫助到你的話,可以幫我拍個手喔~~

--

--

Hung Jui, Hsu

Department of Statistics, National Taipei University | 這是一個屬於統計和程式的小角落 | 羽球x拉麵 極度愛好者 | A place to write down what I’ve learn in statistics, programming and life