[統計小角落] 中央極限定理(Central Limit Theorem)

May 16, 2021

--

以下將會說明及實作中央極限定理，若對數學證明有興趣，歡迎參考這篇文章裡的第[3]個連結(Central Limit Theorem)

https://rayhsu005.medium.com/%E6%95%B8%E5%AD%B8%E6%8E%A8%E5%B0%8E-c4a1157d675f

好的，馬上進入正題，什麼是中央極限定理呢？這個說明是這樣的 — —

用文字說明便是，從任一個分佈抽取n個樣本計算其平均之後，在經過上述的調整，這個隨機變數的分佈會趨近N(0,1)。這個定理奇妙的地方就在於，只要母體的平均數跟變異數存在，則不管他是什麼分佈，當樣本數抽得足夠多時，這個隨機變數便可以趨近於常態分佈。當然，如果母體本身就是常態分佈，那不管n是多少，x̅都會是常態分佈。如果母體是離散型或者偏度很大，那n便要很大才會趨近於常態。

以下用R來實作中央極限定理

上面這張圖是隨機抽取Exponential Distribution，每一個x̅裡面有n個樣本點，而為了看出x̅的分佈，所以總共抽取1000個x̅。第一排的圖是x̅的histogram，而第二排是q-q plot，可以發現x̅的分佈非常近似於常態分佈。

而這張圖則是隨機抽取Bernoulli(0.1)，Bernoulli(0.1)是一個離散分佈而且偏度很大，所以可以看到在n = 50的時候x̅還很不像常態分佈。但是當n = 500的時候，x̅的分佈也近似於常態了。

應用

那中央極限定理可以用在哪裡呢？以下舉個例子來說明

假設某個國家的人的身高分佈未知，但是從歷史資料得知其平均為173，標準差為14，隨機抽取100個人，那這100個人身高的平均值小於170的機率是多少？

這邊就可以使用中央極限定理，一般來說當樣本數大於30，x̅就會趨近於常態分佈，所以依此便可以計算出z-score

再經由查表或是電腦計算便可得出p-value為0.016，代表說這100個人的平均身高小於170的機率為0.016

本篇所用到的程式碼在這裡，歡迎參考～

wavelolz/CLT

Contribute to wavelolz/CLT development by creating an account on GitHub.

github.com

謝謝你的閱讀，如果你覺得這篇文章有幫助到你的話，可以幫我拍個手喔～～

Central Limit Theorem

Hung Jui, Hsu

Written by Hung Jui, Hsu

Department of Statistics, National Taipei University | 這是一個屬於統計和程式的小角落 | 羽球x拉麵極度愛好者 | A place to write down what I’ve learn in statistics, programming and life

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams