[統計小角落] 中央極限定理(Central Limit Theorem)
以下將會說明及實作中央極限定理,若對數學證明有興趣,歡迎參考這篇文章裡的第[3]個連結(Central Limit Theorem)
https://rayhsu005.medium.com/%E6%95%B8%E5%AD%B8%E6%8E%A8%E5%B0%8E-c4a1157d675f
好的,馬上進入正題,什麼是中央極限定理呢?這個說明是這樣的 — —
用文字說明便是,從任一個分佈抽取n個樣本計算其平均之後,在經過上述的調整,這個隨機變數的分佈會趨近N(0,1)。這個定理奇妙的地方就在於,只要母體的平均數跟變異數存在,則不管他是什麼分佈,當樣本數抽得足夠多時,這個隨機變數便可以趨近於常態分佈。當然,如果母體本身就是常態分佈,那不管n是多少,x̅都會是常態分佈。如果母體是離散型或者偏度很大,那n便要很大才會趨近於常態。
以下用R來實作中央極限定理
上面這張圖是隨機抽取Exponential Distribution,每一個x̅裡面有n個樣本點,而為了看出x̅的分佈,所以總共抽取1000個x̅。第一排的圖是x̅的histogram,而第二排是q-q plot,可以發現x̅的分佈非常近似於常態分佈。
而這張圖則是隨機抽取Bernoulli(0.1),Bernoulli(0.1)是一個離散分佈而且偏度很大,所以可以看到在n = 50的時候x̅還很不像常態分佈。但是當n = 500的時候,x̅的分佈也近似於常態了。
應用
那中央極限定理可以用在哪裡呢?以下舉個例子來說明
假設某個國家的人的身高分佈未知,但是從歷史資料得知其平均為173,標準差為14,隨機抽取100個人,那這100個人身高的平均值小於170的機率是多少?
這邊就可以使用中央極限定理,一般來說當樣本數大於30,x̅就會趨近於常態分佈,所以依此便可以計算出z-score
再經由查表或是電腦計算便可得出p-value為0.016,代表說這100個人的平均身高小於170的機率為0.016
本篇所用到的程式碼在這裡,歡迎參考~