首頁 »
2010/03/07

抽樣

抽樣是統計學中很重要的技術,其中最重要的兩個問題是,選多少個樣本?怎麼選?


一個人到底有幾個朋友?按照不同的方法猜估的結果,一個人大概有兩、三百個到兩、三千個。從這麼一個簡單的觀念開始,它後頭倒有許多有趣和相當深奧的重要的數學問題。

首先,假設我們已選定了某一個猜估的方法去決定一個人有多少個朋友,不同的人,有不同數目的朋友,那麼平均一個人有幾個朋友呢?諸位都知道平均值是蠻簡單的,只要把全世界60億人口裡的每一個人有多少個朋友算出來,把結果加起來被60億除,那就是平均值了。但是,當我們沒有辦法決定60億人口裡每一個人的朋友數目的時候,我們會自然的說,找100個人,把他們的朋友的數目的平均值找出來,就算是60億人口的平均值了,這就是統計學上「抽樣」(sampling)這個觀念,換句話說,我們用這100或者1000個人作為代表,希望按照他們算出來的結果跟真正的結果會相差不遠。「抽樣」這個觀念應用得非常廣泛,譬如說在選舉的時候,民意調查就是在幾百萬的選民中,找幾千個人作為抽樣,以他們的意見代表全體選民的意見。另外一個例子,是為決定一個產品製造良率,我們在一百萬個產品裡,選出一千個抽樣,如果發現其中有兩個是不良的,那麼我們會說這一百萬個產品的不良率是千分之二。抽樣是統計學中很重要的技術,其中最重要的兩個問題是,選多少個抽樣?怎樣選這些抽樣?

讓我很簡單的討論一下第一個問題,那就是「要選多少抽樣?」,就像我前面說,如果我們要決定60億人裡一個人平均的朋友的數目,準確的答案是把60億人,每個人的朋友的數目決定後,來算平均值;如果我們要決定一百萬個產品是好的,多少個是壞的,當這樣做是太麻煩甚至不可能的時候,如果我們在60億人口中,抽30億人,那麼算出來的結果,不一定完全準確,但應該相當接近;如果只抽1億人的話,結果很可能跟準確的答案會有若干的誤差了;如果只抽一千個人的話,結果很可能跟準確的答案有比較大的誤差。因此,很明顯的,抽樣的大小跟結果的誤差有密切的關係,在統計學上,誤差界限(margin of error)這個觀念,是說抽樣應該有多大,算出來的結果跟準確的結果比較不會超過某一個百分比,這個百分比就叫做誤差界限,有些統計學的公式,套進去就會告訴你抽樣的大小,最低限度應該是什麼。

假設我們已經估計出來,如果抽樣的大小是2000個產品,誤差界限是3%,那並不表示,每次你抽2000個產品,你得出來的結果的誤差一定是在3%之內,也許很多次不同的抽樣,得出來的結果誤差是在3%之內,偶然有幾次的抽樣,得出來的結果是在誤差界限之外。所以,我們得加上另外一個觀念叫做「信賴水準」(level of confidence),那就是說我們在很多次的抽樣檢驗過程中,我們希望每一百次的抽樣檢驗過程,有九十次得出來的結果,它的誤差界限是在預定的範圍之內的,那麼百分之九十就是我們的信賴水準。總之,當我們作抽樣測試時,如果我們希望誤差界限小,信賴水準高,那麼抽樣越多,結果就會越準確。

至於第二個問題「應該怎樣抽樣?」,我就不在這裡談了。統計學是一門有趣、有用的科學,大家可以找些書看看,多了解一點。科學家相信統計學,那麼文學家呢?有人相信,也有人不信,大家都聽過瞎子摸象的故事,有幾個瞎子,從不知道象是怎麼樣一個動物,有一天,他們一起去摸一隻象,摸到鼻子的,說象是一根管子,摸到耳朵的,說象是一把扇子,摸到腳的,說象是一根柱子,摸到尾巴的,說象是一條繩子,摸到身體的,說象是一道牆,摸到象牙的,說象是一根大蘿蔔,所以,抽樣是不可靠的。成語裡也有「以管窺天」、「以蠡測海」,都是眼光狹窄,力量有限,無法看到全貌,也是不相信抽樣的例子。

Willam Blake有一首很有名的小詩,前面兩句是:
To see a world in a grain of sand,
And a heaven in a wild flower.
「從一粒沙裡看世界,從一朵野花看見天堂。」那也不正是「抽樣」嗎?
有一位作家,寄了一本書的初稿給出版社的總編輯,過了一天書稿就被退回了,總編輯說不適合出版,這位作家很生氣寫了一封信給總編輯:你沒有看完我的書稿,憑什麼決定這本書不適合出版呢?我把稿子寄給你的時候,刻意把第100頁和第101頁黏起來,我打開被你退回的書稿,第100頁和第101頁還是沒被打開,可見你根本沒有看完我的書稿。總編輯回了一封信說:當我吃一個雞蛋的時候,如果第一口咬下去就發現這是一個發霉的臭蛋,難道我還要咬下去嗎?這也是抽樣。成語裡也有:「以管窺豹,可見一斑」這句話,就是說通過一個管子來看一隻豹,起碼可以看到他身上的一個斑紋,今天「可見一斑」這句成語,是說抽樣這個觀念和技術的,還是有用的。

我曾經在這個節目上講過一個故事:有一位工程師、一位物理學家、一位數學家一起在蘇格蘭坐火車,當他們看到火車窗外,站著一隻黑色的羊的時候,工程師說:「全蘇格蘭的羊都是黑色的。」物理學家說:「你不能下這個結論,你只能說『在蘇格蘭有一隻羊是黑色的』。」數學家說:「你不能下這個結論,你只能說『在蘇格蘭有一隻羊,他的左半邊是黑色的』。」這也是抽樣的問題。
「朋友」這個題目,有一個很明顯而自然的延伸,「某某公司的大老闆是您的朋友嗎?」「不是,但他是我一位好朋友的朋友。」「朋友的朋友」這個關係,推而廣之「朋友的朋友的朋友」「朋友的朋友的朋友的朋友」一直下去,那就包括很多很多人在內了。首先,讓我用「距離」這個觀念把「朋友的朋友」這個關係數字化,
假如一個人是你的朋友,你和他之間的距離是1;
假如一個人是你的朋友的朋友,你和他之間的距離是2;
假如一個人是你的朋友的朋友的朋友,你和他之間的關係是3,
等等。在社會科學的研究裡,有一個流傳很廣的說法:世界上任何兩個人之間的距離大概是六,這個說法是怎樣來的呢?在1967年,美國哈佛大學一位社會科學家,做了一個實驗,他在美國中西部的一個小城找了60個人,他給每個人一封信,信上面寫著收信人的名字,那是在波士頓一個神學院裡一個學生的太太,這60個人每個人的任務,是在他自己的朋友裡選一位他認為最可能幫忙的人,把信交給他,讓他同樣找一個朋友,透過一連串朋友,把這封信送到這位太太手上。果然,四天之後,這封信就送到這位太太的手上了,而且這封信傳遞的紀錄也驗證了,送信的人和收信的人之間的距離大概是6。這也就是社會科學家叫做「六度分離」(6 degree of separation)這個觀念。

我相信很多人聽到這個說法立刻的反應是只有6那麼小嗎?首先,讓我作一個很粗糙的估算,說明在數字上這個推論不是不可能的。我曾講過每個人大約有兩三百個到兩、三千個朋友,讓我作最保守的估計,每個人有一百個朋友,這一百個朋友,每人又有一百個朋友,這樣反覆計算,在跟等於或者小於6之內,一共包括了一兆人,遠遠超過全世界的人口總數,那是60億而已。當然,在這一兆人這個數目裡,有很多重複的人。讓我舉一個虛擬而又具體的例子,在新竹城隍廟夜市賣雞排的一位阿嬤,她認得一位在園區上班、常常跟她買雞排的工程師,這位工程師大學時代的一位室友,曾經在非洲當過義工,在那裡他認得一位從法國來的女孩子,這個法國女孩子在巴黎有一位從加拿大來的男朋友,這個加拿大人的姐姐在美國舊金山工作,她公司的大老闆是一位來自黎巴嫩來的移民,所以,從賣炸雞排的阿嬤到從黎巴嫩來的大老闆,中間的距離也只是6而已。這個實驗引起了許多社會科學家的注意,也因而推動了探討「世界是小」的這個現象。不過,若干年之後,從這位社會科學家的檔案裡,有人發現他的論文有點報喜不報憂的缺點,他沒有把原來開始的60封信的來龍去脈完全整理出來,沒有交代清楚從這60個人開始,有多少人的確透過若干個中間的朋友,把這封信送到這位神學院的學生的太太手裡。

不過,這個「六度分離」的觀念,起碼在直覺上,大家覺得是相當合理的。後來有社會科學家繼續做了更多的研究,對「六度分離」這個觀念,也有更多的了解。有一個研究結果指出,譬如說:新竹有一群在園區工作的工程師,他們平常來往很多,是一群結合得很密切的朋友;在舊金山有一群從事房地產買賣的華人,他們平常往來很多,也是一群結合得很密切的朋友,如果,有一位在新竹的工程師,被派到舊金山半年,他和這些從事房地產買賣的朋友開始認得交往,過了一段時間,這兩組朋友就漸漸融合成為一組了,這個例子說明,在開始的時候,不同的地方有很多組單獨孤立、但是相當緊密結合的朋友,但只要一個組裡的一個成員,有機會和另外一個組的一個成員互動,慢慢這些組就會融合起來,世界的確是因而變得越來越小了。

與朋友很相似的一個觀念就是血源,一個人和他的父母親的血源距離是1,和他兒女的血源距離也是1;因此,他和他兄弟姐妹的血源距離是2,他和祖父母的血源距離也是2;因此,他和他的伯父、叔父、姑母、舅舅、姨母,也就是父母親的兄弟姐妹的血源距離是3。至於中國歷史上常常講的,一個人犯了罪,株連九族,那九族是什麼呢?一個比較普遍的說法,是父族四、母族三、妻族二,父族四是自己一族,包括祖父、父親、兒子、孫子、兄弟、叔伯;出嫁的女兒和他們的兒子一族;出嫁的姐妹和他們的兒子一族;出嫁的姑母和他們的兒子一族。這裡大家可以看出來,古代重男輕女的觀念,男性是屬於自己一族,女性就算另外一族了。母族三是指外祖父一族,包括外祖父的兒子,也就是舅父;外祖母的娘家一族,和外祖父母的女兒、也就是姨母一族。妻族二,就是岳父一家、岳母一家。

除了九族之外,什麼是十族呢?明成祖朱棣奪位後,他要收服一位前朝的大臣方孝孺擁護服從他,但方孝孺不肯,明成祖跟他說:「您不聽我的話,我要誅你的九族」,方孝孺說:「不要說誅九族我不怕,誅十族我也不怕」,明成祖說:「就把門生加上,湊成十族。」

在數學界裡,有一個相似也很有趣的觀念叫做「愛多斯距離」,愛多斯(Paul Erdos)是二十世紀一位非常有名匈牙利數學家,他做數學研究的一個特色,是他一輩子環遊世界各地跟很多人合作研究,他一共發表了一千五百篇數學研究的論文,跟他共同發表論文的人數一共有五百多人,當然這五百多人又跟很多別的人合作發表論文,因此大家就提出一個新的距離的觀念,叫做「愛多斯距離」(Erdos number)。假如你和愛多斯合寫過一篇論文,你的愛多斯距離是1,正如上面所講,有5百多位數學家,他們的愛多斯距離是1;假如你和愛多斯距離是1的人合寫過一篇論文,那麼你和愛多斯距離是2,目前有6千多人,他們的愛多斯距離是2,以此類推,有3萬多人,他們的愛多斯距離是3,有8萬多人,他們的愛多斯距離是4。因為愛多斯已經在1996年逝世,所以愛多斯距離等於1的人的數目是不會再增加的了,但是愛多斯距離等於大於2的人的數目,會繼續增加。愛因斯坦的愛多斯距離是2,楊振寧的愛多斯距離是4,李政道的愛多斯距離是5,很明顯李政道的愛多斯距離不會大於5,因為他跟楊振寧合寫過論文,但是他可能沒有透過比較短的合作途徑和愛多斯比較接近,所以他的愛多斯距離的確是5;世界首富比爾蓋茲的愛多斯距離是4,有差不多70位諾貝爾得主,他們的愛多斯距離是2至18。至於我自己呢?我的愛多斯距離是2,因此跟我合作寫過論文的人,他們的愛多斯距離是3或者更小。舉個例來說,清華大學資工系的黃婷婷主任和我合寫過論文,所以她的愛多斯距離是3,她也和清華大學數學系的林文偉教授合寫過論文,所以林教授的愛多斯距離是4,他們二位桃李滿天下,透過他們,又有很多人他們的愛多斯距離是4,或者是5、6。我和內人張韻詩也合寫過論文,所以她的愛多斯距離是3,她又和好幾位在台大、交大的教授合寫過論文,所以,光是在台灣資訊和數學的領域裡,跟愛多斯拉上關係的,我相信一定有幾百,甚至上千,也不會是意外。

資料來源:劉炯朗,我愛談天你愛笑,《抽樣「sampling」》,2010/02/01,http://blog.udn.com/liucl/3741267

延伸閱讀:Watts, Duncan J., Six DegreesThe Science of a Connected Age.(傅士哲、謝良瑜,6個人的小世界,大塊文化,2004年。)


猜估Guesstimate
 
幾個星期前,我問了一個看似不著邊際的問題,「請問您有幾個朋友?」,其實從社會科學和統計學的觀點來看倒是蠻有意思的。首先,我得為「朋友」這個詞下一個定義,朋友有泛泛之交的朋友,有工作上、業務上的朋友,有一起喝酒、唱歌、打球玩樂的朋友,也有深交的知己朋友,但是,為了從比較科學的觀點回答:「您有幾個朋友呢?」這個問題,我首先把朋友這個觀念簡化為「要嘛就是朋友,要嘛就是陌生人」作一個0和1的區分,沒有模糊地帶,譬如說朋友是你叫得出他的名字,他也叫得出你的名字,或者是他對你的個人或者工作資料有相當程度的熟悉,同時你對他的個人或者工作資料也有相當程度的熟悉的一個人等等。
 
 
當我們簡化了朋友的定義之後,原則上,每一個人就可以決定到底他有幾個朋友了,只要我們把全世界60億的人,排在你面前,你就可以一個一個的把你的朋友挑出來,事實上,這是不可行的,我們得走別的路用合理的方法來作一個估計,估計用英文來說是「estimate」。
 
 
估計跟猜想有相似的地方,但是,猜想有點憑空瞎猜的意味,猜想用英文來說是「guess」,所以,有人就把「guess」猜想和「estimate」估計兩個字合起來成為一個新字「guesstimate」,那就是半猜半估,憑點運氣,憑點靈感,也憑點合理的經驗和原則,「guesstimate」中文翻成「猜估」,在許多實用的問題上,也是一個有用的技巧和觀念。
 
 
講一個簡單的例子:有人問:「一部波音747客機,放滿了高爾夫球,大概可以放幾個?」這個問題是可以作一個合理的猜估的,一個高爾夫球的直徑是4.2公分,4.2公分的3次方大約是75立方公分,那就是一個高爾夫球大約佔的空間;一部波音747客機大約可以坐400位乘客,每位乘客佔的空間大約是180公分×35公分×30公分,大約是19萬立方公分,所以,一個人體積大約是2520個高爾夫球的體積,400乘客佔的空間大約就是100萬個高爾夫球所佔的空間。假如一部波音747客機連同客人的座位、洗手間、行李架等等的空間,全部空間大約是乘客所佔空間的四倍,那就是400萬個高爾夫球,這個答案準確嗎?絕對不準確,但是,你現在知道一部波音747客機放滿了高爾夫球的話,數目應該是以百萬為單位,這就是猜估「guesstimate」的一個例子了。但是,作為一位工程師,有一個很基本的猜估你還得算一下,一個高爾夫球的重量約是46公克,一部波音747空機的重量大約是20萬公斤,起飛時候的最大重量是40萬公斤,所以頂多可以載20萬公斤那麼多高爾夫球,倒過來算不能超過400萬個高爾夫球,所以,用體積和重量來猜估,答案都是差不多的。
 
 
回到一個人有幾個朋友的問題,一個最原始的辦法,是讓一個人坐下來,請他把他記得的朋友的名字一一寫下來,這樣做不但很累人,而且一定不完全,不過把名字寫下來之後,把總數乘一個2或者另外乘一個倍數,未嘗不是一個合理的猜估,曾經有人做過這麼一個實驗,結果是一個人大約有500個朋友。
 
 
有一位社會科學家嘗試過另外一個方法,他在身上帶著一本筆記本,每天把他接觸到的人的名字寫下來,這樣做了100天,他寫下來一共685個名字,假如100天內他接觸到600多人,在二十年內,他遇到的人應該是60倍,大概是4,000人,不過,很明顯的,在第一個100天裡他接觸過的人,可能有許多也是他在第2個100天或者第3個100天裡接觸到的,所以,他打了個折扣,估計他自己大約有1,500個朋友。
 
 
這位科學家也想出另外一個辦法,他從一個大城市的電話簿裡,隨便找出30頁,把這30頁裡的名字全部列出來,幫忙他回想一下自己有多少個朋友,他們的姓都出現在這30頁裡。譬如說在這30頁裡,他找出100個他朋友的姓,假設這本電話簿有1,000頁,1,000頁大約是30頁的30倍,既然他在每30頁裡有100個朋友,那麼他可以估計他總共有30×100等於3,000個朋友。
 
 
另外一個相似的方法,是請一個人寫下來他有某些特色,譬如說吃素的朋友的名字,因為吃素的人數只占全人口的一部分,譬如說我們知道全人口有10%的人吃素,如果一個人有100個吃素的朋友,那麼他大概有1,000個朋友了。
 
 
我用這些例子來說明,一方面我們沒有實在可行而又準確的方法,決定一個人到底有幾個朋友,但是,我們可以有些雖然蠻粗糙但還算合理的方法,去猜估一個人有幾個朋友,透過很多不同的方法,社會科學家得到的結果,是一個人大約有300到3,000個朋友。
 
 
在日常生活裡也好,在工程、科學、經濟學、社會學裡也好,我們常常會用一些經驗上得來規則,幫助我們作猜估,英文裡叫做rule of thumb大姆指規則。為什麼叫做大姆指規則呢?一個不可靠的傳說,在十六、七世紀,按照法律,丈夫可以用棍子打太太,但是他用的棍子的粗細不能大於他大姆指的粗細,用大姆指的粗細來作一個大約的估計,就是大姆指規則(Rule of thumb)這個名詞的來源。讓我再舉幾個例子:做衣服的裁縫有一個大姆指的規則,如果你先量度你大姆指的周圍,那麼你的手腕的周圍是大姆指周圍的雙倍,你脖子的周圍是手腕周圍的雙倍,你腰圍是你脖子周圍的雙倍,所以,如果你大姆指周圍是4吋,你的手腕的周圍是8吋,你脖子的周圍是16吋,你的腰圍是32吋。日本消費電子產品的設計工程師說過,美國人手指的大小就跟日本人大姆指的大小差不多;還有,一個人身體全部皮膚表面的面積是他手掌的面積的100倍;一個人的手指越長他的指甲長得越快;如果你穿深顏色的衣服,看起來比較窈窕,淺顏色的衣服,看起來比較肥胖,穿直條紋的衣服比較窈窕,穿橫條紋的衣服比較肥胖;還有,室內空調的溫度如果提高1度可以省3%的能源,在一個普通大小的房間裡,10個人在1小時之內會因為他們的體溫,讓房間的溫度升高1度,假如你問這1度是華氏或攝氏呢?管它是華氏還是攝氏,反正這只是一個大姆指規則而已。
 
 
你把餵魚的飼料丟到魚缸裡給魚吃,假如5分鐘之內,魚不把飼料吃完,它們大概是已經吃得太飽了;在公路上開車,開冷氣比打開窗戶要節省能源,因為,以公路上開車的速度來算,打開窗戶會增加風的阻力。麥當勞的顧客願意走7分鐘的路程去買一個麥當勞的漢堡,所以,2個麥當勞店之間的距離不要超過14分鐘;燃燒10公升的汽油,會產生20公斤的二氧化碳;假如你可以選擇什麼時候去醫院,作個檢查或者動個小手術的話,不要選七月,因為這是新的實習醫師報到的季節;假如您到理髮店,您有2位男性的理髮師可以選擇,選頭髮剪得比較難看那一位,因為這2位理髮師通常相互交換剪頭髮;假如有100人上網發表討論消息和意見,大概是1個人寫,10個人發表意見,剩下的89人只是看看而已。
 
 
除了大姆指規則之外,還有老太婆的故事(Old wife’s tales),但是,那是傳說、迷信,不見得有什麼科學計算的依據。例如說:眼睛跳、耳朵癢、打噴嚏,都是有人在想你,講你的好話或者壞話;假如你一口氣把生日蛋糕上面的蠟燭吹滅,你的生日願望就會成真了。不過,有些迷信,也有一點出處和似是而非的理由,譬如說:在一把靠在牆壁上的扶梯底下走過會帶來惡運,這可能有點道理,因為這把扶梯很可能倒下來打在你頭上;胡蘿蔔可以增強你的視力,這是二次大戰的時候英國人製造的謠言,那個時候,英國人已經發明了雷達作為一個秘密武器,但是他們騙德國人說英國的飛行員多吃胡蘿蔔,所以他們的視力特別好;還有,“An apple a day keeps the doctor away”每天吃一個蘋果就不必去找醫生了,當然,吃水果是有助健康,這個老太婆的故事,也許是種蘋果的農夫們傳出來的吧!
 
 
講了許多大姆指規則和老太婆的故事,這些都是粗略的估計、猜想、傳說,甚至是迷信。現在讓我講幾個數學上跟朋友有關的嚴謹的定理。
第一個叫做「友誼定理」(Friendship Theorem),這個定理說:如果在一群人裡,每二個人都有一個共同的朋友,而且只有一個共同的朋友,那麼這群人裡,一定有一個人,他是每一個人的朋友,這個定理說起來的簡單,但是要一點數學才能夠把它證明出來。
 
 
第二個叫做「八卦定理」(Gossip Theorem),有二個人每人都有點八卦新聞,假如他們要交換分享這些八卦新聞,他們二個人之間打一通電話就可以達到目的了。如果有3個人要交換共享八卦新聞,讓我們叫這3個人A、B、C,A和B先通電話交換新聞,B再和C通一個電話,那麼B和C都會知道全部新聞了,只要C再和A通一個電話,就完全達到目的了,所以一共要3通電話。4個人呢?4通電話,8個人呢?12通電話,10個人呢?16通電話,n個人呢?2n-4通電話,怎樣安排通話,是相當簡單的,但是要證明2n-4通電話是最小的通話數目,還得動點腦筋。
最後,是「蘭西定理」(Ramsey’s Theorem),蘭西定理說起來簡單,可是推廣了卻是非常複雜的數學題目。
 
 
我們隨便找6個人,每2個人之間的關係,也許是朋友或是陌生人,有一個定理說,在任何情形之下,或者有3個人,他們彼此之間都是朋友,或者有3人,他們彼此之間都是陌生人,假如,您對這個定理有興趣的話,您可以做兩件事,第一、您可以找到一個例子,當只有5個人的時候,這個定理是不成立的,第二、證明這個定理是正確的。讓我們推廣下去,我們隨便找18個人,定理說,在任何情形之下,或者有4個人,他們彼此之間是朋友,或者有4個人,他們彼此之間是陌生人,同樣地你可以找到一個例子,如果只有17人,這個定理是不成立的。再推廣下去,隨便找多少個人,在任何情形之下,或者有5個人,他們彼此之間是朋友,或者5個人,他們彼此之間是陌生人呢?那是多少個人呢?這個題目在過去五、六十年,數學家還沒有找到答案,他們只知道是43~49之間。如果,我們再推廣,問隨便找多少個人,在任何情形之下,有6個人,他們彼此之間是朋友,或者有6個人,他們彼此之間是陌生人,這個問題就更更複雜了。
 
資料來源:劉炯朗,我愛談天你愛笑,《猜估「Guesstimate」》,2010/02/01。


陌生的1、2、3、4、5… ←上一篇 │首頁│ 下一篇→精品旅館
本文引用網址: