一群變量值可能用平均數(shù)描述集中的位置,用變異指標(biāo)描述離散情況,而頻數(shù)表則把變量值的分布描繪得更具體。為了直觀還可把頻數(shù)表畫(huà)成直方圖。如第四章中曾將7歲男童坐高的頻數(shù)分布繪成圖4.1。從圖中可看出數(shù)據(jù)集中均數(shù)周?chē)笥一緦?duì)稱(chēng),離均數(shù)愈近數(shù)據(jù)愈多,離均數(shù)愈遠(yuǎn)數(shù)據(jù)愈少的特點(diǎn)。醫(yī)學(xué)科研中如健康人的紅細(xì)胞數(shù)、血紅蛋白量、血清總膽固醇,同年齡同性別兒童的身高、體重等,雖然數(shù)據(jù)各異,但畫(huà)出的直方圖圖形是類(lèi)似的?梢栽O(shè)想,這種類(lèi)型的資料,如果調(diào)查例數(shù)無(wú)限增多,所用組距又無(wú)限的小,那么直方頂端就連成了一條光滑的曲線(xiàn)。這條曲線(xiàn),典型地反映了這類(lèi)資料的分布情況,數(shù)學(xué)上稱(chēng)為正態(tài)曲線(xiàn),其方程為
式中n為總頻數(shù),X為變量值,μ為均數(shù),σ為標(biāo)準(zhǔn)差,Y為縱高,e=2.71828……,π=3.14158……。在一個(gè)總體中n、μ、σ、e、π都是常數(shù),只有X在變,所以Y=f(x)。
式(5.1)亦可寫(xiě)成:
由上式可看出曲線(xiàn)的性質(zhì):
1.曲線(xiàn)左右對(duì)稱(chēng)。X-μ無(wú)論是正或負(fù),只要絕對(duì)值就相等,Y值就相等。所以只要X與μ的距離相等,Y就相等。Y值以X=μ為對(duì)稱(chēng)軸。
2.中位數(shù)、均數(shù)、眾數(shù)重合。正態(tài)曲線(xiàn)在橫軸上方。當(dāng)X=μ時(shí),e0=1,Y為極大,所以均數(shù)與眾數(shù)密合。由于曲線(xiàn)左右對(duì)稱(chēng),所以均數(shù)亦即中位數(shù)。e的指數(shù)愈大,Y愈小,但不會(huì)得負(fù)值,所以Y>0,曲線(xiàn)在橫軸上方。
3.隨著(X-μ/σ)的絕對(duì)值的增加,曲線(xiàn)由平均數(shù)所在點(diǎn)向左右兩方迅速下降。
4.離平均數(shù)左右1σ處為曲線(xiàn)拐點(diǎn)。在μ±σ以?xún)?nèi)曲線(xiàn)向下彎曲,以外則向上彎曲。
這種類(lèi)型的資料,數(shù)據(jù)值雖各不相同,但都有其均數(shù)與標(biāo)準(zhǔn)差,如果橫軸上各以其均數(shù)為原點(diǎn),標(biāo)準(zhǔn)差為單位,并令x=X-μ,那么(X-μ)/σ可寫(xiě)成x/σ,稱(chēng)為正態(tài)離差u,
(5.2)
再令總頻數(shù)為1。這時(shí)曲線(xiàn)以μ為原點(diǎn),以σ為單位,稱(chēng)為標(biāo)準(zhǔn)正態(tài)曲線(xiàn),其公式為
(5.3)
以μ為均數(shù),σ2為方差的正態(tài)分布可記為N(μ,σ2),因此標(biāo)準(zhǔn)正態(tài)分布可記為N(0,1)。
圖5.2 標(biāo)準(zhǔn)正態(tài)曲線(xiàn)