加載中........
×

如何理解線性回歸的方差齊性檢驗

2019-11-25 作者:馮國雙   來源:小白學統計 我要評論0
Tags: 線性回歸  

不少人可能對方差齊性檢驗不是很重視,覺得正態性可能更重要,但其實方差齊性的重要程度可能更大,因為它可能會讓你的標準誤發生很大變化,從而導致結論的變化。線性回歸中,方差齊性是一個必須考慮的前提條件。

本文主要介紹一下,如何理解線性回歸中的方差齊性的含義,以及如何對方差是否齊性進行探測。

線性回歸中方差齊性的含義

所謂方差齊性,也就是方差相等,在t檢驗和方差分析中,都需要滿足這一前提條件。

在兩組和多組比較中,方差齊性的意思很容易理解,無非就是比較各組的方差大小,看看各組的方差是不是差不多大小,如果差別太大,就認為是方差不齊,或方差不等。如果差別不大,就認為方差齊性或方差相等。當然,這種所謂的差別大或小,需要統計學的檢驗,所以就有了方差齊性檢驗。

在兩組和多組比較中,每組都有很多數據,可以求出每組的方差,然后比較就行了,很容易理解。但是在線性回歸中,有的人就不理解方差齊性是什么意思了。因為線性回歸中自變量x不是分類變量,x取值很多。

通常情況下,每個x值只對應1個y值。比如,分析身高對血壓值的影響,可能每個身高對應的血壓值只有一個數值。很顯然,對于1個數是沒有辦法計算方差的,那還何來“方差齊性”檢驗呢?

這是因為,盡管在一次抽樣中每個x取值上可能只有1個y值,但對于總體而言,理論上每個x取值上對應的y值是有很多的。

例如,研究身高(x)與血壓值(y)的關系,盡管在一次抽樣中每一身高值(如170cm)所對應的血壓值可能只有1個值(如140mmHg),但從總體而言這一固定的身高(170cm)所對應的血壓值應該有很多,可能是140mmHg,也可能是150mmHg,只是在我們的抽樣中恰好抽中了這1個值而已。

事實上,如果你重新抽樣,170cm所對應的血壓值可能就不是140mmHg了,有可能就是145mmHg或138mmHg等。

所以,線性回歸中,理論上也是有方差的。然而這種理論上的方差,除非你知道總體中每個x取值上的所有對應的y值,否則你是沒有辦法真正去計算方差的。但這種情況幾乎是不可能發生的,因此在線性回歸中的方差齊性檢驗,很多情況下只是一種探測而已。

線性回歸的方差齊性檢驗

既然線性回歸無法做到對每一個x取值上的y值計算方差,那我們可以放寬一下,可以簡單地看某一x取值范圍內的y值的方差,這是可以做到的。

所以實際中我們經常通過線性回歸的殘差圖來判斷方差齊性,即以因變量殘差作為縱坐標,以某自變量作為橫坐標,繪制散點圖。如下圖所示。如果殘差總的來說是隨機分布的,沒有隨著自變量的增加而有其它趨勢,基本就可以認為方差齊性。

當然殘差圖只是觀察一下,如果想用統計學方法來驗證是否有趨勢的話,那很自然的一個想法就是,分析具體某一自變量與殘差有沒有關系就可以了。

這也就是BP(Breusch-Pagan)法和White檢驗進行方差齊性檢驗的思想。即以殘差為因變量,觀察自變量與殘差之間是否存在線性關系(BP法)或非線性關系(White檢驗)。如果存在,提示可能存在方差不齊。BP檢驗和White檢驗是較為常用的兩種方差齊性檢驗的方法。

下面是SAS軟件給出的兩種檢驗結果。



SAS軟件中可通過proc model過程或proc reg過程的model語句的spec選項探測方差齊性。R軟件可通過lmtest包中bptest函數,通過指定不同的變量形式,可輸出BP檢驗或White檢驗。



小提示:78%用戶已下載梅斯醫學APP,更方便閱讀和交流,請掃描二維碼直接下載APP

只有APP中用戶,且經認證才能發表評論!馬上下載

web對話
乒乓球