加載中........
×

危險因素探索分析中的3個關鍵問題

2019-11-25 作者:小白學統計   來源:小白學統計 我要評論0
Tags: 危險因素  

危險因素篩選或探索是醫學研究中的一大類目的,很多臨床醫生都會通過已有的數據,確定一個醫學結局,然后分析這一結局跟哪些因素有關,或者說,哪些因素可能是該結局發生的獨立影響因子。

危險因素的探索分析過程,說簡單就簡單,說復雜也很復雜。說簡單,是因為很多人習慣把數據往軟件里一扔,因變量放到因變量的地方,自變量拖到自變量的地方,運行,出結果,結束。說復雜,是因為往往上述的這種分析方式,其實很多都有問題,因為統計分析最關鍵的不是軟件,而是使用軟件的人。

本文根據作者多年的分析經驗,說一下危險因素探索分析中的3個關鍵問題,希望以此提醒各位朋友,在數據分析時,不要一味依賴軟件。軟件主要是幫你計算,思路是無法替代的。沒有一個明確的分析思路,只能導致garbage in, garbage out. 這種悲慘結局。關鍵的問題是,很多人即使得到了garbage的結果,卻懵然不知,還以為發現了真理。這才是最大的悲哀。所以本文特地介紹幾個在危險因素探索過程中比較關鍵的3個問題,希望對各位有所幫助。

(1)線性問題

不管是線性回歸還是logistic回歸或Poisson回歸,他們都屬于廣義線性模型,本質上都是“線性模型”,因此一定要確認自變量與因變量(logistic回歸中為logit P)之間是否線性關系,如果不是,需要考慮進行相應的變換,否則可能會產生錯誤結果。

例1:某研究分析老年人高血壓(二分類變量,是或否)的危險因素,研究因素包括gender、age、ox-LDL、Adiponectin、ox-LDL IgG和ox-LDL IgM共6個指標。其中gender為二分類變量,其余變量均為連續變量。如果把這6個自變量直接納入統計軟件分析,所得結果如表1所示。



可以看出,這6個變量均無統計學意義。然而對數據重新分析后發現,并不是這些變量對結局均無影響,只是未能發現它們之間的真實關系而已。經仔細觀察,發現age和ox-LDL IgM對結局的影響是有統計學意義的,但不是線性影響,而是二次項關系(表2)。



這提醒我們,不僅僅是線性回歸需要看自變量與因變量的線性,logistic回歸也需要考慮,雖然logistic回歸中不像線性回歸可以用散點圖那么直觀,然而logit p與自變量的關系仍需要考慮是否線性。如果不是,你的結果恐怕就有問題。

(2)共線性問題

共線性簡單來說就是自變量之間存在高度相關,從而導致結果不可靠。共線性是大多數回歸模型都需要考慮的一個問題,一旦發現該問題,需要采取不同措施來解決。常見的解決方案包括刪除某一自變量、主成分分析、Lasso回歸等。具體這些方法在后續文章中逐一介紹。

例2:某研究分析乳腺增生的危險因素,自變量同時包括妊娠次數(三分類變量,用1、2、3表示相應次數)和流產次數(三分類變量,用0、1、2表示相應次數)。在單因素分析中妊娠次數有統計學意義(2 vs. 1,P=0.0258;3 vs. 1,P=0.0354),然而多因素分析中變得無統計學意義(P值分別為0.6351、0.5942)。分析原因發現,主要是由于妊娠次數和流產次數有較強的共線性,二者相關系數高達0.55,從而導致妊娠次數變得無統計學意義。解決方案采用了刪除法,刪除妊娠次數變量,保留了流產次數變量。

多數軟件都可以實現線性回歸的共線性診斷,logistic回歸則不一定有相應選項。實際上無所謂,因為共線性只是針對自變量的,因此即使logistic回歸分析,仍可以用線性回歸的共線性診斷工具,判斷自變量之間是否存在共線性。

關于共線性的判斷,有很多種方法,后續會慢慢再說。但是必須先提醒一點,共線性的判斷,不建議根據某一固定值,大于或小于多少就有共線性,否則就沒有共線性。根據我個人的多年分析經驗,這種方式很不可靠。當然,這些問題在后續文章中詳細再說,這里先做一簡單提醒。

(3)單因素和多因素的問題

對于危險因素篩選,不少人的分析思路是:先進行單因素分析,將單因素分析中有統計學意義(P<0.05)的變量再納入多因素分析,選出最終有統計學意義的變量作為危險因素。然而這一思路并非十分可靠,有些情況下可能會出現單因素分析無統計學意義而多因素分析有統計學意義的情況,此時就容易漏掉某些重要的因素。

例3:某研究分析兩個血清學指標(分別用陽性和陰性表示)對癌的影響,數據結果如表3所示。



該數據采用單因素分析的話,可以發現x1并無統計學意義(P=0.114),而在多因素分析中卻變得有統計學意義(P=0.018)。如果只將單因素分析中有統計學意義的變量納入多因素分析的話,就會漏掉x1變量。為什么會出現這種情況,主要是因為x1和x2之間存在負相關,而x1、x2與結局之間均為正相關。

關于這一問題,在前面的文章中已有專門提到,大家可以再回去復習一下。不過當時那篇文章用的是一個連續變量舉例,可能有的人看的不夠直觀?,F在這個例子是分類變量,看起來可能更直觀一些。

給大家的建議是,數據分析過程中,不要盲目套用所謂的“分析套路”,而應結合實際情況具體問題具體分析。

正如統計學界一句很流行的話“所有的模型都是錯誤的,但是有一些是有用的”。我也想說“所有的分析套路都可能是錯誤的,但有些是可以參考的”。為什么這么說呢?因為統計分析太靈活了,絕對找不出一個適用于任何數據分析的所謂套路或模式或步驟,然而,有些過程的確是可以參考,可以幫助我們探索一些問題。



小提示:78%用戶已下載梅斯醫學APP,更方便閱讀和交流,請掃描二維碼直接下載APP

只有APP中用戶,且經認證才能發表評論!馬上下載

web對話
乒乓球 今日贵州快3推荐号码 体彩7位数中奖规则 幸运快3 甘肃省十一选五遗漏 山西11选五遗漏查询 江苏7位数预测 天津时时彩一天多少期 同花顺股票软件下载 北京快3助手下载安装 贵州11选5定位走势图