想要建立預測模型,統計方法怎么選?

2019-12-11 李侗桐 醫咖會

是否要建立預測模型?預測模型是基于變量之間的相關關系,通過一個或幾個變量預測另一個變量的分析方法。我們可以根據自變量(預測變量或解釋變量)預測因變量(應答變量或結局變量)。比如,通過久坐時長預測受試者的血液膽固醇濃度,或者根據受試者的年齡、性別、BMI等變量信息預測高血壓病發病情況。此外,預測模型還可以幫助我們判斷各自變量的重要性,即自變量對因變量的解釋能力。舉例來說,預測模型可以用來分析學歷對收

是否要建立預測模型?

預測模型是基于變量之間的相關關系,通過一個或幾個變量預測另一個變量的分析方法。我們可以根據自變量(預測變量或解釋變量)預測因變量(應答變量或結局變量)。比如,通過久坐時長預測受試者的血液膽固醇濃度,或者根據受試者的年齡、性別、BMI等變量信息預測高血壓病發病情況。此外,預測模型還可以幫助我們判斷各自變量的重要性,即自變量對因變量的解釋能力。舉例來說,預測模型可以用來分析學歷對收入的解釋程度。示例如下:



根據因變量類型選擇檢驗方法

1 連續變量

確定因變量是連續變量后,我們需要判斷自變量的數量,示例如下:



1.1 只有一個自變量

簡單線性回歸。該檢驗可以基于一個連續型自變量對相應的連續型因變量進行預測,也可以評價自變量對因變量的解釋力度。

1.2 包含多個自變量

多重線性回歸。該檢驗可以通過多個自變量對相應的連續型因變量進行預測,也可以評價自變量對因變量的解釋力度。

2 計數變量

泊松回歸。該檢驗適用于分析因變量是計數變量的多因素預測模型。

注:計數變量是一個非負整數。比如,0、5、16、27是計數變量,但是2.7、5.8、18.2不是,因為它們不是整數;-2、-7、-15也不是,因為它們小于0。

計數變量不屬于我們常用的變量分類,常被視為連續變量納入分析。當計數變量比較大,多數數值超過40時,我們可以將其作為連續變量。但是當計數變量比較小,如多數數值小于10時,我們建議保留其計數變量屬性,避免統計偏倚。計數變量示例如下:

菌群數量,培養基暴露24小時后可觀察到的菌群數量

死亡人數,隊列中每年因吸煙死于肺癌的人數

癲癇發作次數,受試者在一周內的癲癇發作次數

就診人數,某私人診所每天上午9:00-9:30的就診人數

3 有序分類變量

有序多分類logistic回歸。該檢驗適用于分析因變量是有序分類變量的多因素預測模型。比如,通過年齡和收入兩個變量對生活滿意度(非常不滿意、不滿意、一般、滿意、非常滿意)進行預測分析。

4 二分類變量

二分類logistic回歸。該檢驗適用于分析因變量是二分類變量的多因素預測模型。

5 無序分類變量

無序多分類logistic回歸。該檢驗適用于分析因變量是無序分類變量的多因素預測模型。

相關資訊

BMJ:住院患者早期不良預后風險預測模型研究

住院患者預警評分是一種廣泛使用的預測模型,在日常臨床實踐中常用于識別住院患者的早期臨床惡化,但目前,大部分模型存在較為明顯的缺點,特別需注意在模型的推導和驗證過程中方法的科學性

Nat Med:基于癥狀的Covid-19的預測模型

個人通過手機APP報告癥狀也許可以預測是否感染了Covid-19。5月11日在《Nature Medicine》刊登的一項研究中,研究者開發了一個公式來預測用戶是否患Covid-19。

JAMA Intern Med:鐘南山團隊建立新冠肺炎危重癥預測模型 準確性達88%

廣州呼吸健康研究院14日發布消息稱,中國工程院院士鐘南山團隊代表中國國家衛生健康委員會高級別專家組,整合臨床風險因素,建立新冠肺炎的危重癥預測模型,可預測新冠肺炎患者是否會發展為危重癥,準確性達到88

臨床預測模型:新預測因子的預測增量值

【摘要】新的生物標志物的發現和開發一直以來都是充滿前景的領域,這些研究為預測模型提了新的預測因子,可以極大改善對疾病風險的預測。為了對新的預測因子的臨床效用得到有意義的結論,必須采取適當的統計方法。本

Blood:早期CLL患者初始治療的預測模型

IPS-E是一種簡單而可靠的早期CLL預后模型 IPS-E對patients?9很有幫助:臨床試驗的咨詢和設計

Brit J Cancer:一種新的預測前列腺癌患者結果的分層框架

無監督學習方法,比如層序聚類分析,經常用于基因組平臺數據分析。但是,上述方法忽略了前列腺癌樣本的異質性組成情況。最近,有研究人員使用了更加復雜的分析方法去解卷前列腺癌轉錄組數據結構,并為該疾病提供新的

汇赚钱 快乐8平台app下载地址 喜迎捕鱼游戏中心下载 环保股票推荐 哈灵浙江麻将二维码 怎样看股票趋势线 幸运农场基本走势图 重庆幸运农场预测 二分彩计划软件官方下载 上海时时乐开奖结果查询 街机捕鱼1000炮赢手机