生物標(biāo)志物指可以標(biāo)記生物體生理病理變化或可能發(fā)生的變化的生化指標(biāo),在醫(yī)學(xué)和生命科學(xué)領(lǐng)域應(yīng)用廣泛,能夠?yàn)榧膊〉念A(yù)測(cè)、診斷、監(jiān)測(cè)及治療的效果、安全性、預(yù)后提供客觀測(cè)定和評(píng)價(jià)。利用臨床隊(duì)列樣本尋找和發(fā)現(xiàn)有價(jià)值的生物標(biāo)志物已經(jīng)成為了當(dāng)今的研究熱點(diǎn)。
蛋白質(zhì)生物標(biāo)志物在疾病生物標(biāo)志物中占有重要的地位。美國(guó)早期檢測(cè)研究網(wǎng)絡(luò)(EDRN)數(shù)據(jù)庫(kù)針對(duì)十種器官共收錄了583種蛋白質(zhì)生物標(biāo)志物,占所收錄的全部生物標(biāo)志物的57%。此外,獲得FDA批準(zhǔn)的臨床疾病生物標(biāo)志物90%以上都是蛋白質(zhì)。
通過蛋白質(zhì)組學(xué)手段對(duì)臨床隊(duì)列樣本進(jìn)行檢測(cè),并結(jié)合機(jī)器學(xué)習(xí)進(jìn)行標(biāo)志物篩選是疾病生物標(biāo)志物發(fā)現(xiàn)的經(jīng)典方法。下面就讓我們一起來看看基于機(jī)器學(xué)習(xí)的標(biāo)志物篩選是如何實(shí)現(xiàn)的吧~
基于機(jī)器學(xué)習(xí)的生物標(biāo)志物篩選流程總覽[1]
選擇合適的樣本對(duì)于篩選出的疾病生物標(biāo)志物的有效性至關(guān)重要,用于開展標(biāo)志物篩選研究的樣本常為臨床組織或體液樣本。
選擇組織樣本作為發(fā)現(xiàn)隊(duì)列是標(biāo)志物發(fā)現(xiàn)的常見方法,即從組織樣本的蛋白質(zhì)組學(xué)結(jié)果中尋找差異蛋白,而后采用血液、尿液、腦脊液等樣本蛋白質(zhì)數(shù)據(jù)作為驗(yàn)證隊(duì)列進(jìn)行標(biāo)志物的驗(yàn)證。這種樣本選擇策略在保證生物學(xué)意義的前提下確保了生物標(biāo)志物的易檢測(cè)性,從而促進(jìn)生物標(biāo)志物的臨床轉(zhuǎn)化。
發(fā)現(xiàn)隊(duì)列和驗(yàn)證隊(duì)列均為血液樣本現(xiàn)在也越來越多的用于臨床研究中。例如2024年7月劍橋大學(xué)與葛蘭素史克公司發(fā)表在《Nature Medicine》(IF 58.7)上的文章便利用血漿蛋白質(zhì)組學(xué)開發(fā)了針對(duì)218種疾病的預(yù)測(cè)模型,該文章指出只需檢測(cè)血漿中5-20種蛋白即可預(yù)測(cè)患52種不同疾病的風(fēng)險(xiǎn)[2]。
對(duì)于67種疾病中的52種,基于蛋白質(zhì)標(biāo)志物的模型擁有更好的預(yù)測(cè)性能[2]
在疾病生物標(biāo)志物研究中,樣本通常根據(jù)研究目的分為不同的組別,從而實(shí)現(xiàn)不同疾病狀態(tài)下蛋白質(zhì)表達(dá)差異的比較和分析,以下是常見的樣本組別設(shè)計(jì):
明確樣本分組后,應(yīng)保證每組的樣本量充足,以確保統(tǒng)計(jì)分析的效力。據(jù)統(tǒng)計(jì),使用常見的邏輯回歸模型進(jìn)行標(biāo)志物篩選,在每組樣本數(shù)大于50例時(shí)模型準(zhǔn)確性可達(dá)0.8以上,在樣本數(shù)大于100例時(shí)模型準(zhǔn)確性可達(dá)0.9以上。因此為確保模型的準(zhǔn)確性,一般建議基于機(jī)器學(xué)習(xí)方法的標(biāo)志物發(fā)現(xiàn)每組應(yīng)包含大于50例樣本。
作為國(guó)內(nèi)領(lǐng)先的蛋白質(zhì)組學(xué)診療標(biāo)志物創(chuàng)新平臺(tái),青蓮百奧針對(duì)疾病生物標(biāo)志物篩選使用機(jī)器學(xué)習(xí)算法開發(fā)了全套生物標(biāo)志物篩選解決方案。下面就來看看生物標(biāo)志物篩選解決方案是怎么實(shí)現(xiàn)的吧~
生物標(biāo)志物篩選的第一步是對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,從而確保數(shù)據(jù)的質(zhì)量,為后續(xù)分析打下基礎(chǔ)。數(shù)據(jù)預(yù)處理包括以下幾個(gè)層面:
1) 樣本剔除:剔除鑒定數(shù)異常不具有代表性的樣本,減少其對(duì)后續(xù)標(biāo)志物篩選流程的干擾,例如鑒定到的蛋白個(gè)數(shù)小于100的樣本。
2) 蛋白剔除:剔除檢出率異常不具有代表性的蛋白質(zhì),減少其對(duì)后續(xù)標(biāo)志物篩選流程的干擾,例如在50%的樣本中存在缺失值的蛋白質(zhì)。需注意,某些蛋白質(zhì)可能會(huì)在特定組別特異性檢出,雖然缺失值大于50%,但仍具有作為疾病生物標(biāo)志物的潛力,應(yīng)根據(jù)具體情況進(jìn)行選擇性關(guān)注。
3) 缺失值填補(bǔ):許多機(jī)器學(xué)習(xí)算法無(wú)法處理缺失值,直接刪除帶有缺失值的行列可能刪除過多數(shù)據(jù),因此需要采用缺失值填補(bǔ)的方式盡可能的保留數(shù)據(jù)集信息。對(duì)于蛋白質(zhì)組學(xué)數(shù)據(jù)常采用全局最小值進(jìn)行填補(bǔ),即以所有樣本中最低的定量值作為檢測(cè)的極限值替換所有缺失值。
4) 數(shù)據(jù)轉(zhuǎn)換:z-score轉(zhuǎn)換(也稱標(biāo)準(zhǔn)化)是一種使數(shù)據(jù)具有標(biāo)準(zhǔn)正態(tài)分布特性的方法,有助于消除不同蛋白質(zhì)之間由于量綱不同或量級(jí)差異帶來的影響,使得數(shù)據(jù)更適合進(jìn)行比較和進(jìn)一步的統(tǒng)計(jì)分析。此外,z-score轉(zhuǎn)換還可以提高對(duì)微小變化的敏感性,這對(duì)標(biāo)志物的發(fā)現(xiàn)至關(guān)重要。
5)初步篩選:理想的生物標(biāo)志物個(gè)數(shù)為5個(gè)左右,因此需要對(duì)鑒定到的蛋白質(zhì)進(jìn)行篩選,通常只保留樣本間方差最大的前10%蛋白質(zhì),從而避免蛋白質(zhì)表達(dá)量差距過小臨床檢測(cè)手段難以區(qū)分,無(wú)法實(shí)現(xiàn)臨床轉(zhuǎn)化的情況。
疾病生物標(biāo)志物應(yīng)具有根據(jù)蛋白質(zhì)定量信息將樣本分為不同類別的能力,如健康與疾病、疾病不同進(jìn)程等,因此需要用到分類器模型。分類器模型的選擇需要充足的知識(shí)儲(chǔ)備支撐。而在這里,我們采用9種機(jī)器學(xué)習(xí)算法,包括邏輯回歸、線性支持向量機(jī)(Linear SVM)、決策樹、隨機(jī)森林、自適應(yīng)增強(qiáng)、梯度提升決策樹、線性判別分析、極端梯度提升、輕量梯度提升機(jī)分類器模型,結(jié)合各算法構(gòu)建出的模型的性能指標(biāo)(主要為AUC)選擇最佳的模型用于本次標(biāo)志物篩選,避免在分類器模型選擇上的困難。
選定分類器模型后就來到了正式的標(biāo)志物篩選步驟,這一步需從眾多蛋白質(zhì)中挑選出最具區(qū)分能力的疾病生物標(biāo)志物組合。
遞歸特征消除法(RFE)是一種用于選擇最重要特征(蛋白質(zhì))的方法。它通過反復(fù)訓(xùn)練模型,每次剔除對(duì)模型貢獻(xiàn)最小的特征,直到達(dá)到預(yù)定的特征數(shù)量或模型性能不再提高。
五折交叉驗(yàn)證是一種評(píng)估模型性能的方法。它將數(shù)據(jù)集分成五個(gè)部分,每次使用其中四部分訓(xùn)練模型,剩下的一部分測(cè)試模型,重復(fù)五次。這種方法可以準(zhǔn)確評(píng)估模型在未知數(shù)據(jù)上的表現(xiàn)。
通過遞歸特征消除法的選擇和五折交叉驗(yàn)證的性能評(píng)估,在反復(fù)的訓(xùn)練與淘汰中,最終篩選出最優(yōu)的生物標(biāo)志物組合,組合中包含的蛋白質(zhì)一般不多于20個(gè)。如果組合中包含的蛋白質(zhì)數(shù)量高于預(yù)期,還可根據(jù)蛋白質(zhì)的生物學(xué)意義等背景知識(shí)對(duì)標(biāo)志物進(jìn)行進(jìn)一步篩選,但需注意手動(dòng)篩選后的標(biāo)志物組合可能在預(yù)測(cè)性能上低于理論計(jì)算出的最優(yōu)組合。
基于篩選出的潛在生物標(biāo)志物建立預(yù)測(cè)模型,并使用五折交叉驗(yàn)證進(jìn)行評(píng)估。
通過以上流程整合多個(gè)機(jī)器學(xué)習(xí)模型,利用最優(yōu)模型篩選潛在生物標(biāo)志物建立預(yù)測(cè)模型并進(jìn)行效果評(píng)估,能夠?qū)崿F(xiàn)可靠的標(biāo)志物篩選。此外,青蓮百奧針對(duì)隊(duì)列樣本研究瓶頸,還獨(dú)家推出預(yù)后標(biāo)志物篩選、分子分型高級(jí)分析報(bào)告。步驟雖繁必不敢省人工,試劑雖貴必不敢減物力,之后的系列推送也將為大家詳細(xì)解讀預(yù)后標(biāo)志物篩選與分子分型解決方案,敬請(qǐng)期待~
【參考文獻(xiàn)】
[1] MANN M, KUMAR C, ZENG W F, et al. Artificial intelligence for proteomics and biomarker discovery [J]. Cell Syst, 2021, 12(8): 759-70.
[2] CARRASCO-ZANINI J, PIETZNER M, DAVITTE J, et al. Proteomic signatures improve risk prediction for common and rare diseases [J]. Nature Medicine, 2024.
@2024北京青蓮百奧生物科技有限公司 京ICP備17052224號(hào)