亚洲五月天综合,heyzo无码综合国产精品,亚洲色偷偷色噜噜狠狠99网,国产欧美精品一区二区三区四区

您好，歡迎來到青蓮百奧!

收藏本站云平臺(tái)咨詢客服

青蓮干貨 | 一文詳解基于機(jī)器學(xué)習(xí)的蛋白質(zhì)疾病生物標(biāo)志物篩選

生物標(biāo)志物指可以標(biāo)記生物體生理病理變化或可能發(fā)生的變化的生化指標(biāo)，在醫(yī)學(xué)和生命科學(xué)領(lǐng)域應(yīng)用廣泛，能夠?yàn)榧膊〉念A(yù)測(cè)、診斷、監(jiān)測(cè)及治療的效果、安全性、預(yù)后提供客觀測(cè)定和評(píng)價(jià)。利用臨床隊(duì)列樣本尋找和發(fā)現(xiàn)有價(jià)值的生物標(biāo)志物已經(jīng)成為了當(dāng)今的研究熱點(diǎn)。

蛋白質(zhì)生物標(biāo)志物在疾病生物標(biāo)志物中占有重要的地位。美國(guó)早期檢測(cè)研究網(wǎng)絡(luò)（EDRN）數(shù)據(jù)庫(kù)針對(duì)十種器官共收錄了583種蛋白質(zhì)生物標(biāo)志物，占所收錄的全部生物標(biāo)志物的57%。此外，獲得FDA批準(zhǔn)的臨床疾病生物標(biāo)志物90%以上都是蛋白質(zhì)。

通過蛋白質(zhì)組學(xué)手段對(duì)臨床隊(duì)列樣本進(jìn)行檢測(cè)，并結(jié)合機(jī)器學(xué)習(xí)進(jìn)行標(biāo)志物篩選是疾病生物標(biāo)志物發(fā)現(xiàn)的經(jīng)典方法。下面就讓我們一起來看看基于機(jī)器學(xué)習(xí)的標(biāo)志物篩選是如何實(shí)現(xiàn)的吧~

素材_01(1).png

基于機(jī)器學(xué)習(xí)的生物標(biāo)志物篩選流程總覽^[1]

磨刀不誤砍柴工，樣本收集是基礎(chǔ)

樣本選擇

選擇合適的樣本對(duì)于篩選出的疾病生物標(biāo)志物的有效性至關(guān)重要，用于開展標(biāo)志物篩選研究的樣本常為臨床組織或體液樣本。

選擇組織樣本作為發(fā)現(xiàn)隊(duì)列是標(biāo)志物發(fā)現(xiàn)的常見方法，即從組織樣本的蛋白質(zhì)組學(xué)結(jié)果中尋找差異蛋白，而后采用血液、尿液、腦脊液等樣本蛋白質(zhì)數(shù)據(jù)作為驗(yàn)證隊(duì)列進(jìn)行標(biāo)志物的驗(yàn)證。這種樣本選擇策略在保證生物學(xué)意義的前提下確保了生物標(biāo)志物的易檢測(cè)性，從而促進(jìn)生物標(biāo)志物的臨床轉(zhuǎn)化。

發(fā)現(xiàn)隊(duì)列和驗(yàn)證隊(duì)列均為血液樣本現(xiàn)在也越來越多的用于臨床研究中。例如2024年7月劍橋大學(xué)與葛蘭素史克公司發(fā)表在《Nature Medicine》（IF 58.7）上的文章便利用血漿蛋白質(zhì)組學(xué)開發(fā)了針對(duì)218種疾病的預(yù)測(cè)模型，該文章指出只需檢測(cè)血漿中5-20種蛋白即可預(yù)測(cè)患52種不同疾病的風(fēng)險(xiǎn)[2]。

圖片2.png

對(duì)于67種疾病中的52種，基于蛋白質(zhì)標(biāo)志物的模型擁有更好的預(yù)測(cè)性能^[2]

組別設(shè)計(jì)

在疾病生物標(biāo)志物研究中，樣本通常根據(jù)研究目的分為不同的組別，從而實(shí)現(xiàn)不同疾病狀態(tài)下蛋白質(zhì)表達(dá)差異的比較和分析，以下是常見的樣本組別設(shè)計(jì)：

文字文稿3_01.png

統(tǒng)計(jì)考慮

明確樣本分組后，應(yīng)保證每組的樣本量充足，以確保統(tǒng)計(jì)分析的效力。據(jù)統(tǒng)計(jì)，使用常見的邏輯回歸模型進(jìn)行標(biāo)志物篩選，在每組樣本數(shù)大于50例時(shí)模型準(zhǔn)確性可達(dá)0.8以上，在樣本數(shù)大于100例時(shí)模型準(zhǔn)確性可達(dá)0.9以上。因此為確保模型的準(zhǔn)確性，一般建議基于機(jī)器學(xué)習(xí)方法的標(biāo)志物發(fā)現(xiàn)每組應(yīng)包含大于50例樣本。

圖片3.png

不會(huì)代碼怎么破，青蓮報(bào)告打包走

作為國(guó)內(nèi)領(lǐng)先的蛋白質(zhì)組學(xué)診療標(biāo)志物創(chuàng)新平臺(tái)，青蓮百奧針對(duì)疾病生物標(biāo)志物篩選使用機(jī)器學(xué)習(xí)算法開發(fā)了全套生物標(biāo)志物篩選解決方案。下面就來看看生物標(biāo)志物篩選解決方案是怎么實(shí)現(xiàn)的吧~

數(shù)據(jù)預(yù)處理

生物標(biāo)志物篩選的第一步是對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理，從而確保數(shù)據(jù)的質(zhì)量，為后續(xù)分析打下基礎(chǔ)。數(shù)據(jù)預(yù)處理包括以下幾個(gè)層面：

1) 樣本剔除：剔除鑒定數(shù)異常不具有代表性的樣本，減少其對(duì)后續(xù)標(biāo)志物篩選流程的干擾，例如鑒定到的蛋白個(gè)數(shù)小于100的樣本。

2) 蛋白剔除：剔除檢出率異常不具有代表性的蛋白質(zhì)，減少其對(duì)后續(xù)標(biāo)志物篩選流程的干擾，例如在50%的樣本中存在缺失值的蛋白質(zhì)。需注意，某些蛋白質(zhì)可能會(huì)在特定組別特異性檢出，雖然缺失值大于50%，但仍具有作為疾病生物標(biāo)志物的潛力，應(yīng)根據(jù)具體情況進(jìn)行選擇性關(guān)注。

3) 缺失值填補(bǔ)：許多機(jī)器學(xué)習(xí)算法無(wú)法處理缺失值，直接刪除帶有缺失值的行列可能刪除過多數(shù)據(jù)，因此需要采用缺失值填補(bǔ)的方式盡可能的保留數(shù)據(jù)集信息。對(duì)于蛋白質(zhì)組學(xué)數(shù)據(jù)常采用全局最小值進(jìn)行填補(bǔ)，即以所有樣本中最低的定量值作為檢測(cè)的極限值替換所有缺失值。

4) 數(shù)據(jù)轉(zhuǎn)換：z-score轉(zhuǎn)換（也稱標(biāo)準(zhǔn)化）是一種使數(shù)據(jù)具有標(biāo)準(zhǔn)正態(tài)分布特性的方法，有助于消除不同蛋白質(zhì)之間由于量綱不同或量級(jí)差異帶來的影響，使得數(shù)據(jù)更適合進(jìn)行比較和進(jìn)一步的統(tǒng)計(jì)分析。此外，z-score轉(zhuǎn)換還可以提高對(duì)微小變化的敏感性，這對(duì)標(biāo)志物的發(fā)現(xiàn)至關(guān)重要。

5）初步篩選：理想的生物標(biāo)志物個(gè)數(shù)為5個(gè)左右，因此需要對(duì)鑒定到的蛋白質(zhì)進(jìn)行篩選，通常只保留樣本間方差最大的前10%蛋白質(zhì)，從而避免蛋白質(zhì)表達(dá)量差距過小臨床檢測(cè)手段難以區(qū)分，無(wú)法實(shí)現(xiàn)臨床轉(zhuǎn)化的情況。

模型選擇

疾病生物標(biāo)志物應(yīng)具有根據(jù)蛋白質(zhì)定量信息將樣本分為不同類別的能力，如健康與疾病、疾病不同進(jìn)程等，因此需要用到分類器模型。分類器模型的選擇需要充足的知識(shí)儲(chǔ)備支撐。而在這里，我們采用9種機(jī)器學(xué)習(xí)算法，包括邏輯回歸、線性支持向量機(jī)（Linear SVM）、決策樹、隨機(jī)森林、自適應(yīng)增強(qiáng)、梯度提升決策樹、線性判別分析、極端梯度提升、輕量梯度提升機(jī)分類器模型，結(jié)合各算法構(gòu)建出的模型的性能指標(biāo)（主要為AUC）選擇最佳的模型用于本次標(biāo)志物篩選，避免在分類器模型選擇上的困難。

圖片4.png

潛在標(biāo)志物篩選

選定分類器模型后就來到了正式的標(biāo)志物篩選步驟，這一步需從眾多蛋白質(zhì)中挑選出最具區(qū)分能力的疾病生物標(biāo)志物組合。

遞歸特征消除法（RFE）是一種用于選擇最重要特征（蛋白質(zhì)）的方法。它通過反復(fù)訓(xùn)練模型，每次剔除對(duì)模型貢獻(xiàn)最小的特征，直到達(dá)到預(yù)定的特征數(shù)量或模型性能不再提高。

五折交叉驗(yàn)證是一種評(píng)估模型性能的方法。它將數(shù)據(jù)集分成五個(gè)部分，每次使用其中四部分訓(xùn)練模型，剩下的一部分測(cè)試模型，重復(fù)五次。這種方法可以準(zhǔn)確評(píng)估模型在未知數(shù)據(jù)上的表現(xiàn)。

通過遞歸特征消除法的選擇和五折交叉驗(yàn)證的性能評(píng)估，在反復(fù)的訓(xùn)練與淘汰中，最終篩選出最優(yōu)的生物標(biāo)志物組合，組合中包含的蛋白質(zhì)一般不多于20個(gè)。如果組合中包含的蛋白質(zhì)數(shù)量高于預(yù)期，還可根據(jù)蛋白質(zhì)的生物學(xué)意義等背景知識(shí)對(duì)標(biāo)志物進(jìn)行進(jìn)一步篩選，但需注意手動(dòng)篩選后的標(biāo)志物組合可能在預(yù)測(cè)性能上低于理論計(jì)算出的最優(yōu)組合。

潛在標(biāo)志物特征分析

圖片5.png

預(yù)測(cè)模型建立與評(píng)估

基于篩選出的潛在生物標(biāo)志物建立預(yù)測(cè)模型，并使用五折交叉驗(yàn)證進(jìn)行評(píng)估。

圖片6.png

通過以上流程整合多個(gè)機(jī)器學(xué)習(xí)模型，利用最優(yōu)模型篩選潛在生物標(biāo)志物建立預(yù)測(cè)模型并進(jìn)行效果評(píng)估，能夠?qū)崿F(xiàn)可靠的標(biāo)志物篩選。此外，青蓮百奧針對(duì)隊(duì)列樣本研究瓶頸，還獨(dú)家推出預(yù)后標(biāo)志物篩選、分子分型高級(jí)分析報(bào)告。步驟雖繁必不敢省人工，試劑雖貴必不敢減物力，之后的系列推送也將為大家詳細(xì)解讀預(yù)后標(biāo)志物篩選與分子分型解決方案，敬請(qǐng)期待~

圖片7.png

【參考文獻(xiàn)】

[1] MANN M, KUMAR C, ZENG W F, et al. Artificial intelligence for proteomics and biomarker discovery [J]. Cell Syst, 2021, 12(8): 759-70.

[2] CARRASCO-ZANINI J, PIETZNER M, DAVITTE J, et al. Proteomic signatures improve risk prediction for common and rare diseases [J]. Nature Medicine, 2024.

聯(lián)系我們

電話：010-53395839
郵箱：service@qinglianbio.com
地址：北京市海淀永捷南路2號(hào)院1號(hào)樓
中關(guān)村科學(xué)城·鄉(xiāng)創(chuàng)中心

關(guān)于青蓮百奧: 企業(yè)介紹; 核心團(tuán)隊(duì); 發(fā)展歷程; 榮譽(yù)資質(zhì); 科研成果; 合作伙伴; 聯(lián)系我們

產(chǎn)品體系: 血漿蛋白質(zhì)組學(xué); 藥物靶點(diǎn)發(fā)現(xiàn); 時(shí)空蛋白質(zhì)組學(xué); 修飾定量蛋白質(zhì)組學(xué); 外泌體蛋白組學(xué); 多肽組學(xué); 多組學(xué)

解決方案: 常見問題; 下載專區(qū); 云平臺(tái)

掃碼關(guān)注微信公眾號(hào)

版權(quán)所有法律聲明

@2024北京青蓮百奧生物科技有限公司京ICP備17052224號(hào)

留言

您好，現(xiàn)在客服不在線，請(qǐng)留言。
如果沒有留下您的聯(lián)系方式，客服將無(wú)法和您聯(lián)系!

留下以下信息，方便與您及時(shí)聯(lián)系