由于醫(yī)療大數(shù)據(jù)涉及到電子病歷、醫(yī)學(xué)影像、醫(yī)院視頻等多種類型的數(shù)據(jù),下面針對(duì)不同類型的數(shù)據(jù)對(duì)象,簡(jiǎn)要介紹醫(yī)療大數(shù)據(jù)分析的關(guān)鍵技術(shù)。
1.面向醫(yī)療電子病歷的結(jié)構(gòu)化信息抽取
電子病歷(ElectronicMedicalRecord,EMR)是指醫(yī)務(wù)人員在醫(yī)療活動(dòng)過(guò)程中,利用電子設(shè)備生成的文字、符號(hào)、圖表、圖形、數(shù)據(jù)、影像等不同種類的數(shù)字化醫(yī)療信息,實(shí)現(xiàn)存儲(chǔ)、管理、傳輸和重現(xiàn)的醫(yī)療記錄,并蘊(yùn)含著富有價(jià)值的信息。自由文本形式是電子病歷數(shù)據(jù)的主要格式,沒(méi)有嚴(yán)格的語(yǔ)法和句法結(jié)構(gòu),且包含大量名詞縮寫和名詞短語(yǔ),甚至還存在醫(yī)生書寫記錄時(shí)的拼寫錯(cuò)誤,是典型的非(半)結(jié)構(gòu)化數(shù)據(jù)。面向電子病歷的結(jié)構(gòu)化信息抽取,主要涉及醫(yī)療命名實(shí)體及其屬性識(shí)別、醫(yī)療知識(shí)圖譜構(gòu)建和醫(yī)療知識(shí)圖譜應(yīng)用等幾個(gè)方面。
醫(yī)療命名實(shí)體識(shí)別的主要任務(wù)包括:①疾病、癥狀、手術(shù)、醫(yī)療檢查等醫(yī)療命名實(shí)體的識(shí)別;②相關(guān)命名實(shí)體的屬性識(shí)別,核心在于否定觸發(fā)詞的探測(cè)(NegationDetection)與識(shí)別,例如某疾病史的有無(wú)、某癥狀的程度等;③命名實(shí)體之間的關(guān)聯(lián)分析,利用不同命名實(shí)體或概念之間的共現(xiàn)關(guān)系,建立命名實(shí)體之間的聯(lián)系。目前,醫(yī)療命名實(shí)體識(shí)別主要利用自然語(yǔ)言處理、信息抽取等技術(shù)對(duì)電子病歷文本進(jìn)行分析,命名實(shí)體抽取一般采用基于詞典和規(guī)則的方法,基于隱馬爾科夫模型、SVM等機(jī)器學(xué)習(xí)方法。
醫(yī)療知識(shí)圖譜構(gòu)建,是指在醫(yī)療命名實(shí)體及其屬性信息抽取的基礎(chǔ)上,構(gòu)建不同命名實(shí)體之間的關(guān)聯(lián)模型,現(xiàn)有的主要方法包括馬爾可夫隨機(jī)場(chǎng)、貝葉斯網(wǎng)絡(luò)等概率圖模型方法。
醫(yī)療知識(shí)圖譜應(yīng)用,則是利用醫(yī)療知識(shí)圖譜,面向醫(yī)療的實(shí)際應(yīng)用需求,建立掛號(hào)咨詢、醫(yī)療輔助診斷、疾病治療預(yù)案等實(shí)際應(yīng)用系統(tǒng)。
2.面向醫(yī)學(xué)影像的數(shù)據(jù)分析
隨著信息技術(shù)及醫(yī)學(xué)影像技術(shù)的發(fā)展,醫(yī)學(xué)圖像處理在臨床中發(fā)揮著越來(lái)越重要的作用,對(duì)推動(dòng)醫(yī)學(xué)科學(xué)研究和臨床的進(jìn)步發(fā)揮了重要作用。
面向醫(yī)學(xué)影像的數(shù)據(jù)分析研究重點(diǎn)在于如何利用圖像分析理論和方法成果,結(jié)合臨床醫(yī)學(xué)的實(shí)際需求,探索面向醫(yī)學(xué)影像分析的新方法、新技術(shù),進(jìn)而實(shí)現(xiàn)高效定量分析與可視化,降低疾病診斷與治療的盲目性和不可靠性,為臨床醫(yī)生準(zhǔn)確診斷,快速地制定治療方案和有效地評(píng)估治療效果提供重要支持。
目前的研究主要集中在兩個(gè)方面:一是醫(yī)學(xué)影像處理研究包括醫(yī)學(xué)影像的增強(qiáng)、分割、配準(zhǔn)、融合以及三維重建等,這些技術(shù)為醫(yī)學(xué)影像數(shù)據(jù)應(yīng)用提供技術(shù)支撐;二是醫(yī)學(xué)圖像的分析,通過(guò)對(duì)醫(yī)學(xué)影像的模式識(shí)別與分類,實(shí)現(xiàn)對(duì)醫(yī)學(xué)圖像的自動(dòng)標(biāo)注,并根據(jù)圖像的特征及標(biāo)簽為圖像建立索引,以實(shí)現(xiàn)后期用戶的圖像檢索任務(wù)。
3.面向醫(yī)院監(jiān)控視頻的智能分析
隨著視頻監(jiān)控技術(shù)和物聯(lián)網(wǎng)技術(shù)的發(fā)展,目前各個(gè)醫(yī)院安裝了大量攝像頭,尤其在住院病房,通過(guò)視頻監(jiān)控可以對(duì)病人的異常行為、醫(yī)護(hù)人員的日常工作等進(jìn)行實(shí)時(shí)監(jiān)控。
傳統(tǒng)的視頻監(jiān)控系統(tǒng)主要用于日常調(diào)度和事后取證,需要專人監(jiān)控并分析監(jiān)控畫面,成本高昂且效率低下。
近年來(lái),面向醫(yī)院的智能視頻監(jiān)控系統(tǒng)的研究、設(shè)計(jì)和實(shí)現(xiàn)已經(jīng)引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。2013年,美國(guó)CMU的CAREMEDIA項(xiàng)目,將智能視頻監(jiān)控系統(tǒng)應(yīng)用于監(jiān)護(hù)中心,該系統(tǒng)可以自動(dòng)識(shí)別醫(yī)護(hù)人員和患者的日常行為(如行走、交談、診斷、肢體沖突等),并對(duì)異常行為實(shí)時(shí)預(yù)警。
4.醫(yī)療大數(shù)據(jù)的數(shù)據(jù)治理體系
醫(yī)療大數(shù)據(jù)涉及的數(shù)據(jù)類型多樣,數(shù)據(jù)覆蓋面廣,服務(wù)用戶多樣,如何構(gòu)建以病人、醫(yī)生、醫(yī)院和政府等多中心的數(shù)據(jù)治理體系,進(jìn)而面向不同的用戶提供不同的數(shù)據(jù)視圖和分析結(jié)果,也是醫(yī)療大數(shù)據(jù)研究中的重要問(wèn)題。
在現(xiàn)有醫(yī)院各類信息系統(tǒng)(HIS、PACS等)的基礎(chǔ)上,構(gòu)建面向分析的數(shù)據(jù)環(huán)境是實(shí)現(xiàn)大數(shù)據(jù)分析的前提。一方面,從數(shù)據(jù)驅(qū)動(dòng)出發(fā),在數(shù)據(jù)層面上,實(shí)現(xiàn)面向主題(Subject-oriented)的數(shù)據(jù)組織、多個(gè)不同數(shù)據(jù)源的數(shù)據(jù)集成、反映醫(yī)療數(shù)據(jù)的時(shí)空變化的數(shù)據(jù)環(huán)境,是醫(yī)療大數(shù)據(jù)組織存儲(chǔ)的基本要求;另一方面,從平臺(tái)層面出發(fā),需要利用云技術(shù),構(gòu)建新的運(yùn)行環(huán)境,滿足海量數(shù)據(jù)的存儲(chǔ)要求。目前,國(guó)內(nèi)在該方面的研究亟待加強(qiáng)。
醫(yī)療數(shù)據(jù)中包含大量的患者個(gè)人的隱私信息,該數(shù)據(jù)的擴(kuò)散性使用非常容易導(dǎo)致隱私信息的泄露,一旦發(fā)生數(shù)據(jù)隱私泄露,將損害患者人格和尊嚴(yán),甚至給患者的健康或者生活帶來(lái)不良的影響。國(guó)內(nèi)外針對(duì)醫(yī)療數(shù)據(jù)的隱私保護(hù)研究主要從法律和技術(shù)兩個(gè)方面展開。技術(shù)層面上,常用的有基于訪問(wèn)控制的技術(shù)、基于匿名化的技術(shù)和基于數(shù)據(jù)加密的技術(shù)等。
近年來(lái),隱私保護(hù)和隱私攻擊模型同步發(fā)展,對(duì)各類方法的有效性提出了嚴(yán)峻挑戰(zhàn)。近期以差分隱私保護(hù)為代表的新的研究方向,成為面向醫(yī)療信息發(fā)布的隱私保護(hù)方法的主流,該方法不關(guān)心攻擊者擁有多少背景知識(shí),通過(guò)向查詢或者分析結(jié)果中添加適當(dāng)噪音來(lái)達(dá)到隱私保護(hù)。
醫(yī)療大數(shù)據(jù)面臨的主要挑戰(zhàn)
目前,醫(yī)療大數(shù)據(jù)的研究和應(yīng)用剛剛起步,眾多的研究仍然處于實(shí)驗(yàn)階段,存在著一些挑戰(zhàn)。其中數(shù)據(jù)質(zhì)量差和不確定度量是典型問(wèn)題。
1.數(shù)據(jù)質(zhì)量
目前醫(yī)療數(shù)據(jù)的來(lái)源主要為醫(yī)療機(jī)構(gòu)(例如醫(yī)院、醫(yī)學(xué)藥學(xué)實(shí)驗(yàn)室、醫(yī)療康復(fù)中心等)和互聯(lián)網(wǎng)。采集的數(shù)據(jù)范圍廣、維度高、類型種類繁多且不針對(duì)特定的問(wèn)題。
首先,從數(shù)據(jù)量的角度來(lái)看,醫(yī)療行業(yè)的數(shù)據(jù)量與互聯(lián)網(wǎng)搜索及消費(fèi)等行業(yè)PB級(jí)別的大數(shù)據(jù)仍有一定差距。即使公共衛(wèi)生與醫(yī)療健康的數(shù)據(jù)量在不斷增長(zhǎng),然而由于目前國(guó)內(nèi)十分缺乏醫(yī)療健康信息的合理接口,導(dǎo)致醫(yī)療數(shù)據(jù)的采集與應(yīng)用嚴(yán)重脫節(jié),醫(yī)療數(shù)據(jù)還未真正釋放潛能。另外,大數(shù)據(jù)的相關(guān)技術(shù)(例如NoSQL等),在短時(shí)間內(nèi)不太可能進(jìn)入到醫(yī)院的主流技術(shù)中。
其次,從數(shù)據(jù)質(zhì)量的角度來(lái)看,醫(yī)療數(shù)據(jù)的采集由于缺乏統(tǒng)一的標(biāo)準(zhǔn)或標(biāo)準(zhǔn)未及時(shí)更新(例如醫(yī)院之間、科室之間標(biāo)準(zhǔn)不一等),以及采集人員的主觀錯(cuò)誤或數(shù)據(jù)采集系統(tǒng)本身的設(shè)計(jì)問(wèn)題,導(dǎo)致其中存在大量的不確定性。例如采集某感冒發(fā)燒患者的癥狀信息時(shí),假設(shè)患者為感冒發(fā)燒狀態(tài),在記錄患者狀態(tài)時(shí),使用“發(fā)燒”和“體溫37.5°C”在語(yǔ)義上存在一定差異,這種語(yǔ)義信息差異會(huì)給最終的數(shù)據(jù)挖掘和模式分類模型帶來(lái)偏差。另外,統(tǒng)計(jì)獲得的數(shù)據(jù)分布很可能在其統(tǒng)計(jì)過(guò)程中被人為改變,而導(dǎo)致估計(jì)出的數(shù)據(jù)分布失真或者實(shí)際的數(shù)據(jù)分布根本無(wú)法獲得,導(dǎo)致最終的統(tǒng)計(jì)學(xué)習(xí)模型不可靠。
2.不確定性的度量問(wèn)題
目前比較成熟且進(jìn)入實(shí)用階段的大數(shù)據(jù)模型多數(shù)都是面向藥廠和保險(xiǎn)公司的。美國(guó)的醫(yī)療大數(shù)據(jù)應(yīng)用中,面向醫(yī)生和患者業(yè)務(wù)通常較難,很難找到合適的切入點(diǎn)。面向企業(yè)的業(yè)務(wù)相對(duì)容易,尤其是針對(duì)保險(xiǎn)公司和藥廠,而醫(yī)院則相對(duì)難一些。由于大數(shù)據(jù)模型精度有限,在安全性要求極高的醫(yī)院和醫(yī)生中其實(shí)用價(jià)值非常有限,例如,一個(gè)95%準(zhǔn)確度的模型對(duì)醫(yī)生來(lái)說(shuō)可能仍然不夠精確,因?yàn)獒t(yī)生在決策時(shí)是針對(duì)患者個(gè)體的,而不是基于統(tǒng)計(jì)意義的。
模型本身的誤差度量準(zhǔn)則是否具有統(tǒng)計(jì)學(xué)理論的支持以及背后的統(tǒng)計(jì)學(xué)意義也值得商榷。在傳統(tǒng)的生物統(tǒng)計(jì)學(xué)中,如果基于完備的統(tǒng)計(jì)理論可以構(gòu)造出準(zhǔn)確刻畫模型的統(tǒng)計(jì)量,那么在很少的樣本量下,模型也可以達(dá)到很高的置信水平。在統(tǒng)計(jì)學(xué)習(xí)模型中,希望數(shù)據(jù)的規(guī)模較大,所以需要新的誤差度量準(zhǔn)則。比如在決策樹中,使用基尼不純度(GiniImpurity)來(lái)判斷哪個(gè)特征對(duì)數(shù)據(jù)的區(qū)分度更大,最終獲得最簡(jiǎn)單高效的分類或回歸決策樹,這里的基尼不純度和統(tǒng)計(jì)學(xué)中的AU-ROC和Mann-Whitney-U檢驗(yàn)十分類似,但兩者之間細(xì)微的差別是否會(huì)導(dǎo)致在大規(guī)模數(shù)據(jù)集上的巨大偏差有待考量。
另外,統(tǒng)計(jì)學(xué)習(xí)模型的可解釋性也較差,往往只有統(tǒng)計(jì)學(xué)家和計(jì)算機(jī)科學(xué)家才能精確完整地解釋模型,而對(duì)于模型真正的使用者如醫(yī)生和政府官員等存在巨大的障礙。
醫(yī)療大數(shù)據(jù)的應(yīng)用案列
下面,簡(jiǎn)要介紹一下醫(yī)療大數(shù)據(jù)在計(jì)算流行病學(xué)和藥物學(xué)領(lǐng)域的研究進(jìn)展。
1.醫(yī)療大數(shù)據(jù)在計(jì)算流行病學(xué)研究的進(jìn)展
計(jì)算流行病學(xué)是從傳統(tǒng)流行病學(xué)延伸出來(lái)的利用數(shù)學(xué)方法、計(jì)算機(jī)模型的新型交叉學(xué)科,其目的主要是識(shí)別和控制疾病在人群中的時(shí)間與空間維度上的擴(kuò)散、發(fā)展問(wèn)題。
從研究?jī)?nèi)容來(lái)分,計(jì)算流行病學(xué)主要分為以下6個(gè)方面:①預(yù)測(cè)流行病的發(fā)病率;②識(shí)別流行病易感人群;③評(píng)估可獲得的干預(yù)方法;④估計(jì)干預(yù)方法可實(shí)施的概率;⑤從流行病發(fā)展、控制中學(xué)習(xí)經(jīng)驗(yàn)教訓(xùn);⑥促進(jìn)公眾對(duì)流行病的認(rèn)知。
除以上研究?jī)?nèi)容外,計(jì)算流行病學(xué)還關(guān)注研究疾病是否引起生理退化(例如阿爾茲海默綜合癥、輕度認(rèn)知障礙、青光眼等),疾病是否發(fā)展且發(fā)展過(guò)程是否可控(例如青光眼、脂肪肝等),疾病是否可完全治愈或部分治愈(例如創(chuàng)傷性腦損傷、脂肪肝等),等等。
從研究目標(biāo)來(lái)分,計(jì)算流行病學(xué)主要分為以下3個(gè)方面:①識(shí)別引發(fā)疾病的風(fēng)險(xiǎn)因子及抑制疾病的保護(hù)因子(如生活方式、用藥史、基因等);②干預(yù)措施對(duì)患者健康狀態(tài)的影響以及對(duì)疾病發(fā)展的控制情況;③疾病發(fā)展模式及其影響因素,患者健康狀態(tài)及其影響因素。
醫(yī)療大數(shù)據(jù)在計(jì)算流行病學(xué)研究中的成功應(yīng)用很多。U.Niemann等通過(guò)隨機(jī)抽樣方法獲得縱向遺傳病樣本數(shù)據(jù),共578例,學(xué)習(xí)分類和預(yù)測(cè)具體的特征因素變量引起脂肪肝的可能性。A.I.Rughani等基于入院記錄和物理檢查結(jié)果數(shù)據(jù)構(gòu)建了30個(gè)帶負(fù)采樣的人工神經(jīng)網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)病人因創(chuàng)傷性腦損傷而入院后的生還概率。Z.F.Siddiqui等通過(guò)使用截面數(shù)據(jù)評(píng)價(jià)創(chuàng)傷性腦損傷病人在臨床治療后認(rèn)知能力的恢復(fù)情況。
2.醫(yī)療大數(shù)據(jù)在藥物學(xué)研究的進(jìn)展
藥物學(xué)是目前醫(yī)療大數(shù)據(jù)挖掘領(lǐng)域發(fā)展較為成熟的一個(gè)方向。在藥物學(xué)研究中有以下兩個(gè)問(wèn)題目前最受關(guān)注。
(1)藥物安全學(xué):藥物安全學(xué)是目前醫(yī)療大數(shù)據(jù)領(lǐng)域研究比較廣泛的一個(gè)方向。簡(jiǎn)單來(lái)說(shuō)就是從海量EMR數(shù)據(jù)中識(shí)別藥物不良反應(yīng)(adversedrugreaction)和藥物相互作用(drug-druginteraction),來(lái)彌補(bǔ)因?yàn)闃颖揪窒拊谂R床試驗(yàn)中未能發(fā)現(xiàn)的藥物治療問(wèn)題,最終目標(biāo)是使藥廠制出療效更好的藥,醫(yī)生開出更安全合理的藥方。
一方面,藥物數(shù)據(jù)容易從醫(yī)學(xué)實(shí)驗(yàn)室和藥廠獲得,且多為易理解和處理的結(jié)構(gòu)化數(shù)據(jù);另一方面,藥物制造背后巨大的商業(yè)利益驅(qū)使。在美國(guó)的科研機(jī)構(gòu)、藥廠以及類似IBM這樣的技術(shù)公司都有大量專業(yè)人士從事與生物醫(yī)藥開發(fā)相關(guān)的工作。
(2)個(gè)性化藥事服務(wù):個(gè)性化藥事服務(wù)是指根據(jù)一個(gè)人特有的生理狀況(如基因、器官結(jié)構(gòu)等)、病理狀況(疾病發(fā)展周期、多疾病復(fù)合等)甚至心理狀況為患者量身定制一個(gè)合理且高效的醫(yī)療方案。
結(jié)語(yǔ)
隨著醫(yī)療信息化、醫(yī)療物聯(lián)網(wǎng)和健康云的發(fā)展,醫(yī)療行業(yè)進(jìn)入大數(shù)據(jù)時(shí)代。醫(yī)療大數(shù)據(jù)挖掘?qū)τ诟倪M(jìn)醫(yī)療診治服務(wù)、提升醫(yī)療效率、降低醫(yī)療成本、提高全民健康水平等提供重要的技術(shù)支撐。醫(yī)療大數(shù)據(jù)在數(shù)據(jù)分析和隱私保護(hù)等關(guān)鍵技術(shù)領(lǐng)域取得了長(zhǎng)足的進(jìn)展,但是在數(shù)據(jù)質(zhì)量、不確定性問(wèn)題等方面還面臨著眾多挑戰(zhàn)。
更多資訊敬請(qǐng)關(guān)注智造家行業(yè)資訊頻道
網(wǎng)友評(píng)論 共 0 條評(píng)論
智造家提示:你現(xiàn)在瀏覽的網(wǎng)站是鏡像網(wǎng)站
請(qǐng)?jiān)L問(wèn)原網(wǎng)站:tsif.cn