麻省理工學院的一項新研究發現,「健康知識圖表」顯示症狀和疾病之間的關係,旨在幫助臨床診斷,但對於某些情況和患者群體來說可能會有所欠缺。結果還提出了提高他們表現的方法。
健康知識圖表通常由專業臨床醫生手工編制,但這可能是乙個費力的過程。最近,研究人員嘗試從患者資料中自動生成這些知識圖表。麻省理工學院團隊一直在研究這些圖表在不同疾病和患者群體中的支援程度。
在2023年太平洋生物計算研討會上發表的一篇**中,研究人員評估了基於真實資料集自動生成的健康知識圖表,該資料集包括270,000多名患有近200種疾病和770多種症狀的患者。
該小組分析了各種模型如何使用電子健康記錄(ehr)資料,包括患者的醫療和**史,來自動「學習」疾病症狀相關的模式。他們發現,對於老年或年輕患者比例高,或男性或女性患者比例高的疾病,模型表現尤其差——但是為正確的模型選擇正確的資料,並進行其他修改,可以提高效能。
這個想法是在使用電子健康記錄構建健康知識圖表時,就資料集大小、模型規範和效能之間的關係為研究人員提供指導。這可能會帶來更好的工具來幫助醫生和患者做出醫療決策,或者尋找疾病和症狀之間的新關係。
「在過去的10年裡,ehr在醫院的使用率飛速上公升,所以我們希望挖掘出大量的資料來學習這些疾病症狀關係的圖表,」第一作者艾琳·陳說,她是eecs電氣工程和電腦科學系的研究生。「我們必須仔細檢查這些圖表,以便將其用作診斷工具的第一步。」
麻省理工學院電腦科學和人工智慧實驗室(csail)的研究生莫尼卡·阿格拉瓦爾也加入了陳的討論;貝絲·伊斯雷爾女執事醫療中心(bidmc)的史蒂文·霍恩;和eecs教授大衛·桑塔格,他是csail和醫學工程與科學研究所的成員,也是臨床機器學習小組的組長。
病人和疾病
在健康知識圖表中,有數百個節點,每個節點代表不同的疾病和症狀。邊緣(線條)將疾病節點(如「糖尿病」)與相關症狀節點(如「過度口渴」)連線起來眾所周知,谷歌在2023年推出了自己的版本,該版本由幾名臨床醫生在數百小時內手工策劃,被認為是**標準。當你現在搜尋一種疾病時,系統會顯示相關症狀。
在2023年自然科學報告**、桑塔格、霍恩和其他研究人員在他們當前的研究中利用了來自同樣270,000名患者的資料——這些資料來自2023年至2023年間bidmc的急診科——來構建健康知識圖表。他們使用三種模型結構來生成圖表,稱為邏輯回歸、樸素貝葉斯和雜訊或。利用谷歌提供的資料,研究人員將他們自動生成的健康知識圖與谷歌健康知識圖進行了比較。研究人員的圖表表現非常好。
在他們的新工作中,研究人員進行了嚴格的誤差分析,以確定模型對哪些特定病人和疾病表現不佳。此外,他們嘗試從急診室之外用更多的資料來擴充模型。
在一項測試中,他們將資料分解成疾病和症狀的亞群。對於每乙個模型,他們研究了疾病和所有可能症狀之間的聯絡,並與ghkg進行了比較。在這篇**中,他們將這些發現分為50種表現最差的疾病和50種表現最好的疾病。表現不佳的例子有多囊卵巢症候群(影響女性)、過敏性哮喘(非常罕見)和前列腺癌(主要影響老年男性)。高績效者是更常見的疾病和病症,如心律不齊和足底筋膜炎,即足部組織腫脹。
他們發現,對於幾乎所有的疾病和病人來說,雜訊或模型是最強有力的總體誤差模型。但是對於患有多種並存疾病和並存症狀的患者,以及非常年輕或85歲以上的患者,所有模型的準確性都有所下降。任何性別比例很高或很低的患者群體的表現也會受到影響。
研究人員假設,本質上,不良表現是由具有異常**能力的患者和疾病以及潛在的無法測量的混雜因素造成的。例如,老年患者比年輕患者更容易進入疾病和相關症狀較多的醫院。陳說,這意味著模型很難將特定疾病與特定症狀聯絡起來。「同樣,」她補充道,「年輕患者沒有太多的疾病或症狀,如果他們有罕見的疾病或症狀,就不會以模型理解的正常方式出現。」
拆分資料
研究人員還收集了更多的患者資料,並建立了三個不同粒度的不同資料集,看看這是否能提高效能。對於原始分析中使用的270,000次訪問,研究人員提取了140,804名獨特患者的完整ehr病史,追溯到十年前,共有來自不同**的大約740萬份注釋,例如醫生筆記。
資料集建立過程中的選擇也會影響模型效能。其中乙個資料集將140,400個病歷中的每乙個彙總為乙個資料點。另乙個資料集將740萬個注釋中的每乙個視為單獨的資料點。最後乙個為每個患者建立「發作」,定義為連續的一系列訪問,不間斷超過30天,總共產生大約140萬次發作。
直觀地說,將完整的患者歷史彙總到乙個資料點的資料集應該會帶來更高的準確性,因為會考慮到整個患者歷史。然而,與直覺相反,這也導致樸素貝葉斯模型在某些疾病中表現更差。「你假設機器學習模式下,患者體內的資訊越多越好。但是這些模型取決於你提供給它們的資料的粒度,」陳說。「你使用的模型型別可能會被淹沒.」
正如預期的那樣,提供模型人口統計資訊也是有效的。例如,模型可以使用這些資訊排除所有男性患者,例如**宮頸癌。老年患者更常見的某些疾病可以在年輕患者中消除。
但是,另乙個令人驚訝的是,人口統計資訊並沒有提高最成功的模型的效能,所以收集這些資料可能是不必要的。陳說,這很重要,因為在資料上編譯資料和訓練模型既昂貴又耗時。然而,根據模型的不同,使用大量資料實際上可能不會提高效能。
接下來,研究人員希望利用他們的發現建立乙個健壯的模型,用於臨床應用。目前,健康知識圖表學習疾病和症狀之間的關係,但不能從症狀中直接**疾病。「我們希望任何**模型和醫學知識圖表都將接受壓力測試,這樣臨床醫生和機器學習研究人員可以自信地說,『我們相信這是乙個有用的診斷工具。』」陳說。
攝影測量與計算機視覺的聯絡與區別
攝影測量是測繪學科的乙個分支,它是對由攝影機提取的影像 二維 進行量測,測定物體在三維空間的位置 形狀 大小 乃至物體的運動。攝影測量在近百年的歷史中經歷了 模擬 解析與數字攝影測量三個階段。當被測物體的尺寸或攝影距離小於 100公尺 時的攝影測量稱之為近景攝影測量 close range phot...
幾種計算機字元編碼的區別與聯絡
最近有點心不在焉,好多考試,課本不想看,考研資料懶得翻,總不能白白浪費時間吧,不妨把折磨人好長時間的編碼問題總結一下。3,2,1,走起!ascii和ascii擴充套件字符集 很久以前,有一群人,他們決定用8個可以開合的電晶體來組合成不同的狀態,以表示世界上的萬物。他們看到8個開關狀態是好的,於是他們...
計算機網路中TCP與DUP的聯絡和區別
面向連線的tcp 面向連線 就是在正式通訊前必須要與對方建立起連線。比如你給別人打 必須等線路接通了 對方拿起話筒才能相互通話。tcp transmission control protocol,傳輸控制協議 是基於連線的協議,也就是說,在正式收發資料前,必須和對方建立可靠的連線。乙個tcp連線必須...