清研智庫:AI可能幫助應對下次大流行,但不是這次
如果我們希望AI在下次大傳染中有用,我們必須做一些我們可能不喜歡的改變。
AI首先看到了大傳染的來臨,或者故事就這樣了。 2019年12月30日,一家名為BlueDot的人工智慧公司使用機器學習來監視世界各地的傳染病暴發,并向包括政府,醫院和企業在內的客戶發出警報,提醒中國武漢的肺炎病例出現異常增加。9天后,被世界衛生組織正式標記為我們都知道的Covid-19。
并不是只有BlueDot一家公司發現了這一現象。波士頓兒童醫院的一項名為HealthMap的自動化服務也發現了這些最初的癥狀。正如位于舊金山的Metabiota運行的模型一樣。 AI可以發現世界另一端的爆發真是令人驚訝,預警可以挽救生命。
但是,AI在解決當前疫情方面究竟起到了多少作用?這是一個很難回答的問題。像BlueDot這樣的公司通常對向誰提供信息以及如何使用信息嚴格守口如瓶。人類團隊說,他們在與AI的同一天就發現了疫情。將AI用作診斷工具或用于幫助尋找疫苗的其他項目仍處于早期階段。即使成功,也需要花費時間(可能要數月),才能將這些創新掌握在需要它們的醫護人員手中。
炒作超越了現實。實際上,許多新聞報道中出現的敘述(AI是一種抗擊疾病的強大新武器)只是部分正確,并且可能適得其反。例如,過于相信AI可能導致錯誤的決策,以藥物計劃等經過驗證的干預為代價,將公共資金匯給未經證實的AI公司。這對于該領域本身也是不利的:過分的期望導致對AI的興趣大跌,并因此導致資金損失,這在過去不止一次。
因此,這是一個現實檢查:AI不會將我們從冠狀病毒中拯救出來-肯定不是這次。但是,如果我們做出一些重大改變,它很有可能在未來的傳染病中扮演更大的角色。大多數都不容易。有些我們不喜歡。
AI可以在三個主要領域提供幫助:預測,診斷和治療。
預測
諸如BlueDot和Metabiota之類的公司使用一系列自然語言處理(NLP)算法來監控世界各地不同語言的新聞媒體和官方醫療保健報告,并標記他們是否提及冠狀病毒等高優先級的疾病或更流行如艾滋病毒或結核病。他們的預測工具還可以利用空中旅行數據來評估中轉樞紐可能碰到感染者到達或離開的風險。
結果是相當準確的。例如,Metabiota在2月25日發布的最新公開報告預測,到3月3日,全球將有127,000例病例。但數據超了30,000,該公司數據科學總監Mark Gallivan表示,這仍然在誤差范圍之內。它還列出了最有可能報告新病例的國家,包括中國、意大利、伊朗和美國。再次印證了,不錯。
其他人也關注社交媒體。 Stratifyd是一家位于北卡羅來納州夏洛特市的數據分析公司,正在開發一種AI,該AI可以掃描Facebook和Twitter等網站上的帖子,并交叉引用來自美國國立衛生研究院、世界衛生組織等機構的疾病描述和動物健康部、全球微生物識別數據庫,用于存儲基因組測序信息。
這些公司的工作肯定令人印象深刻。它表明了近年來機器學習的發展。幾年前,Google嘗試通過Flu Tracker預測疫情,但由于未能預測當年的流感暴發,該產品在2013年被擱置了。發生了什么變化?這主要歸結為最新軟件具有資源監測范圍更廣的能力。
無監督機器學習也是關鍵。讓AI在嘈雜中識別自己的模式,而不是在預先選擇的示例上對其進行訓練,可以突出可能沒有想到要尋找的東西。 Stratifyd的首席執行官Derek Wang說“當你進行預測時,你正在尋找新的行為。”
但是如何處理這些預測? BlueDot的最初預測正確地指出了病毒路徑中的少數城市。這可以讓政府做好準備,向醫院發出警報并采取遏制措施。但是隨著傳染規模的擴大,預測變得越來越不具體。 Metabiota關于某些國家將在下周受到影響的警告可能是正確的,但很難知道該如何處理。
而且,隨著傳染病的發展,所有這些方法都將變得不那么準確,這在很大程度上是因為很難獲得關于Covid-19的AI所需的可靠數據。新聞來源和官方報道不一致。人們對癥狀以及病毒在人與人之間的傳播方式感到困惑。媒體可能會夸大其詞,政府可能會輕描淡寫。預測疾病可能從幾十個國家的數百個站點傳播到何處比與在疫情爆發頭幾天預測可能傳播的地方要困難得多。 Wang說:“嘈雜永遠是機器學習算法的大敵。”實際上,Gallivan承認,在前兩周,Metabiota更容易做出每日預測。
Gallivan表示,最大的障礙之一是缺乏診斷測試。他說:“理想情況下,我們進行一項測試能立即檢測出新型冠狀病毒,并至少每天對每個人進行一次測試。”我們不知道人們的行為——誰在家工作,誰自我隔離,誰正在洗手或不在洗手的行為—都可能產生影響。如果您想預測接下來會發生什么,則需要準確了解當前發生的情況。
不清楚醫院內部正在發生什么。數據和AI咨詢公司Pactera Edge的Ahmer Inam表示,如果許多國家(包括美國)不將公共衛生數據鎖定在政府機構內部,則預測工具會更好用。這意味著AI必須更多地依靠在線新聞等隨手可用的數據。他說:“當媒體發現潛在的新疾病時,已經為時已晚。”
但是,如果AI需要更多來自可靠來源的數據以在該領域中發揮作用,那么獲取它的策略可能會引起爭議。我與交談的幾個人強調了這種令人不舒服的折衷:為了從機器學習中獲得更好的預測,我們需要與公司和政府共享更多的個人數據。
Apixio的總經理兼首席執行官Darren Schulte建立了一個從患者病歷中提取信息的AI,他認為應該開放美國各地的病歷進行數據分析。這可能使AI可以自動識別由于潛在疾病而受Covid-19威脅最大的個人。然后,資源可以集中于最需要這些資源的人。 Schulte說,存在讀取患者記錄并提取救生信息的技術。問題在于,這些記錄分散在多個數據庫中,并由不同的健康服務進行管理,這使得它們更難分析。他說:“我想將AI投入到如此龐大的數據海洋中, 但是我們的數據位于小湖中,而不是大海洋中。”
Inam認為還應該在國家之間共享健康數據,病毒不在地緣政治范圍內運作。他認為,國際協議應迫使各國發布有關診斷和住院情況的實時數據,然后可以將其提供給全球流行的大流行機器學習模型。
當然,這可能是一廂情愿的想法。世界不同地區對醫療數據有不同的隱私法規。我們中的許多人已經不愿讓第三方訪問我們的數據。新的數據處理技術,例如差異隱私和對合成數據而非真實數據的識別訓練,可能會為這場辯論提供一條途徑。但是這項技術仍在完善中。在達成國際標準的協議上將花費更多的時間。
目前,我們必須充分利用我們擁有的數據。 Wang的答案是要確保在人們周圍解釋什么是機器學習模型,并確保丟棄不正確的預測。如果一個人過于樂觀或依賴完全自主的預測模型,那將是有問題的。人工智能可以在數據中找到隱藏的信號,但是人類必須將點連接起來。
早期診斷
除了預測傳染病的進程外,許多人希望AI可以幫助識別感染者。AI在這里擁有良好的記錄。用于檢查醫學圖像的機器學習模型可以捕獲人類醫生錯過的疾病的早期征兆,從眼疾到心臟病到癌癥。但是這些模型通常需要大量數據來學習。
在過去的幾周中,網上已經發布了幾篇預印本論文,暗示如果機器學習可以訓練圖像中明顯的疾病跡象,則可以從肺組織的CT掃描中診斷出Covid-19。挪威卑爾根的西方挪威應用科學大學的AlexanderSelvikv?gLundervold是機器學習和醫學成像方面的專家,他說,我們應該期望AI最終能夠檢測出患者中感染Covid-19的體征。但是尚不清楚成像是否是必經之路。一方面,疾病的體征可能要等到感染后的一段時間才能顯示出來,這使其不能作為早期診斷使用。
更重要的是,由于到目前為止尚無足夠的訓練數據,因此很難評估在線發布方法的準確性。大多數圖像識別系統(包括經過醫學圖像訓練的圖像識別系統)都改編自在ImageNet上訓練的模型,ImageNet是包含數百萬張日常圖像廣泛使用的數據集。 Lundervold說:“要對類似于ImageNet數據的簡單事物進行分類,例如狗和貓的圖像,就可以完成。” “醫學圖像中的細微發現,沒有那么多。”
這并不是說不會發生,而且可以構建AI工具來檢測未來爆發的疾病的早期階段。但是,我們應該對AI醫生今天診斷Covid-19的許多說法持懷疑態度。同樣,共享更多的患者數據將有所幫助,機器學習技術也將有所幫助,即使在數據很少的情況下,也可以對模型進行訓練。例如,極短時間的學習(AI只能從少數幾個結果中學習模式)以及轉移學習(已被訓練完成一件事的AI可以迅速適應類似的事情)的轉移學習很有希望取得進步,但仍然在進行中。
治愈一切
如果AI要幫助開發疾病的治療方法,數據必不可少。識別可能的候選藥物的一種技術是使用生成設計算法,該算法會產生大量潛在結果,然后對其進行篩選以突出顯示那些更值得仔細研究的結果。例如,該技術可用于快速搜索數百萬個生物或分子結構。
SRI International正在使用這種AI工具進行協作,該工具使用深度學習來生成許多新穎的候選藥物,科學家隨后可以評估其功效。這是改變藥物發現的游戲規則,但要使其成為可行的治療方法仍需花費數月的時間。
從理論上講,AI也可以用于預測冠狀病毒的進化。 Inam設想運行無監督的學習算法來模擬所有可能的進化路徑。然后,您可以將潛在的疫苗添加到混合物中,查看病毒是否突變以產生抗藥性。他說:“這將使病毒學家比病毒領先幾步,并在出現任何世界末日突變的情況下創造疫苗。”
這是一種令人興奮的可能性,但也是遙不可及。我們還沒有足夠的有關病毒變異的信息,因此這次無法進行模擬。
同時,最終的障礙可能是負責人。 Wang說:“我最想改變的是決策者與AI之間的關系。”AI將無法自行預測疾病暴發,無論它獲得多少數據。讓政府\企業和醫療保健領域的領導者信任這些工具將從根本上改變我們對疾病暴發做出反應的速度。但是,這種信任需要來自現實的觀點,即人工智能現在可以做什么和不能做什么,以及下次可能使它變得更好。
充分利用AI會花費大量數據、時間以及許多不同人之間的智能協作。目前所有這些都供不應求。
本文作者Will Douglas Heaven,本文原載與MIT科技評論,清研智庫李梓涵編譯。