與AI Co-Scientist一起加速科學突破

2025/2/20 下午2:09

與AI Co-Scientist一起加速科學突破

文/Juraj Gottweis(Google研究員)與Vivek Natarajan(研究主管)(發表於2025/2/19)

在追求科學進步的過程中,研究人員將聰明才智和創造力與基於文獻的洞察力和專業知識相結合,以產生新穎且可行的研究方向並指導隨後的探索。在許多領域,這代表著一個廣度和深度的難題,因為在整合不熟悉領域的見解的同時,駕馭科學出版物速度的快速增長是一項挑戰。然而,克服這些挑戰至關重要,跨學科努力中出現的許多現代突破就證明了這一點。例如,埃馬紐埃爾·卡彭蒂耶(Emmanuelle Charpentier)和詹妮弗·杜德納(Jennifer Doudna)因其在CRISPR方面的工作獲得了2020年諾貝爾化學獎,該研究融合了微生物學到遺傳學再到分子生物學等各方面的專業知識。

相關影片連結

受現代科學發現過程中未滿足的需求的推動,並基於最近的人工智慧進步,包括跨複雜主題的綜合能力和進行長期規劃和推理的能力,我們開發了一個人工智慧共同科學家系統。 AI Co-Scientist是一個多智慧體AI系統,旨在作為科學家的協作工具。AI Co-Scientist基於Gemini 2.0構建,旨在反映科學方法背後的推理過程。除了標準的文獻綜述、總結和「深度研究」工具之外,人工智慧聯合科學家系統還旨在發掘新的原創知識,並在先前證據的基礎上製定明顯新穎的研究假設和建議,並根據特定的研究目標進行量身定制。

與AI Co-Scientist一起賦能科學家並加速發現

根據科學家用自然語言指定的研究目標,人工智慧助理科學家將提出新穎的研究假設、詳細的研究概述和實驗方案。為了實現這一目標,它使用了一系列專門的代理——生成、反射、排名、進化、接近度和元評論——這些代理的靈感都來自科學方法本身。這些代理程式使用自動回饋來迭代生成、評估和改進假設,從而形成一個不斷自我完善的循環,產生越來越高品質和新穎的輸出。

該系統專為協作而設計,科學家可以透過多種方式與系統互動,包括直接提供自己用於探索的種子想法或以自然語言對生成的輸出提供回饋。人工智慧助理科學家也使用網路搜尋和專門的人工智慧模型等工具來增強所產生假設的基礎和品質。

AI Co-Scientist將指定的目標解析為研究計劃配置,由主管代理進行管理。主管代理將專門的代理分配到工作隊列,並分配資源。這種設計使系統能夠靈活地擴展計算,並朝著指定的研究目標不斷改進其科學推理。

AI 共同科學家系統概述。專門代理(紅色框,具有獨特的角色和邏輯);科學家的輸入和回饋(藍色框);系統資訊流(深灰色箭頭);代理間回饋(代理部分內的紅色箭頭)。

擴展測試時間計算以實現高級科學推理

人工智慧聯合科學家利用測試時間計算擴展來迭代推理、發展和改進輸出。關鍵的推理步驟包括基於自我博弈的科學辯論(用於產生新穎的假設)、排名錦標賽(用於假設比較)以及「進化」過程(用於品質改進)。系統的代理性質促進了遞歸的自我批評,包括使用回饋工具來完善假設和建議。

該系統的自我改進依賴於從其錦標賽中得出的Elo自動評估指標。由於它們的核心作用,我們評估了更高的Elo評級是否與更高的輸出品質相關。我們分析了Elo自動評分與GPQA基準準確度在其鑽石組挑戰性問題上的一致性,我們發現更高的Elo評分與更高的正確答案機率呈正相關。

AI Co-Scientist(藍線)和參考Gemini 2.0(紅線)對 GPQA 鑽石問題的回答的平均準確度,按Elo評級分組。Elo是一種自動評估,並非基於獨立的實際事實。

七位領域專家在其專業領域內策劃了15個開放的研究目標和最佳猜測解決方案。使用自動化Elo度量,我們觀察到,對於這些複雜問題,AI Co-Scientist的表現優於其他最先進的代理和推理模型。該分析重現了使用源自科學方法的歸納偏差來擴展測試時間計算的好處。隨著系統花費更多時間進行推理和改進,結果的自我評價品質得到提高並超越模型和無人協助的人類專家。

隨著系統花費更多時間進行計算,人工智慧助理科學家的表現也會隨之提高。我們可以從自動化Elo指標相對於其他基準的逐步改進中看出這一點。頂部:最佳評級假設的Elo進展。底部:前10個假設的平均值的Elo進程。

在11個研究目標的較小子集中,專家評估了AI Co-Scientist產生的成果與其他相關基線相比的新穎性和影響力;他們還提供了總體偏好。雖然樣本量很小,但專家評估了人工智慧共同科學家具有更高的創新性和影響力,並且與其他模型相比更喜歡其輸出。此外,這些人類專家的偏好似乎也與先前引入的Elo自動評估指標一致。

透過現實世界的實驗室實驗驗證新的人工智慧共同科學家假設

為了評估該系統的新預測的實用性,我們評估了端到端實驗室實驗,探討人工智慧共同科學家在三個關鍵生物醫學應用中提出的假設和研究建議:藥物再利用、提出新的治療目標以及闡明抗菌素抗藥性的潛在機制。這些設置都涉及專家的指導,並涉及一系列複雜性:

急性骨髓性白血病藥物再利用

藥物開發是一個越來越耗時且昂貴的過程,其中新療法需要針對每種適應症或疾病重新啟動發現和開發過程的許多方面。藥物再利用解決了這項挑戰,它透過發現現有藥物超出其原始預期用途的新治療應用來解決這一挑戰。但由於任務的複雜性,它需要廣泛的跨學科專業知識。

我們利用人工智慧助理科學家來協助預測藥物重新利用的機會,並與我們的合作夥伴一起透過計算生物學、專家臨床醫生回饋和身體實驗驗證預測。

值得注意的是,這位人工智慧聯合科學家提出了針對急性骨髓性白血病(AML) 的新型藥物再利用候選藥物。後續實驗驗證了這些建議,證實所建議的藥物在多種 AML 細胞系中以臨床相關濃度抑制腫瘤活力。

推進肝纖維化標靶發現

確定新的治療目標比藥物重新利用更為複雜,並且常常導致體外和體內實驗的假設選擇效率低下以及優先排序不佳。人工智慧輔助目標發現有助於簡化實驗驗證過程,從而可能有助於降低開發時間成本。

我們探討了人工智慧聯合科學家系統提出、排序和產生假設以及針對目標發現假設的實驗方案的能力,並著重於肝纖維化。人工智慧聯合科學家透過識別基於臨床前證據的表觀遺傳靶點,在人類肝器官(源自人體細胞的 3D、多細胞組織培養物,旨在模仿人體肝臟的結構和功能)中具有顯著的抗纖維化活性,證明了其潛力。這些發現將在史丹佛大學合作者領導的即將發表的報告中詳細說明。

解釋抗生素抗藥性的機制

作為第三次驗證,我們專注於提出假設來解釋與抗菌素抗藥性(AMR)相關的細菌基因轉移進化機制——微生物進化出抵抗感染治療藥物的機制。這是另一個複雜的挑戰,涉及了解基因轉移(結合、轉導和轉化)的分子機制以及驅動AMR基因傳播的生態和進化壓力。

在這次測試中,專家研究人員指示人工智慧聯合科學家探索一個在他們的團隊中已經有新發現但尚未在公共領域公開的課題,即解釋衣殼形成噬菌體誘導染色體島(cf-PICIs)如何存在於多種細菌物種中。AI Co-Scientist系統獨立提出,cf-PICI 與不同的噬菌體尾巴相互作用以擴大其宿主範圍。這項電腦模擬發現已在使用AI Co-Scientist系統之前進行的原始新實驗室實驗中得到實驗驗證,並在我們與弗萊明倡議和倫敦帝國學院的合作者同期撰寫的手稿(1、2)中進行了描述。這說明了人工智慧共同科學家系統作為輔助技術的價值,因為它能夠利用數十年來關於該主題的所有先前的開放獲取文獻的研究成果。

AI Co-Scientist重新發現新型基因轉移機制的時間表。藍色:cf-PICI動員發現的實驗研究管道時間表。紅色:AI Co-Scientist開發並重現這些關鍵發現(無需事先了解)。

局限性和展望

在我們的報告中,我們討論了該系統的幾個局限性和改進的機會,包括加強文獻綜述、事實核查、與外部工具交叉檢查、自動評估技術以及涉及更多具有不同研究目標的主題專家的更大規模評估。AI Co-Scientist的出現代表著人工智慧輔助技術的一個有希望的進步,可以幫助科學家加速發現。它能夠在不同的科學和生物醫學領域產生新的、可測試的假設——其中一些已經通過實驗驗證——並且它隨著計算能力的提高而進行遞歸自我改進的能力,證明了它有潛力加速科學家解決科學和醫學領域重大挑戰的努力。我們期待負責任地探索人工智慧助理科學家作為科學家輔助工具的潛力。該計畫展示了協作和以人為本的人工智慧系統如何增強人類的創造力並加速科學發現。

宣布可信測試人員可存取AI Co-Scientist系統

我們對AI Co-Scientist系統的早期前景感到興奮,並認為更廣泛地評估其在科學和生物醫學領域的優勢和局限性非常重要。為了負責任地促進這一點,我們將透過可信賴測試程序為研究機構提供對系統的存取。我們鼓勵世界各地有興趣的研究機構考慮加入該計劃。

文章原始出處


0 則留言