科研助手WaterScholar水科學操作界面。 受訪者供圖
2024年9月,全球首個多模態(tài)地理科學大模型“坤元”發(fā)布,圖為“坤元”運行機房。新華社記者 李鑫攝
工作人員介紹文心產業(yè)級知識增強大模型。受訪者供圖
【深瞳工作室出品】
采寫:本報記者 孫明源 華 凌
徐慶群
策劃:趙英淑 滕繼濮
只需輸入一段文字,電腦便會將其轉化成栩栩如生的畫面;只需問一句“哪里的飯好吃”,導航軟件就能帶你吃遍當地風味……大模型通常具有高度的通用性和廣泛的適用性,已經在自然語言處理、圖像識別和語音識別等眾多領域大放異彩。
然而,這僅是人工智能大模型應用的“冰山一角”。尤其是在科研領域,其無限潛能還有待深入挖掘。
2024年12月7日,地球科學領域垂直大模型——“元古大模型”在中國地質大學(武漢)發(fā)布,可對古生物化石進行復原。去年9月,在北京發(fā)布的全球首個多模態(tài)地理科學大模型“坤元”因具備處理地理科學相關問題的專業(yè)能力,被稱為“智能地理學家”。
“科學大模型或許可以引發(fā)科研范式和方法上的革命?!?北京智源人工智能研究院(以下簡稱“智源研究院”)院長王仲遠告訴記者,科學大模型作為一種新興工具,目前尚未在高校、科研院所以及企業(yè)進行大范圍應用,除了技術層面的原因,其推廣還面臨諸多挑戰(zhàn)。
賦能科學研究
大模型參與科研活動的基本原理是什么?用一個詞來回答,就是“模擬”。正如語言大模型可以模擬語言文本信息一樣,科學大模型旨在模擬復雜的科學現(xiàn)象。
中國空氣動力學研究與發(fā)展中心研究員錢煒祺介紹,廣義的大模型,是指具有大量參數和復雜結構的深度學習模型。參考目前業(yè)界主流觀點,可將大模型分為大語言模型、視覺大模型和科學大模型。
其中,科學大模型主要處理和分析數值、科學領域數據,對其理解物理規(guī)律和知識生成的能力。“相比語言和視覺信息,科學數據通常具有超高維度、非線性、強空間差異性等特點,為此大模型需要理解的物理現(xiàn)象極其復雜。相較于大語言模型和計算機視覺大模型,科學大模型發(fā)展的成熟度相對較低。”錢煒祺說。
盡管研發(fā)難度高、挑戰(zhàn)大,科學大模型目前已經取得了許多突破,并且已用于科研實踐,在藥物研發(fā)、材料科學、分子模擬、天氣預報、流場預測等領域發(fā)揮作用。
2024年12月1日,福布斯中國與全球商業(yè)研究院聯(lián)合發(fā)布“2024中國新時代顛覆力創(chuàng)始人評選”名單。北京分子之心科技有限公司(以下簡稱“分子之心”)創(chuàng)始人兼首席科學家許錦波入圍。
“現(xiàn)在,人工智能已經改變了分子生物學的研究范式。過去研究者要基于氨基酸序列來研究蛋白質功能,現(xiàn)在可以直接基于人工智能預測出的結構進行功能研究?!痹S錦波說,“我們還在運用蛋白質生成大模型進行精準的蛋白質優(yōu)化與設計,這顛覆了過去生物醫(yī)藥、生物制造等產業(yè)領域的蛋白質發(fā)現(xiàn)與改造方式。”
用模型解開萬物之奧秘,正是大模型輔助科研的最大優(yōu)勢。在其近年來的應用方向當中,生物計算領域成果頗豐。
智源研究院于2024年6月推出的“全家桶”中,就包括生物計算大模型。該模型搭建了全球首個數字孿生心臟電功能超實時仿真系統(tǒng),包含了19種細胞生理狀態(tài)變量和70多個公式,能夠實現(xiàn)復雜的心臟電生理與病理的仿真。
除了生物計算,科學大模型也在其他領域得到應用。百度深度學習技術平臺部架構師胡曉光告訴記者,當前大模型與智能體已經在科學計算領域得到應用。例如,中國科學院自動化研究所依托百度的“飛槳”和“文心”大模型,研制出材料學科科研智能體。一些前沿實驗室正在采用大語言模型,進行材料屬性預測和結構生成。
華為輪值董事長胡厚崑認為,人工智能將數學計算和科學模型的方法結合,可以高效處理海量數據,解決原來傳統(tǒng)科學研究范式無法解決的問題,幫助科研工作者突破科研瓶頸。
“科學大模型擁有非常大的潛力。”王仲遠說,“目前人工智能大模型作為新興工具整體上還處于起步階段,但一些大模型已經在包括科研在內的許多領域發(fā)揮了作用?!?/p>
面臨諸多挑戰(zhàn)
在王仲遠看來,過去10余年間,人工智能技術的幾次重大突破,并非單純算法層面的研究突破,其本質是一個數據、算力、算法、評測等多團隊高度協(xié)同的算法類系統(tǒng)性工程的落地。
在人工智能領域,特別是在科學大模型的研發(fā)上,要想取得突破性的創(chuàng)新,需要龐大且復雜的團隊作戰(zhàn)與協(xié)同,大量集中的資源投入以及技術路線的研究探索與試錯,單憑一所高?;蛘咭患移髽I(yè)很難做到。
“例如,作為一個研發(fā)周期長、成本高的行業(yè),生物制藥比較依賴已有的研發(fā)模式。如果引入新工具,需要慎重考慮其對成本、風險以及對收益分配的影響?!蓖踔龠h說,再如教育領域,特別是在與未成年人相關的應用場景,應用新技術需要社會各方的審慎思考,這涉及許多細微復雜的問題。
西安電子科技大學電子工程學院教授、情感機器(北京)科技有限公司首席科學家吳家驥注意到,在高校的科研環(huán)境中,科學大模型的應用也面臨諸多挑戰(zhàn)。
“那些簡單的、可用公式表達的科學問題,基本都被解決了。目前科學問題公式的復雜程度,已經超越了人類理解能力的極限?!眳羌殷K表示,科學大模型的工作極具交叉性,從提出好公式到設計出好的訓練系統(tǒng),從傳統(tǒng)科研實驗流程到數據驅動的AI實驗范式,從找到好答案到提出好問題,這些都對傳統(tǒng)認知提出挑戰(zhàn)。
高端人才匱乏
“高校和企業(yè),各有各的難處。例如,高校受資源和機制所限,企業(yè)則背負著營收壓力,導致它們在大模型應用和研發(fā)方面,有時會‘伸不開手腳’?!蓖踔龠h說,除了制度和資源,科學大模型在科研環(huán)境中落地最需要的基礎條件是人才。
2022年,許錦波在北京創(chuàng)立分子之心,很快聚集了一批頂尖復合型人才。這些成員兼具AI蛋白質研究和產業(yè)實踐的經驗,其中核心研發(fā)團隊博士占比90%以上。
“但從整個科學大模型領域來看,復合型人才非常稀缺?!痹S錦波告訴記者,以蛋白質生成大模型為例,除了必備的算法、算力、數據等基礎條件外,應用此類大模型還需要具備兩大專業(yè)能力。一是融合計算機、生物、物理等多學科,熟識人工智能、分子動力學、量子計算等多種方法,且能在實踐中并行考慮序列與結構、主鏈與側鏈、進化與組學的跨領域融合能力;二是走出實驗室,下沉至真實產業(yè)環(huán)境,在需求、驗證、落地上貼近產業(yè)需求的能力。
北京社會科學院副研究員王鵬此前接受采訪時表示,人工智能技術發(fā)展日新月異,要求從業(yè)人員具備不斷更新知識體系和技能儲備,這對人才培養(yǎng)提出了更高要求。
人才短缺不僅限制了人工智能技術的創(chuàng)新和發(fā)展速度,也影響了相關企業(yè)在市場中的競爭力,但這也為有志于投身人工智能領域的人才提供了廣闊的發(fā)展空間和良好的職業(yè)前景。
亟待多方發(fā)力
如錢煒祺所說,科學大模型在幾類大模型當中研發(fā)門檻最高,如何持續(xù)提升科學大模型的質量,并推動其應用落地?
錢煒祺以空氣動力學領域大模型為例,該領域目前已有成果大多借鑒了計算機領域通用技術,未來還需探索發(fā)展適用本領域的模型架構。
空氣動力學數據具有樣本少、規(guī)模大、模態(tài)多、獲取成本高等特點。要想做好相關的大模型,就必須基于領域特點進行技術攻關。例如,可圍繞空氣動力學相關基礎理論和人工智能領域發(fā)展遷移學習、小樣本學習和多模態(tài)學習等模型算法,解決數據不足、學科貼合度不高的問題。
錢煒祺提醒,大語言模型、計算機視覺和科學大模型并不是像“煙囪”一樣各自獨立發(fā)展的。它們相互之間已實現(xiàn)關聯(lián)、調用、融合,可以共同解決特定場景、特定領域問題。因此,科學大模型的研發(fā)和推廣并不局限于自身,人們應該關注大模型技術的整體發(fā)展。
錢煒祺預測,隨著數據不斷豐富、算力提升、算法改進,空氣動力學領域大模型將改變信息分發(fā)和獲取模式,革新數據和知識生產模式,實現(xiàn)全自動交互完成任務目標,成為科研工作的“加速器”。
許錦波說,除了技術本身,大模型的發(fā)展也和人才和制度息息相關。
許錦波認為,培養(yǎng)兼具科研和產業(yè)能力的創(chuàng)新者,關鍵在于緊密貼合產業(yè)實際需求,全力促成跨領域協(xié)同創(chuàng)新。同時,一支匯聚多學科知識背景、兼具產業(yè)實操本領與科研攻堅實力的復合型人才團隊,是持續(xù)創(chuàng)新的源泉。
“我們在做的事情既需要‘從0到1’研究和解決科學問題,也需要將技術落地于產業(yè)實踐。我們需要懂計算、懂人工智能、懂生物科學的復合型人才。”許錦波表示。
面對人才瓶頸,胡曉光認為,打造開放的科研生態(tài),降低大模型應用門檻是關鍵。
百度發(fā)起的“飛槳AI for Science”共創(chuàng)計劃,通過提供算力支持、資源與服務,共同推進AI技術在科學計算領域的創(chuàng)新與發(fā)展。截至2024年末,“飛槳”產業(yè)級深度學習開源開放平臺已在服務43萬企事業(yè)單位,創(chuàng)建模型超100萬個。
胡曉光介紹,“飛槳”通過由參與單位和個人共同建設模型庫和場景范例、提供免費算力、為優(yōu)秀科研方案和重點項目提供框架、模型資金支持、開發(fā)套件以及推出全方位課程資源技術合作支持等方式,和科研人員一起開展科研工作、研制前沿模型、建設場景范例、取得科研成果?!翱茖W大模型的開發(fā)、落地和推廣,需要大量的跨領域科研人才,并且實現(xiàn)人工智能與傳統(tǒng)科學計算工具鏈的協(xié)同。這需要我們搭建穩(wěn)定、優(yōu)質的科研生態(tài),把資源和機會凝聚起來,共同打破目前遇到的瓶頸?!焙鷷怨庹f。
延伸閱讀
為大模型研發(fā)營造創(chuàng)新生態(tài)
◎本報記者 孫明源 華 凌
如何營造科學大模型創(chuàng)新生態(tài),以確保高效的科研產出?
“不以論文論英雄?!敝窃囱芯吭捍硇缘膭?chuàng)新做法之一,就是摒棄了“以論文論英雄”的傳統(tǒng)考核標準,轉而以科研成果在學界和產業(yè)界產生的實際影響作為評判依據。
由科技部和北京市支持創(chuàng)辦的北京智源人工智能研究院(以下簡稱“智源研究院”)成立于2018年,是我國最早開始做大模型研發(fā)的科研機構之一?!霸诒本┦械闹С窒?,我們還突破了傳統(tǒng)的申請—答辯制度,采取了包干制,由科研人員自己決定做什么項目?!蓖踔龠h介紹。
當前,智源研究院正在積極探索新型研發(fā)機構建設模式創(chuàng)新,建立了“青年人才挑大梁”的人才評價及培養(yǎng)機制,打造“代表作文化”,通過“小同行評議”,遴選擁有學術代表作的一流人才;在“有組織科研”機制創(chuàng)新上,探索“集中力量辦大事”的跨機構、跨領域、大團隊的新型科研組織機制。
“此外,我們很重要的一個理念,就是接納失敗?!蓖踔龠h說,“創(chuàng)新必然面對風險,失敗也有重要的價值。我們會組織專門的顧問委員會、技術委員會去評估研究成果,分析失敗的工作是否還有進行的可能,以及給了我們哪些技術路線上的啟示。”
智源研究院不僅構建起一套開放的內部生態(tài),也打造了一套面向整個科研系統(tǒng)的外部生態(tài)。王仲遠介紹,智源研究院的許多數據、模型都是開源的。同時,智源研究院積極搭建學術界和企業(yè)界的橋梁,并努力邀請全世界科學家參與到中國的人工智能科學生態(tài)當中,這些做法不僅在我國,在世界范圍來看都是比較罕見的。
除了開放數據集和大模型,智源研究院還在持續(xù)完善覆蓋模型、數據、算法、評測、系統(tǒng)的大模型全棧開源技術基座,并打造面向大模型、支持多種異構算力的智算集群軟件棧,為整個行業(yè)提供支持。
王仲遠認為,科學研究的探索之路往往曲折而漫長,作為學者的后盾,研究機構需要給予自由度,以鼓勵創(chuàng)新和促進進步,但同時也需要進行一定的引導,避免“迷失方向”。
“我們要做的就是通過協(xié)作,打造用于未來的研究平臺,集結最優(yōu)秀的同行,專注可能產生原始創(chuàng)新與長期影響的領域,讓創(chuàng)新系統(tǒng)更高效地運行,通過我們的努力讓中國出現(xiàn)突破性成果的概率增加?!蓖踔龠h說。
責任編輯:王忠?guī)r
審核:劉海龍
圖片版權歸原作者所有,如有侵權請聯(lián)系我們,我們立刻刪除。
舉報郵箱:chinahljcn@126.com
即時新聞
更多>融媒矩陣