亚洲无码中文字幕一区二区三区|特级毛片在线观看视频|91人妻免费婷婷制服|亚洲亚洲人成综合网络|97无码人妻中日韩A片|国产高清无码在线视频|91人妻人人澡人人爽人人精品导航|色色日三级电影视频|深夜激情一区二区|精品久久久久成人码免

聚焦長三角

首頁>新聞頻道>聚焦長三角

浙江:探一探,大科學模型的“科學腦”

  浙江在線8月13日訊(記者 何冬健 通訊員 肖樂 盛汪淼芷)眼下,以大模型為代表的人工智能技術(shù),引發(fā)了新一輪科技發(fā)展浪潮。其中,與DeepSeek等擅長處理日常文字類任務(wù)的通用大模型不同,大科學模型瞄準處理各個科學領(lǐng)域的種種專業(yè)問題,正在引發(fā)科研范式和方法的革命。

  當你想讓人工智能寫份工作總結(jié),它大概率能輕松搞定;可要是問它 “蛋白質(zhì)折疊的最低能量狀態(tài)怎么算”,多數(shù)通用人工智能就只能支支吾吾了。

  這就是當下人工智能領(lǐng)域的現(xiàn)實:通用大模型擅長處理日常文字類任務(wù),像寫講話稿、整理會議紀要這類活兒,對它們來說不在話下。但面對專業(yè)的科學問題,它們就顯得力不從心了。

  與之不同的是,在之江實驗室,由100多名計算專家組成的研究團隊正聚力打造的科學基礎(chǔ)模型,卻瞄準了這些 “硬骨頭”。它不僅能處理公式、分子結(jié)構(gòu)、基因序列等復雜數(shù)據(jù),更能像領(lǐng)域?qū)<乙粯?,循著科學邏輯找到答案。比如研究黑洞時,它會整合光學觀測數(shù)據(jù)一步步推導可能的位置;探索疾病奧秘時,能從蛋白序列一路追溯到基因缺陷。

  “這讓人工智能模型從‘描述世界’躍升至真正‘理解科學’的嶄新境界?!敝瓕嶒炇蚁嚓P(guān)科學家介紹。而這正是科學基礎(chǔ)模型與通用模型最核心的區(qū)別。

  不止“寫文章”,更會“科學推理”

  今年年初,名為Humanity’s Last Exam(人類最后一次考試)的大模型測試項目誕生。其包含2500個問題,由數(shù)百位領(lǐng)域?qū)<议_發(fā),用于追尋人類知識推理的邊界。這場“測試”顯示,那些看似無所不能的通用大模型實際準確率最高的僅有25.4%(數(shù)據(jù)庫更新時間為2025年4月3日)。

  2020年,人工智能系統(tǒng)AlphaFold橫空出世。在此之前,解析一個蛋白質(zhì)的折疊結(jié)構(gòu)堪稱科研界的“馬拉松”。之江實驗室科學模型總體部技術(shù)總師薛貴榮親眼見過同事在超算中心守了3個月,盯著屏幕上原子運動軌跡一點點收斂,最后得出的結(jié)構(gòu)還得靠冷凍電鏡反復驗證。這個專業(yè)模型把整個過程壓縮到了分鐘級。薛貴榮突然意識到:人工智能不僅能“做題目”,還能像科學家一樣“搞推理”。

  STEM教育是美國首先提出的人才培養(yǎng)計劃,旨在提升學生的科學(Science)、技術(shù)(Technology)、工程(Engineering)和數(shù)學(Mathematics)能力,并迅速成為知識經(jīng)濟時代人才培養(yǎng)的重要標準。

  薛貴榮認為,科學基礎(chǔ)模型的出現(xiàn),將顛覆STEM模式?!百だ杂幸粋€著名的論斷——宇宙是一本用數(shù)學語言寫成的‘宏偉之作’。在STEM中,‘M’其實是支撐‘STE’發(fā)展的重要工具。人工智能時代,我們認為數(shù)學、人工智能將共同推動‘STE’這三門學科的科研范式變革?!?/p>

  過去,科學家80%的時間耗在查文獻、算數(shù)據(jù)、分析推理上,只剩20%的精力思考核心問題;現(xiàn)在,模型可以接手這些繁瑣工作。

  中國科學院院士陳潤生在接受媒體采訪時,感觸尤深,這位參與過中國人類基因組研究的科學家,將投身大模型研究視為自己人生第三次重要抉擇:我的人生至此經(jīng)歷了三次抉擇:第一次是給沃森寫信,相信人類一定要破譯遺傳密碼,此后參加了中國的人類基因組研究;第二次是對人類基因組序列組裝后發(fā)現(xiàn),編碼蛋白質(zhì)的基因組序列只占人類基因組的一小部分(不超過5%),從而率先開展了非編碼研究;第三次,就是我最近參與學習、研究和推動的大模型。

  盡管研發(fā)難度高、挑戰(zhàn)大科學基礎(chǔ)模型目前已經(jīng)取得許多突破,并且已用于科研實踐,在藥物研發(fā)、材料科學、分子模擬、天氣預報、流場預測等領(lǐng)域發(fā)揮作用。

  日前,《北京市加快人工智能賦能科學研究高質(zhì)量發(fā)展行動計劃(2025—2027年)》正式發(fā)布,提出到2027年建成科學基礎(chǔ)大模型。在浙江,科學基礎(chǔ)模型作為重點,同樣已提上日程。

  如何從零開始打造一個前所未有的科學基礎(chǔ)模型?薛貴榮最初也找不到突破口。但有一個問題顯而易見:作為為科學家打造的模型,科學家到底需要什么?

  團隊作了一個決定,先從領(lǐng)域模型開始著手?!巴ㄟ^測試我們發(fā)現(xiàn),通用模型在回答專業(yè)領(lǐng)域的問題時,表現(xiàn)并不好,無論是準確性,還是深度和廣度?!庇谑?,基于目前主流的幾款通用大語言模型,團隊打造了地學領(lǐng)域模型GeoGPT和天文領(lǐng)域模型OneAstronomy。

  在打造GeoGPT的過程中,研發(fā)團隊與美國普渡大學詹姆斯·奧格教授團隊合作,共同攻克了全球權(quán)威巨著《無脊椎動物專著》的數(shù)據(jù)化難題。這部涵蓋50卷、10萬化石屬的“數(shù)據(jù)金礦”,因紙質(zhì)載體限制和復雜數(shù)據(jù)結(jié)構(gòu)長期無法被有效利用。研究團隊創(chuàng)新性地提出了“AI 批量抽取+專家驗證+模型迭代”的協(xié)同技術(shù)路線:GeoGPT團隊負責研發(fā)核心的自動化數(shù)據(jù)抽取引擎,實現(xiàn)了化石屬名、地質(zhì)年代、生物地理分布等關(guān)鍵信息的結(jié)構(gòu)化轉(zhuǎn)換;奧格教授團隊則主導數(shù)據(jù)標準制定、結(jié)果驗證及可交互數(shù)據(jù)庫的構(gòu)建。

  團隊僅用4個月便完成了3卷數(shù)千化石屬的精準提取,時間成本降低75%?!癎eoGPT將過去視為‘不可能’的化石大數(shù)據(jù)工程變?yōu)楝F(xiàn)實?!眾W格教授摩挲著屏幕上自動生成的生物演化樹,眼里閃著興奮的光。基于當前成果,團隊正規(guī)劃將技術(shù)拓展至生物演化樹等更高維度的圖表數(shù)據(jù)挖掘領(lǐng)域,進一步推動古生物學研究的數(shù)字化轉(zhuǎn)型。

  在與領(lǐng)域科學家的不斷交流碰撞中,需求不再脫鉤,團隊也錘煉出了將科學數(shù)據(jù)token化(即將連續(xù)文本、圖像等數(shù)據(jù)分割為具有獨立語義或功能的最小處理單元的過程)的能力。構(gòu)建科學基礎(chǔ)模型,似乎有了眉目。

  從地基開始“造房子”

  從領(lǐng)域模型到基礎(chǔ)模型,科學數(shù)據(jù)是關(guān)鍵。

  “科學模型本質(zhì)上還是三件事,算力、token和深度學習架構(gòu),我們熟悉的AlphaFold、ChatGPT都是在這個框架下訓練出來,還有很多人在用這樣一個框架做很多其他類似的模型,比如說天氣預報、基因模型、蛋白質(zhì)模型?!毖F榮想,科學不僅是用語言來表示的,還有很多是用公式、分子式、圖像等等來表示的。之江實驗室要做的就是,把所有這些科學數(shù)據(jù)全部token化,在一個模型框架里面訓練。

  “現(xiàn)在的AlphaFold已經(jīng)到了第三代,把token化對象從蛋白質(zhì)擴展到了DNA、RNA、小分子配體、抗體,盡管它們的表達都不一樣,但將它們token化之后,就可以放在同一個空間下去訓練,所以AlphaFold不僅僅能夠高精度地預測蛋白質(zhì)結(jié)構(gòu),同時也可以預測其他生物分子形成的復雜結(jié)構(gòu)?!毖F榮表示,“這個時候模型的魅力就出來了?!?/p>

  把基因序列、蛋白質(zhì)結(jié)構(gòu)、天文數(shù)據(jù)、材料分子結(jié)構(gòu)等科學知識都變成統(tǒng)一的“數(shù)據(jù)語言”,放進一個模型里。這個看起來略顯瘋狂的想法,讓這群計算專家度過了無數(shù)通宵達旦的日子,實驗室的科學基礎(chǔ)模型021 Large Science Model(簡稱“021 LSM”)逐步有了雛形。

  融入天文、地學、數(shù)學、物理、化學、生物等多學科的科學數(shù)據(jù),科學基礎(chǔ)模型相當于從地基開始“造房子”。

  2024年,之江實驗室與國家科技圖書文獻中心(NSTL)簽訂了“共建科技語料庫戰(zhàn)略合作框架協(xié)議”?;谠撝行奈墨I,團隊構(gòu)建了科學文獻語料處理流水線,表格、圖像及學科標簽均被精準解析,確?!拔埂苯o模型的都是科研精華。

  2025年初,021 LSM正式啟動覆蓋174個學科的科學語料生產(chǎn)計劃,由具備相關(guān)學科專業(yè)背景的科研人員對34萬個網(wǎng)站開展系統(tǒng)性質(zhì)量評估,確保語料在準確性、專業(yè)性等方面達到高標準要求。

  在GeoGPT的研究中,為了讓模型“學透”地學,團隊與國內(nèi)外25家機構(gòu)、400余位地學專家共建全球最專業(yè)的地學領(lǐng)域數(shù)據(jù)集,覆蓋8個地學二級學科。與此同時,之江實驗室還通過與中國科學院國家天文臺共同舉辦大模型種子班等方式,推動天文專業(yè)數(shù)據(jù)和人工智能算法深度融合,進一步提升模型語料的科學密度。

  021 LSM沒有在現(xiàn)有通用基礎(chǔ)模型上“搭房子”,而是“從0到1”打地基“建房子”。這極具挑戰(zhàn)。

  “基礎(chǔ)模型決定了模型能級的上限?!毖F榮感嘆,“就好比1升的瓶子裝不下3升的水,在他人的通用模型的框架里做研究就很難有所突破?!?/p>

  目前,021 LSM模型訓練流程每個階段都可能耗時數(shù)月。讓人工智能模型從“描述世界”躍升至真正“理解科學”的嶄新境界,團隊正跋涉在一條前人未至之路上。

  讓世界換一種玩法

  今年6月,021 LSM作為一名浙江的虛擬考生參與了全國高考。滿分150的全國新高考Ⅰ卷,它能考143分。它還有“成長空間”——針對幾何類的題目,人類使用視覺的輔助線可以高效快速地解決問題,但是若使用純文字的解法需要更多的邏輯推理。

  8月,021 LSM亮相2025年人工智能向善全球峰會,吸引了全球參觀者的目光,大家對這個“理科生”模型感到好奇——它與通用大語言模型究竟有什么不同,非英語母語者能否用它來解決科研問題?

  了解科學家的共性、加深對科學問題的理解、覆蓋更系統(tǒng)全面的科學領(lǐng)域知識……“還有太多太多的科學問題等待著我們?nèi)グl(fā)現(xiàn)和解決?!毖F榮感慨。

  中國工程院院士、之江實驗室主任王堅曾說:“基礎(chǔ)模型是人工智能的皇冠,是人工智能發(fā)展的技術(shù)底座?!被A(chǔ)模型突破帶來的將是巨大的想象空間。

  “或許以后能發(fā)一個火箭派一堆機器人去外太空做實驗?!毖F榮暢想,“只要有電的地方,人工智能就能工作,地底下也是一樣。機器人就能夠完成一系列的科學實驗。而人作為指揮者,要思考的是未來的問題?!?/p>

  這并非空想。王堅近期在接受媒體采訪時分享了一位美國高中生發(fā)現(xiàn)未知天體的故事:馬特奧·帕茲是一名18歲的美國高中生,他借助人工智能技術(shù),在美國航空航天局積累的2000億條觀測數(shù)據(jù)中,發(fā)現(xiàn)了150萬個此前未被發(fā)現(xiàn)的天體。那些藏在數(shù)據(jù)洪流里的異常信號,曾讓專業(yè)團隊望而卻步,卻被模型敏銳捕捉——這恰是科學基礎(chǔ)模型的神奇之處:它能讓人類突破專業(yè)壁壘與認知邊界,實現(xiàn)從前不敢想象的科學發(fā)現(xiàn),即便發(fā)現(xiàn)者并非該領(lǐng)域的科研工作者,也能叩開未知世界的大門。

  現(xiàn)在,之江實驗室太空計算星座已經(jīng)能讓人工智能直接在軌處理遙感數(shù)據(jù),不用把圖片傳回地球。深地探測、新藥研發(fā)……未來,這些曾依賴“人海戰(zhàn)術(shù)”的領(lǐng)域,或許會因為科學基礎(chǔ)模型的加入而加速突破。而當科學基礎(chǔ)模型深度嵌入材料、生物等產(chǎn)業(yè)創(chuàng)新鏈條,高效調(diào)用、深度分析海量科學知識和數(shù)據(jù)背后的聯(lián)系,或許將從根本上重塑產(chǎn)業(yè)發(fā)展格局。

  就像望遠鏡延伸了人類的視野、顯微鏡擴大了人類的微觀世界,科學基礎(chǔ)模型正在延伸人類的“思維”。它不是要取代科學家,而是要成為那個“最懂科學家”的搭檔——幫你算公式、畫圖紙、找規(guī)律,讓人類能更自由地探索那些“想都不敢想”的未知。

  就像薛貴榮在采訪的尾聲,俏皮的那一下:“讓世界換一種玩法,還挺有趣的?!?/p>

聲明:本媒體部分圖片、文章來源于網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系刪除:025-84707368,廣告合作:025-84708755。
323
收藏
分享