- GPT-5 和 GPT-5.2 提高了科學和數學推理能力,在 GPQA Diamond 和 FrontierMath 等基準測試中取得了領先結果。
- 模型就像研究的副駕駛:它們可以幫助解決開放性問題、最佳化實驗和分析文獻,但它們需要手動驗證。
- 其應用範圍已擴展至醫學、濕實驗室、大學和企業,提高了生產力,但也帶來了倫理、安全和監管方面的挑戰。
的跳躍 GPT-5 和 GPT-5.2 在科學研究領域,它正在重新定義科學研究的方式。從最理論化的數學到濕實驗室實驗,包括生物學、物理學、醫學和先進材料科學,這些模型不僅僅是編寫文本;它們已經開始被用作真正的科研助手,能夠提出假設、幫助設計實驗,並在數據中發現人類需要數月才能識別的模式。
同時 OpenAI 而科學生態系的其他部分則對一個關鍵點有著非常清晰的認知。GPT-5並非“自主科學家”,也無法取代人類的科學方法。它更像是一位助手,擁有豐富的文獻資源、量化工具和結構化推理能力,可以加快研究速度,但仍需要專家監督、驗證以及研究人員大量的批判性判斷。
GPT-5 和 GPT-5.2:新一代科學與數學模型
OpenAI 已將 2025 年 12 月 11 日定為 GPT-5.2 正式發布的關鍵日期。該公司稱其推出的版本是迄今為止最先進的科學和數學任務模型。過去一年,該公司與數學、物理、生物和電腦科學等領域的研究人員密切合作,以深入了解人工智慧在哪些方面能夠真正創造價值,以及在哪些方面仍有不足之處。
這項工作最終凝結成跨越多個不同學科的案例研究。從天文學到材料科學,GPT-5 以及後來的 GPT-5.2 在研究工作流程的特定環節中發揮了作用:重新設計演示、探索替代測試方法、修改模擬代碼、合成文章以及提出一些細微的協議變更。據 OpenAI 稱,GPT-5.2 開始展現出改進,這些改進不僅具有偶發性,而且更加穩定和可複現。
在 GPT-5.2 系列中,有兩個專門針對科學和數學的變體脫穎而出:GPT-5.2 Pro 和 GPT-5.2 Thinking。兩者都針對深度推理和高難度技術任務進行了最佳化,在這些任務中,一個細微的錯誤就可能導致整個分析失敗。 GPT-5.2 Pro 優先考慮保真度和準確性,因此能夠提供更長的推理時間;而 GPT-5.2 Thinking 則專注於智能地決定何時需要“深入思考”,何時需要快速回應。
這種「逐步推理」的理念在 GPT-5 的設計中就已經體現出來了,其模式為 GPT-5思維它充當內部路由,能夠在產生回應之前評估查詢的複雜性、可用上下文以及必要的工具(例如,對 Python 的存取權限)。它能夠快速地回應簡單的問題;對於複雜的問題,它會啟動更長、更明確的推理鏈。
在日常使用中,使用者可以從幾種 GPT-5 推理模式中進行選擇。「自動」模式讓模型自行決定解決問題所需的時間;「即時」模式優先考慮速度而非深度;「思考」模式提供更周全、更具分析性的答案;「專業」模式則是最精確、要求最高的版本,專為那些準確度高於速度的任務而設計。值得注意的是,GPT-5 是一款付費模型,可透過訂閱或按次付費的方式使用,這對於管理敏感資料的機構或研究預算緊張的機構而言尤其重要。
基準測試效能:GPQA、FrontierMath 和 FrontierScience
GPT-5.2 在科學研究中的改進不僅基於主觀印象,而且還基於專門基準測試的結果。其中被引用最多的是 GPQA Diamond,這是一套研究生級別的多項選擇題,涵蓋物理、化學和生物學,旨在衡量高級推理能力,而不僅僅是記憶力。
在 GPQA Diamond 測試中,GPT-5.2 Pro 的成功率為 93,2%,GPT-5.2 Thinking 的成功率為 92,4%。該模型無需外部工具,且推理難度調至最高,必須完全依靠其內部分析能力「獨立」解決問題。這些數據清晰地表明,它超越了前幾代模型,並鞏固了其在高階問題解決和理解任務中作為輔助工具的地位。
另一個基準測試是 FrontierMath(1-3 級)這是一項高級數學評估,允許使用Python工具。在這個場景中,GPT-5.2 Thinking以最大程度的推理努力解決了40,3%的問題。雖然這個比例對一般人來說可能不高,但對於大多數以往模型幾乎無法取得有效結果的領域而言,這代表著一個重大的飛躍。
除了這些數字之外,OpenAI 還堅稱這些進步反映了抽象和推理能力的整體提升。這不僅僅是一項針對單一基準測試而最佳化的狹隘技能。它們將這些能力直接與科學領域的日常工作流程連結起來:編寫模擬程式、統計數據分析、設計和改進實驗,或解釋結果。
同時,OpenAI 推出了一個名為 FrontierScience 的更廣泛的框架。FrontierScience 旨在評估 GPT-5 等模型在真正的新穎科學問題(這些問題不屬於訓練數據)上的性能,其中包括生物學、化學、物理學、數學、計算機科學和社會科學領域的挑戰,旨在不僅要求理論知識,還要求規劃、批判性思維和概括能力。
初步分析表明,當任務可以分解為清晰、合乎邏輯的步驟時,GPT-5 的表現非常出色。儘管人工智慧在被要求展現創造性直覺或對實驗背景有深刻理解時仍然表現不佳,但這與人工智慧專家中日益普遍的觀點相符:目前的生成模型是強大的輔助工具,但它們並不能取代人類科學家的創造力、直覺或責任感。
一個典型案例:解決數學中的未解難題
這些模型在純科學領域最引人注目的應用之一是統計學習理論,其中 GPT-5.2 Pro 幫助解決了一個未解決的問題。 這與最大似然估計器的學習曲線的單調性有關。其根本問題很直觀:當我們為一個正確設定的統計模型添加更多數據時,預期誤差是否總是會減小,還是至少在某些部分會增加?
先前的研究表明,在某些實際條件下,學習曲線並不總是單調的。 而且,在加入數據時,誤差反而會出乎意料地增加。這項研究可以追溯到2019年Viering、Mey和Loog在學習理論會議(COLT)上提出的一個問題,此後湧現大量文章,提供了具體的例子和恢復單調性的策略。
儘管取得了這些進展,但仍有一個被認為是「教科書式」的標準案例尚未解決。已知平均值但未知標準差的高斯模型,其統計模型正確,且資料服從理想化的常態分佈。在這種經典場景下,新研究得出結論:傳統直覺仍然成立,更多的數據確實意味著平均誤差會如預期般遞減。
正如OpenAI所解釋的,這項研究的關鍵差異不僅在於結果,還在於過程中。作者並沒有採用詳細的證明方案來逐步引導模型,而是直接將開放性問題提交給 GPT-5.2 Pro,並仔細分析了它所產生的證明。之後,他們與該領域的外部專家驗證了論證過程,徹底審查了每個步驟,並在最終確定結論後,利用該模型將結果推廣到更高維度和其他常見的統計模型。
這種方法恰如其分地說明了理論研究中人類與人工智慧之間正在興起的合作類型。模型會提出可能的測試路徑,而人工則扮演嚴格的裁判角色,負責修正、完善並決定哪些內容可以被視為有效貢獻。這並非盲目委託,而是自動化探索與專家審查結合的方式。
GPT-5 作為科研副駕駛:從埃爾德什數到濕實驗室
除了理論統計數據之外,GPT-5 還出現在其他一些備受矚目的應用案例中。例如,OpenAI與哥倫比亞大學的一位數學家合作發表了一篇論文,其中展示了其模型如何幫助解決與埃爾德什的理論遺產相關的數論中一個複雜的開放性問題。此模型有助於探索猜想、驗證中間步驟,並提出最終證明行之有效的替代方法。
另一個引起廣泛關注的例子是在幾分鐘內識別出人類免疫細胞的特定變化。這項任務耗費了科學家團隊數月的時間。 GPT-5 提出了一個具體的實驗來驗證關於這一變化的假設;研究人員重複了該實驗,並證實了該建議的正確性,從而顯著縮短了通常的反覆試驗週期。
這些成果是科技業向科學領域轉型這一更廣泛趨勢的一部分。. 人類的例如,Google宣布將其聊天機器人Claude整合到研究團隊和生命科學公司使用的工具中。谷歌還推出了一位旨在提出新假設的“合作科學家”,並強調其開源模型Gemma為發現癌症治療的潛在新途徑做出了貢獻。
OpenAI 方面則創建了一個專門的科學部門,並吸收了 Alex Lupsasca 等人物,Alex Lupsasca 因其在黑洞方面的理論研究而聞名。該公司計劃在短期內開發一種“自動化人工智慧研究實習生”,並展望未來幾年內開發幾乎完全自動化的研究工具,但始終以人類研究人員處於研究過程的中心為前提。
在濕實驗室中,GPT-5及其後續版本已被測試用作優化實驗方案的輔助工具。基於相關文獻與先前數據,模型可以建議適當的溫度條件、孵育時間、試劑用量或對照組與重複組的組合。在一些已報告的案例中,模型建議的微小調整即可改善化學反應的性能或顯著縮短獲得有效結果所需的時間。
GPT-5在醫學和臨床實踐中的應用
GPT-5 展現出非常實際影響的領域之一是醫學。這適用於臨床實踐和臨床研究。首先,該模型已成為分析複雜臨床報告(實驗室檢查、影像學檢查、術後報告等)的有效工具,能夠產生包含關鍵發現的簡明摘要,從而節省專業人員的時間。
流程很簡單:醫生或研究人員輸入報告文字或文件圖像,並要求產生摘要或提取最相關的要點。GPT-5 會傳回摘要報告,其中重點列出可能的診斷結果、關鍵發現和後續建議。但是,這一切的前提是,醫療專業人員必須在做出任何決定之前審查並驗證這些資訊。
另一個強大的應用是產生高品質的醫療內容。從臨床摘要到科學文章草稿或患者資訊材料,該模型都能產生。只需幾條自然語言指令(例如,「撰寫一位持續發熱和肌痛患者的摘要」),即可產生連貫且結構良好的文本,供專業人員編輯並根據自身需求進行調整。 高品質的醫學內容 人工智慧產生的文字可以加快寫作速度,但始終需要人工審核。
GPT-5 也可以根據醫師描述的症狀和病史提出鑑別診斷建議。它不能取代臨床判斷,但可以提供一系列合理的可能性、需要考慮的輔助檢查或需要排除的危險信號。例如,對於一位50歲左右出現疲勞、乾咳和呼吸困難症狀的患者,該系統可以列出可能的診斷,並建議進行胸部X光檢查、血液檢查、肺功能檢查或病毒檢測等檢查。
在個人化照護方面,GPT-5 有助於調整治療方案和預防策略。 根據患者的具體情況,在資料匿名輸入並嚴格保護隱私的前提下,該模型可以提供相應的服務。例如,對於一位患有高血壓、2型糖尿病和慢性腎臟病的70歲患者,該模型可以根據臨床實踐指南,列出綜合管理策略、風險因素控制、生活方式建議和長期追蹤指南。
最後,GPT-5 被用作醫學文獻的智慧搜尋引擎。專業人士用自然語言提出問題(「關於慢性病遠距醫療的最新研究有哪些?」),該模型會尋找並總結相關作品,幫助使用者了解最新進展,而無需手動深入無盡的資料庫。 搜尋引擎和類似 NotebookLM 的工具 它們有助於專業人士整理和總結文獻。
反應品質、幻覺和安全性
以往幾代機型(如 O3 和 O3-Pro)一直受到詬病的一點是容易產生幻覺。引用真實文獻卻得出錯誤結論或進行不恰當的推論。材料科學或生物訊號通路領域的聚合物研究人員報告稱,GPT-5 顯著改善了這種現象,它引用了更多相關文獻,並提供了與原文更吻合的解釋。
OpenAI 的技術論文指出,與 GPT-4 及其自身的模型 o3 相比,GPT-5 顯著降低了事實錯誤。尤其是在深度推理模式啟動時。在受控環境下,由於訓練方法的改進、內部驗證技術的運用以及更精心設計的安全策略,某些任務的開銷比 GPT-4 減少了約 45%,比 o3 減少了高達 80%。
即便如此,OpenAI 自己的文章也承認 GPT-5 仍然會做出錯誤的假設或捏造數據。即便結果看似確鑿無疑。正因如此,他們和許多學者一樣堅持認為,任何與模型的偏差都應被視為需要檢驗的假設,而非絕對真理。在科學研究中,可重複性和可驗證性至關重要,因此這種區別至關重要。
安全問題不僅僅關乎技術和科學的精確性。如果缺乏適當的控制措施,對 GPT-5 等強大模型的存取可能會助長生物安全、危險化學物質和其他敏感領域敏感知識的傳播。這引發了國際社會對受控存取模型、日誌記錄和審計、請求可追溯性以及多層安全過濾機制的討論。諸如……之類的工具 用於識別人工智慧內容的擴展 它們是減緩氣候變遷生態系統的一部分。
使用 GPT-5 進行研究的組織應與法律團隊、資料保護官和倫理委員會協調。醫療機構的法律專家和資料保護官等職位在確保遵守法規、資訊保密以及負責任地管理人工智慧支援下產生的結果方面發揮著核心作用。
研究人員、大學和公司需要掌握的新技能
在科學研究中採用 GPT-5 不僅僅是安裝一個新工具,而是獲得新的技能。研究人員必須學會如何提出有效的提示,批判性地解讀回饋,記錄模型在過程中的作用,並將建議整合到實驗或理論方案中,同時保持可追溯性。相關資源 制定有效的適應症 個性化互動是關鍵。
大學和研究機構正開始更新其培訓計畫。 將人工智慧素養、倫理、演算法偏見、資料保護和智慧財產權等模組納入其中,這些模組是在 GPT-5 等模型的支持下產生的。這不僅影響 STEM 領域,也影響社會科學和人文科學,因為人工智慧在這些領域被用於分析大量的文本、調查或歷史數據。
支持科學計畫的資助機構和基金會也必須制定明確的規則,規定在提案、文章和報告中使用 GPT-5。這些措施包括明確說明是否使用了人工智慧,具體說明模型版本,詳細說明結果是如何驗證的,以及記錄哪些工作是真正由人類完成的,哪些工作是由系統輔助完成的。
同時,GPT-5 對行銷、商業和科學傳播也產生了直接影響。生物技術、醫療技術或尖端科技公司可以利用它來分析客戶資料、產生專業內容、自動執行複雜回應,並將研究成果轉化為投資者、合作夥伴或公眾能夠理解的資訊。
SendApp 等平台正是探索高階人工智慧與對話管道之間的這種交集。例如,透過官方 API 將 GPT-5 與 WhatsApp Business 連接起來,可以讓實驗室向合作夥伴傳達最新成果,管理來自國際客戶的技術諮詢,或者在保持一致和專業語氣的同時,自動傳播部分科學成果。
對於處理大量互動的團隊來說,將 GPT-5 整合到對話管理系統中可以提高效率。該模型可提供回復建議、對請求進行分類、總結技術文檔,並為能夠保持上下文的智慧聊天機器人提供訊息,同時始終允許人類在必要時進行審核或接管。
綜合考慮所有這些用途,GPT-5 和 GPT-5.2 構成了一種新型科學研究方式的核心組成部分。在這種方法中,模型扮演著創意產生器、文獻檢索助理、數學證明輔助工具和虛擬實驗室助理的角色。最終責任仍然在於科學家、臨床醫生和人類團隊,但檢驗假設、探索替代方案和整合不同結果的速度成倍提升,開啟了一個新時代:五年內借助高度整合的人工智慧所取得的成果,相當於傳統方法下數十年的進展。
