揭秘OpenAI的野心：讓AI為你搞定一切

2025-08-04 來源：新浪原創文章

137

關鍵詞： AI推理模型強化學習 AI代理思維鏈 OpenAI

2022 年，亨特?萊特曼以研究員身份加入 OpenAI 后不久，便見證了同事們推出 ChatGPT—— 這款產品后來成為史上增長最快的產品之一。與此同時，萊特曼則在一個團隊中默默耕耘，致力于教 OpenAI 的模型解決高中數學競賽題。

如今，這個名為 MathGen 的團隊被視為 OpenAI 打造 AI 推理模型這一行業領先舉措的關鍵力量，而 AI 推理模型正是能像人類一樣在電腦上完成任務的 AI 代理的核心技術。

“我們當時試圖讓模型在數學推理方面做得更好，因為那時它們在這方面還很薄弱，” 萊特曼在描述 MathGen 早期工作時對 TechCrunch 表示。

OpenAI 的模型如今遠非完美 —— 該公司最新的 AI 系統仍會出現幻覺，其代理在處理復雜任務時也力不從心。

但它的最先進模型在數學推理方面已有顯著進步。OpenAI 的一款模型最近在國際數學奧林匹克競賽（一項面向全球最聰明高中生的數學競賽）中斬獲金牌。OpenAI 認為，這些推理能力將遷移到其他學科，最終為該公司一直夢寐以求的通用代理提供動力。

ChatGPT 的誕生純屬意外 —— 一次低調的研究預覽意外走紅，演變成消費級業務 —— 但 OpenAI 的代理是該公司多年來精心努力的成果。

“最終，你只需向電腦提出需求，它就會為你完成所有這些任務，”OpenAI 首席執行官山姆?奧特曼在 2023 年公司首屆開發者大會上表示。“這些能力在 AI 領域通常被稱為代理。其帶來的好處將是巨大的。”

這些代理能否實現奧特曼的愿景仍有待觀察，但 OpenAI 在 2024 年秋季推出首個 AI 推理模型 o1 時，震驚了世界。不到一年后，促成這一突破的 21 名基礎研究員成為硅谷最炙手可熱的人才。

馬克?扎克伯格招募了 5 名參與 o1 研發的研究員，讓他們加入 Meta 新成立的專注于超級智能的部門，并為部分人提供了超過 1 億美元的薪酬方案。其中之一的趙勝佳最近被任命為 Meta 超級智能實驗室的首席科學家。

強化學習的復興

OpenAI 推理模型和代理的崛起與一種名為強化學習（RL）的機器學習訓練技術息息相關。強化學習在模擬環境中向 AI 模型反饋其選擇是否正確。

強化學習已應用數十年。例如，2016 年，在 OpenAI 于 2015 年成立約一年后，谷歌(189.95, -2.91, -1.51%) DeepMind 使用強化學習創建的 AI 系統 AlphaGo 在圍棋比賽中擊敗世界冠軍，引發全球關注。

大約在那時，OpenAI 的首批員工之一安德烈?卡帕西開始思考如何利用強化學習創建一個能使用電腦的 AI 代理。但 OpenAI 花了數年時間才開發出必要的模型和訓練技術。

到 2018 年，OpenAI 在 GPT 系列中率先推出首個大型語言模型，該模型在海量互聯網數據和大型 GPU 集群上進行預訓練。GPT 模型在文本處理方面表現出色，最終催生出 ChatGPT，但在基礎數學方面卻存在短板。

直到 2023 年，OpenAI 才取得突破，最初將其命名為 “Q*”，后又改稱 “Strawberry”。這一突破通過結合大型語言模型、強化學習和一種名為測試時計算的技術實現。后者讓模型在給出答案前，有額外的時間和計算能力來規劃和解決問題，并驗證每一步驟。

這使得 OpenAI 能夠引入一種名為 “思維鏈”（CoT）的新方法，該方法提高了 AI 在處理未見過的數學問題時的表現。

“我能看到模型開始進行推理，” 埃爾?基什基說。“它會發現錯誤并回溯，還會‘感到沮喪’。這真的就像在閱讀一個人的想法。”

盡管這些技術本身并非新穎，但 OpenAI 獨特地將它們結合起來，創建了 Strawberry，這直接促成了 o1 的開發。OpenAI 很快意識到，AI 推理模型的規劃和事實核查能力可用于為 AI 代理提供動力。

“我們解決了一個我多年來一直冥思苦想的問題，” 萊特曼說。“這是我研究生涯中最激動人心的時刻之一。”

擴展推理能力

憑借 AI 推理模型，OpenAI 確定了兩個可用于改進 AI 模型的新方向：在 AI 模型的后期訓練中使用更多計算能力，以及讓 AI 模型在回答問題時有更多時間和處理能力。

“作為一家公司，OpenAI 不僅關注事物的現狀，還非常關注它們的擴展方式，” 萊特曼說。

兩位消息人士告訴 TechCrunch，在 2023 年 Strawberry 取得突破后不久，OpenAI 成立了一個由研究員丹尼爾?塞爾薩姆領導的 “代理” 團隊，以在這一新范式上取得進一步進展。盡管該團隊名為 “代理”，但 OpenAI 最初并未像我們如今所想的那樣區分推理模型和代理。該公司只是想讓 AI 系統能夠完成復雜任務。

最終，塞爾薩姆領導的代理團隊的工作成為開發 o1 推理模型這一更大項目的一部分，該項目的負責人包括 OpenAI 聯合創始人伊利亞?薩茨凱弗、首席研究官馬克?陳和首席科學家雅各布?帕喬基。

OpenAI 必須投入寶貴的資源 —— 主要是人才和 GPU—— 來開發 o1。縱觀 OpenAI 的歷史，研究人員必須與公司領導層協商以獲取資源，而展示突破性成果是確保獲得資源的可靠方法。

“OpenAI 的核心特點之一是，研究方面的一切都是自下而上的，” 萊特曼說。“當我們展示（o1 的）證據時，公司表示‘這很有意義，讓我們繼續推進’。”

一些前員工表示，這家初創公司開發通用人工智能（AGI）的使命是在 AI 推理模型方面取得突破的關鍵因素。通過專注于開發盡可能智能的 AI 模型，而非產品，OpenAI 能夠將 o1 置于其他工作之上。而在競爭激烈的 AI 實驗室中，對這類想法進行如此大規模的投資并非總能實現。

事實證明，嘗試新訓練方法的決定是有先見之明的。到 2024 年底，幾家領先的 AI 實驗室開始發現，通過傳統預訓練擴展創建的模型回報遞減。如今，AI 領域的大部分動力來自推理模型的進步。

AI “推理” 意味著什么？

在很多方面，AI 研究的目標是用計算機重現人類智能。自 o1 推出以來，ChatGPT 的用戶體驗中充滿了更像人類的功能，如 “思考” 和 “推理”。

當被問及 OpenAI 的模型是否真正在推理時，埃爾?基什基有所保留，稱他從計算機科學的角度看待這個概念。

“我們正在教模型如何高效地消耗計算資源來獲取答案。所以如果你從這個角度定義，是的，它正在推理，” 埃爾?基什基說。

萊特曼則更關注模型的結果，而不太在意其方式或與人類大腦的關系。

“如果模型正在做困難的事情，那么它正在做完成這件事所必需的任何近似推理，” 萊特曼說。“我們可以稱之為推理，因為它看起來像這些推理軌跡，但這一切都只是為了打造對很多人來說真正強大且有用的 AI 工具的一種替代說法。”

OpenAI 的研究人員指出，人們可能不同意他們對推理的命名或定義 —— 當然，批評者已經出現 —— 但他們認為，這不如其模型的能力重要。其他 AI 研究人員也傾向于認同這一點。

非營利組織 AI2 的 AI 研究員內森?蘭伯特在一篇博文中將 AI 推理模式比作飛機。他說，兩者都是受自然啟發的人造系統 —— 分別受人類推理和鳥類飛行啟發 —— 但它們通過完全不同的機制運作。這并不會降低它們的有用性，也不會削弱它們實現類似結果的能力。

來自 OpenAI、Anthropic 和谷歌 DeepMind 的一群 AI 研究人員在最近的一份立場文件中一致認為，如今人們對 AI 推理模型的理解還不夠深入，需要更多的研究。現在就斷言這些模型內部到底在發生什么，可能還為時過早。

下一個前沿：用于主觀任務的 AI 代理

如今市場上的 AI 代理在定義明確、可驗證的領域（如編碼）表現最佳。OpenAI 的 Codex 代理旨在幫助軟件工程師分擔簡單的編碼任務。與此同時，Anthropic 的模型在 Cursor 和 Claude Code 等 AI 編碼工具中特別受歡迎 —— 這些是人們愿意付費使用的首批 AI 代理中的一部分。

然而，像 OpenAI 的 ChatGPT 代理和 Perplexity 的 Comet 這樣的通用 AI 代理，在處理許多人們希望自動化的復雜、主觀任務時卻力不從心。我發現，當嘗試使用這些工具進行網上購物或尋找長期停車位時，這些代理花費的時間比我預期的要長，而且還會犯一些愚蠢的錯誤。

當被問及代理在主觀任務方面的局限性時，萊特曼說：“與機器學習中的許多問題一樣，這是一個數據問題。我現在真正感到興奮的一些研究是，想辦法在可驗證性較低的任務上進行訓練。我們在如何做這些事情上有了一些線索。”

幫助創建國際數學奧林匹克模型和 o1 的 OpenAI 研究員諾姆?布朗告訴 TechCrunch，OpenAI 擁有新的通用強化學習技術，這些技術使他們能夠教授 AI 模型那些不易驗證的技能。他說，該公司正是通過這種方式構建了在國際數學奧林匹克競賽中獲得金牌的模型。

OpenAI 的國際數學奧林匹克模型是一個較新的 AI 系統，它能生成多個代理，這些代理隨后同時探索多個想法，然后選擇最佳答案。這類 AI 模型正變得越來越受歡迎；谷歌和 xAI 最近也發布了使用這種技術的最先進模型。

“我認為這些模型在數學方面的能力會越來越強，而且在其他推理領域也會變得更有能力，” 布朗說。“進步速度快得驚人。我沒有理由認為它會放緩。”

這些技術可能有助于提高 OpenAI 模型的性能，而這些進步可能會在該公司即將推出的 GPT-5 模型中體現出來。OpenAI 希望通過推出 GPT-5 來鞏固其對競爭對手的優勢，理想(25.24, -0.86, -3.30%)情況下，為開發者和消費者提供最優秀的 AI 模型來驅動代理。

但該公司也希望使其產品更易于使用。埃爾?基什基表示，OpenAI 希望開發出能直觀理解用戶需求的 AI 代理，而無需用戶選擇特定設置。他說，OpenAI 的目標是構建這樣的 AI 系統：知道何時調用特定工具，以及需要推理多長時間。

這些想法描繪出 ChatGPT 終極版本的圖景：一個能在互聯網上為你做任何事情，并理解你希望如何去做的代理。這與如今的 ChatGPT 有很大不同，但該公司的研究正朝著這個方向穩步前進。

雖然 OpenAI 無疑在幾年前引領了 AI 行業，但如今該公司面臨著一大批強勁的對手。問題不再僅僅是 OpenAI 能否實現其代理化的未來，而是該公司能否在谷歌、Anthropic、xAI 或 Meta 之前做到這一點？

行業動態

摩爾斯微電子攜手Airfide在日本COMNEXT展會推出Wi-Fi HaLow占用傳感器

后摩爾時代破局者：物元半導體領航中國3D集成制造產業

腦機接口技術不斷發展，我們準備好了嗎

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產