有傳言 OpenAI 將於本月發布 GPT-5.1。期待更少的幻覺、更好、更有創意的寫作和更多頑皮的東西
| mtgamer.com

有傳言 OpenAI 將於本月發布 GPT-5.1。期待更少的幻覺、更好、更有創意的寫作和更多頑皮的東西


OpenAI 觀察者在上週發現了一些奇怪的事情。對 GPT-5.1 的引用不斷出現在 OpenAI 的代碼庫中,並且代號為 Polaris Alpha 的“隱形”​​模型被廣泛認為來自 OpenAI,它隨機出現在 OpenRouter 中,OpenRouter 是人工智能迷用來測試新系統的平台。目前還沒有任何官方消息。但所有這些都表明 OpenAI 正在悄悄準備發布其 GPT-5 模型的新版本。業內消息人士指出,發布日期可能最早為 11 月 24 日。如果 GPT-5.1 是真的,該模型將具有哪些新功能?作為一名前 OpenAI Beta 測試員,以及每月消耗數百萬個 GPT-5 代幣的人,這就是我的期望。更大的上下文窗口(但仍然不夠大)AI 模型的上下文窗口是它一次可以處理的數據量(以令牌為單位,基本上是單詞的位)。顧名思義,更大的上下文窗口意味著模型在處理給定請求時可以考慮更多上下文和外部信息。這通常會帶來更好的輸出。例如,我最近與一位藝術家交談,每次與 Google 的 Gemini 聊天時,他都會遞給它一份 300 頁的文檔。該文檔包括他個人日記的摘錄、他所寫劇本的完整副本以及其他許多內容。與他像普通用戶一樣簡單地與模型交互相比,這種大量的上下文讓模型為他提供了更好、更有針對性的響應。這在很大程度上是因為 Gemini 有 100 萬個令牌上下文窗口。相比之下,GPT-5 相對較小,ChatGPT 中只有 196,000 個令牌(當開發人員通過公司的 API 使用時擴展到 400,000 個令牌)。較小的上下文窗口使 GPT-5 和 ChatGPT 處於主要劣勢。例如,如果你想使用該模型來編輯一本書或改進大型代碼庫,你很快就會用完令牌。當 OpenAI 發布 GPT-5.1 時,消息來源表明,當通過 ChatGPT 接口使用時,它將附帶一個 256,000 個令牌上下文窗口,並且可能在 API 中增加一倍。可以肯定的是,這比今天的 GPT-5 更好。但它仍然遠遠低於 Gemini,尤其是在谷歌準備進行自己的升級的情況下。 OpenAI 可能會在最後一刻出人意料地升級到 100 萬個代幣。但如果它保留 256,000 個代幣上下文窗口,預計開發者社區會大量抱怨為什麼窗口仍然不夠大。甚至更少的幻覺 OpenAI 的 GPT-5 模型在很多方面都存在不足。但它非常擅長的一件事是提供準確的、基本上沒有幻覺的響應。我經常使用 OpenAI 的模型來進行研究。對於像 GPT-4o 這樣的早期模型,我發現我必須仔細檢查模型生成的所有內容,以確保它不是想像出一些實際上並不存在的新軟件工具,或者在無數其他小而關鍵的事情上對我撒謊。使用 GPT-5,我發現我需要做的事情要少得多。該模型並不完美。但OpenAI很大程度上解決了狂野幻覺的問題。根據該公司自己的數據,GPT-5 在解決複雜的基準問題時只有 26% 的時間出現幻覺,而舊模型的這一比例為 75%。在正常使用中,這意味著在更簡單的日常查詢中幻覺率要低得多,這些查詢的設計目的不會使模型出錯。通過 GPT-5.1,預計 OpenAI 將在其新的、無幻覺的方向上加倍努力。更新後的模型可能會在避免錯誤方面做得更好。不過,這是有代價的。較少產生幻覺的模型往往會承擔較少的風險,因此看起來比不受約束、充滿幻覺的模型缺乏創造力。 OpenAI 可能會嘗試通過 GPT-5.1 仔細探索準確性和創造力之間的聯繫。但並不能保證他們會成功。更好、更有創意的寫作同樣,當 OpenAI 發布他們的 GPT-5 模型時,用戶很快注意到它產生了無聊、毫無生氣的散文。當時,我預測 OpenAI 本質上對模型進行了“情感腦白質切除術”,扼殺了它的情商,以遏制模型讓用戶陷入精神病螺旋的令人擔憂的趨勢。事實證明,我是對的。 Sam Altman 在上個月 X 上的一篇帖子中承認,“我們對 ChatGPT 做了相當嚴格的限制,以確保我們對心理健康問題保持謹慎。”但 Altman 在帖子中還表示,“既然我們已經能夠減輕嚴重的心理健康問題並擁有新工具,我們將能夠在大多數情況下安全地放寬限制。”這一過程始於在現有 GPT-5 模型中推出新的、情商更高的人物。但這種情況很可能會隨著 GPT-5.1 的出現而繼續下去並得到加強。我預計新模型將具有 GPT-5 的整體智能和準確性,同時具有與情感深厚的 GPT-4o 相匹配的個性。這可能會與更強大的保障措施相結合,以確保 5.1 避免可能傷害患有心理健康危機的人的對話。希望通過 GPT-5.1,公司能夠保護那些易受攻擊的用戶,而不會讓其他人的機器人大腦變磚。頑皮的部分如果你對 NSFW 的東西感到厭惡,也許在這部分你要摀住耳朵。在同一篇 X 帖子中,奧特曼巧妙地刪除了一句話,讓互聯網陷入了混亂:“隨著我們更全面地推出年齡限制,並作為我們‘像對待成年人一樣對待成人用戶’原則的一部分,我們將允許更多內容,比如針對經過驗證的成年人的色情內容。”不過,就 OpenAI 而言,他們似乎非常致力於兌現這一承諾。在人工智能世界奇怪的技術自由主義圈子裡,這個問題與個人自由和自治密切相關。在最近一篇關於人工智能未來的文章中,OpenAI 再次重申,“我們相信成年人應該能夠在社會定義的廣泛範圍內按照自己的方式使用人工智能”,將人工智能的全面訪問“與電力、清潔水或食物同等”。發布後不久,因此不可避免的媒體狂熱並沒有掩蓋新模型不太有趣的方面),ChatGPT 頑皮部分的護欄幾乎肯定會脫落。更深層次的思考除了殺死 GPT-5 的情商之外,OpenAI 在發布 GPT-5 時還犯了另一個錯誤。該公司試圖將所有查詢統一在一個模型中,讓 ChatGPT 自己選擇是使用更簡單、省力的 GPT-5 版本,還是使用更慢、更周到的版本。這個想法是崇高的——沒有理由使用一個極其強大、緩慢、資源密集型的 LLM 來回答諸如“芝麻醬在冰箱裡一個月後仍然好吃嗎?”之類的查詢。但在實踐中,該功能卻失敗了。 ChatGPT 不擅長確定需要花費多少精力來處理給定的查詢,這意味著提出複雜問題的人通常會被引導到一個廉價的、蹩腳的模型,從而產生糟糕的結果。 OpenAI 通過用戶界面拼湊解決了 ChatGPT 中的問題。但對於 GPT-5.1,早期跡象表明 OpenAI 再次將其模型分為即時版本和思考版本。前者對簡單查詢的響應速度可能比 GPT-5 快得多,而後者將花費更長的時間,咀嚼更多的標記,並在復雜任務上產生更好的結果。至關重要的是,用戶似乎將再次能夠在兩個模型之間明確進行選擇。當查詢真正簡單時,這應該會產生更快的結果,並且能夠更好地解決複雜問題。 OpenAI 暗示,其未來的模型明年將在科學和醫學等領域“能夠做出非常小的發現”,“能夠做出更重大發現的系統”最早將在 2028 年推出。 GPT-5.1 很可能是沿著這條道路邁出的第一步。在 OpenAI 在其標誌性的、不穩定的直播中正式發布 GPT-5.1 之前,所有這一切都仍然是猜測。但考慮到我使用 OpenAI 的歷史(回到 GPT-3 的太平歲月),當 5.1 模型上線時,我預計會發生一些變化。總體而言,GPT-5.1 似乎是一種嘗試糾正 GPT-5 的許多明顯問題,同時也加倍了 OpenAI 更加以自由為導向、注重準確性的方法。新模型很可能能夠思考、(咳咳)“調情”、寫作和與前輩相比,溝通效果更好。不過,它是否會比來自 Google、Anthropic 和無數中國人工智能實驗室的不斷增長的競爭模型做得更好,誰也說不准。 《Fast Company 改變世界創意獎》的早期截止日期是太平洋時間 11 月 14 日星期五晚上 11:59。今天申請。


已发布: 2025-11-13 10:00:00

来源: www.fastcompany.com