GPT-5震撼登場!OpenAI宣稱達到PhD博士級智能,但為何業界反應兩極?

2025年8月7日,OpenAI終於揭開了GPT-5的神秘面紗。在長達一個半小時的直播發布會中,該公司宣稱這個最新模型已經達到了「PhD博士級」的智能水平。然而,這個被寄予厚望的新模型,卻在科技界引發了意想不到的兩極反應。從基準測試的驚人數據到實際應用的爭議,GPT-5的發布正在重新定義我們對AI能力的認知。

- #從大學生到博士的智能飛躍

OpenAI在發布會上將GPT-5的智能提升描述得極為生動。他們表示:「GPT-3就像與高中生聊天,GPT-4像是與大學生對話,而GPT-5則如同與一位擁有PhD學位的專家交流。」

更令人震驚的是,這不只是單一領域的博士級智能。GPT-5被描述為能在幾乎所有專業領域提供博士級別的專業知識和分析能力。無論是量子物理、分子生物學還是古典文學,用戶都能獲得頂級專家水準的回應。

在基準測試方面,GPT-5的表現幾乎可以用「完美」來形容。在競賽數學基準測試中,當它能夠使用Python時,得分率達到了驚人的100%。即使不使用工具,純粹依靠模型本身的推理能力,也能達到96.7%的準確率。

- #碾壓性的測試數據背後

GPT-5在各項專業測試中的表現令人瞠目結舌。在哈佛-MIT數學錦標賽中,使用Python輔助時同樣獲得滿分。在Google的PhD級科學問題考試中,得分率達到89%。即使是被稱為「人類最後考試」的高難度測試,GPT-5也名列前茅。

在編程能力方面,GPT-5以74.9%的成績微幅領先Anthropic剛發布的Claude Opus 4.1(74.5%),重新奪回了編程界的王座。在大學級視覺問題解決測試中,GPT-5獲得84.2%的分數,而Claude Opus只有77.1%。

然而,OpenAI也坦承:「基準測試的數字雖然令人興奮,但我們正在接近飽和點。當你在某個基準測試中從98%提升到99%時,你需要其他東西來真正展現模型的優秀程度。」

- #革命性的統一模型架構

GPT-5帶來的一個重大改變是結束了用戶需要選擇不同模型的困擾。過去用戶需要在GPT-4、O3、O3 Pro等不同模型間做選擇,現在一切都統一為GPT-5。

當用戶輸入提示詞時,GPT-5會自動決定需要多長的思考時間,以及採用什麼方式來獲得最佳回應。這種智能化的自動調整,大大簡化了用戶體驗。

模型在處理細節方面也有了顯著提升。如果你給它一個包含大量細微要求的長提示詞,GPT-5能夠準確捕捉並執行這些細節要求。更重要的是,當它發現走錯方向時,能夠有效地回溯並修正路徑。

- #前所未有的速度與可用性

幾乎所有早期測試者都對GPT-5的速度讚不絕口。這種速度提升不僅體現在生成回應的時間上,更重要的是在保持高質量輸出的同時實現了極速響應。

在可用性方面,OpenAI採取了前所未有的開放策略。GPT-5對所有用戶開放,無論是免費用戶還是付費用戶都能使用。Plus訂閱用戶獲得更多使用額度,而Pro用戶則能訪問GPT-5 Pro版本,該版本具有延長推理能力,能提供更全面準確的答案。

Pro用戶基本上享有無限使用權限,這在OpenAI的歷史上是罕見的慷慨舉措。

- #AI助理功能的重大升級

GPT-5正在從一個聊天工具轉變為真正的個人助理。從下週開始,它將能夠訪問用戶的Gmail和Google Calendar,實現更深度的個人化服務。

在演示中,GPT-5展示了如何查看用戶的日程安排,提供半小時為單位的日程概覽,檢查需要處理的郵件,甚至能根據行程安排幫助用戶準備行李。這種整合讓AI真正成為了生活和工作中的得力助手。

語音功能也迎來重大更新,現在連免費用戶都能無限使用語音聊天。付費用戶則享有近乎無限的使用權限。語音功能的可定制性大幅提升,用戶可以要求AI只用一個詞回答問題,它就會嚴格遵守這個指令。

- #令人驚嘆的編程能力展示

發布會上展示的編程能力讓許多開發者為之驚嘆。其中最令人印象深刻的是一個完全3D的城堡遊戲,僅用一個提示詞就能生成。

這個遊戲具有完整的3D視角,可以360度旋轉查看城堡的每個角度。遊戲中有行走的守衛、聊天系統,玩家可以與城堡中的角色對話。更有趣的是,遊戲還包含了射擊氣球的玩法元素,玩家需要操控大砲擊落飛行的氣球。

另一個令人驚豔的演示是財務儀表板的生成。GPT-5創建了一個設計精美、配色協調的儀表板,當鼠標懸停在圖表上時,能實時顯示具體數據。所有這些複雜的功能都是通過單一提示詞實現的。

- #安全性的重大突破

在AI安全方面,GPT-5取得了顯著進展。幻覺率(錯誤生成虛假信息)從O3模型的4.5%降低到了0.7%,這是一個巨大的改進。

更令人關注的是對「欺騙行為」的控制。在編碼欺騙測試中,GPT-5的欺騙率只有16.5%,而之前的模型高達47.4%。在缺失圖像測試中,欺騙率從86.7%降至9.9%。

GPT-5還改進了拒絕回答的方式。當用戶詢問敏感話題時,它不再簡單地說「抱歉,我無法幫助」,而是會指向合法的資源和道德考量,展現出更好的意圖理解能力。

- #API生態系統的全面升級

對開發者而言,GPT-5帶來了豐富的API選項。提供三種版本:標準GPT-5、GPT-5 Mini(中等規模)和GPT-5 Nano(輕量級版本),價格與性能相匹配。

新增的「推理努力」(reasoning effort)參數讓開發者能夠控制模型的思考深度。需要快速響應時可以設置低推理努力,需要深思熟慮的答案時則可以提高該參數。

另一個創新是「詳細程度」(verbosity)參數,開發者可以控制輸出的長短,這對於不同應用場景極為實用。上下文窗口擴展到了40萬tokens,約等於30萬字的輸入輸出能力。

- #業界反應的兩極分化

儘管數據亮眼,業界對GPT-5的反應卻呈現兩極分化。許多日常關注AI發展的專業人士表示,這次更新感覺更像是漸進式改進,而非革命性飛躍。

有評論者指出:「從GPT-3.5到GPT-4的飛躍感覺是巨大的。當時他們展示了在紙上畫網站草圖,拍照後就能生成代碼的功能,這是我們從未見過的。但這次感覺更像是從GPT-4到O3模型的提升。」

批評者認為,發布會缺少了那種「哇」的時刻。沒有展示新的多模態功能,沒有整合Sora視頻生成,也沒有展示與AI代理的協同工作。這些本可以讓GPT-5真正與眾不同的功能都缺席了。

- #編程領域的新霸主

然而,在編程領域,GPT-5獲得了壓倒性的好評。Cursor的創始人在發布會上表示,這是目前市場上最好的編程模型,Cursor將默認使用GPT-5。

一位測試者使用單一提示詞「製作一個Vampire Survivors克隆遊戲,要美觀且功能完整」,GPT-5在3分鐘內生成了565行代碼。遊戲不僅可以運行,還具有漸進式難度、多種敵人類型、升級系統和多樣化武器。測試者評價這是他見過的最好的單提示詞遊戲生成結果。

這種強大的編程能力正在改變整個行業的走向。正如評論者所說:「大型語言模型公司們都意識到,為個人編寫定制化應用是LLM的殺手級應用。如果它能寫代碼,它就能做任何事。」

參考資料來源:https://www.youtube.com/watch?v=K_mlC_aeDSU

Read more

Claude 的 Project、Skill、Connector 到底怎麼分?一次搞懂三者的關係

Claude 的 Project、Skill、Connector 到底怎麼分?一次搞懂三者的關係

很多人問我,在 Claude 裡面,Project、Skill、Connector 這三個東西到底差在哪裡? 什麼時候該用哪一個? 老實說,我一開始也搞得很混亂。 但實際用了一段時間之後,我發現其實邏輯很簡單。 先從最基本的開始:Connector 是對外的資料來源 如果你需要從外部拿資料,比如說接 Google Calendar、接 Notion、接你自己的資料庫,你就需要 Connector。 它就是一個 MCP 的連結,讓 Claude 可以去外面抓資料回來。 沒有 Connector,Claude 就只能用它自己知道的東西,沒辦法碰到你的資料。 Skill 則是內部的運算邏輯 Skill 沒有辦法對外連接。 它只能在內部用 Python 或程式碼執行。 你可以把它想成是一個 Controller,專門負責處理運算的部分。 比如說,你想讓 Claude 用特定的格式改寫文章、

By Andy Lin
讓 AI 認識你 — Memory is All You Need

讓 AI 認識你 — Memory is All You Need

讓 AI 認識你 — Memory is All You Need 最近我在 Claude 上快速搭建了七大 Agent。 原因很簡單:你的助理應該是越使用越懂你。 而 Claude Project 有個關鍵功能叫 Memory,它會根據你不斷詢問的過程,主動提取記憶。 這就是我認為 AI 助手真正強大的地方。 GA 分析助手:從進階到客製化 自從我串接 GA MCP 後,這位助手已經變得非常厲害。 漏斗分析、訪客來源、異常事件追蹤、站上任何問題都難不倒它。 但我想要的不只是這些。 我希望它隨著時間,能夠對齊我的知識,知道我要什麼。 你不用想太多,不用一次設定好整個 instructions。 試著使用一週,再回頭看看 memory,你會發現它已經根據你的行為開始學習客製化了。 許多助手不需要懂老闆要什麼,但網站分析不一樣。 因為我沒有那麼多美國時間,

By Andy Lin
AGI 來臨:兩大 AI 巨頭的預測與警示

AGI 來臨:兩大 AI 巨頭的預測與警示

在近期的達沃斯論壇上,Anthropic 執行長 Dario Amodei 與 Google DeepMind 執行長 Demis Hassabis 進行了一場關於「AGI 之後的世界」的深度對談,揭示了 AI 發展的最新進展與未來展望。 AGI 時間線預測 Dario 重申了他去年的預測:在 2026-2027 年,AI 模型將能夠在諸多領域達到諾貝爾獎得主的水準。他表示目前 Anthropic 的工程師已經不再親自寫程式碼,而是讓模型來完成編寫工作,人類只負責編輯和周邊任務。他預估在 6-12 個月內,模型將能端到端完成大部分工程師的工作。 Demis 則持稍微保守的態度,認為在十年內有 50% 的機會實現 AGI。他指出編程和數學領域較容易自動化,因為結果可驗證;但自然科學領域則更具挑戰性,需要實驗驗證,且目前模型在「提出問題」和「建立理論」

By Andy Lin
讓 AI 當你的健康顧問:我用 Apple Watch 數據打造個人健康分析 Agent

讓 AI 當你的健康顧問:我用 Apple Watch 數據打造個人健康分析 Agent

最近我嘗試做了一個 Agent,專門用來分析我的身體健康狀況。 這不是什麼有商業潛力的專案,純粹是出於好奇。 我想知道現在的 AI 到底能幫我們把健康分析做到什麼程度。 資料從哪來? 要讓 AI 分析任何東西,首先得有資料。 我第一個想到的就是 Apple Health。 因為我每天戴著 Apple Watch,它本來就會自動記錄睡眠、運動、心跳這些數據。 除此之外,我也在嘗試另一個經絡檢測的儀器,有點像中醫把脈的概念,只是還沒整合進來。 我覺得如果未來能把更多資料源串在一起,應該可以做出更有意思的應用。 技術架構其實不難 我用了一個叫「Apple Health Auto Export」的 App。 這個 App 可以把健康資料透過 REST API 自動傳送到你指定的伺服器。 資料打到伺服器後,我再處理並存到 Database 裡。 接著寫一個 MCP Server,然後在

By Andy Lin