從開源神話到災難現場:Meta AI帝國如何在一年內搞砸Llama 4?

從開源神話到災難現場:Meta AI帝國如何在一年內搞砸Llama 4?

2025年10月底,Meta AI宣布裁員600人,核心研究總監、AI業務高管紛紛出走或被邊緣化,連圖靈獎得主Yann LeCun的處境都一度被認為岌岌可危。這則消息令人震驚——執行長祖克柏(Mark Zuckerberg)一方面用數億美元年薪瘋狂挖角AI人才,另一方面卻又如此果決地裁員,這矛盾行為背後究竟隱藏著什麼?我們訪問了前FAIR研究總監、Meta AI科學家田淵棟、參與Llama 3訓練的前Meta員工Gavin Wang,以及矽谷資深HR專家,試圖還原Meta Llama開源路線圖的驚天逆轉。為何曾驚艷世界的Llama 3,僅僅一年後的Llama 4卻淪為一場災難?Meta的開源路線,是否從一開始就注定是個錯誤?

2013年底,祖克柏開始組建Meta的AI團隊。當時,他邀請了AI三巨頭之一的Yann LeCun來領導AI發展。LeCun加入時提出了三個條件:不從紐約搬家、不辭去紐約大學的教職、以及「必須進行開放式研究,公開發表所有工作,並開源程式碼」。這奠定了Meta AI最初的開放基因。

LeCun隨後成立了基礎AI研究實驗室(FAIR Labs),專注於前沿探索,研究那些當下可能沒有重大應用,但未來可能引領突破的新思想、演算法與模型架構。然而,Meta的最終目標是將AI應用於產品。因此,一個名為「生成式AI」(GenAI)的部門應運而生,與FAIR並行。GenAI負責將FAIR的研究成果產品化,其中最關鍵的項目就是Llama模型。

理想狀態下,這是一個完美的平衡: - FAIR:專注前沿研究,追求通用人工智慧(AGI),產出突破性想法。 - GenAI:將FAIR的成果工程化、產品化,整合進Meta的應用中,創造商業價值。

前Meta AI科學家田淵棟回憶道:「我認為從我加入到2022年,FAIR都非常快樂。因為大語言模型出現後,算力成為關鍵因素,矛盾也隨之而來。每個人都想訓練一個非常大的模型,但GPU資源有限,僧多粥少,2023年之後的情況肯定不如以前了。」這個曾經的烏托邦,其前提是Meta的AI模型必須始終保持在開源領域的領先地位,然而這座理想的天秤,很快就失去了平衡。

Llama的榮光歲月:從奠基到巔峰

Llama系列的崛起,是Meta在AI領域最輝煌的篇章。

Llama 1 (2023年2月):奠定「小參數、高效能」的基礎。當時發布的13B模型,在多項基準測試上超越了175B參數的GPT-3。雖然官方僅供研究申請,但其權重在一周後被「意外洩漏」,反而點燃了整個開源社群的熱情,催生了無數的微調專案。這也讓「權重開源」(Open Weights)成為主流,意即公開模型訓練後的參數文件,而非完整的訓練數據與程式碼。

Llama 2 (2023年7月):與微軟聯手,宣告商業化可行。Llama 2不僅免費且可商用,徹底改變了行業格局。開發者不再受制於OpenAI的API速率限制,也不用向客戶解釋為何要按量付費。它迫使其他封閉模型巨頭變得更加開放,樹立了新的行業標準。

Llama 3 (2024年4月-9月):Meta的巔峰時刻。在短短半年內,Meta以「光速」迭代,接連發布了Llama 3 (8B, 70B)、Llama 3.1 (405B),以及針對終端設備的Llama 3.2 (1B, 3B)。其中405B版本被譽為「全球最強的開放可用基礎模型之一」,能力上極大拉近了與封閉模型的差距。

曾參與Llama 3團隊的Gavin Wang表示:「當時的感覺是,我們不僅在做一份工作,而是在真正支持AI最前沿的發展。每件事都非常有意義。我當時非常自豪,出去跟一些新創公司的創辦人說我在Llama 3團隊,他們都會說謝謝你們的努力。整個科技圈,特別是AI新創圈,都指望著Llama。」

滑鐵盧時刻:Llama 4的災難性潰敗

在Llama 3的巨大成功後,祖克柏對Llama 4寄予厚望,他曾公開表示:「我們Llama 3的目標是讓開源模型與最強的專有模型競爭,而Llama 4的目標是超越它們。」

然而,2025年4月5日發布的Llama 4,卻成了一場徹頭徹尾的災難。 Meta宣稱Llama 4在多模態和長文本能力上實現了巨大飛躍,並在宣傳中高調引用其在LMArena排行榜上僅次於Gemini 2.5 Pro的第二名成績。

但開發者社群的反饋卻極為負面,認為其性能遠低於預期。隨後,市場傳言四起,指控Meta在LMArena上提交的是一個經過對話增強訓練的「特調版」,涉嫌「作弊刷榜」,導致過擬合。儘管Meta高管迅速否認,但負面影響已無法挽回。媒體普遍將其視為一場「掛羊頭賣狗肉」的騙局,更先進的Behemoth版本也因此延遲發布,最終不了了之。

崩潰的內幕:產品導向如何壓垮前沿研究?

Llama 3到Llama 4之間,到底發生了什麼?答案是那座理想的天秤徹底失衡了。

隨著Llama 3的成功,Meta高層越來越強調「將AI用於自家產品」。2024年1月,Meta進行了一次重組,FAIR的兩位領導者被要求直接向Meta的產品長(CPO)Chris Cox匯報。這標誌著「產品優先」的戰略徹底壓倒了「研究優先」。

當時的領導層,包括祖克柏和CPO,認為LLM的價值必須從產品能力開始。因此,Llama 4的路線圖規劃完全集中在「產品整合」上,例如多模態能力,卻嚴重忽視了模型最核心的「推理能力」。一位受訪者指出:「公司許多中高層,如副總裁和高級總監,都是傳統基礎設施或電腦視覺背景,對大型語言模型缺乏深刻的理解。真正懂的人,反而是那些在一線工作的學術研究型博士。」

就在Meta埋頭於多模態工程時,外部世界風雲突變: - 2024年9月:OpenAI推出基於思維鏈(Chain of Thought)的o1系列模型。 - 2024年12月:中國的DeepSeek開源模型橫空出世,採用MoE(混合專家架構),在保持強大推理能力的同時大幅降低成本。

這些技術突破打了Meta一個措手不及。事實上,以田淵棟為首的FAIR科學家早已在進行思維鏈研究,但這種前沿探索並未及時傳遞給Llama的工程團隊。當DeepSeek引發轟動後,Meta高層才如夢初醒,臨時將田淵棟的FAIR團隊調去支援Llama 4,「救火式」地進行優化。

田淵棟對此深有感觸:「我學到一個很大的教訓是,你不能讓不懂的人來當這種項目的領導或是做規劃的人。如果出問題,大家應該一致同意那個時間點不能發布,應該往後延。但高層批准的死線(deadline)壓力非常大。」在極度緊迫的時程下,團隊成員疲憊不堪,甚至有人凌晨三點還在跨時區開會。最終,品質大幅下滑,災難已不可避免。

祖克柏的最後賭注:28歲的Alex Wang空降掌權

Llama 4的失敗,迫使祖克柏採取了極端手段。他收購了Scale AI,並將其年僅28歲的創辦人Alex Wang空降至Meta,領導全新的AI架構。

這次重組堪稱一場權力大洗牌: - Alex Wang帶領數十位高薪挖來的頂尖研究員,組建了一個名為「TBD」的特權小組。 - TBD、FAIR、GenAI共同組成「Meta超級智能實驗室」(MSL),直接向Alex Wang匯報,而Alex Wang則直接向祖克柏匯報。 - 這意味著,Yann LeCun現在需要向這位28歲的年輕人匯報。原GenAI負責人Ahmad被邊緣化,CPO Chris Cox也被排除在AI團隊的直接領導之外。

Alex Wang的空降在Meta內部引發了巨大爭議,TBD團隊享有「三年無績效考核」、「可無視所有VP訊息」等無限特權,引發了資深研究員的強烈不滿。但這場豪賭,或許是祖克柏贏得AI競賽的最後機會。Alex Wang提出了三大改革方向:強化核心基礎研究、加強產品與模型整合、建立統一的核心基礎設施團隊。這既是修正,也是集權。

Meta的故事,讓人想起貝爾實驗室、IBM華生研究中心等那些因無法平衡前沿研究與商業化而衰落的傳奇機構。FAIR曾是AI科學家的烏托邦,如今卻幾乎成為商業化的又一個犧牲品。祖克柏的這場豪賭能否讓Llama重回巔峰,或許很快就會有答案。

參考資料: https://www.youtube.com/watch?v=0mrko3cYqBs

Read more

Claude 的 Project、Skill、Connector 到底怎麼分?一次搞懂三者的關係

Claude 的 Project、Skill、Connector 到底怎麼分?一次搞懂三者的關係

很多人問我,在 Claude 裡面,Project、Skill、Connector 這三個東西到底差在哪裡? 什麼時候該用哪一個? 老實說,我一開始也搞得很混亂。 但實際用了一段時間之後,我發現其實邏輯很簡單。 先從最基本的開始:Connector 是對外的資料來源 如果你需要從外部拿資料,比如說接 Google Calendar、接 Notion、接你自己的資料庫,你就需要 Connector。 它就是一個 MCP 的連結,讓 Claude 可以去外面抓資料回來。 沒有 Connector,Claude 就只能用它自己知道的東西,沒辦法碰到你的資料。 Skill 則是內部的運算邏輯 Skill 沒有辦法對外連接。 它只能在內部用 Python 或程式碼執行。 你可以把它想成是一個 Controller,專門負責處理運算的部分。 比如說,你想讓 Claude 用特定的格式改寫文章、

By Andy Lin
讓 AI 認識你 — Memory is All You Need

讓 AI 認識你 — Memory is All You Need

讓 AI 認識你 — Memory is All You Need 最近我在 Claude 上快速搭建了七大 Agent。 原因很簡單:你的助理應該是越使用越懂你。 而 Claude Project 有個關鍵功能叫 Memory,它會根據你不斷詢問的過程,主動提取記憶。 這就是我認為 AI 助手真正強大的地方。 GA 分析助手:從進階到客製化 自從我串接 GA MCP 後,這位助手已經變得非常厲害。 漏斗分析、訪客來源、異常事件追蹤、站上任何問題都難不倒它。 但我想要的不只是這些。 我希望它隨著時間,能夠對齊我的知識,知道我要什麼。 你不用想太多,不用一次設定好整個 instructions。 試著使用一週,再回頭看看 memory,你會發現它已經根據你的行為開始學習客製化了。 許多助手不需要懂老闆要什麼,但網站分析不一樣。 因為我沒有那麼多美國時間,

By Andy Lin
AGI 來臨:兩大 AI 巨頭的預測與警示

AGI 來臨:兩大 AI 巨頭的預測與警示

在近期的達沃斯論壇上,Anthropic 執行長 Dario Amodei 與 Google DeepMind 執行長 Demis Hassabis 進行了一場關於「AGI 之後的世界」的深度對談,揭示了 AI 發展的最新進展與未來展望。 AGI 時間線預測 Dario 重申了他去年的預測:在 2026-2027 年,AI 模型將能夠在諸多領域達到諾貝爾獎得主的水準。他表示目前 Anthropic 的工程師已經不再親自寫程式碼,而是讓模型來完成編寫工作,人類只負責編輯和周邊任務。他預估在 6-12 個月內,模型將能端到端完成大部分工程師的工作。 Demis 則持稍微保守的態度,認為在十年內有 50% 的機會實現 AGI。他指出編程和數學領域較容易自動化,因為結果可驗證;但自然科學領域則更具挑戰性,需要實驗驗證,且目前模型在「提出問題」和「建立理論」

By Andy Lin
讓 AI 當你的健康顧問:我用 Apple Watch 數據打造個人健康分析 Agent

讓 AI 當你的健康顧問:我用 Apple Watch 數據打造個人健康分析 Agent

最近我嘗試做了一個 Agent,專門用來分析我的身體健康狀況。 這不是什麼有商業潛力的專案,純粹是出於好奇。 我想知道現在的 AI 到底能幫我們把健康分析做到什麼程度。 資料從哪來? 要讓 AI 分析任何東西,首先得有資料。 我第一個想到的就是 Apple Health。 因為我每天戴著 Apple Watch,它本來就會自動記錄睡眠、運動、心跳這些數據。 除此之外,我也在嘗試另一個經絡檢測的儀器,有點像中醫把脈的概念,只是還沒整合進來。 我覺得如果未來能把更多資料源串在一起,應該可以做出更有意思的應用。 技術架構其實不難 我用了一個叫「Apple Health Auto Export」的 App。 這個 App 可以把健康資料透過 REST API 自動傳送到你指定的伺服器。 資料打到伺服器後,我再處理並存到 Database 裡。 接著寫一個 MCP Server,然後在

By Andy Lin