為什麼AI寫程式會「發瘋」?看AI大神直播3小時,揭開與AI協作的殘酷真相

為什麼AI寫程式會「發瘋」?看AI大神直播3小時,揭開與AI協作的殘酷真相

知名 AI 開發者與 YouTuber Cole Medin 最近進行了一場長達三小時的直播,挑戰從零開始,現場打造一個全端 AI 助理。這個 ambitious 的計畫旨在創建一個以他所有 YouTube 影片內容為知識庫的個人化 AI 教練。然而,這場直播並非一帆風順,反而意外地揭示了與 AI 協作時光鮮亮麗表象下的殘酷現實:即使是頂尖高手,也必須面對 AI 助理「失控」與「遺忘」的挑戰。這不僅是一場程式碼的展演,更是一堂關於如何駕馭 AI 的實戰大師課。

Cole Medin 的目標是建立一個先進的 RAG (Retrieval-Augmented Generation) 代理,專精於 AI 代理和 AI 編碼兩大領域。這個 AI 的知識來源,正是他頻道上所有影片的逐字稿。

整個技術架構涵蓋: - 後端語言:Python - AI 框架:Pydantic AI - 資料庫與向量儲存:Superbase - 資料處理與分塊:Dockling 函式庫

運作流程是先建立一個 RAG 管線 (Pipeline),自動抓取 YouTube 影片逐字稿,透過「混合分塊 (Hybrid Chunking)」策略進行處理,最後將這些知識碎片嵌入並儲存在 Superbase 知識庫中。最終目標是提供一個類似 ChatGPT 的聊天介面,讓使用者能針對他的影片內容提出深入問題,並獲得精確、附有來源的回答。

核心方法論:PIV 循環與消除AI的「假設」

Cole Medin 強調,與 AI 高效協作的關鍵不在於盲目地丟出指令,而是建立一套系統化的流程。他將自己的方法論稱為「PIV 循環」:

  1. Planning (規劃):在動手寫任何程式碼前,進行深度規劃。
  2. Implementing (執行):將編碼任務完全委託給 AI 助理。
  3. Validating (驗證):由人類專家進行程式碼審查與手動測試。

他指出,整個流程中最關鍵、也最常被忽略的就是「規劃」階段。其核心價值在於: 「規劃階段的主要目標,就是盡可能減少 AI 編碼助理在執行時需要做出的『假設』。」

一個模糊的指令會迫使 AI 填補大量細節,導致結果難以預測。因此,他的規劃階段極其細緻,包含從「非結構化對話 (Vibe Planning)」到最終產出「結構化計畫 (Structured Plan)」,明確定義所有技術選擇、功能邊界與預期行為,不留下任何模糊空間。

當AI開始失控:一場2500行的計畫災難

直播中最具戲劇性的轉折,完美印證了深度規劃的重要性。當 Cole Medin 要求 AI 編碼助理 (Claude Code) 根據討論生成一份結構化計畫時,他明確指示計畫的長度應介於 500 到 1000 行之間。

然而,AI 卻完全無視了這個關鍵限制,產出了一份長達 2500 行 的超長文件。

這個看似微小的失誤,卻引發了災難性的後果。這份過於冗長和複雜的計畫,導致 AI 在後續的執行階段出現了嚴重的「注意力渙散」與「指令遺忘」。最致命的錯誤是: AI 完全忘記了使用核心技術之一的「Dockling」函式庫來進行混合分塊。

這意味著整個 RAG 管線中最關鍵的資料處理步驟被徹底跳過,AI 選擇用自己拼湊的、不甚理想的方法來替代。這場「AI 發瘋」的插曲,生動地展示了當人類的系統化約束失效時,AI 協作是多麼脆弱。

修正與救贖:從錯誤中學習並進化系統

面對 AI 的失控,Cole Medin 並沒有選擇手動修正程式碼,而是回歸到他的 PIV 循環。他意識到問題的根源在於「計畫」本身,因此他重新與 AI 溝通,強制其生成一份更簡潔、更聚焦的計畫。

這個過程體現了他另一個核心理念: 「每一次的錯誤,都是一個進化你系統的機會。」

與其進行一次性的修補,不如優化整個工作流程,確保同樣的錯誤不再發生。經過幾輪迭代與修正,新的、簡潔的計畫終於讓 AI 回到正軌。直播的最後,這個 AI 助理成功地被打造出來,不僅能夠運作,還能:

  • 在聊天介面中流暢對話。
  • 準確地從 Superbase 知識庫中檢索相關資訊。
  • 提供附有 可點擊 YouTube 時間戳 的引用來源,將使用者直接導向影片中的特定片段。

儘管答案的流暢度仍有待改進,但核心功能已經完美實現,證明了這套方法的最終有效性。

結論:與AI協作的真實面貌

Cole Medin 的這場直播,撕開了 AI 寫程式的神秘面紗。它告訴我們,與 AI 的高效協作並非一場輕鬆的對話,而是一門嚴謹的工程科學。人類的角色不再是單純的「程式設計師」,而更像是「系統架構師」——負責設計流程、定義規則、驗證結果,並在 AI 偏離軌道時將其拉回。

PIV 循環這樣的框架,正是為了應對 AI 的不確定性而生。這場直播的價值,不在於展示了一個完美的 AI,而在於揭示了通往成功路上所有真實的混亂、挫折與最終的突破。這才是未來人機協作最真實的樣貌。

參考資料: https://www.youtube.com/watch?v=ZHcXavLTA5s

Read more

Claude 的 Project、Skill、Connector 到底怎麼分?一次搞懂三者的關係

Claude 的 Project、Skill、Connector 到底怎麼分?一次搞懂三者的關係

很多人問我,在 Claude 裡面,Project、Skill、Connector 這三個東西到底差在哪裡? 什麼時候該用哪一個? 老實說,我一開始也搞得很混亂。 但實際用了一段時間之後,我發現其實邏輯很簡單。 先從最基本的開始:Connector 是對外的資料來源 如果你需要從外部拿資料,比如說接 Google Calendar、接 Notion、接你自己的資料庫,你就需要 Connector。 它就是一個 MCP 的連結,讓 Claude 可以去外面抓資料回來。 沒有 Connector,Claude 就只能用它自己知道的東西,沒辦法碰到你的資料。 Skill 則是內部的運算邏輯 Skill 沒有辦法對外連接。 它只能在內部用 Python 或程式碼執行。 你可以把它想成是一個 Controller,專門負責處理運算的部分。 比如說,你想讓 Claude 用特定的格式改寫文章、

By Andy Lin
讓 AI 認識你 — Memory is All You Need

讓 AI 認識你 — Memory is All You Need

讓 AI 認識你 — Memory is All You Need 最近我在 Claude 上快速搭建了七大 Agent。 原因很簡單:你的助理應該是越使用越懂你。 而 Claude Project 有個關鍵功能叫 Memory,它會根據你不斷詢問的過程,主動提取記憶。 這就是我認為 AI 助手真正強大的地方。 GA 分析助手:從進階到客製化 自從我串接 GA MCP 後,這位助手已經變得非常厲害。 漏斗分析、訪客來源、異常事件追蹤、站上任何問題都難不倒它。 但我想要的不只是這些。 我希望它隨著時間,能夠對齊我的知識,知道我要什麼。 你不用想太多,不用一次設定好整個 instructions。 試著使用一週,再回頭看看 memory,你會發現它已經根據你的行為開始學習客製化了。 許多助手不需要懂老闆要什麼,但網站分析不一樣。 因為我沒有那麼多美國時間,

By Andy Lin
AGI 來臨:兩大 AI 巨頭的預測與警示

AGI 來臨:兩大 AI 巨頭的預測與警示

在近期的達沃斯論壇上,Anthropic 執行長 Dario Amodei 與 Google DeepMind 執行長 Demis Hassabis 進行了一場關於「AGI 之後的世界」的深度對談,揭示了 AI 發展的最新進展與未來展望。 AGI 時間線預測 Dario 重申了他去年的預測:在 2026-2027 年,AI 模型將能夠在諸多領域達到諾貝爾獎得主的水準。他表示目前 Anthropic 的工程師已經不再親自寫程式碼,而是讓模型來完成編寫工作,人類只負責編輯和周邊任務。他預估在 6-12 個月內,模型將能端到端完成大部分工程師的工作。 Demis 則持稍微保守的態度,認為在十年內有 50% 的機會實現 AGI。他指出編程和數學領域較容易自動化,因為結果可驗證;但自然科學領域則更具挑戰性,需要實驗驗證,且目前模型在「提出問題」和「建立理論」

By Andy Lin
讓 AI 當你的健康顧問:我用 Apple Watch 數據打造個人健康分析 Agent

讓 AI 當你的健康顧問:我用 Apple Watch 數據打造個人健康分析 Agent

最近我嘗試做了一個 Agent,專門用來分析我的身體健康狀況。 這不是什麼有商業潛力的專案,純粹是出於好奇。 我想知道現在的 AI 到底能幫我們把健康分析做到什麼程度。 資料從哪來? 要讓 AI 分析任何東西,首先得有資料。 我第一個想到的就是 Apple Health。 因為我每天戴著 Apple Watch,它本來就會自動記錄睡眠、運動、心跳這些數據。 除此之外,我也在嘗試另一個經絡檢測的儀器,有點像中醫把脈的概念,只是還沒整合進來。 我覺得如果未來能把更多資料源串在一起,應該可以做出更有意思的應用。 技術架構其實不難 我用了一個叫「Apple Health Auto Export」的 App。 這個 App 可以把健康資料透過 REST API 自動傳送到你指定的伺服器。 資料打到伺服器後,我再處理並存到 Database 裡。 接著寫一個 MCP Server,然後在

By Andy Lin