Hi, this is Robert. Every week, I’ll share top of minds about tech, PM career, and product development. Your support means a lot to me, and if there’s a topic you’d like to explore together, don’t hesitate to reach out 🤝
我想切入有關 DeepSeek R1 這款來自中國的新開源 AI 模型的喧囂討論。過去一陣子已看到,和不久未來我們將看到大量關於該模型的分析、其起源與創建者意圖的文章。
然而,比這些細節更有意義的是 DeepSeek 如何大幅降低運行 AI 模型的成本。
基礎設施支出一直支撐著整個 AI 行業。
科技公司在數據中心和運算資源上投入了數十億美元,並承諾投入更多資金,使華爾街對該技術的潛力抱有高度期望。去年,OpenAI 籌集了 66 億美元,大部分用於訓練模型,讓投資者能對投入資金的回報有所預期。
那AI 到底貴在哪裡?除了耗電、GPU以及模型訓練,還有你未曾留意的高昂成本
近來在接觸大語言模型的執行面時,我發現了一些平常極少被討論的高昂成本。我對 AI 了解有限,專家們大可不用浪費時間吐槽,我一定輸。以下觀察純屬實務心得,沒有學術支撐,但卻是在meta裡親身經歷AI工作才看見的真相。
執行面:把模型與資料庫上架,面對全球使用者
執行面指的是將訓練完成的模型與背後的資料庫部署到網站上,提供大眾使用,而不是關起門來進行內部測試或訓練——那是科學家的工作。我們負責的則是網站的執行。許多現實挑戰,若不面對全球使用者,永遠無法顯現。
AI 執行的兩大步驟:高昂成本背後的運作模式
第一步是即席理解使用者的問話與動機,也就是所謂的 inferencing。
這部分需要即時運算,通常必須在 0.5 秒內給出最佳答案,因此依賴 GPU(價格驚人的運算硬體)。然而,成本高昂並非最大問題,流量的處理瓶頸才是。每個字元都需要透過前後文了解與其他字元的關係,排列組合幾乎無窮無盡。GPU 雖能平行處理大量數據,但需要等所有線索處理完才能進行下一步,導致流量提升困難。一個小瓶頸就能阻塞整個程序,而程序無法跳躍處理。(Google 雖推出 TPU 解決部分瓶頸,但據說仍未完全克服核心問題。)
第二步是尋找與回應使用者問題的最佳答案。
這需要從資料庫中檢索可能性最高的回應,並交給語言模型「擬人化」地回答使用者。這一過程依賴 CPU 和大量昂貴的記憶體,而不是傳統的磁碟儲存。
AI 的資料庫不同於傳統資料庫,它是一個座標資料庫,內部充滿數字座標。
傳統資料庫可以針對性檢索,因此流量處理能力高;但座標資料庫必須比對所有資料後才能找到最有可能的回應,因此流量處理速度只有傳統資料庫的 1/150。要處理相同流量,成本就高出 150 倍。
定價與成本現實
這兩個昂貴的環節結合在一起,使 AI 執行成本居高不下。例如,微軟為企業提供的 ChatGPT-4 介面,每月收費 2 萬美元,但僅能保證每秒處理 2 筆詢問。若想提升到每秒 1000 筆,每月費用高達 1200 萬美元。想玩大的,得先問自己玩得起嗎?
至於免費版 ChatGPT 並無流量保證——我就曾多次遇到詢問後收到「無法處理」的錯誤訊息,有時甚至得等十幾秒才能得到回覆。然而,即便是這樣的免費服務,背後每回答一個問題的執行成本仍高達 5 美分,而這還不包括上億美元的訓練成本。
自建大語言模型的門檻:數據才是關鍵
如果你想自行訓練大語言模型,那麼資料的規模是決定成敗的關鍵。ChatGPT 幾乎閱讀了網路上所有書籍與文章,才能達到今日的智慧水準。只有像微軟、Google、Meta與蘋果這樣的巨頭公司,才有足夠的資源與數據來支撐 AI 的訓練與運行。
對於沒有龐大數據資源的公司,想要玩 AI 永遠只能租用巨頭的模型,每月繳交高昂的「保護費」。
然而 DeepSeek 的出現改變了這個等式。
該公司不僅以遠低於業界的前期投資開發出領先的 AI 模型,其架構更讓尖端 AI 的運行成本下降到僅為原先的幾分之一。DeepSeek 的運行成本僅為 OpenAI 同等 o1 模型的 3-5%。因此,開發者如今能以更低成本構建 AI 應用。
焦點將轉向你能用 AI 建構什麼,而非能組裝多少運算資源。
這讓許多人感到不安,不僅因為大規模基礎設施支出不再是標準,更因為目前開發者用生成式 AI 所構建的產品略顯平淡。
確實,一些企業已利用生成式 AI 進行實際優化,Salesforce 也推出了 AI agent。但若剝除數十億美元的基礎設施支出,只看 AI 產品本身,數兆美元的炒作似乎難以合理化。
好消息是,低成本的 AI 將可能帶來以前無法實現的新 AI 產品。
這或許能將昂貴的企業概念驗證(Proof of Concept)轉化為真正的產品,也可能為在消費者 AI 這片荒地上奮鬥的人帶來新希望(蘋果和meta最近股價上漲就是例證)。
壞消息是,我們仍不完全知道該如何利用生成式 AI。
因此,成本效率提升是否真的能帶來更高使用率仍是未知數。我們也不確定 DeepSeek 的突破是否會帶來更大的 AI 技術進展,還是會立即將現有技術商品化,降低持續開發的動機——或者可能是介於兩者之間的某種狀態。
即使今天有許多值得樂觀的理由,但你也能理解為何人們仍有些緊張。事情即將變得更加真實。
I post regularly on:
Threads (by Meta): https://www.threads.net/@robertchen0225
Thank you,