現代數據堆疊的回歸:從幻滅到再定義
數據時代的承諾與挑戰
起初的願景:數據即平台
不久前,數據還被視為企業變革的終極解方。
在 2021 年底的矽谷,一場名為「數據的未來」論壇上,一位重量級風投合夥人提出了驚人的預言:未來所有的企業級應用程式,都將重建在數據倉庫之上。不論是 CRM、ERP,還是 ATS、CPQ,通通會轉型成「倉庫原生(warehouse-native)」的形態。
這個概念一開始看起來非常合理。把數據集中存放於單一平台,不僅能解決資料不一致的老問題,還能促成系統整合、自動化決策,甚至讓 AI 模型得以即時發揮。整個現代數據堆疊(modern data stack, MDS)於是被推向神壇,彷彿它將帶來一場千億美元級別的軟體基礎轉型。
但在這個夢想真正實現之前,現實就先來潑了一盆冷水。
進入 SaaS 時代後,數據呈現出前所未有的碎片化。一家企業往往同時使用數十個 SaaS 工具,從 Salesforce 管理客戶、Zendesk 處理客服、Workday 負責人力,到 Netsuite 管理財務,每個系統都有自己獨立的資料庫與邏輯,彼此之間缺乏共享或一致性。於是,一個客戶資訊可能出現在十個地方,每個版本略有不同。
為了「看起來像是同步的」,企業開始部署 ETL 工具、API 整合平台、自訂腳本與資料對齊流程。數據團隊大量時間不再用來分析創新,而是疲於應付資料同步失敗、pipeline 崩潰、報表數字對不上等繁瑣雜務。內部會議不是討論洞察,而是在爭論「到底哪份才是正確的名單」。
這也讓人們開始懷疑,所謂「倉庫原生」的理想,是否真的可行。
一個應用系統不只是資料的呈現工具,它同時包含商業邏輯、角色權限、流程設定等高度耦合的架構。像 Salesforce、SAP 這類成熟平台之所以廣泛被使用,正是因為這些特性無法輕易替代。要將這些應用完全重寫,讓它們運行於資料倉庫上,而且兼具讀寫能力與邏輯運算,幾乎是不可能的工程。
更別說,資料本身就是一個應用的主權邊界。如果要所有系統放棄對資料的主導權,改由外部平台統一管理,不僅難以執行,更會對企業的商業模式與資安治理產生風險。
就在「倉庫原生」逐漸失去關注之際,生成式 AI 帶著壓倒性的技術突破進場。
OpenAI、Anthropic、Google Gemini 等模型展示出前所未有的語言理解與推理能力,也讓企業開始將重心從資料平台轉向 AI 的實際應用。Snowflake 宣稱自己是「AI 數據雲」,Databricks 說「資料是 AI 的燃料」,dbt Labs 更直接指出「生成式 AI 需要高品質的資料模型」。
資料仍然重要,但已不是主角。它成為支撐 AI 模型與推理的底層燃料,而不再是應用的終點。
2024 年,SAP 宣布推出 Business Data Cloud,標誌著這家軟體巨頭對資料架構的根本性重構。
過去,若企業希望將 SAP 內的資料拿到外部平台分析,往往需要經歷資料導出、格式轉換、欄位對齊、語義重建等繁瑣流程。Business Data Cloud 嘗試改變這一點:讓資料本身不再移動,而是成為可被遠端查詢與即時運算的邏輯實體,語義與結構保持一致。
這不僅是一種技術創新,更是一種資料哲學的轉變:資料不再「屬於某個應用」,而是成為可共享、可語義解讀的通用資產。
為了實現這個願景,SAP 與 Databricks 展開深度合作,形成了資料語義層的雙向連接模式。
透過雙方的原生整合模組,Databricks 能夠直接存取 SAP 的資料模型與語義邏輯,同時保留原有的存取控制與資料治理架構。這讓資料既能用於 AI 模型與進階分析,也不會引發複製、同步或版本不一致的問題。
這不是在重寫 Salesforce,而是在重塑資料的語言。讓資料以統一語義與開放格式存在,才有可能真正成為 AI 時代的核心資產。
但理想仍需面對現實
跨系統的資料權限、版本控制、即時性要求與治理標準,仍然是每一家企業難以逃避的挑戰。真正要實現這種「語義驅動」的資料架構,企業不僅需要導入新工具,更要重設流程、共建標準,甚至重構組織文化。
資料從來不是乾淨整齊的。即使是科技巨頭,也常陷於資料的混沌之中。微軟曾試圖釐清 O365 真正的活躍用戶數,結果竟然發現根本給不出一個統一版本的答案。這不是因為技術不夠,而是因為系統設計、商業模型與語義本身充滿歧義。
進入 AI 時代後,資料的角色再次升級。它不只是輔助報表用的參考資訊,而是驅動模型學習與決策的核心基礎。這也意味著對資料品質與一致性的要求,將遠高於以往任何一個時代。
資料混亂仍在,但我們無法再忽視其後果。因為 AI 可能會在這些混亂中放大偏誤,加速誤判,影響決策。
倉庫原生的夢想或許已經遠去,但我們正在見證一個新的願景誕生。
不是強求所有應用都重構為倉庫原生,而是讓資料本身成為一個語義一致、格式開放、可組合計算的網路服務。SAP 與 Databricks 的合作只是開端。未來的資料架構將不再建築在單一平台之上,而會圍繞語義邊界與 AI 運算展開,形成一個真正能支撐智能應用的「語義驅動堆疊」(semantic-driven stack)。
這場變革,現在才剛剛開始。
I post regularly on:
Threads: https://www.threads.net/@robertchen0225
Thank you,