桌上型人工智慧革命:重新思考 Arm CPU 在本地 RAG 系統中的角色
AIoT Solutions
根據 Arm 首席解決方案架構師 Odin She 在 Arm 開發者網站上發表的文章
「 《 重新思考 CPU 在 AI 中的角色:基於 DGX Spark 的 RAG 實用實現 》 」摘要
「 《 重新思考 CPU 在 AI 中的角色:基於 DGX Spark 的 RAG 實用實現 》 」摘要
企業搜尋的瓶頸
對於需要繞過與基於雲端的 LLM 相關的安全風險和不準確性的企業而言,離線 RAG 系統已成為主要解決方案。
在企業環境中,規格說明、專案手冊和操作說明等關鍵數據通常分散在各種伺服器上,由於同義詞和版本差異,傳統的關鍵字搜尋效率低。此外,將敏感的內部資料上傳到雲端 LLM 通常違反安全性和合規性協議,從而推動了對完全離線、本地 RAG 系統的需求。
本地 RAG 的最小可行架構
一個功能齊全的桌面 RAG 系統遵循特定的工作流程,旨在將原始文件轉換為可驗證的 AI 生成的答案。
要在桌面或邊緣平台上實現此功能,該過程通常包括以下階段:
資料清洗:
將 PDF、Word 文件或網頁轉換為統一格式並進行分塊。嵌入:
使用 CPU 將每個資料塊轉換為向量。向量資料庫:
使用 FAISS 等工具對這些向量進行索引和儲存。檢索:
將使用者查詢轉換為嵌入,以找到前 K 個最相關的文檔片段。產生:
將證據和查詢輸入到本地 LLM(例如 llama.cpp)中,以產生引用的回應。
指標
觀察值(本次實作)
Embedding 延遲
約 70–90 ms(偏互動式、低延遲)
DRAM 閒置→RAG 高峰
約 3.5 GB → 約 14 GB(增加約 10 GB)
CPU 嵌入→GPU 生成切換
記憶體用量僅微幅增加,顯示避免大規模複製
軟體堆疊範例
FAISS(檢索) + llama.cpp(推論)
CPU 在嵌入式系統的優勢
與 GPU 處理所有 AI 任務的觀點相反,Arm CPU 在 RAG 的特定「嵌入」階段表現優於 GPU,能夠為互動式查詢提供更低的延遲。
雖然 GPU 在大規模吞吐量方面表現出色,但 RAG 嵌入任務的特點是句子短、批次小,需要即時回應。
低延遲:
Arm CPU 上的嵌入延遲約為 70-90 毫秒,非常適合互動式即時查詢。效率:
使用 CPU 可以避免 GPU 調度、啟動時間和透過 PCIe 進行資料傳輸的開銷。穩定性:
它確保在使用者可接受的時間範圍內實現穩定的「查詢→檢索→回應」循環。
統一記憶的力量
統一記憶體架構消除了傳統的資料複製瓶頸,使 CPU 和 GPU 能夠無縫存取同一個資料池。
在傳統架構中,資料就像接力賽一樣,需要透過 PCIe 介面耗時地從 CPU 複製到 GPU;統一記憶體則像共享軌道一樣運作。
資源效率:
實施資料顯示,DRAM 使用量從空閒時的 3.5 GB 上升到 RAG 作業期間的峰值 14 GB,顯示在沒有冗餘的情況下實現了高資源利用率。零拷貝過渡:
從 CPU 嵌入式到 GPU 產生的過渡幾乎不會造成記憶體使用量的激增,證實避免了大規模資料複製。
消除人工智慧幻覺
RAG 技術透過將答案建立在檢索到的、可驗證的文檔之上,降低了人工智慧做出「自信但錯誤」的回答的風險。
AI 模型在缺乏特定領域知識時經常會產生錯覺,但 RAG 強制模型在產生答案之前檢索證據。
對比測試:
在涉及 Raspberry Pi GPIO 定義的測試中,非 RAG 模型給出了自信但相互矛盾的答案。可驗證的輸出:
使用 RAG 系統,提供的答案與官方文件一致,並引用了具體的章節和表格。
桌面人工智慧已準備就緒,展開部署
桌面級人工智慧平台已從實驗原型發展成為一個功能齊全的開發環境,可進行安全、本地部署。
MSI EdgeXpert (DGX Spark) 等平台為辦公室環境提供了必要的散熱和聲學設計,同時支援 FAISS 和 llama.cpp 等完整的軟體堆疊。
資料主權:
所有資料保留在內網內,確保合規性。可擴展性:
系統可以擴展以包含存取控制、稽核日誌和多語言檢索。
建立概念驗證
為了快速驗證本地 RAG 系統,組織應遵循結構化的概念驗證 (PoC) 路線圖,從資料準備到延遲評估。
確定範圍:
選擇 3-5 個經常被問到的、明確的問題(例如,BIOS 參數、SOP)。準備資料:
整理 50-200 份具有代表性、準確且可解析的文件。索引:
執行保守分塊(300-800 個標記)並建立 FAISS 索引。評估:
測量嵌入延遲(目標 < 100ms)和檢索準確率。強制引用:
配置提示以要求提供來源引用,以防止捏造。
常見問題:技術說明
問題1:為什麼CPU在嵌入式開發中速度更快?
答:因為使用者查詢通常是「小批量」和「短」的,CPU避免了GPU調度和PCIe資料傳輸帶來的高開銷,從而降低了端到端延遲。問題2:統一記憶體的優勢是什麼?
答:它最大限度地減少了 CPU 和 GPU 之間複製大量資料的需要,確保從檢索階段到生成階段的平穩過渡。問題3:本地 RAG 是否必須使用 GPU?
答:對於檢索階段來說,CPU 處理效率很高,所以不一定需要 GPU。但是,如果使用更大的模型或需要更高的吞吐量,GPU 在最終的「生成」階段就能提供顯著優勢。
MSI EdgeXpert 採用 Arm CPU 實現 RAG(隨機存取記憶體),將延遲降低至 70-90 毫秒。統一記憶體使 GPU 能夠即時存取 CPU 數據,無需 PCIe 傳輸。這種零拷貝設計證明 CPU 是私人邊緣 AI 的關鍵驅動引擎。