AI你我的未來

本地 AI 推理大躍進:Ollama 0.24 支援 Codex、llama.cpp MTP 速度翻倍、LLM 首次在瀏覽器 GPU 執行

在 2026 年 5 月,本地 AI 推理生態系迎來了多項重大突破。從 Ollama 0.24 帶來的無縫企業級編碼體驗,到 llama.cpp 核心引擎的 MTP(多 token 預測)速度翻倍,再到 LlamaWeb 讓大型語言模型首次能在瀏覽器中透過 WebGPU 高效執行,本地 AI 正以前所未有的速度縮小與雲端模型的差距。

本地 AI 革命:Ollama 與 llama.cpp 的技術突破

Ollama 0.24 震撼發佈:OpenAI Codex App 實現本地執行

2026 年 5 月 14 日,Ollama 0.24.0 正式在 GitHub 發佈,為開發者帶來了期待已久的重磅功能:OpenAI 桌面版 Codex 的本地執行支援 [1]。透過全新的 ollama launch codex-app 指令,開發者現在可以一鍵啟動 Codex App,並將所有推理請求導向本地運行的開源模型,完全無需手動設定環境變數或修改 config.toml 檔案。

這項整合對於需要遵守 GDPR 或嚴格企業資料安全政策的開發者而言,具有劃時代的意義。過去,使用 Codex App 意味著必須將程式碼與專案架構傳送至 OpenAI 的伺服器;現在,所有的 token 與檔案讀取都保留在開發者的本地硬碟與 GPU 中 [1]。

在模型支援方面,Ollama 官方建議使用至少具備 64K token 上下文視窗的模型,以確保代理人(Agent)能夠讀取大型檔案並維持對話狀態。目前最受矚目的支援模型包括:

模型名稱 VRAM 需求 效能對標 適用場景
gpt-oss:20b 23 GB GPT-4o (2024) 高階筆電、RTX 4090 工作站
gpt-oss:120b 80+ GB Claude Sonnet 4.6 H100 工作站、分散式叢集
qwen3-coder 依量化而定 頂尖開源編碼模型 一般編碼任務

Codex App 的核心特色功能,包含內建 Chromium 瀏覽器(可自動測試本地伺服器)、圖形化頁面標注系統,以及內聯程式碼審查等,在本地模式下皆可完整運作 [1]。

llama.cpp 核心升級:MTP 支援帶來 45% 速度提升

作為 Ollama 與眾多本地 AI 工具的底層引擎,llama.cpp 在 5 月中旬成功合併了 PR #22673,正式引入 MTP(Multi-Token Prediction,多 token 預測)支援 [2]。這項技術允許模型在單次前向傳遞中預測多個未來的 token,大幅提升了生成速度。

根據社群測試數據,在啟用 MTP 後,Qwen3.6-35B-A3B 模型的生成速度從原本的 118 tok/s 躍升至 171 tok/s,提升幅度高達 45% [3]。對於 Qwen3.6-27B dense 模型,MTP 同樣帶來了約 30 tok/s 的顯著增長 [2]。

然而,開發者也指出目前 MTP 仍處於 Beta 階段,在某些設定下,草稿 token 的接受率可能會下降至 35%,且在長時間服務後可能出現穩定性問題 [4]。儘管如此,隨著 MTP 與張量平行(tensor-parallel)支援的持續成熟,llama.cpp 在企業級應用上的競爭力正快速攀升。

LlamaWeb:讓 LLM 在瀏覽器中透過 WebGPU 高效執行

加州大學聖克魯茲分校(UC Santa Cruz)與微軟研究院(Microsoft Research)的團隊於 5 月 20 日發表了名為《Llamas on the Web》的論文,介紹了 LlamaWeb——一個專為 llama.cpp 設計的 WebGPU 後端 [5]。

LlamaWeb 的出現,讓大量 llama.cpp 支援的模型能夠直接在瀏覽器(如 Chrome 與 Safari)中以 GPU 加速執行。該系統的設計圍繞三大核心目標:

  1. 記憶體最小化:透過靜態記憶體分配與非同步權重載入,LlamaWeb 成功將峰值記憶體使用量減少了 29-33% [5]。
  2. 跨硬體效能可移植性:透過可調校的核心函式庫,適應 WebGPU 異質的硬體目標。
  3. 多量化格式支援:將解量化(Dequantization)常式直接整合至核心中,支援從 q4_0 到最新的 q1_0 等多種格式 [5]。

在跨四家不同廠商 GPU 的效能評估中,LlamaWeb 的 decode 吞吐量較現有瀏覽器推理框架提升了 45-69% [5]。這項技術為邊緣運算與隱私保護 AI 應用開啟了全新的可能性。

2026 年本地 LLM 推理引擎選擇指南

隨著 HuggingFace 的 TGI(Text Generation Inference)在 3 月進入維護模式,本地推理引擎的版圖已然重塑 [6]。根據最新的業界指南,選擇推理引擎應以「工作負載」為首要考量:

  • 單用戶筆電:首選 Ollama(安裝最快)或 LM Studio(圖形介面最友善)。
  • 單用戶工作站(追求極致品質):首選 llama.cpp、ExLlamaV3 或 MLC LLM。llama.cpp 的優勢在於其無與倫比的硬體相容性,支援從 NVIDIA CUDA 到 Apple Silicon Metal,甚至 Intel GPU SYCL 與 RISC-V [6]。
  • 小型團隊服務(5-20 並發用戶):首選 vLLMSGLang
  • Apple Silicon 專屬優化:近期崛起的 Rapid-MLX 聲稱在 Mac 上比 Ollama 快 4.2 倍,並具備 0.08 秒的極低首 token 延遲 [7]。

本地 AI 技術在 2026 年 5 月的發展,證明了開源社群不僅在模型能力上緊追科技巨頭,在基礎設施、推理效率與隱私保護上,更展現出無可取代的獨特價值。


參考資料

[1] Pasquale Pillitteri. (2026). Ollama Launches Codex App: OpenAI’s Desktop Client Runs on Local Models (2026).
[2] NVIDIA Developer Forums. (2026). MTP+llama.cpp: a look at Qwen3.6-27B.
[3] Reddit r/LocalLLaMA. (2026). MTP support merged into llama.cpp.
[4] Xhinker. (2026). The MTP with llama.cpp Looks Great, But There are Deadly Drawbacks.
[5] Levine, R., et al. (2026). Llamas on the Web: Memory-Efficient, Performance-Portable, and Multi-Precision LLM Inference with WebGPU.
[6] BIZON Tech. (2026). vLLM, Ollama, LM Studio, llama.cpp: Choosing the best LLM inference engine in 2026.
[7] GitHub. (2026). raullenchai/Rapid-MLX.