本地 AI 推理大躍進：Ollama 0.24 支援 Codex、llama.cpp MTP 速度翻倍、LLM 首次在瀏覽器 GPU 執行

2026-05-27 frank

在 2026 年 5 月，本地 AI 推理生態系迎來了多項重大突破。從 Ollama 0.24 帶來的無縫企業級編碼體驗，到 llama.cpp 核心引擎的 MTP（多 token 預測）速度翻倍，再到 LlamaWeb 讓大型語言模型首次能在瀏覽器中透過 WebGPU 高效執行，本地 AI 正以前所未有的速度縮小與雲端模型的差距。

Ollama 0.24 震撼發佈：OpenAI Codex App 實現本地執行

2026 年 5 月 14 日，Ollama 0.24.0 正式在 GitHub 發佈，為開發者帶來了期待已久的重磅功能：OpenAI 桌面版 Codex 的本地執行支援 [1]。透過全新的 ollama launch codex-app 指令，開發者現在可以一鍵啟動 Codex App，並將所有推理請求導向本地運行的開源模型，完全無需手動設定環境變數或修改 config.toml 檔案。

這項整合對於需要遵守 GDPR 或嚴格企業資料安全政策的開發者而言，具有劃時代的意義。過去，使用 Codex App 意味著必須將程式碼與專案架構傳送至 OpenAI 的伺服器；現在，所有的 token 與檔案讀取都保留在開發者的本地硬碟與 GPU 中 [1]。

在模型支援方面，Ollama 官方建議使用至少具備 64K token 上下文視窗的模型，以確保代理人（Agent）能夠讀取大型檔案並維持對話狀態。目前最受矚目的支援模型包括：

模型名稱	VRAM 需求	效能對標	適用場景
gpt-oss:20b	23 GB	GPT-4o (2024)	高階筆電、RTX 4090 工作站
gpt-oss:120b	80+ GB	Claude Sonnet 4.6	H100 工作站、分散式叢集
qwen3-coder	依量化而定	頂尖開源編碼模型	一般編碼任務

Codex App 的核心特色功能，包含內建 Chromium 瀏覽器（可自動測試本地伺服器）、圖形化頁面標注系統，以及內聯程式碼審查等，在本地模式下皆可完整運作 [1]。

llama.cpp 核心升級：MTP 支援帶來 45% 速度提升

作為 Ollama 與眾多本地 AI 工具的底層引擎，llama.cpp 在 5 月中旬成功合併了 PR #22673，正式引入 MTP（Multi-Token Prediction，多 token 預測）支援 [2]。這項技術允許模型在單次前向傳遞中預測多個未來的 token，大幅提升了生成速度。

根據社群測試數據，在啟用 MTP 後，Qwen3.6-35B-A3B 模型的生成速度從原本的 118 tok/s 躍升至 171 tok/s，提升幅度高達 45% [3]。對於 Qwen3.6-27B dense 模型，MTP 同樣帶來了約 30 tok/s 的顯著增長 [2]。

然而，開發者也指出目前 MTP 仍處於 Beta 階段，在某些設定下，草稿 token 的接受率可能會下降至 35%，且在長時間服務後可能出現穩定性問題 [4]。儘管如此，隨著 MTP 與張量平行（tensor-parallel）支援的持續成熟，llama.cpp 在企業級應用上的競爭力正快速攀升。

LlamaWeb：讓 LLM 在瀏覽器中透過 WebGPU 高效執行

加州大學聖克魯茲分校（UC Santa Cruz）與微軟研究院（Microsoft Research）的團隊於 5 月 20 日發表了名為《Llamas on the Web》的論文，介紹了 LlamaWeb——一個專為 llama.cpp 設計的 WebGPU 後端 [5]。

LlamaWeb 的出現，讓大量 llama.cpp 支援的模型能夠直接在瀏覽器（如 Chrome 與 Safari）中以 GPU 加速執行。該系統的設計圍繞三大核心目標：

記憶體最小化：透過靜態記憶體分配與非同步權重載入，LlamaWeb 成功將峰值記憶體使用量減少了 29-33% [5]。
跨硬體效能可移植性：透過可調校的核心函式庫，適應 WebGPU 異質的硬體目標。
多量化格式支援：將解量化（Dequantization）常式直接整合至核心中，支援從 q4_0 到最新的 q1_0 等多種格式 [5]。

在跨四家不同廠商 GPU 的效能評估中，LlamaWeb 的 decode 吞吐量較現有瀏覽器推理框架提升了 45-69% [5]。這項技術為邊緣運算與隱私保護 AI 應用開啟了全新的可能性。

2026 年本地 LLM 推理引擎選擇指南

隨著 HuggingFace 的 TGI（Text Generation Inference）在 3 月進入維護模式，本地推理引擎的版圖已然重塑 [6]。根據最新的業界指南，選擇推理引擎應以「工作負載」為首要考量：

單用戶筆電：首選 Ollama（安裝最快）或 LM Studio（圖形介面最友善）。
單用戶工作站（追求極致品質）：首選 llama.cpp、ExLlamaV3 或 MLC LLM。llama.cpp 的優勢在於其無與倫比的硬體相容性，支援從 NVIDIA CUDA 到 Apple Silicon Metal，甚至 Intel GPU SYCL 與 RISC-V [6]。
小型團隊服務（5-20 並發用戶）：首選 vLLM 或 SGLang。
Apple Silicon 專屬優化：近期崛起的 Rapid-MLX 聲稱在 Mac 上比 Ollama 快 4.2 倍，並具備 0.08 秒的極低首 token 延遲 [7]。

本地 AI 技術在 2026 年 5 月的發展，證明了開源社群不僅在模型能力上緊追科技巨頭，在基礎設施、推理效率與隱私保護上，更展現出無可取代的獨特價值。

參考資料

[1] Pasquale Pillitteri. (2026). Ollama Launches Codex App: OpenAI’s Desktop Client Runs on Local Models (2026).
[2] NVIDIA Developer Forums. (2026). MTP+llama.cpp: a look at Qwen3.6-27B.
[3] Reddit r/LocalLLaMA. (2026). MTP support merged into llama.cpp.
[4] Xhinker. (2026). The MTP with llama.cpp Looks Great, But There are Deadly Drawbacks.
[5] Levine, R., et al. (2026). Llamas on the Web: Memory-Efficient, Performance-Portable, and Multi-Precision LLM Inference with WebGPU.
[6] BIZON Tech. (2026). vLLM, Ollama, LM Studio, llama.cpp: Choosing the best LLM inference engine in 2026.
[7] GitHub. (2026). raullenchai/Rapid-MLX.