本地 LLM 实战指南：2026 年，它终于不是玩具了

开场：从 30 秒到 200 毫秒

2024 年，我在 M3 MacBook 上跑当时的开源 7B 模型，生成一段 Python 函数需要 30 秒，质量还不如 GitHub Copilot。

2026 年 5 月，同样的场景：Apple M5 Pro + 64GB 内存，本地跑 Qwen 3.6 35B（MoE 架构，实际仅激活 3.6B 参数），代码补全延迟 200 毫秒。14 道覆盖代码、数学、逻辑、架构设计的测试题全部满分。8 个涉及文件操作、Shell 命令、网络搜索、多工具链式调用的 Agent 任务，零失败。

我的代码，从未离开过本机。

这不是极客的自嗨。2026 年，本地 LLM 的可用性拐点已经到来——不是”能跑”，是”好用”。

一、拐点证据：三个”终于可以了”

1. 代码场景：本地模型能写生产级代码了

我设计的 Golden Questions 测试集包含三道代码题：快速排序（带类型注解和边界测试）、正则提取邮箱、两数之和（O(n) 哈希表解法）。

测试结果：

模型	快排	正则	两数之和	耗时
Gemma 4 26B	6/6 测试通过	3/3 提取正确	5/5 测试通过	~6s
Qwen 3.6 35B	4/4 测试通过	3/3 提取正确	3/3 测试通过	~1.3s

Gemma 4 不仅写出了三路划分快排，还主动覆盖了空列表、单元素、逆序、重复值、已排序、全部相同六种边界。Qwen 3.6 虽然测试用例更少，但响应速度是 Gemma 的 5 倍——两者都是 MoE，Qwen 3.6 激活 3.6B 参数占 ~10GB，Gemma 4 激活 ~4B 参数占 ~15GB（Gemma 的 A4B 量化在 Apple Silicon 上优化更好，但内存占用稍高）。

关键不是”写对了”，而是”写完整了”。 两年前的本地模型能写出语法正确的函数，但绝不会主动考虑边界条件。

一个反直觉的发现：我还测了 Qwen 3.6 的 27B Dense 版本（非 MoE），结果慢到离谱——同样的快排任务，27B Dense 花了 224 秒，35B MoE 只花了 58 秒。Dense 全参数激活 vs MoE 3.6B 激活，35B 反而快 3.9 倍。这彻底颠覆了我”参数越少越快”的直觉。

2. 推理场景：数学和逻辑不再”胡编”

测试集包含四道数学题：2^32-1 的质因数分解、斐波那契第 50 项、掷骰子概率、蒙提霍尔问题。

两模型全部正确。Gemma 4 对蒙提霍尔问题额外做了 50 万次蒙特卡洛模拟验证——理论推导 + 实证检验，这不是”背答案”，是”验证答案”。

逻辑证明题同样满分。Gemma 4 甚至区分了 validity（有效性）和 soundness（可靠性），这是逻辑学本科生的水平。

测试硬件是 Apple M5 Pro / 64GB RAM，最终结果是 14/14 满分。

3. Agent 场景：工具链调用从”能跑”到”可靠”

这是真正的分水岭。我设计了一套 Golden Tool Tasks，共 8 个任务，用 OpenClaw 框架在本地直接跑：

T1：文件写入 + 读取验证
T2：基础 Shell 命令（ls + grep）
T3：复杂 Shell 链式操作（创建 10 文件 → 统计 → 删除 → 验证）
T4：网络搜索
T5：多步条件调用（if 文件存在则读取，否则创建再读取）
T6：文件编辑（写入 → 修改 → 验证）
T7：正则 + 文件处理（写入含邮箱文本 → grep 提取）
T8：多工具链式调用（搜索 → 写入文件 → 读取验证 → 统计行数）

结果：8/8 全部通过。

关键不是”做对了”，而是”做得快”。OpenClaw 的实测数据显示：所有本地文件操作、Shell 命令、正则提取、编辑验证，耗时全部在 20 毫秒以内。T3 四步链式操作合计 17 毫秒，T7 正则提取 5 毫秒。

唯一耗时的是网络搜索（T4 约 1.9 秒，T8 约 1.8 秒），但这属于外部 I/O，与模型本身无关。

T5 的多步条件调用尤其说明问题：模型先检查文件是否存在，发现不存在后自动走”创建 → 读取”分支，全程无需人工干预。T8 的链式调用更复杂：搜索返回 5 条结果 → 写入 22 行文件 → 读取验证内容完整 → 行数统计正确，四步一气呵成。

这意味着什么？ 本地模型不再是”聊天机器人”，而是能操作你电脑的数字助手。数据不出本机，隐私零泄露，响应速度比云端 Agent 快一个数量级。

二、实战配置：你该买哪一档？

本地部署的门槛不在硬件，在认知。大多数人以为需要 A100，其实二手 RTX 3060 就能起步。

但买错了配置，体验会天差地别。我见过有人花三万配了台 A100 工作站，结果只是用来聊聊天；也见过有人在 M2 MacBook Air 上跑 Qwen 3.6 35B，日常开发完全够用。

如果你只是想”试试看”（¥2,000-4,000）

配置：RTX 3060 12GB（二手约 ¥1,500）或 M1 Pro + 16GB 内存
能跑什么：7B-8B 量化模型。这个档位我没做系统测试，不做具体模型推荐。如果你好奇”本地 LLM 到底能不能用”，装个 Ollama 拉个热门 8B 模型试试，半小时就知道答案。
实际体验：写个 Python 脚本、查个 API 文档、做简单问答应该没问题。但复杂架构设计和长文本处理会比较吃力。速度约 10-15 tokens/s，等它写完一段话你能去倒杯水。
值不值得买：如果你一年 API 账单不到 ¥500，别折腾。但如果你好奇”本地 LLM 到底能不能用”，这个档位是最便宜的试错成本。装个 Ollama，拉个 8B 模型，半小时就知道答案。注意：这个档位的模型能力和我测试的 26B/35B 级别有本质差距。

如果你每天和 AI 对话超过 2 小时（¥12,000-18,000）

配置：RTX 4090 24GB（¥13,000-15,000）或 M2 Max/M3 Pro + 36GB 以上统一内存
能跑什么：24B-35B 量化模型。这是我系统测试过的档位，Qwen 3.6 35B 和 Gemma 4 26B 在 RTX 4090 或 M3 Pro 以上配置表现优异。
实际体验：这才是我推荐的”甜点区”。我的主力配置是 Apple M5 Pro + 64GB，日常开发中 Qwen 3.6 35B 替代了 80% 的 Claude API 调用。代码补全延迟 <300ms，长文档 RAG 能处理几百页 PDF，Agent 工具链调用毫秒级响应。只有超过 100K 上下文或复杂多模态任务才切回云端。
成本账：RTX 4090 主机一次性投入约 ¥15,000。如果你日均调用 200 次以上，按 Claude API 价格算，一年半就回本。第二年开始，每多生成一个 token 都是免费的。

如果你要跑 70B 以上或做微调（¥25,000-40,000）

配置：RTX 5090 32GB（约 ¥25,000）或 Mac Studio M3 Ultra（¥30,000+，统一内存 128GB）
能跑什么：70B Q4 量化，甚至 405B 的 Q8 量化（需多卡或超大统一内存）。可以做 LoRA 微调、多模态推理。
一个反直觉的事实：Llama 4 70B 用 1.58-bit 量化后，社区数据说 16GB VRAM 就能跑，MMLU 保留 99.2%。但我个人没测过 70B 级别，以上信息来自社区报告，仅供参考。
值不值得买：除非你做模型研究或需要本地微调，否则主力档已经够用了。别为了”战未来”盲目上顶配。

避坑指南

不要买 8GB 显存的卡。RTX 4060 Ti 8GB、RTX 3070 8GB 这些看似”性价比”的选择，实际跑起来很憋屈——7B 模型 Q4 量化就要占 4-5GB，加上系统开销和 KV Cache，稍微长一点的对话就会爆显存。12GB 是底线，24GB 是甜点。

不要忽视内存带宽。Apple Silicon 的统一内存架构（CPU 和 GPU 共享内存，无数据拷贝）在本地推理上反而有优势。我测过同样跑 Qwen 3.6 35B，M3 Pro 36GB 的响应速度不输 RTX 4090，只是并发能力差一些。如果你主要做个人开发而非多用户服务，Mac 的体验其实更安静、更省电。

三、LM Studio 参数配置速查（干货）

我主力用 LM Studio，不是 Ollama。LM Studio 的 GUI 对调参更友好，但默认参数往往是错的，需要自己手动改。

加载模型时的关键参数（左侧边栏 Settings）：

参数	代码助手	RAG 知识库	Agent 自动化	写作翻译
Context Length	8192	32768	16384	32768
GPU Offload	Max	Max	Max	Max
Batch Size	512	1024	512	512
Temperature	0.3	0.5	0.2	0.7
Top P	0.9	0.9	0.95	0.9
Repeat Penalty	1.05	1.1	1.0	1.1
Quantization	Q4_K_M	Q4_K_M	Q4_K_M	Q5_K_M

Context Length 怎么设：LM Studio 默认是 2048，对 RAG 完全不够用。但也不要无脑拉到满（65535），因为 KV Cache 会吃掉大量显存。Qwen 3.6 35B 在 32K 上下文下约占 14GB 显存，64K 下约占 18GB。如果你的卡是 24GB，设 32K 比较安全。

Temperature 的潜规则：代码生成要低（0.2-0.3），模型才会按规矩写；RAG 要中（0.5），保证回答稳定不发散；写作要高（0.7-0.8），有点创意。Agent 任务要低（0.2），工具调用需要确定性，温度高了会乱调用。

Quantization 选择：Q4_K_M 是甜点，日常任务完全够用。我的 14/14 满分测试全是用 Q4_K_M 跑的。但如果你做金融建模或医学诊断，建议上 Q5_K_M，精度损失从约 2% 降到 <1%。Q8 除非你有 48GB 显存，否则性价比不高。

四、四大实战场景（我每天都在用的）

场景 1：私有代码助手（替代 Copilot）

这是我的最高频场景。LM Studio 配置：

模型：Qwen3.6-35B-A3B-Q4_K_M.gguf
Context Length: 8192
Temperature: 0.3
Top P: 0.9
GPU Offload: Max（全部放 GPU）

IDE 配合方案：

VS Code：装 Continue.dev 插件，LM Studio 开启 Local Server（默认端口 1234），Continue.dev 里填 http://localhost:1234/v1/chat/completions
Cursor：直接在设置里把模型 API 指向 LM Studio 的本地端口
JetBrains：装 AI Assistant 插件，配置自定义 OpenAI-compatible endpoint

实际用下来的体感：

延迟：代码补全 <300ms，和 Copilot 相当
质量：日常业务代码（CRUD、API 调用、数据处理）和 Copilot 打平，但复杂算法题还是不如 Claude
最大优势：内部项目的敏感业务逻辑、未开源的私有框架代码，再也不需要上传到云端
坑：LM Studio 的 Local Server 默认只支持 /v1/chat/completions，不支持 Copilot 式的 stream 补全。Continue.dev 需要关掉 stream 选项，否则会有奇怪的延迟。

场景 2：本地 RAG 知识库（处理敏感文档）

我用来处理合同、技术白皮书、论文 PDF。LM Studio 自带 RAG 功能，不需要额外装 AnythingLLM。

LM Studio RAG 配置：

模型：Qwen3.6-35B-A3B-Q4_K_M.gguf
Context Length: 32768（留足空间给检索结果）
Temperature: 0.5
System Prompt: "你是一个严谨的文档分析助手。回答必须基于提供的上下文，如果上下文中没有相关信息，明确回答'根据现有资料无法确定'。"

文档加载步骤：

左下角点击文件夹图标 “Chat with Documents”
拖入 PDF/Word/TXT，LM Studio 会自动切分 chunk
嵌入模型选 nomic-embed-text-v1.5（在 Settings > Embeddings 里下载）
Chunk Size 建议 512，Overlap 128，Top K 5

实测参数调优：

Chunk Size 设太大（>1024），检索精度下降，模型会漏掉细节
Chunk Size 设太小（<256），上下文碎片化，模型回答不连贯
我测下来 512 是甜点，配合 128 的 overlap，既保证精度又不碎片化
Top K 从 3 调到 5，召回率提升明显，但超过 5 后噪声增加，性价比下降

实际体验：

几百页的 PDF 扔进去，问答带引用（会标注答案来自第几页）
合同条款对比：把新旧两份合同同时上传，直接问”有哪些条款变更”，比人工逐行对比快十倍
数据永不出本机，适合法务、财务、医疗等敏感场景
坑：LM Studio 默认 embedding 模型是 mpnet-base，中文效果很差。一定要手动换成 nomic-embed-text-v1.5 或 bge-m3，中文 RAG 效果差不止一个档次。
坑：Max Tokens 设太小（比如 2048），长文档问答时模型推导到一半被截断，输出空内容或半截话。我测过 4K vs 65K，4K 下多个任务直接报废。

场景 3：端侧 Agent 自动化（核心差异化场景）

这是本地 LLM 和云端 LLM 体验差距最大的地方。我基于 OpenClaw 框架测了 8 个工具任务，LM Studio 作为推理后端：

LM Studio Agent 配置：

模型：Qwen3.6-35B-A3B-Q4_K_M.gguf
Context Length: 16384
Temperature: 0.2（Agent 需要确定性，温度高了会乱调用工具）
Top P: 0.95
GPU Offload: Max
System Prompt: "你是一个系统自动化助手。你可以执行文件操作、Shell 命令和网络搜索。执行前必须确认命令安全性。"

LM Studio 开 API 模式：

右侧边栏点击 “Local Server”
勾选 “Enable Local Server”，端口默认 1234
OpenClaw（或其他 Agent 框架）指向 http://localhost:1234/v1/chat/completions
关键：打开 “Enable CORS”，否则跨域请求会被拒绝

8 个工具任务实测结果：

任务	类型	本地耗时	体感
T1 文件读写	单步	~2ms	瞬间完成，无感知
T2 基础 Shell	单步	~8ms	瞬间完成
T3 复杂 Shell 链式	四步	~17ms	创建10文件→统计→删除→验证，一气呵成
T4 网络搜索	外部 I/O	~1.9s	和云端搜索速度相当
T5 多步条件调用	条件分支	~1ms	自动判断”文件不存在→创建→读取”
T6 文件编辑	写入+修改+验证	~10ms	sed 替换精准，无缓存问题
T7 正则提取	写入+grep	~5ms	5个邮箱秒提取
T8 多工具链式	搜索+写入+验证+统计	~1.8s	搜索占大头，文件操作几乎零耗时

关键发现：本地文件操作全部在 20 毫秒以内，比云端 Agent 快一个数量级。云端 Agent 每次工具调用都要走一次 API 往返（200-500ms），本地是”LM Studio → 系统调用”直连。

另一个关键发现：max_tokens 设太小会直接导致任务失败。我对比了 4K 和 65K 两种配置：4K 限制下，Q4（大数计算）和 Q8（逻辑证明）被截断成空输出；65K 下 Q4 输出了 15322 tokens，Q8 输出了 12665 tokens，推导完整。总耗时只增加了 47%，但复杂推理任务的质量从”不可用”变成了”优秀”。

实际应用：我让本地 Agent 每天自动整理下载文件夹（按文件类型分类、重命名、归档），全程无需联网，零订阅费。

场景 4：离线写作与翻译

飞机上的救命功能。LM Studio 配置：

模型：Qwen3.6-35B-A3B-Q4_K_M.gguf
Context Length: 32768
Temperature: 0.7（写作需要一点创意，比代码高）
Top P: 0.9
Repeat Penalty: 1.1（防止长文生成时的重复啰嗦）
System Prompt: "你是一位专业的技术写作者。翻译时保持原文术语准确，写作时逻辑清晰、表达简洁。"

Qwen 3.6 35B 的中英双语能力优秀，长文本处理能力强，可以处理整本书的翻译或续写。实测在离线场景下完全可用。

实际体验：高铁上没信号，照样能写技术博客、翻译英文论文摘要。速度比云端慢一些（20-30 tokens/s），但完全可用。

一个技巧：离线场景建议提前把常用参考资料（公司文档、技术规范、术语表）做成 RAG 知识库，这样即使没有网络，模型也能引用内部资料写作。LM Studio 的 “Chat with Documents” 支持导出对话历史，方便后续整理。

五、避坑指南：本地部署的三大幻觉

幻觉 1：“本地免费”

真相：硬件是沉没成本，电费、散热、维护时间都是隐性成本。低频用户（<100 次/月）用 API 更划算。

临界点：日均调用 >200 次，或处理敏感数据，本地才划算。以我自己为例：日均 300+ 次调用，如果全用 Claude API，年费约 ¥4,000-6,000。RTX 4090 主机一次性投入 ¥15,000，第二年就是纯赚。

幻觉 2：“量化无损失”

真相：INT8 通常 <1% 损失，但 INT4/1-bit 在多步数学推理上可能掉 5%+。

建议：代码/推理任务用 Q5_K_M 或 Q8，聊天/摘要可用 Q4。我的测试全部使用 Q4_K_M，14 题满分说明日常任务完全够用，但金融建模等精度敏感场景建议上 Q8。

另一个真相：Dense 模型未必比 MoE 快。我测了 Qwen 3.6 的 27B Dense 版 vs 35B MoE 版，27B 慢了 3.9 倍——快排任务 224 秒 vs 58 秒，工具链任务 157 秒 vs 37 秒。Dense 全参数激活的内存带宽瓶颈，比 MoE 部分激活严重得多。别被”参数少=速度快”的直觉骗了。

幻觉 3：“一个模型打天下”

真相：本地部署的优势恰恰是多模型路由。但”路由”的前提是你要真的测过这些模型，而不是看参数表云评测。

我的实际工作流（只包含我测过的模型）：

代码生成 → Qwen 3.6 35B（准确率高，速度极快）
代码审查 → Gemma 4 26B（发现 6 个问题 vs Qwen 的 4 个，更细致）
日常问答 → Qwen 3.6 35B（通用能力强，一步到位）
Agent 自动化 → Qwen 3.6 35B（8/8 工具任务通过，内存仅 ~10GB）

两模型互补最佳：Qwen 求快求省，Gemma 求精求全。

幻觉 4：“LM Studio 默认参数就能用”

真相：LM Studio 的默认参数是为聊天机器人设计的，不是为你工作流设计的。

我踩过的坑：

默认 Context Length 是 2048，RAG 时塞几页 PDF 就爆上下文，模型开始”失忆”答非所问
默认 Temperature 是 0.7，代码生成时模型疯狂发散，写出完全不相关的函数
默认 embedding 模型是 mpnet-base，中文 RAG 效果差到怀疑人生
默认没开 GPU Offload，模型全跑 CPU 上，速度从 40 tokens/s 跌到 3 tokens/s

我的建议：加载模型后第一件事，先把 Settings 里的参数按我上面给的速查表改一遍。花 5 分钟调参，省 50 小时排查”为什么模型这么蠢”。

六、模型选型：我只推荐我测过的

基于我的实测（Apple M5 Pro + 64GB），2026 年 5 月本地部署我只推荐这两款：

用途	模型	参数	显存(Q4)	我的测试	工具调用	速度	内存占用
通用主力/代码/Agent	Qwen 3.6 35B A3B	35B(MoE)	~10GB	14/14 + 8/8	优秀	极快	~10GB
严谨分析/代码审查	Gemma 4 26B A4B	26B(MoE)	~15GB	14/14 + 8/8	优秀	最快	~15GB

为什么只推荐这两款？

因为我亲自跑过 Golden Questions（14 题覆盖代码/数学/逻辑/架构/审查/知识）和 Golden Tool Tasks（8 个任务覆盖文件/Shell/搜索/条件/编辑/正则/链式调用），只有这两款模型拿到了满分。

Qwen 3.6 35B 的优势：MoE 架构仅激活 3.6B 参数，推理速度极快，内存仅 ~10GB。原生中文优化好，我的日常主力，代码生成、Agent 自动化、问答全部用它。

Gemma 4 26B 的优势：同样是 MoE（128 专家 / 激活 8 个，~4B 激活参数），Gemma 的代码审查发现了 6 个问题（Qwen 只发现 4 个），对蒙提霍尔问题还额外做了 50 万次蒙特卡洛模拟验证。更严谨，速度也最快（在我的 M5 Pro 上平均 13 秒 vs Qwen 的 37 秒），但内存占用 ~15GB。

我的建议：两者互补使用最佳。日常主力用 Qwen（快+省），需要深度审查或复杂分析时切 Gemma（细+全）。

关于其他模型：我还测了 Nemotron 3 Nano 和 GLM 4.7 Flash 的速度（同一套任务，只测耗时，未测正确性）。结果如下：

模型	平均耗时	对比 Qwen 3.6
Gemma 4 26B	13283ms	快 2.8x
Nemotron 3 Nano	31380ms	快 1.2x
Qwen 3.6 35B	37202ms	基准
GLM 4.7 Flash	38031ms	慢 1.02x

Gemma 4 依然是速度冠军（平均 13 秒），Qwen 3.6 中等（37 秒），Nemotron（31 秒）和 GLM（38 秒）在同一量级。注意：这只是速度测试，不是正确性测试。Nemotron 在部分任务上输出 tokens=0（可能未生成内容），GLM 存在输出不稳定的问题。在没有跑完 Golden Questions 之前，我不会把它们加入推荐列表。

核心发现：激活参数量决定本地推理速度，不是总参数量。

模型	架构	激活参数	平均耗时
Gemma 4 26B	MoE (~4B 激活)	~4B	13283ms
Qwen 3.6 35B	MoE (3.6B 激活)	3.6B	37202ms
Qwen 3.6 27B	Dense (27B 全激活)	27B	145000ms+

Gemma 4 和 Qwen 3.6 都是 MoE，激活参数接近（4B vs 3.6B），所以两者都比 Dense 模型快得多。Gemma 更快的原因：MLX A4B 量化在 Apple Silicon 上优化更好，加上输出更精炼（Qwen 在我的 4096 max_tokens 限制下频繁触顶，导致多轮截断重试）。

另外，Qwen 3.6 27B Dense 作为反面教材——27B 全激活比 35B MoE 慢了 3.9 倍，Q4 任务还超时失败。这彻底证明：真正决定本地推理速度的是每次前向传播实际计算的参数量，不是总参数量。

如果你对其他模型有兴趣，可以用同样的 Golden Questions + Golden Tool Tasks 框架自己跑一遍，数据比参数表诚实得多。

关键洞察：MoE 架构（Mixture of Experts）是 2026 年本地部署的转折点。但真正决定速度的还不是”是不是 MoE”，而是激活参数量。Gemma 4 总参数 26B 但只激活 ~4B，Qwen 3.6 总参数 35B 但只激活 3.6B——两者在本地跑起来都很快。反观 Qwen 3.6 27B Dense（27B 全激活），速度暴跌 4 倍。总参数是幌子，激活参数才是真相。

七、给 SOLO 工作者的建议

独立开发者、自由职业者、个人创作者——本地 LLM 对你们来说不是”省钱”，是能力边界的拓展。

我见过最聪明的用法：一个做跨境电商的 SOLO 卖家，用本地 LLM + RAG 搭建了一套完全私有的竞品分析系统。把竞品网站、价格数据、用户评价全部灌进本地知识库，每天自动生成竞品动态报告。数据从未离开过他的 MacBook Pro，竞争对手不可能通过任何 API 日志反追踪他的分析策略。

另一个案例：一个独立律师用本地 Qwen 3.6 35B 处理客户合同。敏感案件的材料不上传云端，既符合执业规范，又能在飞机上没信号时继续工作。

本地部署对 SOLO 工作者的真正价值：

隐私即资产：客户数据、商业创意、未发布作品，不经过任何第三方服务器
成本结构翻转：云端 API 按用量线性收费，本地是一次性投入。日均调用 200 次以上，一年半回本，之后每多生成一个 token 都是免费
可控性：修改 system prompt、切换量化级别、微调模型行为——云端给不了这种控制权
离线能力：飞机、高铁、偏远地区，工作不中断

结尾：今天就开始

不要等”更好的模型”。2026 年 5 月的本地 LLM，已经足够好了。

30 分钟入门（LM Studio 版）：

下载安装 LM Studio：https://lmstudio.ai（Mac/Windows/Linux 都支持）
搜索下载模型：Qwen3.6-35B-A3B 选 Q4_K_M 版本（约 20GB）
加载模型后改三个参数：Context Length 调到 32768，Temperature 设 0.5，GPU Offload 拉到 Max
右下角开始对话

如果你用 VS Code 写代码，额外花 5 分钟：LM Studio 右侧开 Local Server，VS Code 装 Continue.dev 插件，endpoint 填 http://localhost:1234/v1/chat/completions。

最坏情况：浪费 30 分钟。

最好情况：每年省 ¥4,000 API 费 + 获得数据主权 + 拥有一个永不掉线的 AI 助手。

你的下一台电脑，必须是一台 AI 电脑。不是因为营销，而是因为本地 LLM 真的可用了。

附：我的测试环境

硬件：Apple M5 Pro / 64GB RAM

测试模型：Gemma 4 26B A4B IT / Qwen 3.6 35B A3B

测试集一（Golden Questions）：14 题覆盖代码/数学/逻辑/工具/架构/审查/知识 — 结果 14/14 满分

测试集二（Golden Tool Tasks）：8 个任务覆盖文件/Shell/搜索/条件/编辑/正则/链式调用 — 结果 8/8 通过，本地操作全部 <20ms

完整报告：OpenClaw Project Benchmark（2026-04-30 / 2026-05-01）

文章基于实战测试 + 公开 benchmark 数据。硬件价格随市场波动，请以实际采购为准。