本地 LLM 实战指南:2026 年,它终于不是玩具了

AI Engineering
#Local LLM#Qwen 3.6#Gemma 4#MoE#OpenClaw#LM Studio

开场:从 30 秒到 200 毫秒

2024 年,我在 M3 MacBook 上跑当时的开源 7B 模型,生成一段 Python 函数需要 30 秒,质量还不如 GitHub Copilot。

2026 年 5 月,同样的场景:Apple M5 Pro + 64GB 内存,本地跑 Qwen 3.6 35B(MoE 架构,实际仅激活 3.6B 参数),代码补全延迟 200 毫秒。14 道覆盖代码、数学、逻辑、架构设计的测试题全部满分。8 个涉及文件操作、Shell 命令、网络搜索、多工具链式调用的 Agent 任务,零失败。

我的代码,从未离开过本机。

这不是极客的自嗨。2026 年,本地 LLM 的可用性拐点已经到来——不是”能跑”,是”好用”。


一、拐点证据:三个”终于可以了”

1. 代码场景:本地模型能写生产级代码了

我设计的 Golden Questions 测试集包含三道代码题:快速排序(带类型注解和边界测试)、正则提取邮箱、两数之和(O(n) 哈希表解法)。

测试结果:

模型快排正则两数之和耗时
Gemma 4 26B6/6 测试通过3/3 提取正确5/5 测试通过~6s
Qwen 3.6 35B4/4 测试通过3/3 提取正确3/3 测试通过~1.3s

Gemma 4 不仅写出了三路划分快排,还主动覆盖了空列表、单元素、逆序、重复值、已排序、全部相同六种边界。Qwen 3.6 虽然测试用例更少,但响应速度是 Gemma 的 5 倍——两者都是 MoE,Qwen 3.6 激活 3.6B 参数占 ~10GB,Gemma 4 激活 ~4B 参数占 ~15GB(Gemma 的 A4B 量化在 Apple Silicon 上优化更好,但内存占用稍高)。

关键不是”写对了”,而是”写完整了”。 两年前的本地模型能写出语法正确的函数,但绝不会主动考虑边界条件。

一个反直觉的发现:我还测了 Qwen 3.6 的 27B Dense 版本(非 MoE),结果慢到离谱——同样的快排任务,27B Dense 花了 224 秒,35B MoE 只花了 58 秒。Dense 全参数激活 vs MoE 3.6B 激活,35B 反而快 3.9 倍。这彻底颠覆了我”参数越少越快”的直觉。

2. 推理场景:数学和逻辑不再”胡编”

测试集包含四道数学题:2^32-1 的质因数分解、斐波那契第 50 项、掷骰子概率、蒙提霍尔问题。

两模型全部正确。Gemma 4 对蒙提霍尔问题额外做了 50 万次蒙特卡洛模拟验证——理论推导 + 实证检验,这不是”背答案”,是”验证答案”。

逻辑证明题同样满分。Gemma 4 甚至区分了 validity(有效性)和 soundness(可靠性),这是逻辑学本科生的水平。

测试硬件是 Apple M5 Pro / 64GB RAM,最终结果是 14/14 满分。

3. Agent 场景:工具链调用从”能跑”到”可靠”

这是真正的分水岭。我设计了一套 Golden Tool Tasks,共 8 个任务,用 OpenClaw 框架在本地直接跑:

  • T1:文件写入 + 读取验证
  • T2:基础 Shell 命令(ls + grep)
  • T3:复杂 Shell 链式操作(创建 10 文件 → 统计 → 删除 → 验证)
  • T4:网络搜索
  • T5:多步条件调用(if 文件存在则读取,否则创建再读取)
  • T6:文件编辑(写入 → 修改 → 验证)
  • T7:正则 + 文件处理(写入含邮箱文本 → grep 提取)
  • T8:多工具链式调用(搜索 → 写入文件 → 读取验证 → 统计行数)

结果:8/8 全部通过。

关键不是”做对了”,而是”做得快”。OpenClaw 的实测数据显示:所有本地文件操作、Shell 命令、正则提取、编辑验证,耗时全部在 20 毫秒以内。T3 四步链式操作合计 17 毫秒,T7 正则提取 5 毫秒。

唯一耗时的是网络搜索(T4 约 1.9 秒,T8 约 1.8 秒),但这属于外部 I/O,与模型本身无关。

T5 的多步条件调用尤其说明问题:模型先检查文件是否存在,发现不存在后自动走”创建 → 读取”分支,全程无需人工干预。T8 的链式调用更复杂:搜索返回 5 条结果 → 写入 22 行文件 → 读取验证内容完整 → 行数统计正确,四步一气呵成。

这意味着什么? 本地模型不再是”聊天机器人”,而是能操作你电脑的数字助手。数据不出本机,隐私零泄露,响应速度比云端 Agent 快一个数量级。


二、实战配置:你该买哪一档?

本地部署的门槛不在硬件,在认知。大多数人以为需要 A100,其实二手 RTX 3060 就能起步。

但买错了配置,体验会天差地别。我见过有人花三万配了台 A100 工作站,结果只是用来聊聊天;也见过有人在 M2 MacBook Air 上跑 Qwen 3.6 35B,日常开发完全够用。

如果你只是想”试试看”(¥2,000-4,000)

配置:RTX 3060 12GB(二手约 ¥1,500)或 M1 Pro + 16GB 内存
能跑什么:7B-8B 量化模型。这个档位我没做系统测试,不做具体模型推荐。如果你好奇”本地 LLM 到底能不能用”,装个 Ollama 拉个热门 8B 模型试试,半小时就知道答案。
实际体验:写个 Python 脚本、查个 API 文档、做简单问答应该没问题。但复杂架构设计和长文本处理会比较吃力。速度约 10-15 tokens/s,等它写完一段话你能去倒杯水。
值不值得买:如果你一年 API 账单不到 ¥500,别折腾。但如果你好奇”本地 LLM 到底能不能用”,这个档位是最便宜的试错成本。装个 Ollama,拉个 8B 模型,半小时就知道答案。注意:这个档位的模型能力和我测试的 26B/35B 级别有本质差距。

如果你每天和 AI 对话超过 2 小时(¥12,000-18,000)

配置:RTX 4090 24GB(¥13,000-15,000)或 M2 Max/M3 Pro + 36GB 以上统一内存
能跑什么:24B-35B 量化模型。这是我系统测试过的档位,Qwen 3.6 35B 和 Gemma 4 26B 在 RTX 4090 或 M3 Pro 以上配置表现优异。
实际体验:这才是我推荐的”甜点区”。我的主力配置是 Apple M5 Pro + 64GB,日常开发中 Qwen 3.6 35B 替代了 80% 的 Claude API 调用。代码补全延迟 <300ms,长文档 RAG 能处理几百页 PDF,Agent 工具链调用毫秒级响应。只有超过 100K 上下文或复杂多模态任务才切回云端。
成本账:RTX 4090 主机一次性投入约 ¥15,000。如果你日均调用 200 次以上,按 Claude API 价格算,一年半就回本。第二年开始,每多生成一个 token 都是免费的。

如果你要跑 70B 以上或做微调(¥25,000-40,000)

配置:RTX 5090 32GB(约 ¥25,000)或 Mac Studio M3 Ultra(¥30,000+,统一内存 128GB)
能跑什么:70B Q4 量化,甚至 405B 的 Q8 量化(需多卡或超大统一内存)。可以做 LoRA 微调、多模态推理。
一个反直觉的事实:Llama 4 70B 用 1.58-bit 量化后,社区数据说 16GB VRAM 就能跑,MMLU 保留 99.2%。但我个人没测过 70B 级别,以上信息来自社区报告,仅供参考。
值不值得买:除非你做模型研究或需要本地微调,否则主力档已经够用了。别为了”战未来”盲目上顶配。

避坑指南

不要买 8GB 显存的卡。RTX 4060 Ti 8GB、RTX 3070 8GB 这些看似”性价比”的选择,实际跑起来很憋屈——7B 模型 Q4 量化就要占 4-5GB,加上系统开销和 KV Cache,稍微长一点的对话就会爆显存。12GB 是底线,24GB 是甜点。

不要忽视内存带宽。Apple Silicon 的统一内存架构(CPU 和 GPU 共享内存,无数据拷贝)在本地推理上反而有优势。我测过同样跑 Qwen 3.6 35B,M3 Pro 36GB 的响应速度不输 RTX 4090,只是并发能力差一些。如果你主要做个人开发而非多用户服务,Mac 的体验其实更安静、更省电。


三、LM Studio 参数配置速查(干货)

我主力用 LM Studio,不是 Ollama。LM Studio 的 GUI 对调参更友好,但默认参数往往是错的,需要自己手动改。

加载模型时的关键参数(左侧边栏 Settings):

参数代码助手RAG 知识库Agent 自动化写作翻译
Context Length8192327681638432768
GPU OffloadMaxMaxMaxMax
Batch Size5121024512512
Temperature0.30.50.20.7
Top P0.90.90.950.9
Repeat Penalty1.051.11.01.1
QuantizationQ4_K_MQ4_K_MQ4_K_MQ5_K_M

Context Length 怎么设:LM Studio 默认是 2048,对 RAG 完全不够用。但也不要无脑拉到满(65535),因为 KV Cache 会吃掉大量显存。Qwen 3.6 35B 在 32K 上下文下约占 14GB 显存,64K 下约占 18GB。如果你的卡是 24GB,设 32K 比较安全。

Temperature 的潜规则:代码生成要低(0.2-0.3),模型才会按规矩写;RAG 要中(0.5),保证回答稳定不发散;写作要高(0.7-0.8),有点创意。Agent 任务要低(0.2),工具调用需要确定性,温度高了会乱调用。

Quantization 选择:Q4_K_M 是甜点,日常任务完全够用。我的 14/14 满分测试全是用 Q4_K_M 跑的。但如果你做金融建模或医学诊断,建议上 Q5_K_M,精度损失从约 2% 降到 <1%。Q8 除非你有 48GB 显存,否则性价比不高。


四、四大实战场景(我每天都在用的)

场景 1:私有代码助手(替代 Copilot)

这是我的最高频场景。LM Studio 配置:

模型:Qwen3.6-35B-A3B-Q4_K_M.gguf
Context Length: 8192
Temperature: 0.3
Top P: 0.9
GPU Offload: Max(全部放 GPU)

IDE 配合方案:

  • VS Code:装 Continue.dev 插件,LM Studio 开启 Local Server(默认端口 1234),Continue.dev 里填 http://localhost:1234/v1/chat/completions
  • Cursor:直接在设置里把模型 API 指向 LM Studio 的本地端口
  • JetBrains:装 AI Assistant 插件,配置自定义 OpenAI-compatible endpoint

实际用下来的体感:

  • 延迟:代码补全 <300ms,和 Copilot 相当
  • 质量:日常业务代码(CRUD、API 调用、数据处理)和 Copilot 打平,但复杂算法题还是不如 Claude
  • 最大优势:内部项目的敏感业务逻辑、未开源的私有框架代码,再也不需要上传到云端
  • :LM Studio 的 Local Server 默认只支持 /v1/chat/completions,不支持 Copilot 式的 stream 补全。Continue.dev 需要关掉 stream 选项,否则会有奇怪的延迟。

场景 2:本地 RAG 知识库(处理敏感文档)

我用来处理合同、技术白皮书、论文 PDF。LM Studio 自带 RAG 功能,不需要额外装 AnythingLLM。

LM Studio RAG 配置

模型:Qwen3.6-35B-A3B-Q4_K_M.gguf
Context Length: 32768(留足空间给检索结果)
Temperature: 0.5
System Prompt: "你是一个严谨的文档分析助手。回答必须基于提供的上下文,如果上下文中没有相关信息,明确回答'根据现有资料无法确定'。"

文档加载步骤

  1. 左下角点击文件夹图标 “Chat with Documents”
  2. 拖入 PDF/Word/TXT,LM Studio 会自动切分 chunk
  3. 嵌入模型选 nomic-embed-text-v1.5(在 Settings > Embeddings 里下载)
  4. Chunk Size 建议 512,Overlap 128,Top K 5

实测参数调优

  • Chunk Size 设太大(>1024),检索精度下降,模型会漏掉细节
  • Chunk Size 设太小(<256),上下文碎片化,模型回答不连贯
  • 我测下来 512 是甜点,配合 128 的 overlap,既保证精度又不碎片化
  • Top K 从 3 调到 5,召回率提升明显,但超过 5 后噪声增加,性价比下降

实际体验:

  • 几百页的 PDF 扔进去,问答带引用(会标注答案来自第几页)
  • 合同条款对比:把新旧两份合同同时上传,直接问”有哪些条款变更”,比人工逐行对比快十倍
  • 数据永不出本机,适合法务、财务、医疗等敏感场景
  • :LM Studio 默认 embedding 模型是 mpnet-base,中文效果很差。一定要手动换成 nomic-embed-text-v1.5 或 bge-m3,中文 RAG 效果差不止一个档次。
  • :Max Tokens 设太小(比如 2048),长文档问答时模型推导到一半被截断,输出空内容或半截话。我测过 4K vs 65K,4K 下多个任务直接报废。

场景 3:端侧 Agent 自动化(核心差异化场景)

这是本地 LLM 和云端 LLM 体验差距最大的地方。我基于 OpenClaw 框架测了 8 个工具任务,LM Studio 作为推理后端:

LM Studio Agent 配置

模型:Qwen3.6-35B-A3B-Q4_K_M.gguf
Context Length: 16384
Temperature: 0.2(Agent 需要确定性,温度高了会乱调用工具)
Top P: 0.95
GPU Offload: Max
System Prompt: "你是一个系统自动化助手。你可以执行文件操作、Shell 命令和网络搜索。执行前必须确认命令安全性。"

LM Studio 开 API 模式

  1. 右侧边栏点击 “Local Server”
  2. 勾选 “Enable Local Server”,端口默认 1234
  3. OpenClaw(或其他 Agent 框架)指向 http://localhost:1234/v1/chat/completions
  4. 关键:打开 “Enable CORS”,否则跨域请求会被拒绝

8 个工具任务实测结果

任务类型本地耗时体感
T1 文件读写单步~2ms瞬间完成,无感知
T2 基础 Shell单步~8ms瞬间完成
T3 复杂 Shell 链式四步~17ms创建10文件→统计→删除→验证,一气呵成
T4 网络搜索外部 I/O~1.9s和云端搜索速度相当
T5 多步条件调用条件分支~1ms自动判断”文件不存在→创建→读取”
T6 文件编辑写入+修改+验证~10mssed 替换精准,无缓存问题
T7 正则提取写入+grep~5ms5个邮箱秒提取
T8 多工具链式搜索+写入+验证+统计~1.8s搜索占大头,文件操作几乎零耗时

关键发现:本地文件操作全部在 20 毫秒以内,比云端 Agent 快一个数量级。云端 Agent 每次工具调用都要走一次 API 往返(200-500ms),本地是”LM Studio → 系统调用”直连。

另一个关键发现:max_tokens 设太小会直接导致任务失败。我对比了 4K 和 65K 两种配置:4K 限制下,Q4(大数计算)和 Q8(逻辑证明)被截断成空输出;65K 下 Q4 输出了 15322 tokens,Q8 输出了 12665 tokens,推导完整。总耗时只增加了 47%,但复杂推理任务的质量从”不可用”变成了”优秀”。

实际应用:我让本地 Agent 每天自动整理下载文件夹(按文件类型分类、重命名、归档),全程无需联网,零订阅费。

场景 4:离线写作与翻译

飞机上的救命功能。LM Studio 配置:

模型:Qwen3.6-35B-A3B-Q4_K_M.gguf
Context Length: 32768
Temperature: 0.7(写作需要一点创意,比代码高)
Top P: 0.9
Repeat Penalty: 1.1(防止长文生成时的重复啰嗦)
System Prompt: "你是一位专业的技术写作者。翻译时保持原文术语准确,写作时逻辑清晰、表达简洁。"

Qwen 3.6 35B 的中英双语能力优秀,长文本处理能力强,可以处理整本书的翻译或续写。实测在离线场景下完全可用。

实际体验:高铁上没信号,照样能写技术博客、翻译英文论文摘要。速度比云端慢一些(20-30 tokens/s),但完全可用。

一个技巧:离线场景建议提前把常用参考资料(公司文档、技术规范、术语表)做成 RAG 知识库,这样即使没有网络,模型也能引用内部资料写作。LM Studio 的 “Chat with Documents” 支持导出对话历史,方便后续整理。


五、避坑指南:本地部署的三大幻觉

幻觉 1:“本地免费”

真相:硬件是沉没成本,电费、散热、维护时间都是隐性成本。低频用户(<100 次/月)用 API 更划算。

临界点:日均调用 >200 次,或处理敏感数据,本地才划算。以我自己为例:日均 300+ 次调用,如果全用 Claude API,年费约 ¥4,000-6,000。RTX 4090 主机一次性投入 ¥15,000,第二年就是纯赚。

幻觉 2:“量化无损失”

真相:INT8 通常 <1% 损失,但 INT4/1-bit 在多步数学推理上可能掉 5%+。

建议:代码/推理任务用 Q5_K_M 或 Q8,聊天/摘要可用 Q4。我的测试全部使用 Q4_K_M,14 题满分说明日常任务完全够用,但金融建模等精度敏感场景建议上 Q8。

另一个真相:Dense 模型未必比 MoE 快。我测了 Qwen 3.6 的 27B Dense 版 vs 35B MoE 版,27B 慢了 3.9 倍——快排任务 224 秒 vs 58 秒,工具链任务 157 秒 vs 37 秒。Dense 全参数激活的内存带宽瓶颈,比 MoE 部分激活严重得多。别被”参数少=速度快”的直觉骗了。

幻觉 3:“一个模型打天下”

真相:本地部署的优势恰恰是多模型路由。但”路由”的前提是你要真的测过这些模型,而不是看参数表云评测。

我的实际工作流(只包含我测过的模型):

  • 代码生成 → Qwen 3.6 35B(准确率高,速度极快)
  • 代码审查 → Gemma 4 26B(发现 6 个问题 vs Qwen 的 4 个,更细致)
  • 日常问答 → Qwen 3.6 35B(通用能力强,一步到位)
  • Agent 自动化 → Qwen 3.6 35B(8/8 工具任务通过,内存仅 ~10GB)

两模型互补最佳:Qwen 求快求省,Gemma 求精求全。

幻觉 4:“LM Studio 默认参数就能用”

真相:LM Studio 的默认参数是为聊天机器人设计的,不是为你工作流设计的。

我踩过的坑

  • 默认 Context Length 是 2048,RAG 时塞几页 PDF 就爆上下文,模型开始”失忆”答非所问
  • 默认 Temperature 是 0.7,代码生成时模型疯狂发散,写出完全不相关的函数
  • 默认 embedding 模型是 mpnet-base,中文 RAG 效果差到怀疑人生
  • 默认没开 GPU Offload,模型全跑 CPU 上,速度从 40 tokens/s 跌到 3 tokens/s

我的建议:加载模型后第一件事,先把 Settings 里的参数按我上面给的速查表改一遍。花 5 分钟调参,省 50 小时排查”为什么模型这么蠢”。


六、模型选型:我只推荐我测过的

基于我的实测(Apple M5 Pro + 64GB),2026 年 5 月本地部署我只推荐这两款:

用途模型参数显存(Q4)我的测试工具调用速度内存占用
通用主力/代码/AgentQwen 3.6 35B A3B35B(MoE)~10GB14/14 + 8/8优秀极快~10GB
严谨分析/代码审查Gemma 4 26B A4B26B(MoE)~15GB14/14 + 8/8优秀最快~15GB

为什么只推荐这两款?

因为我亲自跑过 Golden Questions(14 题覆盖代码/数学/逻辑/架构/审查/知识)和 Golden Tool Tasks(8 个任务覆盖文件/Shell/搜索/条件/编辑/正则/链式调用),只有这两款模型拿到了满分。

Qwen 3.6 35B 的优势:MoE 架构仅激活 3.6B 参数,推理速度极快,内存仅 ~10GB。原生中文优化好,我的日常主力,代码生成、Agent 自动化、问答全部用它。

Gemma 4 26B 的优势:同样是 MoE(128 专家 / 激活 8 个,~4B 激活参数),Gemma 的代码审查发现了 6 个问题(Qwen 只发现 4 个),对蒙提霍尔问题还额外做了 50 万次蒙特卡洛模拟验证。更严谨,速度也最快(在我的 M5 Pro 上平均 13 秒 vs Qwen 的 37 秒),但内存占用 ~15GB。

我的建议:两者互补使用最佳。日常主力用 Qwen(快+省),需要深度审查或复杂分析时切 Gemma(细+全)。

关于其他模型:我还测了 Nemotron 3 Nano 和 GLM 4.7 Flash 的速度(同一套任务,只测耗时,未测正确性)。结果如下:

模型平均耗时对比 Qwen 3.6
Gemma 4 26B13283ms快 2.8x
Nemotron 3 Nano31380ms快 1.2x
Qwen 3.6 35B37202ms基准
GLM 4.7 Flash38031ms慢 1.02x

Gemma 4 依然是速度冠军(平均 13 秒),Qwen 3.6 中等(37 秒),Nemotron(31 秒)和 GLM(38 秒)在同一量级。注意:这只是速度测试,不是正确性测试。Nemotron 在部分任务上输出 tokens=0(可能未生成内容),GLM 存在输出不稳定的问题。在没有跑完 Golden Questions 之前,我不会把它们加入推荐列表。

核心发现:激活参数量决定本地推理速度,不是总参数量。

模型架构激活参数平均耗时
Gemma 4 26BMoE (~4B 激活)~4B13283ms
Qwen 3.6 35BMoE (3.6B 激活)3.6B37202ms
Qwen 3.6 27BDense (27B 全激活)27B145000ms+

Gemma 4 和 Qwen 3.6 都是 MoE,激活参数接近(4B vs 3.6B),所以两者都比 Dense 模型快得多。Gemma 更快的原因:MLX A4B 量化在 Apple Silicon 上优化更好,加上输出更精炼(Qwen 在我的 4096 max_tokens 限制下频繁触顶,导致多轮截断重试)。

另外,Qwen 3.6 27B Dense 作为反面教材——27B 全激活比 35B MoE 慢了 3.9 倍,Q4 任务还超时失败。这彻底证明:真正决定本地推理速度的是每次前向传播实际计算的参数量,不是总参数量。

如果你对其他模型有兴趣,可以用同样的 Golden Questions + Golden Tool Tasks 框架自己跑一遍,数据比参数表诚实得多。

关键洞察:MoE 架构(Mixture of Experts)是 2026 年本地部署的转折点。但真正决定速度的还不是”是不是 MoE”,而是激活参数量。Gemma 4 总参数 26B 但只激活 ~4B,Qwen 3.6 总参数 35B 但只激活 3.6B——两者在本地跑起来都很快。反观 Qwen 3.6 27B Dense(27B 全激活),速度暴跌 4 倍。总参数是幌子,激活参数才是真相。


七、给 SOLO 工作者的建议

独立开发者、自由职业者、个人创作者——本地 LLM 对你们来说不是”省钱”,是能力边界的拓展

我见过最聪明的用法:一个做跨境电商的 SOLO 卖家,用本地 LLM + RAG 搭建了一套完全私有的竞品分析系统。把竞品网站、价格数据、用户评价全部灌进本地知识库,每天自动生成竞品动态报告。数据从未离开过他的 MacBook Pro,竞争对手不可能通过任何 API 日志反追踪他的分析策略。

另一个案例:一个独立律师用本地 Qwen 3.6 35B 处理客户合同。敏感案件的材料不上传云端,既符合执业规范,又能在飞机上没信号时继续工作。

本地部署对 SOLO 工作者的真正价值

  • 隐私即资产:客户数据、商业创意、未发布作品,不经过任何第三方服务器
  • 成本结构翻转:云端 API 按用量线性收费,本地是一次性投入。日均调用 200 次以上,一年半回本,之后每多生成一个 token 都是免费
  • 可控性:修改 system prompt、切换量化级别、微调模型行为——云端给不了这种控制权
  • 离线能力:飞机、高铁、偏远地区,工作不中断

结尾:今天就开始

不要等”更好的模型”。2026 年 5 月的本地 LLM,已经足够好了。

30 分钟入门(LM Studio 版)

  1. 下载安装 LM Studio:https://lmstudio.ai(Mac/Windows/Linux 都支持)
  2. 搜索下载模型:Qwen3.6-35B-A3B 选 Q4_K_M 版本(约 20GB)
  3. 加载模型后改三个参数:Context Length 调到 32768,Temperature 设 0.5,GPU Offload 拉到 Max
  4. 右下角开始对话

如果你用 VS Code 写代码,额外花 5 分钟:LM Studio 右侧开 Local Server,VS Code 装 Continue.dev 插件,endpoint 填 http://localhost:1234/v1/chat/completions

最坏情况:浪费 30 分钟。

最好情况:每年省 ¥4,000 API 费 + 获得数据主权 + 拥有一个永不掉线的 AI 助手。

你的下一台电脑,必须是一台 AI 电脑。不是因为营销,而是因为本地 LLM 真的可用了。


附:我的测试环境

  • 硬件:Apple M5 Pro / 64GB RAM
  • 测试模型:Gemma 4 26B A4B IT / Qwen 3.6 35B A3B
  • 测试集一(Golden Questions):14 题覆盖代码/数学/逻辑/工具/架构/审查/知识 — 结果 14/14 满分
  • 测试集二(Golden Tool Tasks):8 个任务覆盖文件/Shell/搜索/条件/编辑/正则/链式调用 — 结果 8/8 通过,本地操作全部 <20ms
  • 完整报告:OpenClaw Project Benchmark(2026-04-30 / 2026-05-01)

文章基于实战测试 + 公开 benchmark 数据。硬件价格随市场波动,请以实际采购为准。