开场:从 30 秒到 200 毫秒
2024 年,我在 M3 MacBook 上跑当时的开源 7B 模型,生成一段 Python 函数需要 30 秒,质量还不如 GitHub Copilot。
2026 年 5 月,同样的场景:Apple M5 Pro + 64GB 内存,本地跑 Qwen 3.6 35B(MoE 架构,实际仅激活 3.6B 参数),代码补全延迟 200 毫秒。14 道覆盖代码、数学、逻辑、架构设计的测试题全部满分。8 个涉及文件操作、Shell 命令、网络搜索、多工具链式调用的 Agent 任务,零失败。
我的代码,从未离开过本机。
这不是极客的自嗨。2026 年,本地 LLM 的可用性拐点已经到来——不是”能跑”,是”好用”。
一、拐点证据:三个”终于可以了”
1. 代码场景:本地模型能写生产级代码了
我设计的 Golden Questions 测试集包含三道代码题:快速排序(带类型注解和边界测试)、正则提取邮箱、两数之和(O(n) 哈希表解法)。
测试结果:
| 模型 | 快排 | 正则 | 两数之和 | 耗时 |
|---|---|---|---|---|
| Gemma 4 26B | 6/6 测试通过 | 3/3 提取正确 | 5/5 测试通过 | ~6s |
| Qwen 3.6 35B | 4/4 测试通过 | 3/3 提取正确 | 3/3 测试通过 | ~1.3s |
Gemma 4 不仅写出了三路划分快排,还主动覆盖了空列表、单元素、逆序、重复值、已排序、全部相同六种边界。Qwen 3.6 虽然测试用例更少,但响应速度是 Gemma 的 5 倍——两者都是 MoE,Qwen 3.6 激活 3.6B 参数占 ~10GB,Gemma 4 激活 ~4B 参数占 ~15GB(Gemma 的 A4B 量化在 Apple Silicon 上优化更好,但内存占用稍高)。
关键不是”写对了”,而是”写完整了”。 两年前的本地模型能写出语法正确的函数,但绝不会主动考虑边界条件。
一个反直觉的发现:我还测了 Qwen 3.6 的 27B Dense 版本(非 MoE),结果慢到离谱——同样的快排任务,27B Dense 花了 224 秒,35B MoE 只花了 58 秒。Dense 全参数激活 vs MoE 3.6B 激活,35B 反而快 3.9 倍。这彻底颠覆了我”参数越少越快”的直觉。
2. 推理场景:数学和逻辑不再”胡编”
测试集包含四道数学题:2^32-1 的质因数分解、斐波那契第 50 项、掷骰子概率、蒙提霍尔问题。
两模型全部正确。Gemma 4 对蒙提霍尔问题额外做了 50 万次蒙特卡洛模拟验证——理论推导 + 实证检验,这不是”背答案”,是”验证答案”。
逻辑证明题同样满分。Gemma 4 甚至区分了 validity(有效性)和 soundness(可靠性),这是逻辑学本科生的水平。
测试硬件是 Apple M5 Pro / 64GB RAM,最终结果是 14/14 满分。
3. Agent 场景:工具链调用从”能跑”到”可靠”
这是真正的分水岭。我设计了一套 Golden Tool Tasks,共 8 个任务,用 OpenClaw 框架在本地直接跑:
- T1:文件写入 + 读取验证
- T2:基础 Shell 命令(ls + grep)
- T3:复杂 Shell 链式操作(创建 10 文件 → 统计 → 删除 → 验证)
- T4:网络搜索
- T5:多步条件调用(if 文件存在则读取,否则创建再读取)
- T6:文件编辑(写入 → 修改 → 验证)
- T7:正则 + 文件处理(写入含邮箱文本 → grep 提取)
- T8:多工具链式调用(搜索 → 写入文件 → 读取验证 → 统计行数)
结果:8/8 全部通过。
关键不是”做对了”,而是”做得快”。OpenClaw 的实测数据显示:所有本地文件操作、Shell 命令、正则提取、编辑验证,耗时全部在 20 毫秒以内。T3 四步链式操作合计 17 毫秒,T7 正则提取 5 毫秒。
唯一耗时的是网络搜索(T4 约 1.9 秒,T8 约 1.8 秒),但这属于外部 I/O,与模型本身无关。
T5 的多步条件调用尤其说明问题:模型先检查文件是否存在,发现不存在后自动走”创建 → 读取”分支,全程无需人工干预。T8 的链式调用更复杂:搜索返回 5 条结果 → 写入 22 行文件 → 读取验证内容完整 → 行数统计正确,四步一气呵成。
这意味着什么? 本地模型不再是”聊天机器人”,而是能操作你电脑的数字助手。数据不出本机,隐私零泄露,响应速度比云端 Agent 快一个数量级。
二、实战配置:你该买哪一档?
本地部署的门槛不在硬件,在认知。大多数人以为需要 A100,其实二手 RTX 3060 就能起步。
但买错了配置,体验会天差地别。我见过有人花三万配了台 A100 工作站,结果只是用来聊聊天;也见过有人在 M2 MacBook Air 上跑 Qwen 3.6 35B,日常开发完全够用。
如果你只是想”试试看”(¥2,000-4,000)
配置:RTX 3060 12GB(二手约 ¥1,500)或 M1 Pro + 16GB 内存
能跑什么:7B-8B 量化模型。这个档位我没做系统测试,不做具体模型推荐。如果你好奇”本地 LLM 到底能不能用”,装个 Ollama 拉个热门 8B 模型试试,半小时就知道答案。
实际体验:写个 Python 脚本、查个 API 文档、做简单问答应该没问题。但复杂架构设计和长文本处理会比较吃力。速度约 10-15 tokens/s,等它写完一段话你能去倒杯水。
值不值得买:如果你一年 API 账单不到 ¥500,别折腾。但如果你好奇”本地 LLM 到底能不能用”,这个档位是最便宜的试错成本。装个 Ollama,拉个 8B 模型,半小时就知道答案。注意:这个档位的模型能力和我测试的 26B/35B 级别有本质差距。
如果你每天和 AI 对话超过 2 小时(¥12,000-18,000)
配置:RTX 4090 24GB(¥13,000-15,000)或 M2 Max/M3 Pro + 36GB 以上统一内存
能跑什么:24B-35B 量化模型。这是我系统测试过的档位,Qwen 3.6 35B 和 Gemma 4 26B 在 RTX 4090 或 M3 Pro 以上配置表现优异。
实际体验:这才是我推荐的”甜点区”。我的主力配置是 Apple M5 Pro + 64GB,日常开发中 Qwen 3.6 35B 替代了 80% 的 Claude API 调用。代码补全延迟 <300ms,长文档 RAG 能处理几百页 PDF,Agent 工具链调用毫秒级响应。只有超过 100K 上下文或复杂多模态任务才切回云端。
成本账:RTX 4090 主机一次性投入约 ¥15,000。如果你日均调用 200 次以上,按 Claude API 价格算,一年半就回本。第二年开始,每多生成一个 token 都是免费的。
如果你要跑 70B 以上或做微调(¥25,000-40,000)
配置:RTX 5090 32GB(约 ¥25,000)或 Mac Studio M3 Ultra(¥30,000+,统一内存 128GB)
能跑什么:70B Q4 量化,甚至 405B 的 Q8 量化(需多卡或超大统一内存)。可以做 LoRA 微调、多模态推理。
一个反直觉的事实:Llama 4 70B 用 1.58-bit 量化后,社区数据说 16GB VRAM 就能跑,MMLU 保留 99.2%。但我个人没测过 70B 级别,以上信息来自社区报告,仅供参考。
值不值得买:除非你做模型研究或需要本地微调,否则主力档已经够用了。别为了”战未来”盲目上顶配。
避坑指南
不要买 8GB 显存的卡。RTX 4060 Ti 8GB、RTX 3070 8GB 这些看似”性价比”的选择,实际跑起来很憋屈——7B 模型 Q4 量化就要占 4-5GB,加上系统开销和 KV Cache,稍微长一点的对话就会爆显存。12GB 是底线,24GB 是甜点。
不要忽视内存带宽。Apple Silicon 的统一内存架构(CPU 和 GPU 共享内存,无数据拷贝)在本地推理上反而有优势。我测过同样跑 Qwen 3.6 35B,M3 Pro 36GB 的响应速度不输 RTX 4090,只是并发能力差一些。如果你主要做个人开发而非多用户服务,Mac 的体验其实更安静、更省电。
三、LM Studio 参数配置速查(干货)
我主力用 LM Studio,不是 Ollama。LM Studio 的 GUI 对调参更友好,但默认参数往往是错的,需要自己手动改。
加载模型时的关键参数(左侧边栏 Settings):
| 参数 | 代码助手 | RAG 知识库 | Agent 自动化 | 写作翻译 |
|---|---|---|---|---|
| Context Length | 8192 | 32768 | 16384 | 32768 |
| GPU Offload | Max | Max | Max | Max |
| Batch Size | 512 | 1024 | 512 | 512 |
| Temperature | 0.3 | 0.5 | 0.2 | 0.7 |
| Top P | 0.9 | 0.9 | 0.95 | 0.9 |
| Repeat Penalty | 1.05 | 1.1 | 1.0 | 1.1 |
| Quantization | Q4_K_M | Q4_K_M | Q4_K_M | Q5_K_M |
Context Length 怎么设:LM Studio 默认是 2048,对 RAG 完全不够用。但也不要无脑拉到满(65535),因为 KV Cache 会吃掉大量显存。Qwen 3.6 35B 在 32K 上下文下约占 14GB 显存,64K 下约占 18GB。如果你的卡是 24GB,设 32K 比较安全。
Temperature 的潜规则:代码生成要低(0.2-0.3),模型才会按规矩写;RAG 要中(0.5),保证回答稳定不发散;写作要高(0.7-0.8),有点创意。Agent 任务要低(0.2),工具调用需要确定性,温度高了会乱调用。
Quantization 选择:Q4_K_M 是甜点,日常任务完全够用。我的 14/14 满分测试全是用 Q4_K_M 跑的。但如果你做金融建模或医学诊断,建议上 Q5_K_M,精度损失从约 2% 降到 <1%。Q8 除非你有 48GB 显存,否则性价比不高。
四、四大实战场景(我每天都在用的)
场景 1:私有代码助手(替代 Copilot)
这是我的最高频场景。LM Studio 配置:
模型:Qwen3.6-35B-A3B-Q4_K_M.gguf
Context Length: 8192
Temperature: 0.3
Top P: 0.9
GPU Offload: Max(全部放 GPU)
IDE 配合方案:
- VS Code:装 Continue.dev 插件,LM Studio 开启 Local Server(默认端口 1234),Continue.dev 里填
http://localhost:1234/v1/chat/completions - Cursor:直接在设置里把模型 API 指向 LM Studio 的本地端口
- JetBrains:装 AI Assistant 插件,配置自定义 OpenAI-compatible endpoint
实际用下来的体感:
- 延迟:代码补全 <300ms,和 Copilot 相当
- 质量:日常业务代码(CRUD、API 调用、数据处理)和 Copilot 打平,但复杂算法题还是不如 Claude
- 最大优势:内部项目的敏感业务逻辑、未开源的私有框架代码,再也不需要上传到云端
- 坑:LM Studio 的 Local Server 默认只支持
/v1/chat/completions,不支持 Copilot 式的 stream 补全。Continue.dev 需要关掉 stream 选项,否则会有奇怪的延迟。
场景 2:本地 RAG 知识库(处理敏感文档)
我用来处理合同、技术白皮书、论文 PDF。LM Studio 自带 RAG 功能,不需要额外装 AnythingLLM。
LM Studio RAG 配置:
模型:Qwen3.6-35B-A3B-Q4_K_M.gguf
Context Length: 32768(留足空间给检索结果)
Temperature: 0.5
System Prompt: "你是一个严谨的文档分析助手。回答必须基于提供的上下文,如果上下文中没有相关信息,明确回答'根据现有资料无法确定'。"
文档加载步骤:
- 左下角点击文件夹图标 “Chat with Documents”
- 拖入 PDF/Word/TXT,LM Studio 会自动切分 chunk
- 嵌入模型选
nomic-embed-text-v1.5(在 Settings > Embeddings 里下载) - Chunk Size 建议 512,Overlap 128,Top K 5
实测参数调优:
- Chunk Size 设太大(>1024),检索精度下降,模型会漏掉细节
- Chunk Size 设太小(<256),上下文碎片化,模型回答不连贯
- 我测下来 512 是甜点,配合 128 的 overlap,既保证精度又不碎片化
- Top K 从 3 调到 5,召回率提升明显,但超过 5 后噪声增加,性价比下降
实际体验:
- 几百页的 PDF 扔进去,问答带引用(会标注答案来自第几页)
- 合同条款对比:把新旧两份合同同时上传,直接问”有哪些条款变更”,比人工逐行对比快十倍
- 数据永不出本机,适合法务、财务、医疗等敏感场景
- 坑:LM Studio 默认 embedding 模型是 mpnet-base,中文效果很差。一定要手动换成 nomic-embed-text-v1.5 或 bge-m3,中文 RAG 效果差不止一个档次。
- 坑:Max Tokens 设太小(比如 2048),长文档问答时模型推导到一半被截断,输出空内容或半截话。我测过 4K vs 65K,4K 下多个任务直接报废。
场景 3:端侧 Agent 自动化(核心差异化场景)
这是本地 LLM 和云端 LLM 体验差距最大的地方。我基于 OpenClaw 框架测了 8 个工具任务,LM Studio 作为推理后端:
LM Studio Agent 配置:
模型:Qwen3.6-35B-A3B-Q4_K_M.gguf
Context Length: 16384
Temperature: 0.2(Agent 需要确定性,温度高了会乱调用工具)
Top P: 0.95
GPU Offload: Max
System Prompt: "你是一个系统自动化助手。你可以执行文件操作、Shell 命令和网络搜索。执行前必须确认命令安全性。"
LM Studio 开 API 模式:
- 右侧边栏点击 “Local Server”
- 勾选 “Enable Local Server”,端口默认 1234
- OpenClaw(或其他 Agent 框架)指向
http://localhost:1234/v1/chat/completions - 关键:打开 “Enable CORS”,否则跨域请求会被拒绝
8 个工具任务实测结果:
| 任务 | 类型 | 本地耗时 | 体感 |
|---|---|---|---|
| T1 文件读写 | 单步 | ~2ms | 瞬间完成,无感知 |
| T2 基础 Shell | 单步 | ~8ms | 瞬间完成 |
| T3 复杂 Shell 链式 | 四步 | ~17ms | 创建10文件→统计→删除→验证,一气呵成 |
| T4 网络搜索 | 外部 I/O | ~1.9s | 和云端搜索速度相当 |
| T5 多步条件调用 | 条件分支 | ~1ms | 自动判断”文件不存在→创建→读取” |
| T6 文件编辑 | 写入+修改+验证 | ~10ms | sed 替换精准,无缓存问题 |
| T7 正则提取 | 写入+grep | ~5ms | 5个邮箱秒提取 |
| T8 多工具链式 | 搜索+写入+验证+统计 | ~1.8s | 搜索占大头,文件操作几乎零耗时 |
关键发现:本地文件操作全部在 20 毫秒以内,比云端 Agent 快一个数量级。云端 Agent 每次工具调用都要走一次 API 往返(200-500ms),本地是”LM Studio → 系统调用”直连。
另一个关键发现:max_tokens 设太小会直接导致任务失败。我对比了 4K 和 65K 两种配置:4K 限制下,Q4(大数计算)和 Q8(逻辑证明)被截断成空输出;65K 下 Q4 输出了 15322 tokens,Q8 输出了 12665 tokens,推导完整。总耗时只增加了 47%,但复杂推理任务的质量从”不可用”变成了”优秀”。
实际应用:我让本地 Agent 每天自动整理下载文件夹(按文件类型分类、重命名、归档),全程无需联网,零订阅费。
场景 4:离线写作与翻译
飞机上的救命功能。LM Studio 配置:
模型:Qwen3.6-35B-A3B-Q4_K_M.gguf
Context Length: 32768
Temperature: 0.7(写作需要一点创意,比代码高)
Top P: 0.9
Repeat Penalty: 1.1(防止长文生成时的重复啰嗦)
System Prompt: "你是一位专业的技术写作者。翻译时保持原文术语准确,写作时逻辑清晰、表达简洁。"
Qwen 3.6 35B 的中英双语能力优秀,长文本处理能力强,可以处理整本书的翻译或续写。实测在离线场景下完全可用。
实际体验:高铁上没信号,照样能写技术博客、翻译英文论文摘要。速度比云端慢一些(20-30 tokens/s),但完全可用。
一个技巧:离线场景建议提前把常用参考资料(公司文档、技术规范、术语表)做成 RAG 知识库,这样即使没有网络,模型也能引用内部资料写作。LM Studio 的 “Chat with Documents” 支持导出对话历史,方便后续整理。
五、避坑指南:本地部署的三大幻觉
幻觉 1:“本地免费”
真相:硬件是沉没成本,电费、散热、维护时间都是隐性成本。低频用户(<100 次/月)用 API 更划算。
临界点:日均调用 >200 次,或处理敏感数据,本地才划算。以我自己为例:日均 300+ 次调用,如果全用 Claude API,年费约 ¥4,000-6,000。RTX 4090 主机一次性投入 ¥15,000,第二年就是纯赚。
幻觉 2:“量化无损失”
真相:INT8 通常 <1% 损失,但 INT4/1-bit 在多步数学推理上可能掉 5%+。
建议:代码/推理任务用 Q5_K_M 或 Q8,聊天/摘要可用 Q4。我的测试全部使用 Q4_K_M,14 题满分说明日常任务完全够用,但金融建模等精度敏感场景建议上 Q8。
另一个真相:Dense 模型未必比 MoE 快。我测了 Qwen 3.6 的 27B Dense 版 vs 35B MoE 版,27B 慢了 3.9 倍——快排任务 224 秒 vs 58 秒,工具链任务 157 秒 vs 37 秒。Dense 全参数激活的内存带宽瓶颈,比 MoE 部分激活严重得多。别被”参数少=速度快”的直觉骗了。
幻觉 3:“一个模型打天下”
真相:本地部署的优势恰恰是多模型路由。但”路由”的前提是你要真的测过这些模型,而不是看参数表云评测。
我的实际工作流(只包含我测过的模型):
- 代码生成 → Qwen 3.6 35B(准确率高,速度极快)
- 代码审查 → Gemma 4 26B(发现 6 个问题 vs Qwen 的 4 个,更细致)
- 日常问答 → Qwen 3.6 35B(通用能力强,一步到位)
- Agent 自动化 → Qwen 3.6 35B(8/8 工具任务通过,内存仅 ~10GB)
两模型互补最佳:Qwen 求快求省,Gemma 求精求全。
幻觉 4:“LM Studio 默认参数就能用”
真相:LM Studio 的默认参数是为聊天机器人设计的,不是为你工作流设计的。
我踩过的坑:
- 默认 Context Length 是 2048,RAG 时塞几页 PDF 就爆上下文,模型开始”失忆”答非所问
- 默认 Temperature 是 0.7,代码生成时模型疯狂发散,写出完全不相关的函数
- 默认 embedding 模型是 mpnet-base,中文 RAG 效果差到怀疑人生
- 默认没开 GPU Offload,模型全跑 CPU 上,速度从 40 tokens/s 跌到 3 tokens/s
我的建议:加载模型后第一件事,先把 Settings 里的参数按我上面给的速查表改一遍。花 5 分钟调参,省 50 小时排查”为什么模型这么蠢”。
六、模型选型:我只推荐我测过的
基于我的实测(Apple M5 Pro + 64GB),2026 年 5 月本地部署我只推荐这两款:
| 用途 | 模型 | 参数 | 显存(Q4) | 我的测试 | 工具调用 | 速度 | 内存占用 |
|---|---|---|---|---|---|---|---|
| 通用主力/代码/Agent | Qwen 3.6 35B A3B | 35B(MoE) | ~10GB | 14/14 + 8/8 | 优秀 | 极快 | ~10GB |
| 严谨分析/代码审查 | Gemma 4 26B A4B | 26B(MoE) | ~15GB | 14/14 + 8/8 | 优秀 | 最快 | ~15GB |
为什么只推荐这两款?
因为我亲自跑过 Golden Questions(14 题覆盖代码/数学/逻辑/架构/审查/知识)和 Golden Tool Tasks(8 个任务覆盖文件/Shell/搜索/条件/编辑/正则/链式调用),只有这两款模型拿到了满分。
Qwen 3.6 35B 的优势:MoE 架构仅激活 3.6B 参数,推理速度极快,内存仅 ~10GB。原生中文优化好,我的日常主力,代码生成、Agent 自动化、问答全部用它。
Gemma 4 26B 的优势:同样是 MoE(128 专家 / 激活 8 个,~4B 激活参数),Gemma 的代码审查发现了 6 个问题(Qwen 只发现 4 个),对蒙提霍尔问题还额外做了 50 万次蒙特卡洛模拟验证。更严谨,速度也最快(在我的 M5 Pro 上平均 13 秒 vs Qwen 的 37 秒),但内存占用 ~15GB。
我的建议:两者互补使用最佳。日常主力用 Qwen(快+省),需要深度审查或复杂分析时切 Gemma(细+全)。
关于其他模型:我还测了 Nemotron 3 Nano 和 GLM 4.7 Flash 的速度(同一套任务,只测耗时,未测正确性)。结果如下:
| 模型 | 平均耗时 | 对比 Qwen 3.6 |
|---|---|---|
| Gemma 4 26B | 13283ms | 快 2.8x |
| Nemotron 3 Nano | 31380ms | 快 1.2x |
| Qwen 3.6 35B | 37202ms | 基准 |
| GLM 4.7 Flash | 38031ms | 慢 1.02x |
Gemma 4 依然是速度冠军(平均 13 秒),Qwen 3.6 中等(37 秒),Nemotron(31 秒)和 GLM(38 秒)在同一量级。注意:这只是速度测试,不是正确性测试。Nemotron 在部分任务上输出 tokens=0(可能未生成内容),GLM 存在输出不稳定的问题。在没有跑完 Golden Questions 之前,我不会把它们加入推荐列表。
核心发现:激活参数量决定本地推理速度,不是总参数量。
| 模型 | 架构 | 激活参数 | 平均耗时 |
|---|---|---|---|
| Gemma 4 26B | MoE (~4B 激活) | ~4B | 13283ms |
| Qwen 3.6 35B | MoE (3.6B 激活) | 3.6B | 37202ms |
| Qwen 3.6 27B | Dense (27B 全激活) | 27B | 145000ms+ |
Gemma 4 和 Qwen 3.6 都是 MoE,激活参数接近(4B vs 3.6B),所以两者都比 Dense 模型快得多。Gemma 更快的原因:MLX A4B 量化在 Apple Silicon 上优化更好,加上输出更精炼(Qwen 在我的 4096 max_tokens 限制下频繁触顶,导致多轮截断重试)。
另外,Qwen 3.6 27B Dense 作为反面教材——27B 全激活比 35B MoE 慢了 3.9 倍,Q4 任务还超时失败。这彻底证明:真正决定本地推理速度的是每次前向传播实际计算的参数量,不是总参数量。
如果你对其他模型有兴趣,可以用同样的 Golden Questions + Golden Tool Tasks 框架自己跑一遍,数据比参数表诚实得多。
关键洞察:MoE 架构(Mixture of Experts)是 2026 年本地部署的转折点。但真正决定速度的还不是”是不是 MoE”,而是激活参数量。Gemma 4 总参数 26B 但只激活 ~4B,Qwen 3.6 总参数 35B 但只激活 3.6B——两者在本地跑起来都很快。反观 Qwen 3.6 27B Dense(27B 全激活),速度暴跌 4 倍。总参数是幌子,激活参数才是真相。
七、给 SOLO 工作者的建议
独立开发者、自由职业者、个人创作者——本地 LLM 对你们来说不是”省钱”,是能力边界的拓展。
我见过最聪明的用法:一个做跨境电商的 SOLO 卖家,用本地 LLM + RAG 搭建了一套完全私有的竞品分析系统。把竞品网站、价格数据、用户评价全部灌进本地知识库,每天自动生成竞品动态报告。数据从未离开过他的 MacBook Pro,竞争对手不可能通过任何 API 日志反追踪他的分析策略。
另一个案例:一个独立律师用本地 Qwen 3.6 35B 处理客户合同。敏感案件的材料不上传云端,既符合执业规范,又能在飞机上没信号时继续工作。
本地部署对 SOLO 工作者的真正价值:
- 隐私即资产:客户数据、商业创意、未发布作品,不经过任何第三方服务器
- 成本结构翻转:云端 API 按用量线性收费,本地是一次性投入。日均调用 200 次以上,一年半回本,之后每多生成一个 token 都是免费
- 可控性:修改 system prompt、切换量化级别、微调模型行为——云端给不了这种控制权
- 离线能力:飞机、高铁、偏远地区,工作不中断
结尾:今天就开始
不要等”更好的模型”。2026 年 5 月的本地 LLM,已经足够好了。
30 分钟入门(LM Studio 版):
- 下载安装 LM Studio:https://lmstudio.ai(Mac/Windows/Linux 都支持)
- 搜索下载模型:
Qwen3.6-35B-A3B选 Q4_K_M 版本(约 20GB) - 加载模型后改三个参数:Context Length 调到 32768,Temperature 设 0.5,GPU Offload 拉到 Max
- 右下角开始对话
如果你用 VS Code 写代码,额外花 5 分钟:LM Studio 右侧开 Local Server,VS Code 装 Continue.dev 插件,endpoint 填 http://localhost:1234/v1/chat/completions。
最坏情况:浪费 30 分钟。
最好情况:每年省 ¥4,000 API 费 + 获得数据主权 + 拥有一个永不掉线的 AI 助手。
你的下一台电脑,必须是一台 AI 电脑。不是因为营销,而是因为本地 LLM 真的可用了。
附:我的测试环境
- 硬件:Apple M5 Pro / 64GB RAM
- 测试模型:Gemma 4 26B A4B IT / Qwen 3.6 35B A3B
- 测试集一(Golden Questions):14 题覆盖代码/数学/逻辑/工具/架构/审查/知识 — 结果 14/14 满分
- 测试集二(Golden Tool Tasks):8 个任务覆盖文件/Shell/搜索/条件/编辑/正则/链式调用 — 结果 8/8 通过,本地操作全部 <20ms
- 完整报告:OpenClaw Project Benchmark(2026-04-30 / 2026-05-01)
文章基于实战测试 + 公开 benchmark 数据。硬件价格随市场波动,请以实际采购为准。