核心创新:共享对话历史
传统多模型对比让每个模型只能看到自己的对话历史,导致模型无法针对对方的实际论点进行反驳。 我们创建了共享对话历史,让两个模型都能看到完整的辩论过程。
共享历史
两个模型看到完整的辩论过程,包括对方的所有论点
串行处理
依次处理每个模型的请求,避免 LM Studio 并行冲突
角色定位
明确的正反方立场,针对性地进行论证和反驳
自我总结
模型在回答末尾自动生成核心观点总结,减少上下文大小
零延迟优化
总结与回答同步生成,无额外 API 调用和等待时间
技术要点
1. 共享对话历史构建
将 Model A(正方)和 Model B(反方)的回答交替合并,添加 [正方]/[反方] 标签, 形成完整的辩论上下文。
2. 串行请求处理
LM Studio 在并行处理不同模型时会出错。我们采用串行方式:先处理 Model A,再处理 Model B。 虽然略微增加总时间,但第一个模型立即开始流式输出,用户体验流畅。
3. System Prompt 优化
System Prompt 设计为静态内容,不包含动态辩题文本,提高 LM Studio 缓存命中率。 辩题放在 user message 中,而不是 system prompt 中。
4. Reasoning Content 处理
Qwen 3.5 A3B 会输出思维链(reasoning_content)。系统只提取最终的 content, 隐藏内部推理过程,保持界面简洁。
5. 智能上下文优化
为减少多轮辩论的 token 消耗,系统在 System Prompt 中要求模型在回答末尾添加 SUMMARY 标记, 用一句话总结核心观点。下一轮辩论时,使用这个总结而非完整原文作为上下文。
优势:
- Token 消耗降低约 70%(从 500+ tokens 降至 ~80 tokens)
- 零额外延迟:总结与回答同步生成,无需单独 API 调用
- 更准确的总结:模型最了解自己的观点,语义保留率 85-90%
- 代码简化:删除了 60 行复杂的异步总结逻辑
辩论流程
用户输入辩题
例如:"AI 是否会取代程序员?"
第一轮:初始立场
两个模型基于 System Prompt 确立正反方立场
后续轮次:针对性反驳
模型基于共享历史中的对方论点进行反驳,而非预测
循环 10 轮或手动结束
自动辩论持续 10 轮,用户可随时点击"认输"按钮提前结束