模型 Prompt 差异

比较主流 LLM 的上下文窗口、提示风格、工具调用和适配建议。

GPT-4o 对结构化指令响应良好，偏好清晰的 Markdown 格式。支持 System/User/Assistant 三角色分离，System Prompt 的权重较高。对 JSON 模式有原生支持，适合需要结构化输出的场景。

OpenAI128,000 tokens

Claude 对自然语言指令理解能力强，不需要过度格式化。偏好 XML 标签来分隔不同内容区域。对长上下文的利用率高，200K 窗口内信息检索能力出色。重视安全和诚实，会主动表达不确定性。

Anthropic200,000 tokens

Gemini 拥有超长上下文窗口（1M tokens），适合处理大量文档。对多模态输入（文本+图片+视频）支持良好。Prompt 风格偏向简洁直接，对过度复杂的指令可能表现不稳定。

Google1,000,000 tokens

DeepSeek V3 在代码和数学推理方面表现突出，对中文理解能力强。支持 FIM（Fill-in-the-Middle）代码补全模式。Prompt 风格可以参考 OpenAI 格式，兼容性好。性价比极高。

DeepSeek128,000 tokens

Llama 3 作为开源模型，Prompt 格式需要遵循特定的模板（<|begin_of_text|> 等特殊标记）。对 System Prompt 的遵循度取决于微调版本。适合本地部署和定制化场景。

Meta128,000 tokens

Qwen 2.5 对中文场景优化出色，支持多种工具调用格式。兼容 OpenAI API 格式，同时有自己的 Function Calling 协议。在代码、数学和多语言任务中表现均衡。

阿里巴巴131,072 tokens