登录/注册

模型广场

76 个模型 · 9 家服务商

Claude Fable 5

Claude Fable 5 是 Anthropic 的 Mythos 级模型，专为自主知识工作和编码而构建。它支持文本、图像和文件输入以及文本输出，并具有推理支持和 1M 令牌上下文窗口。它适用于以前需要频繁人工签入的长时间运行、复杂和异步任务。它在端到端工作中尤其强大，否则这些工作需要一个人花费数小时、数天或数周的时间来解决长期运行、模棱两可或高度多步骤的问题。它执行范围广泛的任务，几乎没有错误，通过验证循环自动进行自我纠正，并配备了强大的保护措施。

上下文长度1.0M

输入价格0.0731元/1K

输出价格0.3657元/1K

Claude Opus 4.8

Claude Opus 4.8 是 Anthropic Opus 系列中功能最强大的通用型号。它支持文本、图像和文件输入以及文本输出，并具有推理支持和 1M 令牌上下文窗口。它适用于高度自主的代理、长期代理工作、知识工作和记忆驱动的任务，在这些任务中，长时间会话的一致性很重要。它在多步骤推理、复杂编码和端到端项目编排方面尤其强大——大型代码库、多阶段调试和长时间运行的异步代理管道。除了编码之外，它还处理知识工作，例如起草文档、构建演示文稿和分析数据，并在很长的输出中保持质量。

上下文长度1.0M

输入价格0.0366元/1K

输出价格0.1828元/1K

GLM 5V Turbo

GLM-5V-Turbo 是智谱首个多模态 Agent 基座模型，面向视觉编程与复杂任务场景深度优化，支持图像、视频、文本与文件等多模态输入，强化视觉理解、长程规划与动作执行能力。相比通用多模态模型，它更适合融入 Agent 工作流，完成「环境感知 → 任务规划 → 执行落地」的完整闭环，让多模态能力从“能看懂”走向“能行动”。

上下文长度131K

输入价格0.0053元/1K

输出价格0.0233元/1K

Gemini 3.5 Flash

Gemini 3.5 Flash 是 Google 的高效多模态模型，以 Flash 级别的成本和速度带来接近 Pro 级别的编码和推理。它针对编码能力和并行代理执行循环进行了高度优化，支持文本、图像、视频、音频和 PDF 输入。默认为中等思维努力，以获得更快、更具成本效益的响应，并完全支持思维级别（最小、低、中、高）以实现细粒度的成本/性能权衡。

上下文长度105K

输入价格0.011元/1K

输出价格0.0658元/1K

Gemini 3.1 Flash Lite Preview

Gemini 3.1 Flash Lite Preview 是 Google 针对大容量用例进行优化的高效模型。它在整体质量上优于 Gemini 2.5 Flash Lite，并在关键功能方面接近 Gemini 2.5 Flash 性能。改进涵盖音频输入/ASR、RAG 片段排名、翻译、数据提取和代码完成。支持完整的思维级别（最低、低、中、高）以实现细粒度的成本/性能权衡。价格仅为 Gemini 3 Flash 成本的一半。

上下文长度1.0M

输入价格0.0018元/1K

输出价格0.011元/1K

Doubao-Seed-2.0-lite

面向高频企业场景兼顾性能与成本的均衡型模型，综合能力超越上一代Doubao-Seed-1.8。胜任非结构化信息处理、内容创作、搜索推荐、数据分析等生产型工作，支持长上下文、多源信息融合、多步指令执行与高保真结构化输出。在保障稳定效果的同时显著优化成本。

上下文长度1.0M

输入价格0.0006元/1K

输出价格0.0038元/1K

Doubao-Seed-2.0-pro

旗舰级全能通用模型，面向 Agent 时代的复杂推理与长链路任务执行场景。强调多模态理解、长上下文推理、结构化生成与工具增强执行。复杂指令与多约束执行能力突出，可稳定应对多步复杂规划、复杂图文推理、视频内容理解与高难度分析等场景。

上下文长度1.0M

输入价格0.0034元/1K

输出价格0.017元/1K

GPT Image 2

GPT Image 2支持丰富的多模式工作流程，允许用户在同一交互中在推理、编码和视觉生成之间无缝移动。

上下文长度272K

输入价格0元/MP

输出价格0.8045元/MP

GPT-5.5

GPT-5.5是OpenAI专为复杂专业工作负载而设计的前沿模型，建立在GPT-5.4的基础上，具有更强的推理能力、更高的可靠性以及在困难任务上提高的代币效率。它具有 1M+ 令牌上下文窗口（922K 输入，128K 输出），支持文本和图像输入，可在单个系统内实现大规模推理、编码和多模式工作流程。

上下文长度1.1M

输入价格0.0366元/1K

输出价格0.2194元/1K

DeepSeek V4 Pro

DeepSeek V4 Pro是DeepSeek推出的大规模Mixture-of-Experts模型，总参数为1.6T，激活参数为49B，支持1M-token上下文窗口。它专为高级推理、编码和长期代理工作流程而设计，在知识、数学和软件工程基准方面具有强大的性能。它采用与 DeepSeek V4 Flash 相同的架构，引入了混合注意力系统，可实现高效的长上下文处理，并支持多种推理模式，以根据任务平衡速度和深度。它非常适合复杂的工作负载，例如完整代码库分析、多步骤自动化和大规模信息合成，其中功能和效率都至关重要。

上下文长度1.0M

输入价格0.0127元/1K

输出价格0.0254元/1K

DeepSeek V4 Flash

DeepSeek V4 Flash 是 DeepSeek 的效率优化混合专家模型，总参数为 284B，激活参数为 13B，支持 1M 代币上下文窗口。它专为快速推理和高吞吐量工作负载而设计，同时保持强大的推理和编码性能。该模型包括用于高效长上下文处理的混合注意力，并支持可配置的推理模式。它非常适合编码助理、聊天系统和代理工作流程等应用程序，这些应用程序的响应能力和成本效率非常重要。

上下文长度1.0M

输入价格0.0011元/1K

输出价格0.0021元/1K

Qwen3.6 Flash

Qwen3.6原生视觉语言Flash模型基于混合架构构建，将线性注意力机制与稀疏专家混合模型相结合，实现更高的推理效率。与 3 系列相比，这些模型在纯文本和多模式任务方面实现了性能飞跃，提供快速响应时间，同时平衡推理速度和整体性能。

上下文长度1.0M

输入价格0.0013元/1K

输出价格0.0076元/1K

Qwen3.6 Max Preview

Qwen3.6 Max Preview 建立在混合架构之上，将高效的线性注意力与稀疏的专家混合路由相结合，从而实现强大的可扩展性和高性能推理。与3.5系列相比，它在代理编码、前端开发和整体推理方面都有很大的进步，“vibe编码”体验得到显着改善。该模型擅长执行 3D 场景、游戏和存储库级问题解决等复杂任务，在 SWE-bench Verified 上获得 78.8 分。它代表了纯文本和多模式功能的重大飞跃，达到了领先的最先进模型的水平。

上下文长度1.0M

输入价格0.0095元/1K

输出价格0.0572元/1K

Qwen3.6 Plus

Qwen 3.6 Plus 建立在混合架构之上，将高效的线性注意力与稀疏的专家混合路由相结合，从而实现强大的可扩展性和高性能推理。与3.5系列相比，它在代理编码、前端开发和整体推理方面都有很大的进步，“vibe编码”体验得到显着改善。该模型擅长执行 3D 场景、游戏和存储库级问题解决等复杂任务，在 SWE-bench Verified 上获得 78.8 分。它代表了纯文本和多模式功能的重大飞跃，达到了领先的最先进模型的水平。

上下文长度1.0M

输入价格0.0021元/1K

输出价格0.0127元/1K

Claude Opus 4.7

Opus 4.7 是 Anthropic Opus 系列的下一代产品，专为长期运行的异步代理而构建。它以 Opus 4.6 的编码和代理优势为基础，在复杂的多步骤任务上提供更强大的性能，并在扩展工作流程中提供更可靠的代理执行。它对于任务随时间展开的异步代理管道特别有效 - 大型代码库、多阶段调试和端到端项目编排。除了编码之外，Opus 4.7 还改进了知识工作能力 - 从起草文档、构建演示文稿到分析数据。它在很长的输出和延长的会话中保持连贯性，使其成为需要持久性、判断力和后续行动的任务的默认选择。

上下文长度1.0M

输入价格0.0366元/1K

输出价格0.1828元/1K

GLM 5

GLM-5 是 Z.ai 的旗舰开源基础模型，专为复杂系统设计和长期代理工作流程而设计。它专为专家开发人员打造，可在大规模编程任务中提供生产级性能，可与领先的闭源模型相媲美。凭借先进的代理规划、深度后端推理和迭代自我修正，GLM-5 超越了代码生成，进入了全系统构建和自主执行。

上下文长度131K

输入价格0.0042元/1K

输出价格0.0191元/1K

GLM 5 Turbo

GLM-5 Turbo 是 Z.ai 的新模型，专为在 OpenClaw 场景等代理驱动环境中实现快速推理和强大性能而设计。它针对涉及长执行链的现实世界代理工作流程进行了深度优化，改进了复杂指令分解、工具使用、计划和持久执行以及扩展任务的整体稳定性。

上下文长度131K

输入价格0.0053元/1K

输出价格0.0233元/1K

GLM-5.1

GLM-5.1 在编码能力方面实现了重大飞跃，在处理长期任务方面尤其显着。与之前围绕分钟级交互构建的模型不同，GLM-5.1可以独立连续地处理单个任务超过8小时，在整个过程中自主规划、执行和改进自身，最终交付完整的工程级结果。

上下文长度131K

输入价格0.0064元/1K

输出价格0.0254元/1K

GPT-5.4 Nano

GPT-5.4 nano 是 GPT-5.4 系列中最轻量且最具成本效益的变体，针对速度关键和大批量任务进行了优化。它支持文本和图像输入，专为低延迟用例而设计，例如分类、数据提取、排名和子代理执行。该模型优先考虑响应能力和效率而不是深度推理，使其成为需要大规模快速、可靠输出的管道的理想选择。 GPT-5.4 nano 非常适合后台任务、实时系统和分布式代理架构，在这些架构中，最大限度地降低成本和延迟至关重要。

上下文长度400K

输入价格0.0015元/1K

输出价格0.0091元/1K

Grok 4.1 Fast

Grok 4.1 Fast 是 xAI 最好的代理工具调用模型，在客户支持和深入研究等实际用例中表现出色。 2M上下文窗口。

上下文长度2.0M

输入价格0.0015元/1K

输出价格0.0037元/1K

Grok 4.20

Grok 4.20 是 xAI 最新的旗舰型号，具有业界领先的速度和代理工具调用能力。它将市场上最低的幻觉率与严格的及时遵守结合起来，提供始终如一的精确和真实的反应。

上下文长度2.0M

输入价格0.0146元/1K

输出价格0.0439元/1K

GPT-5.4 Mini

GPT-5.4 mini 将 GPT-5.4 的核心功能引入更快、更高效的模型，并针对高吞吐量工作负载进行了优化。它支持文本和图像输入，在推理、编码和工具使用方面具有强大的性能，同时减少大规模部署的延迟和成本。该模型专为需要功能和效率平衡的生产环境而设计，非常适合大规模运行的聊天应用程序、编码助手和代理工作流程。 GPT-5.4 mini 可提供可靠的指令跟踪、可靠的多步骤推理以及跨不同任务的一致性能，并提高成本效率。

上下文长度4K

输入价格0.0055元/1K

输出价格0.0329元/1K

Nano Banana Pro

Nano Banana Pro 是 Google 最先进的图像生成和编辑模型，基于 Gemini 3 Pro 构建。它扩展了原始 Nano Banana，显着改进了多模式推理、现实世界基础和高保真视觉合成。该模型生成上下文丰富的图形，从信息图表和图表到电影复合材料，并且可以通过搜索基础合并实时信息。它提供业界领先的图像文本渲染（包括长段落和多语言布局）、一致的多图像混合以及最多五个主题的准确身份保留。 Nano Banana Pro 添加了细粒度的创意控制，例如本地化编辑、照明和焦点调整、相机转换以及对 2K/4K 输出和灵活宽高比的支持。它专为专业级设计、产品可视化、故事板和复杂的多元素合成而设计，同时保持一般图像创建工作流程的效率。

上下文长度66K

输入价格0.0146元/1K

输出价格0.8777元/1K

DeepSeek-V3.2

DeepSeek-V3.2 是一种大型语言模型，旨在协调高计算效率与强大的推理和代理工具使用性能。它引入了 DeepSeek 稀疏注意力 (DSA)，这是一种细粒度稀疏注意力机制，可以减少训练和推理成本，同时保持长上下文场景中的质量。可扩展的强化学习训练后框架进一步提高了推理能力，在 GPT-5 类别中报告了性能，并且该模型在 2025 年 IMO 和 IOI 上展示了金牌结果。 V3.2 还使用大规模代理任务合成管道，以更好地将推理集成到工具使用设置中，从而提高交互式环境中的合规性和泛化性。

上下文长度164K

输入价格0.0023元/1K

输出价格0.007元/1K

Qwen3.5-flash

Qwen3.5原生视觉语言Flash模型基于混合架构构建，将线性注意力机制与稀疏专家混合模型相结合，实现更高的推理效率。与 3 系列相比，这些模型在纯文本和多模式任务方面实现了性能飞跃，提供快速响应时间，同时平衡推理速度和整体性能。

上下文长度1.0M

输入价格0.0002元/1K

输出价格0.0021元/1K

Qwen3.5-plus

Qwen3.5原生视觉语言系列Plus模型基于混合架构构建，将线性注意力机制与稀疏混合专家模型相结合，实现更高的推理效率。在各种任务评估中，3.5 系列始终表现出与最先进的领先型号相当的性能。与 3 系列相比，这些模型在纯文本和多模式功能方面都显示出飞跃。

上下文长度1.0M

输入价格0.0008元/1K

输出价格0.0021元/1K

GPT 5.4

GPT-5.4 是 OpenAI 的最新前沿模型，将 Codex 和 GPT 系列统一到一个系统中。它具有 1M+ 令牌上下文窗口（922K 输入，128K 输出），支持文本和图像输入，可在同一工作流程中实现高上下文推理、编码和多模式分析。该模型在编码、文档理解、工具使用和指令遵循方面提供了改进的性能。它被设计为通用任务和软件工程的强大默认功能，能够生成生产质量的代码、跨多个来源综合信息，并以更少的迭代和更高的令牌效率执行复杂的多步骤工作流程。

上下文长度1.1M

输入价格0.0183元/1K

输出价格0.1097元/1K

Nano Banana 2

Gemini 3.1 Flash 图像预览，又名“Nano Banana 2”，是 Google 最新的最先进的图像生成和编辑模型，以 Flash 速度提供专业级的视觉质量。它将先进的上下文理解与快速、经济高效的推理相结合，使复杂的图像生成和迭代编辑变得更加容易。

上下文长度66K

输入价格0.0037元/1K

输出价格0.4388元/1K

Gemini 3 Flash Preview

Gemini 3 Flash Preview 是一种高速、高价值的思维模型，专为代理工作流程、多轮聊天和编码辅助而设计。它提供接近专业级的推理和工具使用性能，并且延迟比较大的 Gemini 变体低得多，使其非常适合交互式开发、长时间运行的代理循环和协作编码任务。与 Gemini 2.5 Flash 相比，它在推理、多模式理解和可靠性方面提供了广泛的质量改进。

上下文长度1.0M

输入价格0.0037元/1K

输出价格0.0219元/1K

Gemini 3.1 Pro Preview

Gemini 3.1 Pro Preview 是 Google 的前沿推理模型，可提供增强的软件工程性能、改进的代理可靠性以及在复杂工作流程中更有效的令牌使用。它建立在 Gemini 3 系列的多模态基础上，将文本、图像、视频、音频和代码的高精度推理与 1M 令牌上下文窗口相结合。

上下文长度1.1M

输入价格0.0146元/1K

输出价格0.0878元/1K

Claude Sonnet 4.6

Sonnet 4.6 是 Anthropic 迄今为止最强大的 Sonnet 级模型，在编码、代理和专业工作方面具有前沿性能。它擅长迭代开发、复杂的代码库导航、带内存的端到端项目管理、精美的文档创建以及自信地使用计算机进行 Web QA 和工作流程自动化。

上下文长度1.0M

输入价格0.0219元/1K

输出价格0.1097元/1K

Claude Opus 4.6

Opus 4.6 是 Anthropic 最强大的编码和长期运行专业任务模型。它是为跨整个工作流程而不是单个提示操作的代理而构建的，这使得它对于大型代码库、复杂的重构和随着时间的推移而展开的多步骤调试特别有效。与前几代模型相比，该模型显示出更深入的背景理解、更强的问题分解以及在艰巨的工程任务上更高的可靠性。除了编码之外，Opus 4.6 还擅长持续的知识工作。它一次性生成接近生产就绪的文档、计划和分析，并在很长的输出和扩展会话中保持一致性。这使得它成为需要持久性、判断力和后续行动的任务的强大默认值，例如技术设计、迁移规划和端到端项目执行。

上下文长度1.0M

输入价格0.0366元/1K

输出价格0.1828元/1K

Nano Banana

Gemini 2.5 Flash Image，又名“Nano Banana”，现已全面上市。它是一种具有上下文理解的最先进的图像生成模型。它能够进行图像生成、编辑和多轮对话。

上下文长度N/A

输入价格0.0022元/1K

输出价格0.2194元/1K

FLUX.2 Flex

FLUX.2 [flex] 擅长渲染复杂的文本、版式和精细细节，并支持在同一统一架构中进行多引用编辑。

上下文长度N/A

输入价格0元/MP

输出价格0.4388元/MP

FLUX.2 Max

FLUX.2 [max] 是 Black Forest Labs 推出的全新顶级图像模型，将图像质量、快速理解和编辑一致性提升到了迄今为止的最高水平。

上下文长度N/A

输入价格0元/MP

输出价格0.512元/MP

FLUX.2 Pro

专注于前沿视觉质量和可靠性的高端图像生成和编辑模型。它可在多参考输入中提供强大的即时附着力、稳定的照明、清晰的纹理以及一致的字符/风格再现。它专为生产工作负载而设计，可平衡速度和质量，同时支持高达 4 MP 分辨率的文本转图像和图像编辑。

上下文长度N/A

输入价格0元/MP

输出价格0.2194元/MP

Doubao-Seed-1.6

Doubao-Seed-1.6全新多模态深度思考模型，同时支持minimal/low/medium/high 四种reasoning effort。更强模型效果，服务复杂任务和有挑战场景。支持 256k 上下文窗口，输出长度支持最大 32k tokens。

上下文长度256K

输入价格0.0008元/1K

输出价格0.0085元/1K

qwen-long

通义千问系列上下文窗口最长，能力均衡且成本较低的模型，适合长文本分析、信息抽取、总结摘要和分类打标等任务。

上下文长度10.0M

输入价格0.0005元/1K

输出价格0.0021元/1K

GPT 5.2

GPT-5.2是GPT-5系列中最新的前沿级模型，与GPT-5.1相比，提供更强的代理和长上下文性能。它使用自适应推理来动态分配计算，快速响应简单的查询，同时更深入地处理复杂的任务。 GPT-5.2 专为广泛的任务覆盖而构建，可在数学、编码、科学和工具调用工作负载方面提供一致的收益，并提供更连贯的长格式答案并提高工具使用的可靠性。

上下文长度400K

输入价格0.0128元/1K

输出价格0.1024元/1K

Claude Opus 4.5 20251101

Claude Opus 4.5 是 Anthropic 的前沿推理模型，针对复杂的软件工程、代理工作流程和长期计算机使用进行了优化。它提供了强大的多模式功能、跨现实世界编码和推理基准的竞争性能，以及改进的提示注入稳健性。该模型旨在在不同的工作水平上高效运行，使开发人员能够根据任务要求权衡速度、深度和令牌使用情况。它配备了一个新参数来控制令牌效率，可以使用 OpenRouter Verbosity 参数（低、中或高）来访问该参数。 Opus 4.5 支持高级工具使用、扩展上下文管理和协调的多代理设置，使其非常适合自主研究、调试、多步骤规划和电子表格/浏览器操作。与前几代 Opus 相比，它在结构化推理、执行可靠性和一致性方面取得了显着的进步，同时减少了令牌开销并提高了长时间运行任务的性能。

上下文长度200K

输入价格0.0366元/1K

输出价格0.1828元/1K

GPT 5.1

GPT-5.1是GPT-5系列中最新的前沿级模型，与GPT-5相比，提供更强的通用推理、更高的指令依从性以及更自然的对话风格。它使用自适应推理来动态分配计算，快速响应简单的查询，同时更深入地处理复杂的任务。该模型提供了更清晰、更基础的解释，并减少了行话，使得即使在技术或多步骤问题上也更容易理解。 GPT-5.1 专为广泛的任务覆盖而构建，可在数学、编码和结构化分析工作负载中提供一致的收益，并提供更连贯的长格式答案和改进的工具使用可靠性。它还具有精致的对话对齐功能，可在不影响准确性的情况下实现更温暖、更直观的响应。 GPT-5.1 是 GPT-5 的主要全功能继承者

上下文长度400K

输入价格0.0091元/1K

输出价格0.0731元/1K

claude-sonnet-4-5-20250929

Claude Sonnet 4.5 是 Anthropic 迄今为止最先进的 Sonnet 模型，针对现实世界的代理和编码工作流程进行了优化。它在 SWE-bench Verified 等编码基准上提供了最先进的性能，并在系统设计、代码安全性和规范遵守方面进行了改进。该模型专为扩展自主操作而设计，保持跨会话的任务连续性并提供基于事实的进度跟踪。

上下文长度200K

输入价格0.0219元/1K

输出价格0.1097元/1K

claude-haiku-4-5-20251001

Claude Haiku 4.5 是 Anthropic 最快、最高效的模型，以较大 Claude 模型的一小部分成本和延迟提供近前沿的智能。 Haiku 4.5 与 Claude Sonnet 4 在推理、编码和计算机使用任务方面的性能相匹配，为实时和大容量应用程序带来了前沿水平的功能。

上下文长度200K

输入价格0.0073元/1K

输出价格0.0366元/1K

Claude Opus 4.5

Claude Opus 4.5 是 Anthropic 的前沿推理模型，针对复杂的软件工程、代理工作流程和长期计算机使用进行了优化。它提供了强大的多模式功能、跨现实世界编码和推理基准的竞争性能，以及改进的提示注入稳健性。该模型旨在在不同的工作水平上高效运行，使开发人员能够根据任务要求权衡速度、深度和令牌使用情况。它配备了一个新参数来控制令牌效率，可以使用 OpenRouter Verbosity 参数（低、中或高）来访问该参数。 Opus 4.5 支持高级工具使用、扩展上下文管理和协调的多代理设置，使其非常适合自主研究、调试、多步骤规划和电子表格/浏览器操作。与前几代 Opus 相比，它在结构化推理、执行可靠性和一致性方面取得了显着的进步，同时减少了令牌开销并提高了长时间运行任务的性能。

上下文长度200K

输入价格0.0366元/1K

输出价格0.1828元/1K

gpt-4o

OpenAI ChatGPT 4o 由 OpenAI 不断更新，以指向 ChatGPT 使用的当前版本的 GPT-4o。因此，它与 GPT-4o 的 API 版本略有不同，因为它具有额外的 RLHF。它旨在用于研究和评估。 OpenAI 指出，该模型不适合生产用例，因为它将来可能会被删除或重定向到另一个模型。

上下文长度128K

输入价格0.0183元/1K

输出价格0.0731元/1K

gpt-4o-mini

GPT-4o mini是OpenAI继GPT-4 Omni之后的最新型号，支持文本和图像输入以及文本输出。作为他们最先进的小型型号，它比其他近期前沿型号便宜很多倍，比 GPT-3.5 Turbo 便宜 60% 以上。它保持了 SOTA 智能，同时显着提高了成本效益。

上下文长度128K

输入价格0.0011元/1K

输出价格0.0044元/1K

Doubao-Seed-1.6-flash

Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型，TPOT低至10ms；同时支持文本和视觉理解，文本理解能力超过上一代lite，视觉理解比肩友商pro系列模型。支持 256k 上下文窗口，输出长度支持最大 16k tokens。

上下文长度256K

输入价格0.0002元/1K

输出价格0.0016元/1K

Doubao-1.5-thinking-pro

Doubao-Seed-1.6全新多模态深度思考模型，同时支持minimal/low/medium/high 四种reasoning effort。更强模型效果，服务复杂任务和有挑战场景。支持 256k 上下文窗口，输出长度支持最大 32k tokens。

上下文长度256K

输入价格0.0042元/1K

输出价格0.017元/1K

DeepSeek-V3

DeepSeek V3 是一个 685B 参数的专家混合模型，是 DeepSeek 团队旗舰聊天模型系列的最新版本。

上下文长度164K

输入价格0.0023元/1K

输出价格0.0093元/1K

DeepSeek: R1

5 月 28 日更新到原始 DeepSeek R1 性能与 OpenAI o1 相当，但开源并具有完全开放的推理令牌。它的大小为 671B 参数，其中推理过程中有 37B 处于活动状态。

上下文长度164K

输入价格0.0047元/1K

输出价格0.014元/1K

Claude Sonnet 4

Claude Sonnet 4 显着增强了其前身 Sonnet 3.7 的功能，在编码和推理任务方面表现出色，并提高了精度和可控性。 Sonnet 4 在 SWE-bench 上实现了最先进的性能 (72.7%)，平衡了功能和计算效率，使其适用于从常规编码任务到复杂软件开发项目的广泛应用。主要增强功能包括改进的自主代码库导航、降低代理驱动工作流程中的错误率以及提高遵循复杂指令的可靠性。 Sonnet 4 针对日常实际使用进行了优化，提供先进的推理功能，同时在各种内部和外部场景中保持效率和响应能力。

上下文长度1.0M

输入价格0.0219元/1K

输出价格0.1097元/1K

Claude 3.7 Sonnet

Claude 3.7 Sonnet 是一种先进的大型语言模型，具有改进的推理、编码和解决问题的能力。它引入了一种混合推理方法，允许用户在快速响应和扩展的逐步处理复杂任务之间进行选择。该模型展示了编码方面的显着改进，特别是在前端开发和全栈更新方面，并且在代理工作流程中表现出色，可以自主导航多步骤流程。 Claude 3.7 Sonnet 在标准模式下保持了与其前身相同的性能，同时提供扩展推理模式，以提高数学、编码和指令跟踪任务的准确性。

上下文长度200K

输入价格0.0219元/1K

输出价格0.1097元/1K

Claude 3.5 Sonnet

新的 Claude 3.5 Sonnet 以相同的 Sonnet 价格提供比 Opus 更好的功能、比 Sonnet 更快的速度。 Sonnet 特别擅长：编码：在 SWE-Bench Verified 上得分约为 49%，高于最后一个最佳得分，并且没有任何花哨的提示脚手架数据科学：增强人类数据科学专业知识；导航非结构化数据，同时使用多种工具获取洞察视觉处理：擅长解释图表、图形和图像，准确转录文本以获取超越文本的见解代理任务：出色的工具使用，使其非常适合代理任务（即需要与其他系统交互的复杂、多步骤的问题解决任务）

上下文长度200K

输入价格0.0219元/1K

输出价格0.1097元/1K

o4-mini

OpenAI o4-mini 是 o 系列中的紧凑推理模型，针对快速、经济高效的性能进行了优化，同时保留了强大的多模式和代理功能。它支持工具使用，并在 AIME（Python 为 99.5%）和 SWE-bench 等基准测试中展示了具有竞争力的推理和编码性能，优于其前身 o3-mini，甚至在某些领域接近 o3。尽管尺寸较小，o4-mini 在 STEM 任务、视觉问题解决（例如 MathVista、MMMU）和代码编辑方面表现出高精度。它特别适合延迟或成本至关重要的高吞吐量场景。得益于其高效的架构和完善的强化学习训练，o4-mini 可以链接工具、生成结构化输出并以最小的延迟（通常在一分钟内）解决多步骤任务。

上下文长度200K

输入价格0.008元/1K

输出价格0.0322元/1K

qwen3-vl-plus

Qwen3系列视觉理解模型，实现思考模式和非思考模式的有效融合，视觉智能体能力在OS World等公开测试集上达到世界顶尖水平。此版本在视觉coding、空间感知、多模态思考等方向全面升级；视觉感知与识别能力大幅提升，支持超长视频理解。

上下文长度262K

输入价格0.0011元/1K

输出价格0.0106元/1K

GLM-4.5

GLM-4.5 是我们最新的旗舰基础模型，专为基于代理的应用程序而构建。它利用专家混合 (MoE) 架构并支持高达 128k 令牌的上下文长度。 GLM-4.5 在推理、代码生成和代理对齐方面提供了显着增强的功能。它支持具有两种选项的混合推理模式，一种是专为复杂推理和工具使用而设计的“思维模式”，另一种是针对即时响应而优化的“非思维模式”。用户可以使用推理启用布尔值来控制推理行为

上下文长度131K

输入价格0.0021元/1K

输出价格0.0085元/1K

GLM-4.6

GLM-4.6 是智谱最新的旗舰模型，其总参数量 355B，激活参数 32B，上下文提升至 200K，8 大权威基准全面提升。在编程、推理、搜索、写作、智能体应用等核心能力均完成对 GLM-4.5 的超越。

上下文长度200K

输入价格0.0021元/1K

输出价格0.0064元/1K

ERNIE 5.0

文心新一代模型文心5.0是原生全模态大模型，采用原生的全模态统一建模技术，将文本、图像、音频、视频联合建模，具备综合的全模态能力。文心5.0基础能力全面升级，基准测试集表现出色，多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等表现尤其出色。

上下文长度128K

输入价格0.0064元/1K

输出价格0.0254元/1K

ERNIE 4.5 Turbo

核心定位：更好的满足多轮长历史对话处理、长文档理解问答任务。适用场景： 1)复杂语义理解：支持中文知识问答、文学创作，尤其擅长文档理解（如DocVQA任务）。 2)数学推理：在中文数学问题（CMath基准）表现突出。

上下文长度128K

输入价格0.0085元/1K

输出价格0.0339元/1K

GLM-4.5V

GLM-4.5VGLM-4.5V 系列是基于 MOE 架构的旗舰视觉理解模型。拥有 106B 总参数量和 12B 激活参数，全面升级自 GLM-4.1V-Thinking，达到开源多模态模型 SOTA 水平。结合创新 RLCS 强化学习技术，在视频理解、图片问答、OCR、文档解析等任务表现优异，并在前端网页 Coding、Grounding、空间推理等复杂场景实现显著提升。支持 thinking / 非 thinking 模式灵活切换，兼顾推理深度与效率。

上下文长度128K

输入价格0.0021元/1K

输出价格0.0064元/1K

Doubao-lite-32k

Doubao-Seed-1.6-lite 全新多模态深度思考模型，支持思考程度可调节(reasoning effort)，即Minimal、Low、Medium、High 四种模式，更强性价比，常见任务的最佳选择，上下文窗口至256k。

上下文长度4K

输入价格0.0003元/1K

输出价格0.0006元/1K

Doubao-pro-32k

Doubao-1.5-vision-pro 全新升级的多模态大模型，视觉理解、分类、信息抽取、解题、视频理解等能力显著提升。在多个公开评测集准上，令领先GPT-40、Claude 3.7 Sonnet、Gemini-2.0-pro等业界一流模型。支持128k上下文窗口，输出长度支持最大 16k tokens。

上下文长度4K

输入价格0.0008元/1K

输出价格0.0021元/1K

qwen-plus

Qwen3系列Flash模型，实现思考模式和非思考模式的有效融合，可在对话中切换模式。复杂推理类任务性能优秀，指令遵循、文本理解等能力显著提高。支持1M上下文长度，按照上下文长度进行阶梯计费。

上下文长度1.0M

输入价格0.0008元/1K

输出价格0.0021元/1K

qwen-flash

Qwen3系列Flash模型，实现思考模式和非思考模式的有效融合，可在对话中切换模式。复杂推理类任务性能优秀，指令遵循、文本理解等能力显著提高。支持1M上下文长度，按照上下文长度进行阶梯计费。

上下文长度4K

输入价格0.0002元/1K

输出价格0.0016元/1K

qwen3-max

Qwen3-Max是基于Qwen3系列构建的更新版本，与2025年1月版本相比，在推理、指令跟随、多语言支持和长尾知识覆盖方面有了重大改进。它在数学、编码、逻辑和科学任务中提供更高的准确性，更可靠地遵循复杂的中文和英文指令，减少幻觉，并为开放式问答、写作和对话提供更高质量的响应。该模型支持 100 多种语言，具有更强的翻译和常识推理能力，并针对检索增强生成（RAG）和工具调用进行了优化，尽管它不包含专门的“思考”模式。

上下文长度262K

输入价格0.0027元/1K

输出价格0.0106元/1K

Gemini 2.5 Flash

Gemini 2.5 Flash 是 Google 最先进的主力模型，专为高级推理、编码、数学和科学任务而设计。它包括内置的“思考”功能，使其能够提供更准确的响应和细致入微的上下文处理。此外，Gemini 2.5 Flash 可通过“推理的最大令牌”参数进行配置，如文档中所述

上下文长度1.0M

输入价格0.0022元/1K

输出价格0.0183元/1K

Gemini 2.5 Pro

Gemini 2.5 Pro 是 Google 最先进的 AI 模型，专为高级推理、编码、数学和科学任务而设计。它采用“思考”功能，使其能够通过提高准确性和细致入微的上下文处理的响应进行推理。 Gemini 2.5 Pro 在多项基准测试中实现了顶级性能，包括在 LMArena 排行榜上排名第一，体现了卓越的人类偏好一致性和解决复杂问题的能力。

上下文长度1.0M

输入价格0.0091元/1K

输出价格0.0731元/1K

GPT-5 Nano

GPT-5-Nano 是 GPT-5 系统中最小、最快的变体，针对开发人员工具、快速交互和超低延迟环境进行了优化。虽然与较大的同类产品相比推理深度有限，但它保留了关键的指令遵循和安全功能。它是 GPT-4.1-nano 的后继者，为成本敏感或实时应用程序提供了轻量级选项。

上下文长度400K

输入价格0.0015元/1K

输出价格0.0091元/1K

GPT-5 Mini

GPT-5 Mini 是 GPT-5 的紧凑版本，旨在处理更轻量级的推理任务。它提供与 GPT-5 相同的指令跟踪和安全调整优势，但延迟和成本更低。 GPT-5 Mini 是 OpenAI o4-mini 模型的后继者。

上下文长度400K

输入价格0.0018元/1K

输出价格0.0146元/1K

GPT-5

GPT-5 是 OpenAI 最先进的模型，在推理、代码质量和用户体验方面提供了重大改进。它针对需要逐步推理、遵循指令以及高风险用例中的准确性的复杂任务进行了优化。它支持测试时路由功能和高级提示理解，包括用户指定的意图，例如“认真考虑一下”。改进包括减少幻觉、阿谀奉承，以及在编码、写作和健康相关任务中表现更好。

上下文长度400K

输入价格0.0091元/1K

输出价格0.0731元/1K

GPT-4.1 Mini

GPT-4.1 Mini 是一款中型型号，其性能可与 GPT-4o 相媲美，但延迟和成本却显着降低。它保留了 100 万个令牌上下文窗口，在硬指令评估上得分为 45.1%，在 MultiChallenge 上得分为 35.8%，在 IFEval 上得分为 84.1%。 Mini 还表现出强大的编码能力（例如，在 Aider 的多语言 diff 基准上为 31.6%）和视觉理解能力，使其适合具有严格性能限制的交互式应用程序。

上下文长度1.0M

输入价格0.0029元/1K

输出价格0.0117元/1K

GPT-4.1

GPT-4.1 是一款旗舰级大型语言模型，针对高级指令遵循、现实世界软件工程和长上下文推理进行了优化。它支持 100 万个令牌上下文窗口，并且在编码（54.6% SWE-bench 验证）、指令合规性（87.4% IFEval）和多模式理解基准方面优于 GPT-4o 和 GPT-4.5。它针对精确的代码差异、代理可靠性和大型文档上下文中的高召回率进行了调整，使其成为代理、IDE 工具和企业知识检索的理想选择。

上下文长度1.0M

输入价格0.0146元/1K

输出价格0.0585元/1K

DeepSeek V3.1

DeepSeek-V3.1是一个大型混合推理模型（671B参数，37B活跃），通过提示模板支持思考和非思考模式。它通过两阶段长上下文训练过程扩展了 DeepSeek-V3 基础，最多可容纳 128K 个标记，并使用 FP8 微缩放来实现高效推理。用户可以使用推理启用布尔值来控制推理行为。在我们的文档中了解更多信息该模型改进了工具使用、代码生成和推理效率，在困难的基准测试上实现了与 DeepSeek-R1 相当的性能，同时响应速度更快。它支持结构化工具调用、代码代理和搜索代理，使其适用于研究、编码和代理工作流程。它继承了 DeepSeek V3-0324 模型，在各种任务上表现良好。

上下文长度164K

输入价格0.0017元/1K

输出价格0.0067元/1K

Claude Opus 4.1

Claude Opus 4.1 是 Anthropic 旗舰模型的更新版本，在编码、推理和代理任务方面提供了改进的性能。它在 SWE-bench Verified 上达到了 74.5%，并在多文件代码重构、调试精度和面向细节的推理方面显示出显着的进步。该模型支持高达 64K token 的扩展思维，并针对涉及研究、数据分析和工具辅助推理的任务进行了优化。

上下文长度200K

输入价格0.1097元/1K

输出价格0.5485元/1K

Claude Haiku 4.5

Claude Haiku 4.5 是 Anthropic 最快、最高效的模型，以较大 Claude 模型的一小部分成本和延迟提供近前沿的智能。 Haiku 4.5 与 Claude Sonnet 4 在推理、编码和计算机使用任务方面的性能相匹配，为实时和大容量应用程序带来了前沿水平的功能。它引入了俳句的扩展思维；实现可控的推理深度、总结或交错的思维输出以及工具辅助工作流程，并全面支持编码、bash、网络搜索和计算机使用工具。 Haiku 4.5 在 SWE-bench Verified 上得分超过 73%，跻身世界最佳编码模型之列，同时保持子代理的卓越响应能力、并行执行和规模化部署。

上下文长度200K

输入价格0.0073元/1K

输出价格0.0366元/1K

Claude Sonnet 4.5

Claude Sonnet 4.5 是 Anthropic 迄今为止最先进的 Sonnet 模型，针对现实世界的代理和编码工作流程进行了优化。它在 SWE-bench Verified 等编码基准上提供了最先进的性能，并在系统设计、代码安全性和规范遵守方面进行了改进。该模型专为扩展自主操作而设计，保持跨会话的任务连续性并提供基于事实的进度跟踪。

上下文长度200K

输入价格0.0219元/1K

输出价格0.1097元/1K