Claude Sonnet 4.5
Claude Sonnet 4.5 是 Anthropic 迄今为止最先进的 Sonnet 模型,针对现实世界的代理和编码工作流程进行了优化。它在 SWE-bench Verified 等编码基准上提供了最先进的性能,并在系统设计、代码安全性和规范遵守方面进行了改进。该模型专为扩展自主操作而设计,保持跨会话的任务连续性并提供基于事实的进度跟踪。
Claude Opus 4.5
Claude Opus 4.5 是 Anthropic 的前沿推理模型,针对复杂的软件工程、代理工作流程和长期计算机使用进行了优化。它提供了强大的多模式功能、跨现实世界编码和推理基准的竞争性能,以及改进的提示注入稳健性。该模型旨在在不同的工作水平上高效运行,使开发人员能够根据任务要求权衡速度、深度和令牌使用情况。它配备了一个新参数来控制令牌效率,可以使用 OpenRouter Verbosity 参数(低、中或高)来访问该参数。 Opus 4.5 支持高级工具使用、扩展上下文管理和协调的多代理设置,使其非常适合自主研究、调试、多步骤规划和电子表格/浏览器操作。与前几代 Opus 相比,它在结构化推理、执行可靠性和一致性方面取得了显着的进步,同时减少了令牌开销并提高了长时间运行任务的性能。
Gemini 2.5 Pro
Gemini 2.5 Pro 是 Google 最先进的 AI 模型,专为高级推理、编码、数学和科学任务而设计。它采用“思考”功能,使其能够通过提高准确性和细致入微的上下文处理的响应进行推理。 Gemini 2.5 Pro 在多项基准测试中实现了顶级性能,包括在 LMArena 排行榜上排名第一,体现了卓越的人类偏好一致性和解决复杂问题的能力。
GPT-5
GPT-5 是 OpenAI 最先进的模型,在推理、代码质量和用户体验方面提供了重大改进。它针对需要逐步推理、遵循指令以及高风险用例中的准确性的复杂任务进行了优化。它支持测试时路由功能和高级提示理解,包括用户指定的意图,例如“认真考虑一下”。改进包括减少幻觉、阿谀奉承,以及在编码、写作和健康相关任务中表现更好。
Nano Banana
Gemini 2.5 Flash Image,又名“Nano Banana”,现已全面上市。它是一种具有上下文理解的最先进的图像生成模型。它能够进行图像生成、编辑和多轮对话。
FLUX.2 Flex
FLUX.2 [flex] 擅长渲染复杂的文本、版式和精细细节,并支持在同一统一架构中进行多引用编辑。
FLUX.2 Max
FLUX.2 [max] 是 Black Forest Labs 推出的全新顶级图像模型,将图像质量、快速理解和编辑一致性提升到了迄今为止的最高水平。
FLUX.2 Pro
专注于前沿视觉质量和可靠性的高端图像生成和编辑模型。它可在多参考输入中提供强大的即时附着力、稳定的照明、清晰的纹理以及一致的字符/风格再现。它专为生产工作负载而设计,可平衡速度和质量,同时支持高达 4 MP 分辨率的文本转图像和图像编辑。
Doubao-Seed-1.6
Doubao-Seed-1.6全新多模态深度思考模型,同时支持minimal/low/medium/high 四种reasoning effort。 更强模型效果,服务复杂任务和有挑战场景。支持 256k 上下文窗口,输出长度支持最大 32k tokens。
qwen-long
通义千问系列上下文窗口最长,能力均衡且成本较低的模型,适合长文本分析、信息抽取、总结摘要和分类打标等任务。
GPT-5.2 Chat
GPT-5.2 Chat(又名 Instant)是 5.2 系列中快速、轻量级的成员,针对低延迟聊天进行了优化,同时保留了强大的通用智能。它使用自适应推理来选择性地“思考”更困难的查询,提高数学、编码和多步骤任务的准确性,而不会减慢典型对话的速度。默认情况下,该模型更加温暖、更具对话性,具有更好的指令遵循性和更稳定的简短推理。 GPT-5.2 聊天专为高吞吐量、交互式工作负载而设计,其中响应能力和一致性比深入思考更重要。
GPT 5.2
GPT-5.2是GPT-5系列中最新的前沿级模型,与GPT-5.1相比,提供更强的代理和长上下文性能。它使用自适应推理来动态分配计算,快速响应简单的查询,同时更深入地处理复杂的任务。 GPT-5.2 专为广泛的任务覆盖而构建,可在数学、编码、科学和工具调用工作负载方面提供一致的收益,并提供更连贯的长格式答案并提高工具使用的可靠性。
Claude Opus 4.5 20251101
Claude Opus 4.5 是 Anthropic 的前沿推理模型,针对复杂的软件工程、代理工作流程和长期计算机使用进行了优化。它提供了强大的多模式功能、跨现实世界编码和推理基准的竞争性能,以及改进的提示注入稳健性。该模型旨在在不同的工作水平上高效运行,使开发人员能够根据任务要求权衡速度、深度和令牌使用情况。它配备了一个新参数来控制令牌效率,可以使用 OpenRouter Verbosity 参数(低、中或高)来访问该参数。 Opus 4.5 支持高级工具使用、扩展上下文管理和协调的多代理设置,使其非常适合自主研究、调试、多步骤规划和电子表格/浏览器操作。与前几代 Opus 相比,它在结构化推理、执行可靠性和一致性方面取得了显着的进步,同时减少了令牌开销并提高了长时间运行任务的性能。
GPT 5.1
GPT-5.1是GPT-5系列中最新的前沿级模型,与GPT-5相比,提供更强的通用推理、更高的指令依从性以及更自然的对话风格。它使用自适应推理来动态分配计算,快速响应简单的查询,同时更深入地处理复杂的任务。该模型提供了更清晰、更基础的解释,并减少了行话,使得即使在技术或多步骤问题上也更容易理解。 GPT-5.1 专为广泛的任务覆盖而构建,可在数学、编码和结构化分析工作负载中提供一致的收益,并提供更连贯的长格式答案和改进的工具使用可靠性。它还具有精致的对话对齐功能,可在不影响准确性的情况下实现更温暖、更直观的响应。 GPT-5.1 是 GPT-5 的主要全功能继承者
claude-sonnet-4-5-20250929
Claude Sonnet 4.5 是 Anthropic 迄今为止最先进的 Sonnet 模型,针对现实世界的代理和编码工作流程进行了优化。它在 SWE-bench Verified 等编码基准上提供了最先进的性能,并在系统设计、代码安全性和规范遵守方面进行了改进。该模型专为扩展自主操作而设计,保持跨会话的任务连续性并提供基于事实的进度跟踪。
claude-haiku-4-5-20251001
Claude Haiku 4.5 是 Anthropic 最快、最高效的模型,以较大 Claude 模型的一小部分成本和延迟提供近前沿的智能。 Haiku 4.5 与 Claude Sonnet 4 在推理、编码和计算机使用任务方面的性能相匹配,为实时和大容量应用程序带来了前沿水平的功能。
gpt-4o
OpenAI ChatGPT 4o 由 OpenAI 不断更新,以指向 ChatGPT 使用的当前版本的 GPT-4o。因此,它与 GPT-4o 的 API 版本略有不同,因为它具有额外的 RLHF。它旨在用于研究和评估。 OpenAI 指出,该模型不适合生产用例,因为它将来可能会被删除或重定向到另一个模型。
gpt-4o-mini
GPT-4o mini是OpenAI继GPT-4 Omni之后的最新型号,支持文本和图像输入以及文本输出。 作为他们最先进的小型型号,它比其他近期前沿型号便宜很多倍,比 GPT-3.5 Turbo 便宜 60% 以上。它保持了 SOTA 智能,同时显着提高了成本效益。
Doubao-Seed-1.6-flash
Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT低至10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,视觉理解比肩友商pro系列模型。支持 256k 上下文窗口,输出长度支持最大 16k tokens。
sd3.5-large
sd3.5-large-turbo
sd3.5-medium
flux-kontext-pro
flux-pro-1.1
flux-pro-1.1-ultra
Doubao-1.5-thinking-pro
Doubao-Seed-1.6全新多模态深度思考模型,同时支持minimal/low/medium/high 四种reasoning effort。 更强模型效果,服务复杂任务和有挑战场景。支持 256k 上下文窗口,输出长度支持最大 32k tokens。
DeepSeek-V3
DeepSeek V3 是一个 685B 参数的专家混合模型,是 DeepSeek 团队旗舰聊天模型系列的最新版本。
DeepSeek: R1
5 月 28 日更新到原始 DeepSeek R1 性能与 OpenAI o1 相当,但开源并具有完全开放的推理令牌。它的大小为 671B 参数,其中推理过程中有 37B 处于活动状态。
Claude Sonnet 4
Claude Sonnet 4 显着增强了其前身 Sonnet 3.7 的功能,在编码和推理任务方面表现出色,并提高了精度和可控性。 Sonnet 4 在 SWE-bench 上实现了最先进的性能 (72.7%),平衡了功能和计算效率,使其适用于从常规编码任务到复杂软件开发项目的广泛应用。主要增强功能包括改进的自主代码库导航、降低代理驱动工作流程中的错误率以及提高遵循复杂指令的可靠性。 Sonnet 4 针对日常实际使用进行了优化,提供先进的推理功能,同时在各种内部和外部场景中保持效率和响应能力。
Claude 3.7 Sonnet
Claude 3.7 Sonnet 是一种先进的大型语言模型,具有改进的推理、编码和解决问题的能力。它引入了一种混合推理方法,允许用户在快速响应和扩展的逐步处理复杂任务之间进行选择。该模型展示了编码方面的显着改进,特别是在前端开发和全栈更新方面,并且在代理工作流程中表现出色,可以自主导航多步骤流程。 Claude 3.7 Sonnet 在标准模式下保持了与其前身相同的性能,同时提供扩展推理模式,以提高数学、编码和指令跟踪任务的准确性。
Claude 3.5 Sonnet
新的 Claude 3.5 Sonnet 以相同的 Sonnet 价格提供比 Opus 更好的功能、比 Sonnet 更快的速度。 Sonnet 特别擅长: 编码:在 SWE-Bench Verified 上得分约为 49%,高于最后一个最佳得分,并且没有任何花哨的提示脚手架 数据科学:增强人类数据科学专业知识;导航非结构化数据,同时使用多种工具获取洞察 视觉处理:擅长解释图表、图形和图像,准确转录文本以获取超越文本的见解 代理任务:出色的工具使用,使其非常适合代理任务(即需要与其他系统交互的复杂、多步骤的问题解决任务)
o4-mini
OpenAI o4-mini 是 o 系列中的紧凑推理模型,针对快速、经济高效的性能进行了优化,同时保留了强大的多模式和代理功能。它支持工具使用,并在 AIME(Python 为 99.5%)和 SWE-bench 等基准测试中展示了具有竞争力的推理和编码性能,优于其前身 o3-mini,甚至在某些领域接近 o3。 尽管尺寸较小,o4-mini 在 STEM 任务、视觉问题解决(例如 MathVista、MMMU)和代码编辑方面表现出高精度。它特别适合延迟或成本至关重要的高吞吐量场景。得益于其高效的架构和完善的强化学习训练,o4-mini 可以链接工具、生成结构化输出并以最小的延迟(通常在一分钟内)解决多步骤任务。
qwen3-vl-plus
Qwen3系列视觉理解模型,实现思考模式和非思考模式的有效融合,视觉智能体能力在OS World等公开测试集上达到世界顶尖水平。此版本在视觉coding、空间感知、多模态思考等方向全面升级;视觉感知与识别能力大幅提升,支持超长视频理解。
GLM-4.5
GLM-4.5 是我们最新的旗舰基础模型,专为基于代理的应用程序而构建。它利用专家混合 (MoE) 架构并支持高达 128k 令牌的上下文长度。 GLM-4.5 在推理、代码生成和代理对齐方面提供了显着增强的功能。它支持具有两种选项的混合推理模式,一种是专为复杂推理和工具使用而设计的“思维模式”,另一种是针对即时响应而优化的“非思维模式”。用户可以使用推理启用布尔值来控制推理行为
GLM-4.6
GLM-4.6 是智谱最新的旗舰模型,其总参数量 355B,激活参数 32B,上下文提升至 200K,8 大权威基准全面提升。在编程、推理、搜索、写作、智能体应用等核心能力均完成对 GLM-4.5 的超越。
ERNIE 5.0
文心新一代模型文心5.0是原生全模态大模型,采用原生的全模态统一建模技术,将文本、图像、音频、视频联合建模,具备综合的全模态能力。文心5.0基础能力全面升级,基准测试集表现出色,多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等表现尤其出色。
ERNIE 4.5 Turbo
核心定位:更好的满足多轮长历史对话处理、长文档理解问答任务。 适用场景: 1)复杂语义理解:支持中文知识问答、文学创作,尤其擅长文档理解(如DocVQA任务)。 2)数学推理:在中文数学问题(CMath基准)表现突出。
GLM-4.5V
GLM-4.5VGLM-4.5V 系列是基于 MOE 架构的旗舰视觉理解模型。拥有 106B 总参数量和 12B 激活参数,全面升级自 GLM-4.1V-Thinking,达到开源多模态模型 SOTA 水平。结合创新 RLCS 强化学习技术,在视频理解、图片问答、OCR、文档解析等任务表现优异,并在前端网页 Coding、Grounding、空间推理等复杂场景实现显著提升。支持 thinking / 非 thinking 模式灵活切换,兼顾推理深度与效率。
Doubao-lite-32k
Doubao-Seed-1.6-lite 全新多模态深度思考模型,支持思考程度可调节(reasoning effort),即Minimal、Low、Medium、High 四种模式,更强性价比,常见任务的最佳选择,上下文窗口至256k。
Doubao-pro-32k
Doubao-1.5-vision-pro 全新升级的多模态大模型,视觉理解、分类、信息抽取、解题、视频理解等能力显著提升。在多个公开评测集准上,令领先GPT-40、Claude 3.7 Sonnet、Gemini-2.0-pro等业界一流模型。支持128k上下文窗口,输出长度支持最大 16k tokens。
qwen-plus
Qwen3系列Flash模型,实现思考模式和非思考模式的有效融合,可在对话中切换模式。复杂推理类任务性能优秀,指令遵循、文本理解等能力显著提高。支持1M上下文长度,按照上下文长度进行阶梯计费。
qwen-flash
Qwen3系列Flash模型,实现思考模式和非思考模式的有效融合,可在对话中切换模式。复杂推理类任务性能优秀,指令遵循、文本理解等能力显著提高。支持1M上下文长度,按照上下文长度进行阶梯计费。
qwen3-max
Qwen3-Max是基于Qwen3系列构建的更新版本,与2025年1月版本相比,在推理、指令跟随、多语言支持和长尾知识覆盖方面有了重大改进。它在数学、编码、逻辑和科学任务中提供更高的准确性,更可靠地遵循复杂的中文和英文指令,减少幻觉,并为开放式问答、写作和对话提供更高质量的响应。该模型支持 100 多种语言,具有更强的翻译和常识推理能力,并针对检索增强生成(RAG)和工具调用进行了优化,尽管它不包含专门的“思考”模式。
Gemini 2.5 Flash
Gemini 2.5 Flash 是 Google 最先进的主力模型,专为高级推理、编码、数学和科学任务而设计。它包括内置的“思考”功能,使其能够提供更准确的响应和细致入微的上下文处理。 此外,Gemini 2.5 Flash 可通过“推理的最大令牌”参数进行配置,如文档中所述
GPT-5 Nano
GPT-5-Nano 是 GPT-5 系统中最小、最快的变体,针对开发人员工具、快速交互和超低延迟环境进行了优化。虽然与较大的同类产品相比推理深度有限,但它保留了关键的指令遵循和安全功能。它是 GPT-4.1-nano 的后继者,为成本敏感或实时应用程序提供了轻量级选项。
GPT-5 Mini
GPT-5 Mini 是 GPT-5 的紧凑版本,旨在处理更轻量级的推理任务。它提供与 GPT-5 相同的指令跟踪和安全调整优势,但延迟和成本更低。 GPT-5 Mini 是 OpenAI o4-mini 模型的后继者。
GPT-4.1 Mini
GPT-4.1 Mini 是一款中型型号,其性能可与 GPT-4o 相媲美,但延迟和成本却显着降低。它保留了 100 万个令牌上下文窗口,在硬指令评估上得分为 45.1%,在 MultiChallenge 上得分为 35.8%,在 IFEval 上得分为 84.1%。 Mini 还表现出强大的编码能力(例如,在 Aider 的多语言 diff 基准上为 31.6%)和视觉理解能力,使其适合具有严格性能限制的交互式应用程序。
GPT-4.1
GPT-4.1 是一款旗舰级大型语言模型,针对高级指令遵循、现实世界软件工程和长上下文推理进行了优化。它支持 100 万个令牌上下文窗口,并且在编码(54.6% SWE-bench 验证)、指令合规性(87.4% IFEval)和多模式理解基准方面优于 GPT-4o 和 GPT-4.5。它针对精确的代码差异、代理可靠性和大型文档上下文中的高召回率进行了调整,使其成为代理、IDE 工具和企业知识检索的理想选择。
DeepSeek V3.1
DeepSeek-V3.1是一个大型混合推理模型(671B参数,37B活跃),通过提示模板支持思考和非思考模式。它通过两阶段长上下文训练过程扩展了 DeepSeek-V3 基础,最多可容纳 128K 个标记,并使用 FP8 微缩放来实现高效推理。用户可以使用推理启用布尔值来控制推理行为。在我们的文档中了解更多信息 该模型改进了工具使用、代码生成和推理效率,在困难的基准测试上实现了与 DeepSeek-R1 相当的性能,同时响应速度更快。它支持结构化工具调用、代码代理和搜索代理,使其适用于研究、编码和代理工作流程。 它继承了 DeepSeek V3-0324 模型,在各种任务上表现良好。
Claude Opus 4.1
Claude Opus 4.1 是 Anthropic 旗舰模型的更新版本,在编码、推理和代理任务方面提供了改进的性能。它在 SWE-bench Verified 上达到了 74.5%,并在多文件代码重构、调试精度和面向细节的推理方面显示出显着的进步。该模型支持高达 64K token 的扩展思维,并针对涉及研究、数据分析和工具辅助推理的任务进行了优化。
Claude Haiku 4.5
Claude Haiku 4.5 是 Anthropic 最快、最高效的模型,以较大 Claude 模型的一小部分成本和延迟提供近前沿的智能。 Haiku 4.5 与 Claude Sonnet 4 在推理、编码和计算机使用任务方面的性能相匹配,为实时和大容量应用程序带来了前沿水平的功能。 它引入了俳句的扩展思维;实现可控的推理深度、总结或交错的思维输出以及工具辅助工作流程,并全面支持编码、bash、网络搜索和计算机使用工具。 Haiku 4.5 在 SWE-bench Verified 上得分超过 73%,跻身世界最佳编码模型之列,同时保持子代理的卓越响应能力、并行执行和规模化部署。









