GPT-5-Codex – OpenAI推出的Agent编程优化模型

智能 2025-09-16 10:39

声明：该文章来自（AI工具集）版权由原作者所有，K2OS渲染引擎提供网页加速服务。

GPT-5-Codex是什么

GPT-5-Codex 是 OpenAI 推出的专为编程优化的模型，基于 GPT-5 进一步强化。模型聚焦于真实世界的软件工程任务，如从零搭建项目、代码重构、调试、测试和代码审查等。模型能根据任务复杂度动态调整思考时间，简单任务秒回，复杂任务深度思考，支持独立完成长达 7 小时的复杂任务。模型代码审查能力出色，能精准发现关键缺陷，减少无效评论。GPT-5-Codex 支持多模态输入，能在云端查看图片或截图并展示工作成果，是开发者的强大编程助手。

GPT-5-Codex的主要功能

代码生成与优化：根据自然语言描述快速生成高质量代码，支持多种编程语言、优化现有代码提升性能。
代码审查：支持自动发现代码中的关键缺陷和潜在问题，提供详细审查报告帮助开发者快速定位和修复。
交互式编程：在交互式会话中快速响应简单任务，同时能独立处理复杂任务，如大型重构，持续工作超过7小时。
多模态输入：支持图片输入用在前端设计和UI任务，能展示工作进度的截图提供直观反馈。
集成与扩展：无缝集成到VS Code、GitHub、ChatGPT等开发环境，支持网页搜索等外部工具调用提升开发效率。

GPT-5-Codex的性能表现

代码生成与优化：在SWE-bench Verified基准测试中，GPT-5-Codex准确率达74.5%，高于GPT-5的72.8%，且在代码重构任务上准确率从GPT-5的33.9%提升至51.3%。
动态思考时间：GPT-5-Codex能根据任务复杂度动态调整计算资源，简单任务token使用量比GPT-5减少93.7%，复杂任务token使用量增加102.2%，能独立工作超过7小时处理复杂任务。
代码审查能力：GPT-5-Codex错误评论率仅4.4%，高影响力评论占比达52.4%，平均每个PR评论数从GPT-5的1.32条降至0.93条，能有效发现关键缺陷、减少无效评论。
多模态处理：支持图片输入用于前端设计和UI任务，能展示工作进度的截图提供直观反馈，提升开发体验。
集成与扩展：支持无缝集成到VS Code、GitHub、ChatGPT等开发环境，通过容器缓存技术使新任务和后续任务的中位完成时间缩短90%，提升开发效率。

GPT-5-Codex的核心优势

优化方向：GPT-5-Codex是 GPT-5 的一个版本，专为在 Codex 中的代理编码进一步优化，训练重点是现实世界的软件工程工作，包括从零开始构建完整项目、添加功能和测试、调试、执行大规模重构以及进行代码审查等复杂任务。
动态思考时间：根据任务复杂度自动决定投入多少计算资源。对于最简单的 10% 任务，比 GPT-5 减少 93.7% 的 token 使用量；面对最复杂的 10% 任务，花费两倍时间进行推理、编辑、测试和迭代，能独立工作超过 7 小时处理大型复杂任务。
代码审查能力：被专门训练用在代码审查和发现关键缺陷，会导航代码库、推理依赖关系、运行代码和测试来验证正确性。在评估中，错误评论率仅 4.4%（GPT-5：13.7%），高影响力评论占比 52.4%（GPT-5：39.4%），平均每个 PR 0.93 条评论（GPT-5：1.32 条）。
前端任务表现：在创建移动网站时的人类偏好评估中显示出显著改进。在云端工作时，支持查看用户提供的图片或截图输入，视觉检查进度，并向用户展示工作截图。