OpenAI推出SWE-bench Verified：现有框架低估模型软件工程能力

OpenAI 推出更可靠的代码生成评估基准：SWE-bench Verified。该公司blog里最重要的一句话是：”随着我们的系统越来越接近 AGI，我们需要在越来越具有挑战性的任务中对它们进行评估”。该基准是对现有 SWE-bench 的改进版本（子集），旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。（AI寒武纪）

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。