OpenAI推出SWE-bench Verified:现有框架低估模型软件工程能力 OpenAI 推出更可靠的代码生成评估基准:SWE-bench Verified。该公司blog里最重要的一句话是:”随着我们的系统越来越接近 AGI,我们需要在越来越具有挑战性的任务中对它们进行评估”。该基准是对现有 SWE-bench 的改进版本(子集),旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。(AI寒武纪)