9月25日,OpenAI发布一项新基准测试,旨在评估其人工智能(AI)模型在各类行业及职业中与人类专业人士的表现差异。这项名为GDPval的测试,是该公司为了解自身系统在 “高经济价值工作” 上与人类表现的接近程度所做的初步尝试 —— 而实现这一目标,正是OpenAI成立使命中 “研发通用人工智能(AGI)” 的关键组成部分。OpenAI表示,研究发现其GPT-5模型及Anthropic公司的Claude Opus 4.1模型 “在工作质量上已接近行业专家水平”。
OpenAI:GPT-5在众多职业领域表现比肩人类
但这并不意味着OpenAI的模型即将立即取代人类岗位。尽管部分首席执行官预测人工智能将在数年内取代人类工作,但OpenAI承认,目前GDPval测试仅覆盖了人类实际工作中极为有限的一部分任务。不过,这仍是该公司衡量人工智能向 “超越人类” 这一里程碑迈进的最新方式之一。
GDPval 测试基于对美国国内生产总值(GDP)贡献最大的9个行业,涵盖医疗健康、金融、制造业、政府服务等领域。该基准测试评估人工智能模型在这些行业的44种职业中的表现,职业范围从软件工程师、护士到记者不等。