如果任务是识别一家公司的真实盈利能力,AI能否超越经验丰富的分析师?
10月28日,投资顾问、前丹佛大学金融学院院长Tommi Johnsen发布论文,探讨了大型语言模型(LLMs)从复杂的财务披露中,尤其是10-K报告中,准确估计公司核心收益的潜力。
研究结果显示,在预测公司核心盈利方面,大型语言模型按照“顺序提示法”生成的指标,在大多数标准测试中的表现优于传统的基准指标,如GAAP净收入基准指标。但是,大型语言模型不太擅长应对财报非经常性调整的情况。
在这篇论文中,Johnsen主要研究了以下5个问题:
- 大型语言模型能否准确地从10-K报告中估算出公司的核心盈利?
- 大型语言模型对核心盈利的估计是否优于传统基准指标?比如GAAP净收入、运营每股收益(OPEPS)、折旧和摊销后的运营收入(OIADP)。
- 大型语言模型应对非经常性调整的情况如何?
- 大型语言模型生成的核心盈利指标能否准确预测公司未来的净收入,并且长期有效?
- 大型语言模型生成的核心盈利在公司层面表现如何?
为了研究以上问题,Johnsen使用了OpenAI的GPT-4o来分析2000年至2023年间美国上市公司发布的10-K报告,并采用两种提示策略:一是“懒惰分析师法”,给予GPT-4o单一提示,要求它要求估算公司核心盈利并提供理由;二是“顺序提示法”,给予GPT-4o一系列提示,指示它按照三个步骤进行:识别异常费用/损失、识别异常收入/收益、汇总并量化核心盈利。
10-K报告是美国证券交易委员会(SEC)要求上市公司每年提交的详细财务报告,包含公司的经营状况、财务数据、风险因素、公司治理结构等重要信息。
经过研究,Johnsen发现,上述五个问题中,四个问题的答案都是肯定的,除了第三条。
1. 大型语言模型能够准确地从10-K报告中估算出公司的核心盈利
Johnsen表示,大型语言模型的确能准确地从10-K报告中估算出公司的核心盈利,然而,这取决于具体使用的语言模型方法:结构化的方法提供了更好的指导,帮助大型语言模型生成更准确的核心盈利估计,与“基线提示法”相比,“顺序提示法”确实生成了更可靠的核心盈利指标。
高质量的核心盈利指标应该能捕捉到公司稳定、持续的盈利能力,并排除波动性和非经常性成分。
“顺序提示法”在将预测任务分解为小步骤时,优于其他方法,有效避免了概念性错误,非经常性收益和损失被过滤并以准确的方式汇总。“基线提示法”倾向于将核心盈利与其他盈利类型的指标,如EBITDA和现金流混淆,并对利息、折旧和摊销等经常性费用做出不正确的调整。
2. 大型语言模型对核心盈利的估计优于传统基准
Johnsen表示,“顺序提示法”生成的核心盈利预测反映了盈利能力随时间变化的稳定组成部分,模型的自回归系数(反映持续性水平)为0.917,而GAAP净收入基准指标的自回归系数为0.849——较高的系数表明大型语言模型生成的核心盈利指标捕捉到了盈利能力随时间变化的稳定组成部分。
然而,运营每股收益基准指标、折旧和摊销后的运营收入基准指标的自回归系数均略高,分别为1.0174和1.0178。
总结来说,“顺序提示法”生成的核心盈利指标仍然具有竞争力和有效性,尤其是在与GAAP净收入基准指标相比时,能够捕捉更有意义的核心盈利成分。
3. 大型语言模型的非经常性调整情况较弱
Johnsen表示,大型语言模型不太擅长应对财报非经常性调整的情况。
“顺序提示法”生成的指标的持久性系数为0.0288(不显著),而“懒惰分析师法”生成的指标为0.0759(在5%水平上显著),Compustat的OIADP为0.3125(在1%水平上显著)。
4. 大型语言模型生成的核心盈利指标能够准确预测公司未来的净收入,并且长期有效
Johnsen表示,大型语言模型生成的核心盈利指标提供了比基准指标更准确的未来盈利预测。
“顺序提示法”生成的指标的平均绝对预测误差(mean absolute prediction error)为1.58美元,GAAP净收入基准指标的误差为1.77美元,运营每股收益基准指标的误差为1.56美元。
“顺序提示法”生成的指标在下一周期净收入回归估计中获得的解释能力(R²)为70.86%,高于GAAP净收入基准指标的60.87%。当预测范围扩展到两年时,“顺序提示法”生成的指标的R²为83.60%,高于运营每股收益基准指标的66.57%。
因此,大型语言模型在捕捉公司长期、持续的盈利能力方面更加有效。
5. 大型语言模型成的核心盈利在公司层面表现很好
Johnsen表示,公司层面的预测回归显示,“顺序提示法”生成的盈利预测最为可靠,统计结果令人信服——顺序模型的R²为28.39%,并生成了最高的平均系数0.4564,以及最低的均方误差(mean squared error)。