AI训练数据“第二股”花落北交所?数据堂启动上市辅导

泡沫破灭后

作为人工智能(AI)“算法、算力、数据”三驾马车之一,服务于训练数据的数据标注公司正在更多的接近资本市场。

1月12日,新三板挂牌的数据标注企业数据堂(831428.NQ)已向北京证监局提交了上市辅导材料,计划将在北交所启动上市。

挂牌资料显示,数据堂作为一家数据服务企业,主要业务正是数据采集、制作、共享、交易、订阅和应用服务,以及大数据的存储、管理、挖掘、分析的专业系统解决方案,并致力于打造面向大众的数据共享、交易及应用平台。

有AI行业人士指出,数据服务企业的最主要业务,正是提供AI模型训练所需要的数据标注服务。

值得一提的是,作为AI训练数据“第一股”的海天瑞声(688787.SH)已于2021年8月登陆科创板上市,若数据堂此番顺利上市,则意味着AI训练数据“第二股”有望在北交所亮相。

不过围绕AI标注行业的价值,业内也争议不断。

有行业人士认为,“大语言模型”的快速崛起正在加速标注行业的自动化,而传统的人工标注业务将面临出清;但也有分析人士指出,考虑到境内数据、中文语境的特殊性以及大厂之间的大模型军备竞赛,数据标注短期内仍然存在较高需求。

业绩勉强达标

更早之前,数据堂冲刺北交所的迹象就已出现。

2023年5月,数据堂发起了员工股权激励计划,次月,又按照股转系统要求成为当年第四批进入新三板创新层的企业;而在2023年12月,还将主办券商从先前的湘财证券改聘为民生证券。

“进入创新层、同时又更换了主办券商,倒回头看这些动作都是在为北交所上市所进行的准备动作。”北京一位投行人士指出,

仅从上述财务数据来看,数据堂对于北交所上市标准的达标较为勉强。

财报显示,数据堂2021年、2022年的归母公司净利润分别为-0.08亿元、0.14亿元,加权平均净资产收益率(ROE)分别为-8.82%、13.63%,尚不满足北交所上市门槛。

不过在收入维度上,其2021年至2022年收入分别达 1.15亿元、1.69 亿元,其中2022年收入增速达 46.14%,刚好满足北交所不低于4亿元市值,且连续两年收入不低于1亿元,且2022年经营活动现金流为正的要求。

有投行人士指出,该公司选择在2024年年初启动辅导,意味着其尚未披露的后续业绩有望进一步改善。

“截至2023年上半年的数据来看,对上市标准的达标较为勉强,但有可能公司下半年以及今年的业绩大概率能进一步改善,所以会提前准备辅导。”上述北京投行人士表示。

不过在2023年上半年,数据堂的业绩反而是下滑的——其当期营业收入0.61亿元,同比下滑7.05%,归母公司净利润更是亏损-0.06亿元。

事实上,同在数据标注赛道的海天瑞声在2023年的已知业绩也差强人意。其2023年前三季度营业收入1.03亿元,同比下滑38.25%,归母公司净利润亏损0.43亿元。

“虽然(2023年)上半年AI非常火,但是从两家数据标注公司的业绩来看,仍然是下滑的,这有可能是是2022年情况后置的结果,因为标注本身是需要交付来确认收入的。”一家上市券商TMT行业分析师指出,“随着各家大厂在AI训练上增大开支,后续确实有可能带来这些公司的业绩反转。”

“不过也要考虑一个变量,就是各家大厂也在强化自身的数据标注能力,而且一些数据涉及到商业秘密,所以这会对数据标注外包公司带来一定影响。”上述分析师指出。

从客户阵容来看,数据堂的客户的确包括了不少业内大厂。

截至2022年末,百度、腾讯两家大厂均是数据堂的前五大客户,收入占比分别为3.85%、3.45%;截至2023年上半年末的应收账款显示,高通、中汽数据、蔚来、Phantom AI等行业知名企业也是数据堂的存量客户。

争议标注价值

围绕海天瑞声、数据堂等数据服务公司的上市,业内有关该领域的价值争议也始终不断。

“人工智能主要需要算法、算力和数据,一个好的AI引擎需要足够的多的高质量数据来训练,而数据标注就是用来提高数据质量的。”一家国内大厂AI工程师表示,“AI训练有时候往往缺乏足够多的优质数据,所以需要去采购数据集,但更多时候大厂是有数据的,但这些数据需要进行标注和优化,因此就衍生了数据标注这个行业。”

2023年初,ChatGPT带着Transformer和大模型横空出圈,引爆了新一轮有关AI领域的资本热潮,尽管数据标注作为AI淘金热中的“卖铲人”,但仍然有分析人士认为大模型的普及将对传统的数据标注带来冲击。

“传统的数据标注业务很像‘包工头’,就是标注公司找一些劳务公司去帮忙从大学生中招临时工来帮忙‘洗数据’,把手里不能用的原始数据通过标注来升级成满足AI训练标准的成品数据。”上述大厂AI工程师介绍。

“当然并不是说只有标注公司这么做,大厂也这样干。”该工程师指出。

从供应商来看,数据堂的上游确实是不少劳务公司。

2022年年报显示,数据堂当年前两大供应商分别为北京德元通远人力资源管理有限公司、永州众乐邦企业管理有限公司,采购支出金额未0.13亿元、0.29亿元,占比分别为14.17%、3.15%

“某种程度上,数据标注的门槛在于了解客户的需求,从方向上是有门槛的,但是从业务形态来说,门槛又并不高。”上述AI工程师指出,“而且大模型成熟之后,这种劳务工作未来很有可能会被机器进一步取代,实现自动化标注。”

“GPT的发展短期来看有利于AI领域的投入,进而对数据标注行业带来利好,但长期来看是对数据标注的洗牌。”华南一家公募基金投资经理坦言。“未来衡量标注企业的质量,关键要看它们是否也会转向大模型,进而提供更优质、无法被轻易替代的标注服务。”

从估值来看,2023年以来针对AI领域的估值热潮正在退去。

以海天瑞声为例,该公司在2023年一季度的AI行情攻势下,三个月内累计上涨达262.71%,但随后便迎来估值腰斩——2023年二季度至今,其股价以累计下跌超过55%。

AI估值热潮不再,会对于数据堂的上市带来变数,尚待观察。

但也有分析人士认为,考虑到境内数据、中文数据的特殊性,国产大模型的训练仍然会产生特有的数据标注需求,而对于匹配大模型训练场景的标注公司来说,仍然具有需求拉动作用。

在一些大模型的标准建立过程中,也确实有数据标注企业的存在。

例如日前中国信通院形成并发布的《大规模预训练模型基准测试-总体技术要求》“方升”大模型评测体系中,包括海天瑞声、国网智能电网研究院、首都之窗、天津大学、中国电信研究院、中国联通软件研究院、华为、甲骨易、东方财富在内的9家单位成为了首批合作机构。

数据堂似乎意识到了这一趋势,其在2022年年报中就指出,将”重点服务数字经济、人工智能大模型等业务领域“。

“公司的数据要素服务将从人工智能传统数据需求、垂直领域数据需求,并逐渐向类ChatGPT模式的大模型数据需求深入发展。”数据堂表示,“目前,预训练模型参数数量、训练数据规模按照300倍/年的趋势增长,继续通过增大模型和增加训练数据仍是短期内主流演进方向,RLHF技术的推广使用或将推动训练数据市场需求持续延展。”

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。