大模型进化加速，高质量数据成稀缺性来源 | 见智研究

韩枫

2023/04/11 08:09

未来市场将逐步形成共识，得数据者的天下，数据将成为大模型差异化竞争的关键。

大模型密集发布期，高质量的数据资源才是推动GPT进化的重要高手。

4月10日，商汤发布日日新大模型，及其衍生产品：商量（自然语言）、秒画（文生图）、如影（数字人）、空间3D大模型（琼宇、格物），大模型涵盖文本和图像生成，计划23年开启万亿参数大规模大模型训练，也是多模态大模型。

此外，在日日新大模型平台下，还有一个"商量"语言发模型sensechat，可以用在法律、编程以及医学诊断的专业场景之下。以编程为例，生成代码的一次通过率达到40.2%，已经超过了Github Copilot。

华尔街见闻·见智研究认为：对于大模型训练来说，能否未来得到优质的大模型，与投入的数据质量非常关键，包括通用参数、文本语言、图像、视频音频等等，投入数据的质量高低，会直接影响模型最终生成的内容。

日日新大模型的亮点包括：

NLP大模型【商量】：拥有1800亿参数，类比ChatGPT。支持长文本理解（支持上传PDF，并可与PDF对话）、辅助编程、手写OCR等功能，并现场演示在线问诊等应用。

文生图大模型【秒画】：模型拥有超过10亿参数，类比midjourney。可辅助提供提示词，并生成符合描述的图片，支持6k高清图像，并可随时调整画风。

数字人大模型【如影】：可根据5min视频创作属于自己的数字人，并进行AI换装、文案生成，可用于直播、视频生成等场景。

空间3D大模型【琼宇、格物】：琼宇使得3D场景实时可交互/编辑，应用涉及数字孪生、建筑设计、影视创作、文旅和电商等。格物使得人/物/场便捷编辑创作，可用于家装、商业广告、文旅等场景。

评判大模型是否是一个好的大模型，最关键的还是源于投入模型的数据质量，只有高质量的数据才能够让大模型训练出高质量的内容。（大模型的计算量=参数量*处理的数据量）

模型迭代和数据筛选同等重要

三六零、谷歌、百度这类以浏览器起家的公司，同样具有海量数据优势。见智研究认为：能够进行持续迭代的大模型具备稀缺性。

像是对于搜索引擎这类公司，天然积累了数十年的高质量网络数据资源，当搜索引擎完成对某些数据内容的提取之后，可以对其进行分析和处理。包括数据清晰和去重，数据挖掘和分析，建立索引便于日后查询。

此外，从GPT的发展路径也能够看出数据量的重要性。

从GPT1到GPT2参数投入从1.17亿增长至15亿，到GPT3时参数达到1750亿，OpenAI 是通过筛选优质数据形成参数量阶梯式上升，最终使得大模型不断迭代优化，从而得到更好的大模型。

而未经过滤或者轻度过滤的爬虫数据往往比筛选侯的数据集质量更低，所以参数量的质量是至关重要的，从而得到参数筛选的必要性。

除了文字大模型外，图片大模型最近也有重大进展。

日前Meta发布可分割图像AI模型SAM及训练资料集SA-1B。该模型能够实现零样本分割图像中一切对象，机器视觉迎来GPT-3时刻。根据Meta官网消息，SAM目前的数据集包括在约1100万张许可和隐私保护图像上收集超过11亿个分割标签。

随着数据采集需求快速增加，有望带来下游视觉应用的大爆发，此前困扰CV行业的许多问题将被直接解决。

见智研究认为：SAM可以成为AR/VR、内容创作、科学领域和更普遍的AI系统等领域的强大组件。看到图像像素级别的理解和更高层次的视觉内容语义理解之间的紧密耦合，将解锁更强大的人工智能系统。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

风险提示及免责条款

大模型进化加速，高质量数据成稀缺性来源 | 见智研究

模型迭代和数据筛选同等重要

国产AI算力里程碑时刻：中科曙光3套scaleX万卡超集群落地，国产最大AI算力池投入运营

OpenAI Codex再进化：推理速度提升40%，大幅削减编程延迟

阿里发布千问最强推理模型Qwen3-Max-Thinking，性能媲美GPT-5.2、Gemini 3 Pro

梁文锋署名新论文：给大模型配本“字典”，计算、记忆分家后智商爆表，剧透DeepSeek V4？

腾讯混元3年变形始末