一张图读懂 2023/05/18 09:28

北京拟整合现有开源中文预训练数据集

据北京市科委官网，近日北京出台《北京市促进通用人工智能创新发展的若干措施（2023-2025 年）（征求意见稿）》。

针对目前大模型训练高质量中文语料占比过少，不利于中文语境表达及产业应用的问题，征求意见稿提到，整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源，建设合规安全的中文、图文对、音频、视频等大模型预训练语料库，通过北京国际大数据交易所社会数据专区进行定向有条件开放。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。