科大讯飞在业内独树一帜的AI技术和产业标杆之源,来自讯飞开放平台战略。
2021年10月25日,这项战略迭代到2.0。到今年11月,科大讯飞开放平台2.0战略取得了哪些进展?是否更进一步夯实了AI技术和产业优势?
此前,科大讯飞推动AI技术落地,主要从“平台+赛道”战略和“算法和数据”技术两个方面推动,取得面向C端、B端和G端AI领域的技术应用优势,那么现如今,这些细项有无迭代或升级?这种变化的技术优势包括什么?
2022年是科大讯飞开放平台2.0战略落地推进的首年,也是“科大讯飞1024开发者节”举办的第六年。11月18日,科大讯飞董事长刘庆峰和科大讯飞总裁吴晓如在合肥对这些问题一一做了披露。
讯飞开放平台2.0这一年
人工智能(AI)是引领科技革命和产业变革的战略型技术,具有溢出带动性很强的“头雁”效应。
国内AI技术标杆和商业落地巨头科大讯飞,通过讯飞开放平台战略推动AI落地。2022年是讯飞这项战略进入深水区的第一年。
从框架结构看,讯飞2.0以“科大讯飞+行业龙头+开发者”三个维度,通过讯飞开放技术平台和工具,结合行业特性和数据,形成数字底座,再通过开发者将数字底座与特定的软硬件环境做匹配,最终形成完整的行业AI数字解决方案。
在过去的一年,科大讯飞坚持在源头技术上创新,实现了单项技术的持续突破:比如在语音、图像和认知的国际高水平技术评测中,讯飞获得12项比赛冠军。与此同时,讯飞超脑2030计划在多模感知、多维表达、交互大脑和应用智能层面实现多技术深度融合。
其中,多模感知,解决的问题是商场、医院和地铁等开放场景使用语音识别、面临各种噪声或同方向人声干扰时,可通过讯飞提出的多模感知技术,将人脸部的唇形、表情等和语音输入结合,将这类复杂场景下语音识别的错误率从30%降低至10%,让机器更准确地感知世界。
交互大脑系统具备深度理解能力。通过机器学习,形成深度知识图谱和自身理解体系,从而解析不同行业的知识。比如,实现医疗知识更好地服务医生、能使工业听诊器有能力发现各种机器噪声故障等。
所谓多维表达,即通过少量有监督数据,训练得到语义人设与音色空间的映射关系,实现语义可控的声音创造。把语音、形象和感情结合起来,实现机器和人的情感互动。
在运动智能方面,通俗说起来,就是既要让人工智能有一颗强大的大脑,也要让人工智能有一个灵巧的身体。用智能化强化学习模型改进经典算法,科大讯飞实现了机器运动能力的提升和持续进化。
在讯飞开放平台技术框架的“行业龙头”维度,据科大讯飞总裁吴晓如透露,开放平台2.0战略已在14个行业落地,与数十家行业龙头达成战略合作,超1600家第三方合作伙伴加入共创,形成良好的生态带动效应。
科大讯飞设置了“教育、医疗、智慧城市、农业、环保、汽车、酒类和旅游”等18个主要赛道。其中,工业、教育和金融是三个重点行业。
开发者数量,一直以来,都是各技术巨头公司建立繁荣生态圈的核心指标。
在过去一年,讯飞开放平台2.0聚合的开发者团队从265万增长至370万。在此基础上的AI能力数,也从441项增长至513项;同时,在虚拟人交互平台上,科大讯飞合作468家设计厂商,形成700多项虚拟资产,累计服务1000多家客户。
对于讯飞AI开放平台未来的能力演进方向,吴晓如称,人工智能开放平台有四个关键点需要持续提升:一是为实体和虚拟经济提供更强大的AI能力,二是场景智能需要有更高效的运用行业知识,三是人机协同需要人能更高效的使用AI工具,四是AI使用会具备便捷性、隐私保护和数据安全。
2.0战略做了哪些技术升级
基于讯飞AI开放平台四项未来技术演进能力,围绕讯飞超脑2030,科大讯飞在开放平台2.0的基础上做了进一步升级,为百万开发者和生态合作伙伴提供更强AI核心能力的人工智能开放平台。
这些升级内容包括依托AILAB模型云,实现用更少的数据量训练多场景模型;通过AIRPA超自动化,让开发者更便捷地用拖拉拽模式制作智能化应用;基于AIBOT机器人超脑,让机器人行业能从感知认知到运动智能的各个方面都能快速得到一体化解决方案。
其中,依托AILAB模型云,在事实上成为讯飞多场景AI服务的必选项。因为多场景数据量增速极快,由此形成AILAB模型云的坚实基础。
据科大讯飞消费者事业群总裁于继栋透露,2022年,讯飞AI服务在线调用年增长率达36%。
在社交场景,近一年输入法语音调用量同比增长45%,超过平台AI调用增速。其中,Z世代群体对语音输入更为偏爱,女性使用语音的比例是男性的1.4倍。语音输入已成为日常交流中人机交互的重要方式。
当人们身处家庭场景,电视助手语音调用量过去3年间,增长515%。全年龄段用户都已形成语音交互习惯,其中14岁以下的少年儿童群体和60岁以上的中老年群体,比成年用户更偏爱语音交互。
出行时,车载语音调用量增长翻倍。在过去一年全国出口的200万辆汽车中,预制讯飞多语种语音交互系统的车辆已超71%。合作车企在科大讯飞的助力下,已将13个语种推广到全球20个国家。
过去一年内,教育相关的AI调用呈现出902%的增长(学习场景);录音笔平均每天为每个用户节省1.32小时(办公场景)。
随着社交、家庭、出行、学习和办公等越来越多AI场景的广泛应用,人工智能在人机交互阶段已走进千行百业。人工智能与生活结合的如此紧密,就技术应用的深度看,相当于当前正在快速进入人机协同阶段。
为满足人机交互需求,讯飞开放平台做了多方面技术能力的升级:在感知智能、认知智能和运动智能的技术底座上,围绕能力云、交互云、模型云、资产平台、超自动化和机器人超脑,以API、低代码、软硬件一体和解决方案的方式,面向实体机器人和数字机器人建设N种场景化机器人。
在此基础上,科大讯飞发布机器人超脑平台AIBOT,以承接这个产业阶段带来的新商业价值。
于继栋表示,融入多模交互、深度理解、运动控制和硬件模组等核心能力的机器人超脑平台,能为实体机器人提供高性能的算力支撑、高效率的地图导航以及高精度的定位功能,研制出软硬一体的智能化机器人。
华尔街见闻在“科大讯飞1024开发者节”会议上获悉,“软硬一体智能化机器人”已有实际应用案例。
比如能说会跑的狗:来自宇数科技的四足机器狗在讯飞机器人超脑平台的加持下,已实现自适应地形、全局定位搜索、地图快速构建和更精细的运动控制四种能力。因此,机器狗能跑会跳,能看会说,可应用于户外巡逻、工业巡检等多元化场景。
“超脑2030计划”阶段成果
虚拟人交互技术,也是在过去一年,科大讯飞开放式AI平台单兵突进的一个技术方向。
“支撑‘讯飞超脑2030计划’的发展,有两个关键算法亟待突破:无监督学习和知识推理。”科大讯飞AI研究院副院长高建清说,“前者要做到实用化、场景化的预训练技术,后者要构建基于知识检索、决策以及融合的推理系统。”
科大讯飞设计了基于无监督学习的预训练框架,并使用了少量有监督数据做优化,大幅提升训练效率。
针对多模语音识别、情感识别等多模态任务,新的预训练框架对音频、人脸等不同模态的输入一视同仁,利用其中内容、表情及身份等信息的关联性做融合,可设计出不同的训练目标。
讯飞用少量有监督数据构建码本,使训练机时下降八成,实现了实用化预训练。
在无监督学习的预训练算法框架下,讯飞开放了轻量化的中文语音、中英文多模态预训练模型。高建清说,“预训练模型支持语音识别、声纹识别、情感识别、多模态语音识别等多个任务,参数量远远少于业界公开的模型,但效果却达到了业界相对最优。”
在知识推理方面,以回答“包在低温下会马上发霉吗”为例,机器要理解“低温变质慢”等常识,在引入海量知识的基础上,要用预训练模型进行知识重要性排序,也要融合知识与问题进行推理,才能与人畅聊“面包变质的二三事”。
同时,也提出了知识与问题融合的Across attention model,实现问题和知识之间的充分交互,从而实现更有效的知识推理。
此外,科大讯飞还探索将神经网络与符号推理相结合,实现了推理过程的可解释性。应用于小学平面几何题上,这个推理系统让AI答题的正确率从完全不可用,提升到了90%的水平,显著优于传统推理系统。
值得一提的是,科大讯飞基于多模态交互以及医疗认知技术,研发了一套抑郁症定量筛查系统。这可模拟心理医生的问诊思路做交互设计,用户通过与机器聊天的方式,即可初步实现病情的定量评估,筛查效果达到91.2%(北京安定医院实测数据)。
目前,这一系统已在北京安定医院等医疗机构做试点应用。“未来,基于定量筛查基础能力,我们将研发抑郁症筛查平台,向更多学校推广,助力青少年心理成长。”高建清表示。
作为“讯飞超脑2030计划”的阶段性成果,今年科大讯飞构建了多款专业虚拟人,分别用于客服、助理、招聘、财务和法务等行业的工作,这些都具有一个共同特点:丰富的专业知识。
通过深入学习行业知识,讯飞定制研发了多行业交互大脑,目前已为金融、电信、媒体等多行业提供专业虚拟人解决方案,为“数字经济”服务。