蚂蚁发起“隐私革命”

郑巧

2024/07/06 19:07

推动数据安全流通。

AI加快了整个行业迈向数据密态时代。

7月5日，在2024年世界人工智能大会上，蚂蚁集团推出了蚂蚁密算公司的第一款产品——“隐语Cloud”大模型密算平台。

据蚂蚁密算CEO王磊介绍，“隐语Cloud”大模型密算平台主要提供两个能力，分别为大模型密态托管和大模型密态推理。

密态托管主要是解决大模型本身IP保护的问题，当大模型在云上部署的时候，大模型会被加工成密态的，确保模型IP不会被别人偷去。大模型密态推理主要解决的是访问信息的保护，访问信息在整个的推理过程中都是密态的。

当下，高质量数据供给和安全流通，成为大模型进入垂直产业应用的首要挑战。大模型在垂直行业应用时，许多企业通过私有化部署来应对数据安全挑战，这不仅增加企业的运维和服务成本，也影响对外服务的效率和质量。

专业数据通常分布在不同机构和企业，因其高价值和保密性而难以共享。同时，企业、大模型厂商和用户之间存在信任障碍：企业担心数据泄露，厂商担心模型资产安全，用户则担心个人隐私风险。

王磊透露，隐语Cloud平台将提供全链路数据安全服务，覆盖大模型从构建到服务的全过程。平台将为大模型的预训练、微调、评测、推理和用户交互提供密态计算，确保数据在提供方、使用方之间的安全流转。此外，平台还将提供包括密态检索、提示词和流程编排在内的全链路开发工具。

蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬认为，数据供给决定了大模型应用能力的上限，而隐私计算技术决定了数据跨域供给的上限。当大模型从通用走向专业应用，从技术想象力走向产业的生产力，必须要解决高质量数据集稀缺与专业数据阻滞的挑战，否则大模型作为“智力引擎”，只会陷入空转。

5月底，蚂蚁集团宣布了以AI和数据技术为核心的科技战略，并成立了浙江蚂蚁密算科技有限公司，将提供密算相关的产品和服务，包括一套端到端的数据安全保障、一套软硬件结合的计算加速解决方案和一个隐私计算云服务平台，推动数据安全可信的跨云跨端低成本流通。

以下是华尔街见闻与蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬和蚂蚁密算CEO王磊的对话实录（经编辑）：

提问：如何看待成本、安全和性能之间的关系？

王磊：安全一定是有成本的，这本质上包含两个方面：首先，从商业视角看，隐私计算技术带来的安全收益是否足够抵消成本。例如，在数据泄露事件中，我们观察到的损失动辄数百万美元，因此，如果安全措施的成本低于潜在损失，那么这些措施就是可接受的。其次，从技术角度出发，随着技术的不断迭代，相关成本将逐步降低。此外，隐私计算产品需要根据安全需求进行分级，对于价值不是非常高的数据，不必采用高成本的安全防护措施。在对数据进行安全分级的基础上，技术措施也应相应分级。当数据的价值与其安全措施的成本相匹配时，这样的安全策略才是最经济、最合理的。

提问：如何理解在加入密态计算流程后，服务成本反而降低的情况？此外，加入密态计算似乎增加了一个步骤，这将如何影响整个数据流通的效率，是提高还是降低？

韦韬：单纯看技术链路肯定是成本更高，但从整个全链路来看，综合考虑人为因素、技术因素和合规因素等，实际上总成本是更低的。明文计算虽然在初期看似简单，但一旦发生数据泄露，将会带来巨大的损失，包括商业利益的损失和法律风险等。密态计算的研发将引发一场变革。目前，许多数据源方由于担心数据泄露，不敢轻易共享数据。密态计算技术能够使这些原本无法流通的数据得以安全流通，从而充分发挥数据的价值。

提问：随着大模型的问世，人们普遍关注算力速度和价格这两个问题。近两年，许多独立的隐私计算厂商发现生意越发难做。在我们的策略或方法中，当应用到具体的业务场景时，客户通常在哪些方面会采用密态计算？

韦韬：在过去两年中，隐私计算行业进行了大量尝试，主要处于所谓的"桶装水"阶段，实现了点对点的连接。PSI（隐私计算求交）是目前应用最广泛的技术之一，它允许两个机构在保护各自用户隐私的前提下，进行用户群体的交集计算。虽然这种技术在验证单个环节方面表现良好，但其应用范围相对有限，尚未实现数据流转的全链路保护。

在整个研发过程中，数据源方对于数据泄露的担忧仍然很大，这一问题尚未得到有效解决。当前的技术应用在深度和广度上都还不够。如果将"桶装水"阶段的技术扩展到大规模应用，成本将会非常高，而且整个流程缺乏一致性的保障，风险也未能得到有效控制。

王磊：隐私计算商业化之所以不再那么热门，主要有以下两个原因：首先，隐私计算技术目前主要适用于小规模应用，且成本高昂，难以实现规模化，这导致了成本难以降低。只有扩大规模，成本才有望降低。其次，传统的商业模式主要是销售软件，这种高成本的交付模式并不利于隐私计算技术的应用和推广。隐私计算的最终目标是促进数据的安全流通。

我们成立新公司后，也在深入思考这个问题。一方面，我们计划采用云化模式，包括即将推出的隐语Cloud等系列产品。我们认为，只有通过云服务，数据才能真正实现大规模流通，并应用于更复杂的场景，从而实现规模化并降低成本。同时，我们也将在端侧推出相关产品，实现端云协同。

另一方面，我们希望建立一种对结果负责的商业模式。这意味着在数据流通的整个过程中，我们能够确保数据安全，从全链路的角度降低成本和法律风险。我们希望在这个过程中持续获得收益，因为数据价值得到了保障，从而从数据价值中获得利润。

我们希望引入保险公司，它能够起到两个作用：一是作为独立第三方，在事前对产品安全性进行评估，提供数据安全保险；二是在发生不可预见的黑天鹅事件时，提供事后保障。通过这个方式推动整个的产业良性地运作起来。这样的机制将促进整个产业的良性运作。只有商业模式健康运转，技术创新和迭代才能持续健康发展。

提问：在过去几年中，市场上普遍认同了隐私计算技术的重要性，但在技术层面，对其是否为一项必不可少的技术存在分歧。一些专家指出，尽管隐私计算的成本较高，但可能存在性价比更高的替代技术。隐私计算要获得市场机构的广泛认可，是否真的存在迫切的需求？它还需要克服哪些障碍？

韦韬：隐私计算技术的发展轨迹与光伏产业颇为相似。光伏技术刚推出时成本高昂，不可能立即普及到所有行业。然而，随着高需求行业率先采用并推动规模化生产，成本逐渐降低。当光伏发电成本降至与煤电相当的临界点时，它便开始得到广泛应用。

隐私计算同样遵循这一模式，它将首先在高价值数据和场景中得到应用。尽管隐私计算解决的问题并非仅限于高价值数据，但当前数据泄露问题已经非常严重。许多机构的数据在暗网上被交易，造成严重后果。然而，这只是冰山一角，国内黑产的大量数据交易已经不仅限于暗网，这是一个非常危险的现象。数据泄露正在大规模发生，对社会造成巨大伤害，而传统技术路径无法有效保障数据安全。

当高价值数据和场景的行业首先建立起隐私计算体系，并实现规模化以降低成本时，它将能够服务于更多行业。我们认为，每个行业场景的临界点是隐私计算的成本降至数据流通价值的5%左右，这将实现规模化推广。

王磊：我也补充一下，先讲一个概念，我们经常提到密态计算，虽然现在不再提及隐私计算，但隐私计算仍是行业的认知。我们之所以转向密态计算，并非为了炒个新的概念。在大家的印象中，隐私计算更多是基于多方安全计算和联邦安全学习两方做融合，融合的过程中增加保证参与者之间互相不能够窃取到数据。其实在数据大规模流通过程中，很多应用场景并不是这个。

举个很现实的例子，现在公共数据开放面临什么风险？数据要放到外网做开放，这里面可能不涉及到数据融合，但有巨大的风险，这是他们不敢开放的原因。例如，将政务内网的数据转移到外网平台时，如何确保数据的安全性？即使运维公司是可信的，运维人员是否也同样可信？他们是否可能通过拆卸硬盘或其他方式轻易地窃取数据？此外，在数据加工和使用过程中，即使是有正常权限的人员，也可能存在数据泄露的风险。

所以有很多的真正有价值的数据是不敢开放的，一直讲开放，一直很难开放。密态计算通过密态的方式确保运维者没有办法窃取到数据，让数据真正的开放流通起来。

隐私计算之前只应用到整个数据流通当中的一小部分环节，当数据真正大面积流通，我需要做到多方数据融合。我们认为密态计算是下一代的隐私计算，希望解决数据更大规模流通中遇到的真正问题。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。