面对众多竞争对手的猛烈攻势,在人工智能军备竞赛中稍显落后的谷歌,正在迎头赶上。
刚刚结束的谷歌Cloud Next 2024大会,虽然在一众新闻头条里,声量略显清淡,但谷歌借此展示了它在人工智能领域的一系列创新和已取得的长足进展,尤其是人工智能基础设施上的遥遥领先。
谷歌CEO皮查伊直言:
我们早就知道人工智能将改变每个行业和公司,包括我们自己。这就是为什么我们十多年来一直在构建人工智能基础设施,包括现在已经发展到第五代的TPU。
谷歌强大的基建能显著提高大模型应用的效果
谷歌云CEO库里安强调,谷歌所拥有的强大基础设施,帮助谷歌能为客户提供训练和部署最先进语言模型的能力,站在了人工智能平台变革的最前沿。
在这届谷歌云年度大会上的主题演讲里,谷歌着重强调了其在人工智能基础设施方面的几大优势。
一方面,通过整合谷歌搜索,可以大幅提高大型语言模型的回答质量,显著减少"幻觉"现象。另一方面,谷歌还让客户能够轻松将企业数据库和应用程序中的数据作为模型的知识基础,真正实现AI技术落地,将生成式人工智能与企业现实数据相结合。
例如,在一个演示中,集成谷歌Gemini和BigQuery数据仓库以及Looker商业智能平台之后,工作人员可以收到特定产品即将售罄的警报;利用生成式人工智能,工作人员可以看到销售趋势,找到类似的模型,并制定行动计划来处理库存下降的问题。
在这个案例中,通过谷歌深厚的基础设施服务,大模型不仅能够提供信息,还可以充当一个更易于使用的自然语言界面,用于收集数据,大幅降低了任务所需的时间和知识门槛。
分析人士评论称,过去,谷歌的本质优势是建立在开放互联网和大规模数据处理能力之上,而在当下的人工智能时代,这种本质优势就体现为基础架构和运算规模上的绝对领先地位。而通过这次的Cloud Next大会,谷歌清晰地展示了这一点,可以说是给自身在激烈的人工智能竞争中找到了关键的“本质依靠”。
Gemini 1.5 Pro炸场!超长上下文理解力颠覆AI应用成果
更令人振奋的是,谷歌公布了其新一代Gemini 1.5 Pro大语言模型。该模型较前代产品有了质的飞跃,不仅大幅提升了性能,更能在长上下文理解方面有突破性进展。据库里安介绍:
Gemini 1.5 Pro的性能大幅提升,并在长上下文理解方面取得了突破性进展。这意味着它可以持续运行100万字token,为企业利用人工智能进行创造、发现和构建开辟了新的可能性。
毫无疑问,谷歌拥有业内最为庞大的TPU算力资源,再加上多年来对TPU架构的不断优化和量产,使其能够在芯片、集群乃至整个数据中心级别上并行加速训练和推理,释放出前所未有的计算能力。
传统的transformer架构中,模型的内存需求会随着上下文长度的增加而成指数级增长,这就造成了上下文理解的天花板。而Gemini 1.5 Pro则采用了创新的环形注意力等机制,使内存需求仅与上下文长度呈线性关系,同时还能处理高达1亿个token的超长文本。
这项突破的关键,正是谷歌在基础设施层面的创新能力。凭借其庞大的TPU算力资源,谷歌似乎已经在Gemini 1.5 Pro上完全释放了基础设施的威力。
在会议上的一系列演示中,Gemini 1.5 Pro展现出了无与伦比的上下文理解和生成能力,广泛应用于合规审查、营销内容创作、软件开发等诸多企业级场景。
以合规文件审查为例,工程师直接将需要分析的报告和公司合规手册文件上传到Gemini for Workspaces中,AI就能够基于两份共计150页的长文本,精准地发现提案中存在的合规性问题,而不需要人工费力地逐字比对。
在为户外产品创作营销内容的场景中,工程师直接通过Imagen视觉模型生成了相应的创意图像,然后利用Gemini对企业整个代码库(10万行代码)中的业务逻辑和运营数据进行上下文理解,最终生成出完整的故事板内容。
而在软件开发方面,新工程师加入团队后,Gemini Code Assist功能可以让他们几分钟之内就熟悉整个代码库,并自动实施新功能,确保生成的代码符合公司标准。
谷歌表示:
Gemini的代码转换功能具有完全的代码库意识,可以让企业轻松地对整个代码库进行推理,相比之下,其他模型无法处理超过12000至15000行的代码。
毫无疑问,这种超乎寻常的理解和生成能力,全靠谷歌在基础设施层面的突破性创新。
正如皮查伊所言:
当模型在工作时能够掌握问题的所有上下文时,它就能释放出强大的功能;这只有通过更长的上下文才能实现,而谷歌的基础设施最终实现了这一点。