2024 AI新趋势：不止“大语言模型”，扩散模型也飞速成长

硬AI

2024/01/26 17:16

“2024年AI基础设施将分为两大主角：大型语言模型和扩散模型。”

2023 年，是各类AI工具风起云涌的一年，它创造了无数的新机会和新风口，打响了迈向人工智能时代的冲锋号。

提起AI，很多朋友首先映入脑海的便是ChatGPT、文心一言等文本类大模型应用。事实上，AI的世界远不止大模型，还有很多同样伟大的创造和应用。

例如，过去一年，扩散模型在AI 绘图、视频等领域的应用实现了大幅度的飞跃。基于扩散模型的Midjourney、Stable Diffusion、Ideogram、Runway在创意、设计领域大放异彩，愈发成为创意工作者日常工作流中不可或缺的一个部分。

因此，著名风投机构a16z的合伙人Jennifer Li和Yoko今日大胆预测：

“2024年AI基础设施将分为两大主角：大型语言模型（LLM）和扩散模型，为创意市场提供支持的开发者工具将获得巨大的增长。”

今天，我们就结合Jennifer Li和Yoko的分析，简单聊聊扩散模型与LLM有什么差异、开发者基于扩散模型建立应用的时候又有哪些值得注意的关键点？

1、LLM与扩散模型的两大关键差异

Jennifer Li和Yoko认为，LLM和扩散模型存在两大关键差异，值得投资者与开发者关注。

一是工作负载的不同。

Yoko认为，二者需要不同的工具和不同处理方式，这将引领一轮基础设施的变革，就像过去事务型数据库与分析型数据库、批处理与流处理那样：

“目前，LLM在应用端主要通过LangChain和 llamaindex。来到扩散模型这边，根据应用端具体用例不同，延迟和计算需求也完全不同。”

例如，同样基于扩散模型，Krea AI到Fai_ai等工具流程相对简单，工作负载相对较低；而ComfyUI这类将模型与低延迟基础设施、定制化工作流程相结合，来解决实际问题的产品，还是比较有挑战性的。

二是“社区氛围”不同。

Yoko认为，LLM更多地服务于企业级应用，如信息检索、问答系统等；而扩散模型则在创意社区中大放异彩，吸引了大量热爱在Windows机器上运行模型和工作流程的创意人士。

2、抓住扩散模型“狂飙”机遇？你需要注意这些

作为开发者，我们应该如何抓住扩散模型“狂飙”的机遇，打造未来的AI“独角兽”呢？Yoko认为，以下是一些值得注意的关键点：

1、初始工作负载可能会大幅波动：由于生成具有视觉吸引力的输出很容易，所以初期负载可能会很高。随后，用户的参与度会不断变化，因此选择像inngest、upstash 这样的无服务器工具“非常重要”。

2、监控消耗和定制用例的“幂律分布”：少数用户将产生大部分负载，而大多数开发者可能不会在平台上进行太多定制内容。

3、如何长时间的工作负载提供支持：例如，当用户的生成准备就绪（这可能需要很长时间）时通知用户，或者如果第一步失败就开始重新生成。开发者需要考虑如何管理这些工作负载，例如使用 inngest 来通知用户生成结果。

4、不要自己构建实时功能。Yoko认为，这是一个复杂且痛苦的过程，且并非所有开发者都知道如何跨区域构建可靠的分布式系统并针对超低延迟进行优化。因此，Yoko建议，可以考虑使用像 liveblocks、trydaily 这样的工具来帮助开发。

3、2023 AI图片、视频领域大事记

2023年，绘图、视频等领域的应用实现了大幅度的飞跃。

ICCV23 最佳论文《Adding Conditional Control to Text-to-Image Diffusion Models》提出了 ControlNet 的模型，只需给预训练扩散模型增加一个额外的输入，就能控制它生成的细节。该模型提供了 openpose、depth、canny 等多种预训练模型，可以实现对生成过程姿态、深度、边缘等多种信息的控制，增强了生成内容的可控性，减少了随机性，走出了迈向商用的关键一步。

来到2023 年 7 月份，《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning》论文，提出 AnimateDiff 通用方法，可以一次性为大多数现有的个性化文本转图像模型提供动画化能力，且无需进行特定模型调整，此外它还实现了无闪烁视频生成的方法，AI 进入视频时代。12 月份，发布 AnimateDiff V3，进一步提升视频生成质量。

同在 7 月份，Stable Diffusion XL 1.0 版本发布，对原有 SD 进行了全面升级，生图的质量进一步增强，难度进一步降低。后续的几个月中，又陆续更新了微调训练、Lora、SDXL Turbo 模型等。

9 月份，《IP-Adapter： Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models》发布，垫图神器，不再需要复杂的 Lora 和 Prompt，只需一张图片，就可以完美还原所需，大大降低了 Lora 训练的成本和生图难度。

11 月份，清华大学发布的《LCMs: The next generation of generative models after Latent Diffusion Models (LDMs)》论文中提出 Latent Consistency Models（潜一致性模型），简称 LCM 模型，将生图速度提升 5~10 倍，可以实现秒级生图，实时性 AI 生成得以实现。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。