OpenAI 大神Andrej Karpathy 揭秘大模型原理和训练全过程

一张图读懂 2023-05-30 08:27
336

OpenAI的创始人之一,大神Andrej Karpathy刚在微软Build 2023开发者大会上做了专题演讲:State of GPT(GPT的现状)。

他详细介绍了如何从GPT基础模型一直训练出ChatGPT这样的助手模型(assistant model)。这或许是OpenAI官方第一次详细阐述其大模型内部原理和RLHF训练细节。(图片来自“Web3天空之城”)

其中,Karpathy讲述了AI助手的四个训练阶段:预训练(pre-training)、监督微调(supervised fine tuning)、奖励建模(reward modeling)和强化学习(reinforcement learning)。