3. 更新系统提示:把新生成的“教训”加到系统提示中,
问题在于:这条“补丁”是工程师手动加的 。能不能让模型自己通过实践和反思,
2. 人类学习的乳庭乱互换(h)小说差异(机制问题):
人类在学习时并不完全依赖“结果好坏”这种单一信号 。
Karpathy 认为强化学习(RL)在 AI 领域目前很火
3. 更新系统提示:把新生成的“教训”加到系统提示中,
问题在于:这条“补丁”是工程师手动加的 。能不能让模型自己通过实践和反思,
2. 人类学习的乳庭乱互换(h)小说差异(机制问题):
人类在学习时并不完全依赖“结果好坏”这种单一信号 。
Karpathy 认为强化学习(RL)在 AI 领域目前很火