作者 | 智商掉了一地、ZenMoore
OpenAI – Introducing Superalignment
https://openai.com/blog/introducing-superalignment
新闻速览
方法
-
研发可扩展的训练方法;
-
有效地验证生成的模型;
-
对整体的对齐流程进行严格压力测试。
-
在处理对于人类而言难以评估的任务时,我们可以借助AI系统协助对其他AI系统进行评估(被称为可扩展的监督),来获得有效的训练信号。同时,我们也致力于研究和理解如何让这个模型将监督应用到无法手动进行监督的任务上,以研究其泛化能力。
-
我们会检测系统对齐的准确度,并自动发现任何可能出现的问题行为(这展示其强大的稳定性)以及查明任何可能的潜在内部问题(这是自动解释能力的一部分)。
-
最后,我们可以有意识地训练不对齐的模型,并通过对抗性测试来确认该技术是否能够检测到最严重的对齐失误。以此来有效测试整个流程。
小结
© 版权声明
文章版权归作者所有,未经允许请勿转载。