-
一个模型在多大程度上具有某些“危险的能力”,威胁安全,施加影响,或逃避监督。
-
模型在多大程度上容易使用其能力来造成伤害(即模型的对齐水平)。有必要确认模型即使在非常广泛的情况下也能按预期行事,并且在可能的情况下,应该检查模型的内部运作情况。
-
负责任的训练:负责任地决定是否以及如何训练一个显示出早期风险迹象的新模型。
-
负责任的部署:对是否、何时以及如何部署有潜在风险的模型做出负责任的决定。
-
透明度:向利益相关者报告有用的和可操作的信息,以帮助他们应对或减少潜在的风险。
-
适当的安全:强大的信息安全控制和系统适用于可能构成极端风险的模型。
© 版权声明
文章版权归作者所有,未经允许请勿转载。