OpenAI首席科学家Ilya Sutskever最近和他的朋友Sven Strohband进行了一次简短的对话。访谈中主要提及了以下几个问题:对深度学习的信仰、对AGI的畅想,Transformer够不够好,让人震惊的涌现能力,安全和对齐,以及对模型创业者的两点建议。
Ilya Sutskever:OpenAI的联合创始人和首席科学家,2005年毕业于多伦多大学,2012年获得CS博士学位。2012年至今,他曾先后就职于斯坦福大学,DNNResearch,Google Brain,从事机器学习与深度学习的相关研究,并于2015年放弃谷歌的高薪职位,与Greg Brockman等人联合创建了OpenAI。
主持人:你从早期开始一直是深度学习的坚定拥趸。你是什么时候产生了这样坚定的信念,认为如果只是不断扩大模型,就会产生非常出乎意料、有趣的行为?早期你是怎么发展出这样的信念的?
Ilya:我认为,要有这种信念,相信大型神经网络可以做出惊人的事情,你需要坚信两件事。其中一种信仰比较难以获得。另一种则比较容易。比较容易的信仰是人类大脑很大。猫的大脑比人类小,昆虫的大脑更小。我们相应地看到,人类能做的事情猫做不了,等等。这一点很容易理解。
比较难以实现的信仰是,也许人工神经元(在人工神经网络中使用的神经元)在基本信息处理方面与生物神经元并没有太大的区别。
当然,生物神经元非常复杂,它做了很多不同的事情。而神经网络涉及到输入信号和输出信号,也许一个相当简单的人工神经元就能解释很多问题。相比之下,生物神经元更加复杂。但是我们可以假设它们足够相似。我们假定,大型神经网络可以完成所有这些惊人的事情。那么能否使其成为现实呢?为此,需要能够进行训练。
这就涉及到一种推理链,在我读研究生时,我和Jeff在思考神经网络,当时认为这种推理链可能更有可能实现(人造神经网络),也更可行。
主持人:关于AGI,你心目中AGI的图景是什么样子的?
IIya:关于 AGI,我们在 OpenAI 有一份文件,称之为 OpenAI 宪章,其中概述了 OpenAI 的目标,并提供了 AGI 的定义。我们认为,AGI 是一种能够自动化大部分智力劳动的计算机系统,这是一个有用的定义。从某种意义上说,AGI 就像一个和人一样聪明的计算机,你可以把它当作你的同事。这是一个比较直观的 AGI 定义。
不过,AGI 这个术语本身也有些含糊,因为 G 代表 general(普适的)。所以,我们在 AGI 中所关心的是泛化性,但事实上我们同时关心泛化性和能力。它既要在泛化性上有所体现,也就是说,当你向它提出问题时,它能够做出合理的回答。同时它的能力也要足够好,这样当你让它做某事或者问它问题时,它能够实际完成任务。
主持人:我喜欢这种比较实际的定义,给了我们度量标准,让你知道距离目标有多远。你认为我们拥有实现AGI所需的所有要素吗?如果没有,目前还缺少什么?Transformer真的是我们所需要的一切吗?
IIya:你知道,我不会对这个问题的回答过于具体,但关于Transformer是否是我们所需要的一切?我认为这个问题有点不对,因为它暗示了某种二元思维,好像在暗示Transformer要么足够好,要么不够好。
但我认为最好的想法是,我们应该把它看作是一种分类,我们有Transformer,它们相当不错。也许我们可以拥有一些更好的东西,可能更有效率,或者可能更快。但是众所周知,当你将Transformer变得更大时,它们仍然可能变得更好。它们或许只是变得更慢了。因此,虽然我完全确定我们有可能在当前的架构基础上有非常显著的改进,但是即使我们没有改进,也能走得非常远。
主持人:你认为算法重要吗?比如LSTM vs. Transformer都可以被高效扩展,最终我们不是到了同样的地方吗?
IIya:我认为,如果我们对LSTM进行一些简单的修改,比如将它们的隐藏状态扩大一些,那么我们就能够取得更好的效果。但是我们需要费一些力气来解决如何训练它们的问题,因为LSTM是递归神经网络,我们有点忘了如何训练它们。我们还没有付出努力去解决这个问题,因为有关神经网络训练,你需要设置超参数,但是你该如何设置呢?不知道。该如何设置学习率呢?如果它还没学到任何东西,你能解释为什么吗?所以,我们对LSTM的这种工作还没有做过,这就使得我们训练它的能力受到了限制。
设想当时加入我们用LSTM进行训练,即使只是简单地增加它们的隐藏状态大小,我认为它仍然不如Transformers好,但如果当初用LSTM,我认为我们的研究仍然可以取得非常大的进展。
主持人:目前我们对于Scaling Law的理解水平怎么样?如果我们将这些模型扩大,你有多大信心能够预测这些特定模型的能力?
IIya:好问题。答案是一般般。这意味着不是很好,但也不是很糟糕。Scaling Law说的是,它是神经网络输入和某种简单易测量、简单易评估的性能指标之间的关系,比如下一个词进行预测的准确性。这种关系非常强。但具有挑战性的是,我们并不真正关心下一个词的预测。我们关心的是其他附加的好处。
举个例子,一旦你能准确预测出下一个单词,你就会得到各种有趣的涌现能力( emergent properties 指的是系统整体表现出来的性质和个体属性之间的关系)。但是预测这些涌现能力一直很难。这是一个有趣的研究课题。
我们在 OpenAI 进行 GPT-4 准备工作时做的一件事,我们试图对一个更有趣的任务进行一个 scaling law,这个任务是预测解决coding问题的准确性。
这是一件相当不错的任务,与预测下一个单词的准确性相比,这是一个更具体的指标,它是解决问题的能力。了解coding准确性、解决coding问题的能力比仅仅预测下一个单词的能力更加相关。这仍然没有回答一个真正重要的问题:预测出一些模型以前从未有过的涌现能力。
当我们达到一定极限时,所有这些性质都会出现,因为我们正在构建一个人类大脑,人类知道如何coding和处理推理任务等等。看到coding能力快速提高,真是一大亮点。
主持人:哪些涌现能力最让你震惊?
IIya:这是一个很难回答的问题,因为人太容易适应事物的现状了。所以确实有很多时候我感到惊讶。对我来说,最大的惊喜是神经网络竟然work。因为当我开始在这个领域工作时,它根本不work。
计算机涌现的代码生成能力确实也让我震惊。当我们达到一定极限时,所有这些性质都会出现,因为我们正在构建一个人类大脑,人类知道如何coding和处理推理任务等等。看到coding能力快速提高,真是一大亮点。
此前有一个叫做代码合成的小领域,可能非常小众,因为他们没有任何成就。他们经历了非常困难的经历。然后神经网络出现了,然后“哦,搞定了,代码合成。”真正实现了曾经有朝一日所希望实现的东西。这就是深度学习。
主持人:只是出于好奇,这些代码有多少是你亲自写的?
IIya:都是合作写的,当然如果神经网络能编写大部分代码,我确实很高兴。
主持人:随着这些模型变得越来越强大,谈论AI安全也是值得的。OpenAI最近发布了一份文件,你是其中的签署者之一。Sam已经在国会作证。关于AI安全,你最担心的是什么?
IIya:是的,我可以谈谈这个问题。退后一步,先谈谈世界的现状。AI研究的进展是令人兴奋的。有了GPT模型,可以玩各种不同的聊天机器人、助手、BARD和聊天GPT。它可以做很多事情,可能会开始担心今天我们拥有的工具的影响,我认为这是非常合理的事情。
但这不是我关注的重点。在未来的几十年里,也就是十年吧,想象一下AI有多强大,这是一个非常棘手的问题。当然,AI未来的力量将会是难以想象的。有了这种无比强大的AI,我们可以做出令人难以置信的事情,甚至是超出我们梦想的领域。但是,当AI的力量越来越强大时,问题也就随之而来。正是由于这种无比强大的力量,安全问题才会浮出水面。
这个问题涉及到三个方面。你刚才提到了我们在OpenAI发布的一封信,我们在信中提出了一些想法,希望能够应对超级智能带来的挑战。什么是超级智能呢?为什么我们选择使用这个术语?超级智能的含义并不仅仅像AGI那样。对于AGI,它类似于一个人,类似于一个同事。超级智能的含义则比这更加强大。当你拥有这样的能力时,我们能否想象它会是什么样子呢?
如果使用得当,它可以用于解决难以想象的难题,从而彻底改善生活质量。但是,正因为超级智能的力量是如此巨大,因此会带来新问题。第一个问题是对齐的科学问题,这个问题已经被广泛讨论。你可以将其看作是核安全的类比。建造一个核反应堆,想要获得能量,需要确保即使发生地震,甚至有人试图撞击它,它也不会崩溃。这就是超级智能安全问题,必须解决才能控制超级智能的巨大能力。这被称为对齐问题。
我们在文章中提出的建议之一是,国际组织可以采取的一个方法是创建各种高水平能力的标准。包括我们的CEO Sam Altman在国会作证时的观点,他主张对AI进行监管。主要意图是在非常高的能力水平上制定规则和标准。你可以从GPT-4开始看起,但这并不是有趣、相关的,而是比那个强大得多的东西。当你拥有如此强大的技术时,显然需要采取措施来控制这种力量。这是我们需要克服的第一个问题和挑战。
第二个需要克服的挑战是,我们是人,我们是有自己利益的人。如果超级智能被人类控制,那么谁知道会发生什么。我希望此时超级智能本身会尝试帮助我们解决它所创造的世界中的挑战。想象一下,一个超级智能能比我们更深刻地看待事物,比我们更好地理解现实,它可以帮助我们解决它所创造的挑战。
第三个挑战,自然选择的挑战。佛教徒认为,变化是唯一不变的(Change is the only constant)。因此,即使你在世界上拥有超级智能,而且我们已经设法解决了它们的对齐问题,也没有人想以非常破坏性的方式使用它们了。我们已经成功创造了一个难以置信的丰饶生活,不仅仅是物质的丰富,还有健康长寿,以及那些我们想都不敢想的事情,因为它们显然是不可能的。
如果你已经到达了这个阶段,那么自然选择的第三个挑战就出现了。事物是会改变的。你知道自然选择适用于思想、组织,这也是一个挑战。
也许人类与AI融合的神经连接解决方案将是应对挑战的一种方式?我不知道。但我想说这描述了我的担忧。具体来说,这些担忧是非常重要的。如果能够克服它们,将非常值得。因为这样我们可以创造出真正难以想象的生活,完全超出想象。所以这是一个非常值得克服的挑战。
主持人:作为一名德国人,我非常喜欢这个想法,即必须设定一个门槛,超过这个门槛就应该引起注意,因为如果像欧洲风格的监管一样,往往来自那些对该领域不是很了解的人,你也可能会完全扼杀创新,这会有点可惜。
主持人:这个房间里大多数人都是创业者,其中很多人正在使用OpenAI的工具。从实际角度来说,对于那些正在基于大型语言模型构建应用的人,你会给他们什么建议或提示呢?比如,让他们在使用这些模型时需要阅读和思考哪些经典的东西?
IIya:我虽然站的角度不同,不过我认为有两件事值得记住。有两点是显而易见的,一是某种特殊的数据,完全无法在其他地方找到的数据。这可以极大地帮助我们。
而我认为第二点是要时刻牢记,不仅考虑事物现在的状态,还要考虑两年或四年后的发展,并尝试为此做出计划。我认为这两点非常有帮助。数据在今天是有用的,但是稍微尝试相信一下自己的直觉,想象一下三年后事物的发展方向,以及它将如何影响产品的基本假设,这也是有帮助的。
比如说你在玩一个模型,如果这个模型可靠的话,可以做出非常酷和惊人的事情。但一旦它的效果不行,你可能很快就把它忘了。“它没有用。”这种事情是可以改变的。你可以想象,把不可靠的模型变得可靠会怎么样?比如说,你去体验下某个模型,看看人们分享的东西,你会说,好酷啊,有时候能work。如果它能一直work,会怎么样呢?我认为这些思想实验可以帮助我们为近中期的未来做好准备。
主持人:这是非常好的建议。请和我一起感谢Ilya。非常感谢。