LOADING STUFF...

“多模态模型可能是大模型的终局” | 涛滔不绝

AI资讯6个月前发布 shuangyan
2 0

【CSDN 编者按】这一年,大模型热潮迭起,1000天以后,5000天以后我们将面对什么,大模型会将人类带向何处?

 

对话嘉宾:

蒋涛,CSDN 创始人&董事长,中国开源软件推进联盟副主席曾领导开发了巨人手写电脑、金山词霸和超级解霸。1999 年创办 CSDN。CSDN 是中国专业开发者社区平台,全球开发者社区网站排名第二,目前注册会员超过 4700 万,覆盖全球 95 %中文开发者群体。在开源开放的新时代,CSDN 致力于打造开发者工具生产力入口,共建中国十万亿技术大生态。

颜水成,现任昆仑万维天工智能联席 CEO 和 2050 全球研究院院长是一位在计算机视觉和机器学习领域享有国际声誉的专家,曾任 360 集团人工智能研究院院长、首席科学家,依图科技首席技术官,并曾在 Sea 集团担任首席科学家;他是新加坡工程院院士、AAAI Fellow、ACM Fellow、IEEE Fellow、IAPR Fellow 等多个国际学术组织的成员。颜水成的研究领域包括计算机视觉、机器学习、深度学习等,在顶级国际学术期刊和会议上发表的论文引用量超过 90,000 次, H-index 超过 140,八次被评为年度全球“高被引科学家”。

作者 | 何苗       
出品 | CSDN(ID:CSDNnews)
计算机视觉、机器学习领域国际顶级专家颜水成在学术界钻研 8 年、工业界实践 8 年,今年 9 月正式宣布加入昆仑万维,出任天工智能联席 CEO,并兼任昆仑万维 2050 全球研究院院长。 
长期以来,业界的目光聚集于他,为什么是昆仑万维?对人工智能领域而言意味着什么?在大模型火热发展的当下,他试图以 Foundation Models(基座大模型)为基准点,探寻通往通用人工智能领域的道路。 
自昆仑万维的天工大模型在今年 4 月正式发布并启动邀请测试以来,一直以较快的节奏发布更新,也始终在百模大战中保持着一定的竞争力。11 月,「天工」大模型通过《生成式人工智能服务管理暂行办法》备案,面向全社会开放服务。紧接着,昆仑万维正式开源了「天工 Skywork-13B 系列」。13B,在颜水成看来是最适合商用的尺寸,未来将迸发出多大能量?他一直追求学术界和工业界的 Double Satisfactions,产学研的有机结合能否在 Foundation Models 领域结出硕果?令人期待~ 
本期《涛滔不绝》,CSDN 创始人&董事长、中国开源软件推进联盟副主席蒋涛与天工智能联席 CEO、兼任昆仑万维 2050 全球研究院院长颜水成,从 AGI 的本质谈到基座大模型的重要性,从基座大模型到“更高一层”的 Agent 智能体,带领我们探寻 AI 发展更高维度的世界。 

AGI 未来会是所有数字系统的底座 
蒋涛:当前国内外有各种开源大模型扎堆涌现,中国也面临着百模大战,昆仑万维在今年 11 月正式开源「天工 Skywork-13B 系列」,为什么那么多企业要做基座大模型? 
颜水成:业界探索基座大模型的核心可能认为它是未来 AGI 的核心。未来 AI 的能力都会由基座大模型产生。
AGI 是人工智能领域的一个最重要的方向,它的目标是实现通用的人工智能。而基座大模型正是这个目标的关键所在。通过构建一个通用的知识平台,我们可以将人工智能的能力扩展到更多的领域,实现更广泛的应用。当然你也可以围绕大模型去做周边应用,或者垂直的场景,但如果真的打算拥抱 AGI,就必须真正触及基座大模型。另一方面,无论是大、小公司,也都希望在 AGI 最核心的部分展现自己的实力。 
蒋涛:AGI 未来会是所有数字系统的底座,或者是新一代操作系统吗? 
颜水成:可以这样理解。AGI 很有可能成为新一代的操作系统,但这个过程需要时间。AGI 的目标是实现通用的人工智能,它需要整合各种技术和资源,包括计算机视觉、自然语言处理、语音识别等领域。只有当 AGI 能够实现这些技术的无缝集成和协同工作时,它才能成为新一代的操作系统。 
在深度学习那一代通常涉及一个垂直领域,我们可以利用垂直领域的数据进行分析。现在趋势不同了,我们可能首先要构建一个基座大模型。在文本领域和其他领域,基础模型已经包含了通用知识。这样在前往另一个领域时,不再仅依赖该领域的知识,而是将基座模型的能力迁移到垂直领域即可。 
蒋涛:想要加入 AGI 领域的年轻人需要具备哪些能力? 
颜水成:首先要具备扎实的计算机科学和数学基础。此外,他们还需要具备创新思维和敏锐的洞察力,以便在 AGI 领域的研究和应用中取得突破。同时,他们还需要具备勇于探索和挑战的精神,积极面对新技术和新领域带来的挑战和机遇。 

“我们仍未到达基座大模型的临界点” 
蒋涛:能详细谈谈什么是基座大模型吗?为什么它在中国如此重要? 
颜水成:基座大模型是构建在通用知识上的大型语言模型。它的核心理念是利用人类的通识知识,通过不断地学习和训练,实现更广泛的应用。在中国百模大战的局面下,建立基座大模型的重要性就显而易见了。 
蒋涛:你认为我们需要多少个基座大模型? 
颜水成:早期,大家可能认为一个基座大模型就可以应用于不同场景,但实际上仍存在一些问题。你会发现,如果将所有场景和知识都用一个基座大模型来操作,推理成本会非常高,用户需要支付的费用也会很高。在当前场景下,相对现实的情况是,让基座大模型体量偏向中型或小型。在一个垂直领域里,利用数据进行 fine tuning,然后获取垂域里的数据,训练得到一个相对较小的模型。可以在保证模型效果不错的情况下,大幅降低推理成本,商业应用也做得更好。4B、5B 属于中型,70B 和 100B 算是中大型了,在 13B 的模型很多场景下,推理成本会更容易接受。 
蒋涛:不同参数量的模型能力存在差距,千亿参数的模型明显出现了质变,涌现能力出现了。国内外都在努力拼数据量,参数不断提升的同时,能力一定随之提升吗? 
颜水成:在中国,我们还没有达到数据和模型大小的稳态,在数据不断增加、算力和资源不断提升以及模型大小不断提升的情况下,模型最终展现的综合能力仍在不断提升,也就是说中国还没有达到临界点。到达临界点以后意味着,即便再增加资源进去,模型的能力也不会再增加。也许一两年内我们都无法达到这个临界点。 
蒋涛:大模型下一步的发展方向是? 
颜水成:从大模型向多模态模型迁移是一大趋势。在迁移时,通常会将图像或声音 Token 化,之后将其串联起来形成一个长序列,它代表了原始图像或声音的数字化表示。业界期待大部分问题未来可以通过 Token generation 的形式解决,文本是一个起点,多模态模型可能是大模型的最终结局。 

国内企业与 OpenAI 的差距,不止是 500 块 GPU 
蒋涛:你有很多跨国经历,可以谈谈当前国内大模型与 LLaMA 2 等开源模型相比,差距在哪里吗? 
颜水成:在几个月前,你可能会感觉到还有较大差距。但近几个月,你会发现国内陆续发布的模型在能力维度上已经有所提升,展现出可以与之抗衡的实力。我认为到年底,可能会有好几个公司推出新的模型,其性能将与之持平。 
OpenAI 的首席科学家曾表示,大模型的性能都是由各种小的 trick 逐步堆积起来的,数据量、数据质量和数据配比是非常重要的。另一个方面是训练系统,效率非常重要,包括硬件和软件两个维度。硬件可能有性能天花板,而软件如果配置和操作优化都比较好,是能够发挥出硬件的极限能力的。还有很多各具特色的优化器可以结合起来,提升性能。 
蒋涛:所以对国内来说,追平只是时间和迭代的问题吗? 
颜水成:当前业界的共识,要追赶到 GPT-3.5 水平,中国还是有很大可能性的,剩下的只是时间问题,需要不断趟坑、做实验,逐渐了解通往 GPT-3.5 的路线。但要实现这个目标的周期可能会比 OpenAI 用时更长。毕竟在中国,无论是哪家公司,在人才密度上与 OpenAI 相比差距都非常大。同时,OpenAI 的算力资源也要高出一个量级,据说平均每个人有 500 块 GPU 资源可以进行各种实验。在中国,当前大部分公司可能几个人共有 500 块 GPU 资源。 
蒋涛:这里的人才密度是指 AI 研究工程师还是 infrastructure 工程师?如果人才数量固定,那么配套的资源和方向更为关键吗? 
颜水成:要想把人“练出来”必须要投入。就像训练飞行员一样,需要投入足量资源。一方面,由于资金和设备有限,我们训练出真正强的人才数量非常少。另一方面,我们现在面临的是外部竞争,团队过多且分散。如果卡能集中,说不定效果会更好一点。
蒋涛:国内有可能在多模态阶段与美国同步吗?
颜水成:我个人认为在多模态的方法论上,亚洲不算落后,但从单模态向多模态发展时,最大的问题还在数据方面。要想获取多模态数据,中国目前在质量上会落后不少。另外,当单模态向多模态转变,处理视频时实际所需的算力资源会成倍增加。本来我们在算力资源方面还存在距离。
中文语料的质量与英文预料还是有差距。一方面是因为在互联网上发布文本或信息的特点,中国与美国有所不同,我们需要对这些数据进行清洗。另一方面,在视频领域,优质的视频生产量、用户和交互量都与美国有差距。这也导致我们面临较大挑战。 

关于昆仑万维:迈过人工智能的奇点 
蒋涛:昆仑万维从 2020 年开始布局 AIGC 和大模型领域,其创始人周亚辉是如何看待大模型问题?你为何在今年选择加入其中?
颜水成:在学术界钻研 8 年,工业界实践了 8 年后,我选择来到昆仑万维展开通用人工智能的研究,同时建立 2050 全球研究院,在新加坡、英国剑桥以及硅谷建立相应分院。原因有几个方面。
我认为昆仑万维创始人的前瞻性非常好。昆仑万维在最初探索大模型时,大约在 2020 年,即 GPT-3 刚出炉时,其惊人的效果让几位创始人感受到 AI 新时代即将到来,应该向此前进这也导致昆仑万维一大优势在许多重要方向刚刚萌芽时,创始人已经提前布局。 
它的另一个特点是现有业务中 80%多的收入来自海外,包括 Opera、游戏以及一些娱乐类产品,在全球范围内,如东南亚、非洲地区也发展得非常好。
我决定加入还有一个重要原因,在中国香港、美国和新加坡等地方都待过的我,很喜欢具有全球化背景的企业,带来很多新机会的同时,也能让 AGI 技术在不同国家发挥其优势。 
蒋涛:创立 2050 全球研究院的目的是什么? 
颜水成:昆仑万维创始人周亚辉曾提到,有一本书中预测,人工智能的奇点可能是 2049 年。我们将研究院命名为 2050,意味着期待团队走在通往通用人工智能的正确道路上,并且能够迈过那个奇点。我们要跨过通用人工智能到来的那一天。 
蒋涛:今年被称为 AGI 元年,你怎么看昆仑万维是如何布局的? 
颜水成:在我看来,AGI 的真正表现形式是 Agent, 是一个智能体。智能体可以利用大模型、真实的人、其他智能体以及从虚拟世界中获取的各种工具,完成人类下达的任何一个任务。现在的大模型实际上是大脑知识库的压缩,而 Agent 相当于一个与人对等的实体。在我看来,Agent 比基座大模型要更高一层。非常重要的一点是:Agent 需要具备自我演化能力,这意味着,Agent 可以借助与所处环境的交互进一步提升自己的智能。 
2050 研究院的创始人希望公司坚持长期主义。在新加坡、英国伦敦以及美国硅谷三个不同的地方设立了研究院,伦敦实行完全的长期主义,主要做前沿研究,对当前业务没有直接作用,但有助于投资和未来布局。在新加坡和硅谷,更偏向于 AGI 研究。关注两个维度,一个维度是基座大模型 2.0,另一个维度是 Agent。 
基座大模型 2.0 也分为三个方向:下一代的基座大模型的结构及其应用;推理和训练效率提升;大模型理论问题,针对可解释性等相关方向进行研究。 
而 Agent 我们将其分为两个部分:一个是虚拟世界的 Agent,即将业务或场景数字化后,在数字世界中的存在的 Agent。另一个是物理世界的 Agent,它需要与移动设备打通,利用移动设备上的多模态信息如视觉、听觉和触觉等,然后根据指令调用特定模型,决定下一步应该做什么事情。
这两条线会同时向前推进。我们希望研究、研发和产品三者能够实现一致性。 
蒋涛:昆仑万维有哪些地方应用了 AIGC? 
颜水成:我们的 AI 业务线分为六条线,天工大模型、AI 搜索、AI 游戏、AI 音乐、AI 动漫、AI 社交。这六条线都是以新的产品向前推进,大部分产品都处于可以内测的状态。 
我非常兴奋的一点是,昆仑万维不仅专注于做模型,还推出新产品来牵引研发和研究向前发展,现在的问题是产研是否能打通。 

追求学术界与工业界的双重满足 
蒋涛:在 AI 领域,尤其需要学者的共同努力。在学术研究与实际工程化之间,如何实现有机结合? 
颜水成:我一直追求在学术界和工业界的双重满足,尽管客观上较难,但在我的学生中,确实有很多人做得非常好。 
我认为学者与工程师还是有一些分工比较好,让学者集中于“从 0 到 1”的工作,而工程师专注于“1 到 100”的工作。因为学者倾向于长期探索,创造一种可能性,工程师则更希望短期内能快速落地,需要将工匠精神发挥到极致。一个团队里这两种人都不可或缺,聚集在一起才能确保研究进度和完备性。 
蒋涛:在大模型团队里怎样的配比更好? 
颜水成:在大模型团队里,工程能力可能更重要,学者与工程师的配比至少是 1:3。业界认为大模型已经逐渐成为一种工程问题,想实现 GPT-3.5,我也认为工程问题非常关键。

技术的发展正在超越想象力的边界 
蒋涛:在多模态取得突破后,Agent 是否会有较大进展? 
颜水成:进展会非常大,在接下来的三年里,Virtual Agent 可能会占主流,主要原因是需要的多模态数据是有基础的。如果是研究 physical Agent,就需要与物理世界相互作用,但是出于安全性顾虑,获取大量数据的可能性会相对小很多。尽管 Simulation to Real 可以解决将模拟环境中的算法迁移到真实世界中的问题,但这需要更长的时间。距离 Physical Agent 真正大规模到来应该还需 10 年,才能初见端倪。 
Agent 在技术路线上并非遥不可及。我经常举个例子,大约在 7 年前,有个学生告诉我,他想做一个项目:输入文本直接产生图像。当时我训了他一顿,认为这是 impossible mission。但现在,文生图的问题基本上已经解决了。从未来的 7 年来看,我们有足够长的时间来产生一代技术的变革。
颜水成:如果全面考虑生活的各个维度,未来你最想要让 AGI 为你提供哪些功能? 
蒋涛:我需要一个机器人扩展自己的能力边界。可以通过 Agent 办很多事,所有事情变得越来越智能。从前看科幻小说,经常会想象有个小精灵在旁边随时帮助我,那是我最想要的。 
蒋涛:未来的 1000 天会如何?以及 5000 天后会如何?
颜水成:如果是 1000 天,可能 Virtual Agent 已经开始大行其道,而 5000 天,可能是 Physical Agent 已经开始步入我们的视野了。
未来,在电脑和手机上,它们能帮你非常智能地完成各种任务。带上苹果公司的 vision PRO,迅速完成各种事情,在 1000 天的时间尺度上,我认为值得期待。如果是 5000 天, Physical Agent 可能已经到了一个相对可用的时代,即已经有一些可以服务人的成熟产品。

推荐阅读:

© 版权声明

相关文章