a16z对话OpenAI CTO:从理论到实践 AI技术如何驱动未来创新?

撰文:Saint Paul

2022年底OpenAI发布ChatGPT后,投资领域对于人工智能领域的认知不断加深。人工智能产业链大致可以分为核心技术提供商、人工智能系统和人工智能应用者。从全球投资人的普遍认知来看,现在大家都意识到人工智能很可能成为未来长时间的投资赛道,类似于30年前的计算机,或者20年前的互联网。并且对于未来而言,应用已经成为现实。

对于细分领域投资的理解,我们永远需要向产业的投资人学习。知名风险投资人A16Z持续在人工智能领域下重注。最近他们对话了OpenAI的CTO,米拉·穆拉蒂(Mira Murati)。她分享了ChatGPT背后的故事,以及人工智能和人机交互的未来。

摘要

  • ChatGPT的起源于思考如何制造一个安全的人工智能系统,利用人类反馈进行强化学习。

  • OpenAI正在重新定义人们与数字信息互动,成为一个类似于伙伴的助手,不断加强人工智能系统的一致和安全性。通过产品化的形势,获得与来自现实世界的用户的反馈,就不仅仅是坐在实验室里YY。

  • ChatGPT在文本的基础上,正在添加图像、视频和其他等。这样模型可以更全面地了解我们周围的世界,类似于我们理解和观察世界的方式。

  • 虽然未来不会有单一模型一统天下的局面,因为人们最终会寻找最适合自己需要的工具。

米拉(Mira Murati)背景

米拉出生在共产主义刚刚结束的阿尔巴尼亚。当时的阿尔巴尼亚和今天的朝鲜很相似。在一个不断变革、不确定的时代,教育是一切的关键。而且,当时除了书籍之外,几乎没有什么娱乐。当时的米拉在书籍中寻找答案。米拉更倾向于科学中那些稳定的、可以深入研究的真理。而人文学科,如历史和社会学的来源是可疑的,因为历史在不断变化。所以,米拉在成长环境中的直觉和自然倾向于科学和数学。从根本上来说,现在在Open AI,米拉从事的仍然是数学工作。

由于优异的学习成绩,米拉拿到奖学金,并在加拿大完成了高中最后两年学业。

上大学时,米拉学的是机械工程,因为她认为这是将知识应用于真实世界中解决实际问题的最佳方式。当时的米拉对带给世界可持续交通以及可持续能源的方式非常感兴趣。当时她的毕业项目是通过超级电容建造一辆混合动力赛车。

不久之后,米拉就加入了特斯拉工作,并参与了Model S双电机的工作。她从最初设计的早期就开始使用Model X,并最终领导了整个项目的启动。

也正是在特斯拉的工作,让米拉对人工智能的应用非常感兴趣的开始,特别是自动驾驶。因为它可以利用 AI 和计算机视觉来彻底改变出行方式。她开始更多地思考人工智能的不同应用。所以,米拉对AI 以及它在世界上可以产生的变化越来越感兴趣。

具体而言,她对 AI 如何影响人机互动,以及人与信息总体互动的方式非常好奇,并且对空间计算非常感兴趣。之后,她加入了一家黑科技企业Leap Motion,担任产品和工程副总裁。也正是这段经历,进一步强化了她的产品化能力。

(顺便提一句,Leap Motion的创始人,David Holz,就是在卖掉Leap Motion后,创办了现在另一个大火特火的人工智能应用Midjourney)。

2018年,米拉加入OpenAI。从那时起,她开始更多地思考如果只关注通用性会发生什么。

另外,从米拉在讨论研究方法中,可以看到她对于科技创新中在不确定的环境中需要的探索精神:

  • 有时你睡了一觉,醒来后就有了新的想法。在几天或几周的过程中,你会得到最终的解决方案。这不是一个快速的回报,有时也不是迭代的。

  • 这几乎就像是一种不同的思维方式,你在建立直觉,但也有处理问题并相信自己会解决问题的纪律。随着时间的推移,你会建立一种直觉,知道什么问题才是真正需要解决的问题。

对话摘要

知名风险投资人A16Z在人工智能领域下了重注。以下部分摘录了A16Z的基金经理马丁与米拉的对话。米拉分享了ChatGPT背后的故事,以及人工智能和人机交互的未来。我们也可以看到,身为产品经理背景的米拉对于产品的应用性是极其关注的。

马丁:你认为现在更多的是系统问题还是工程问题?

米拉:两者都有。系统和工程问题是巨大的,我们正在部署这些技术,并试图扩展它们,使它们更高效,并使它们易于访问。这意味着你不需要知道ML的复杂性就可以使用它们。

实际上,我们可以看到通过API提供这些模型与通过ChatGPT提供技术之间的对比。这是一项基本相同的技术,可能有一点不同,即ChatGPT具备强化学习和人类反馈能力。这意味着人们的反应和抓住人们想象力的能力,以及让他们每天使用这项技术的能力,是完全不同的。

自然语言接口

马丁:我也认为ChatGPT的API是一件非常有趣的事情。每当我在程序中使用这些模型时,我总是觉得自己在用算盘包裹了一台超级计算机。有时我会说,“我会给模型一个键盘和鼠标,让它来编程。”API是英文的,我会告诉它该做什么,它会完成所有的编程。我很好奇,当你设计像ChatGPT这样的东西时,你是否认为随着时间的推移,实际的界面将是自然语言,或者你认为程序仍然有很大的作用?

米拉:编程在ChatGPT中变得不那么抽象了,我们可以用自然语言在高带宽下与计算机交谈。但也许另一个载体是,这项技术正在帮助我们了解如何与它真正合作,而不是对它进行编程。编程层变得越来越容易,越来越容易访问,因为你可以用自然语言编程。但我们在ChatGPT中看到的另一面是,你实际上可以像合作伙伴或同事一样与模型合作。

马丁:随着时间的推移看看会发生什么会很有趣。您已经决定在ChatGTP中拥有API,但作为同事,您没有API。你和一位同事交谈。随着时间的推移,这些东西可能会演变成说自然语言。或者你认为系统中是否总需要有一个组件是有限状态机(finite state machine),或者说一台传统的计算机?

米拉:现在是一个转折点,我们正在重新定义我们如何与数字信息互动,我们正是通过这些人工智能系统的形式进行合作。也许我们有几个人工智能系统,也许他们都有不同的能力。也许我们有一个通用系统,他到处跟着我们,知道我的背景,我今天做了什么,我在生活和工作中的目标是什么,帮助我度过难关,指导我等等。你可以想象,这是超级强大的。

现在,我们正处于重新定义它的拐点。我们不知道未来会是什么样子,我们正在努力让许多其他人可以使用这些工具和技术,这样他们就可以进行实验,我们可以看到会发生什么。这是我们从一开始就使用的策略。

在前一周的ChatGPT中,我们担心它不够好。我们都看到了发生的事情。我们把它放在那里,然后人们告诉我们,它在发现新的案例做的非常好。当你让这些东西变得易于访问和使用,并让每个人都容易使用它时,就会发生这种情况。

OpenAI发展路线图

马丁:当谈到人工智能时,人们还不知道如何思考。必须有一些指导,你必须做出一些选择。你在OpenAI,你必须决定下一步要做什么。如果你能走过这个决策过程:你如何决定做什么,关注什么,发布什么,或者如何定位?

米拉:如果你考虑ChatGPT是如何诞生的,它并不是我们想要推出的产品。事实上,它的真正根源可以追溯到5年多前,当时我们正在思考如何制造一个安全的人工智能系统。你不一定希望人类真正编写目标函数,因为你不想为复杂的目标函数让替代者来做,或者说你不想出错,因为这可能非常危险。

这就是利用人类反馈进行强化学习的地方。我们试图真正实现的是使人工智能系统与人类价值观相一致,并让它接受人类的反馈。根据人类的反馈,它更有可能做正确的事情,而不太可能做你不想做的事情。然后,在我们开发出GPT-3并将其发布在API之后,这是我们第一次将安全研究真正应用到现实世界中。这是通过指令引导模型(instruction-following model)的实现的。

我们使用这种方法从使用API的客户那里获得提示,然后我们让承包商为模型生成反馈以供学习。我们根据这些数据对模型进行了微调,并构建了遵循指令的模型。他们更有可能遵循用户的意图,做你真正希望它做的事情。这非常强大,因为人工智能安全不仅仅是你坐在那里谈论的理论概念。它实际上变成了:我们现在要进入人工智能安全系统时代了,你如何将其融入现实世界?

显然,在大型语言模型中,我们看到了概念和现实世界思想的伟大表现。但在产出方面,存在很多问题。最大的问题之一显然是幻觉(hallucination)。我们一直在研究幻觉和真实性的问题。如何让这些模型表达不确定性?

ChatGPT的前身实际上是另一个我们称之为WebGPT的项目,它使用检索来获取信息和引用来源。这个项目最终变成了ChatGPT,因为我们认为对话很特别。它允许你提出问题,纠正对方,并表达不确定性。

马丁:不断发现错误,因为你在互动…

米拉:没错,有这种互动,你可以了解更深层的真相。我们开始往这个方向走,当时我们用GPT-3和GPT-3.5来做这件事。从安全角度来看,我们对此感到非常兴奋。但人们忘记的一件事是,在这个时候,我们已经训练了GPT-4。在OpenAI内部,我们对GPT-4感到非常兴奋,并将ChatGPT放在了后视镜中。然后我们意识到,“我们将花6个月的时间来关注GPT-4一致和安全性(alignment and safety),”我们开始思考我们可以做的事情。其中一件主要的事情实际上是将ChatGPT交给研究人员,他们可以给我们反馈,因为我们有了这种对话模式。最初的目的是从研究人员那里获得反馈,并使用它使GPT-4更一致、更安全、更健壮、更可靠。

马丁:你说一致和安全性时,你是否包括它是正确的,它想做什么就做什么?或者你的意思是安全,实际上是保护自己免受某种伤害?

米拉:我所说的一致,通常是指它符合用户的意图,所以它做的正是你希望它做的事情。但安全也包括其他事情,比如滥用,用户故意试图使用模型来制造有害的输出。通过ChatGPT,我们实际上正在努力使模型更有可能做你希望它做的事情,使其更加一致。我们还想弄清楚幻觉(hallucination)的问题,这显然是一个极其困难的问题。

我认为,这种利用人类反馈进行强化学习的方法,如果我们努力做到这一点,也许这就是我们所需要的。

马丁:所以,没有宏伟的计划?我们需要做什么才能达到AGI?这只是一步接一步进行下去。

米拉:是的。还有你一路上做的所有小决定。也许是因为几年前我们确实做出了一个追求产品的战略决定,才更有可能实现这一目标。我们这样做是因为我们认为,如果没有来自现实世界的用户的反馈,就不可能仅仅坐在实验室里在真空中开发这些东西。这就是假设。我认为这有助于我们做出其中的一些决定,并构建底层基础设施,以便我们最终能够部署像ChatGPT这样的东西。

比例定律

马丁:你可以重复一下比例定律。我认为这是每个人都有的大问题。进步的速度是惊人的。但人工智能的历史似乎是,你在某个时候会遇到回报递减,这不是参数化的。它有点逐渐减少。从你的角度来看(这可能是整个行业最明智的角度)你认为比例定律会成立,我们会继续看到进步,还是认为我们正在走向回报递减?

米拉:没有任何证据表明,随着我们继续在数据和计算轴上扩展模型,我们不会得到更好、更强大的模型。是否会一路走到AGI(通用人工智能),这是一个不同的问题。在这一过程中,可能还需要一些其他的突破和进步。要想真正从这些更大的模型中获得很多好处,缩放定律还有很长的路要走。

马丁:你是如何定义AGI的?

米拉:在我们的OpenAI章程中。我们把它定义为一个能够自主完成大部分智力工作的计算机系统。

马丁:我当时在吃午饭,Anyscale的Robert Nishihara也在。他问了一个我称之为Robert Nishihara之问的问题。我认为这实际上是一个很好的刻画。他说:“计算机和爱因斯坦之间有一个连续体。你从计算机到猫,从猫到普通人,从普通人到爱因斯坦。”然后他问了一个问题,“我们在连续体上的位置?什么问题会得到解决?”

大家一致认为,我们知道如何从一只猫变成一个普通人。我们不知道如何从电脑变成猫,因为这是普遍的感知问题。我们已经很接近了,但我们还没有完全达到,我们真的不知道如何做爱因斯坦,这就是设定推理。

米拉:通过微调,你可以得到很多,但总的来说,我认为,在大多数任务中,我们现在是实习生级别的。问题在于可靠性。你不能完全依赖系统来做你想让它一直做的事情。在很多任务中,它做不到。如何随着时间的推移提高可靠性,然后,扩展这些模型可以做的新功能?

我认为关注这些新兴能力很重要,即使它们非常不可靠。尤其是对于今天正在组建公司的人来说,你真的想思考,“今天有什么可能?你今天看到了什么?”这些模型很快就会变得可靠。

单一模型得天下?

马丁:我马上就要问一下,预测一下未来会是什么样子。但之前,我很自私地问一个问题,你认为这件事的经济学会如何发展。我告诉你它让我想起了什么。这让我想起了硅工业。我记得在90年代,当你买一台电脑时,有很多奇怪的写作处理器。“这是字符串匹配,这是浮点,这是加密,”所有这些都把CPU消耗掉了。

事实证明,通用性非常强大,这创造了某种类型的经济,英特尔和AMD都是其中玩家。当然,制造这些芯片要花很多钱。

所以你可以想象两个未来。在未来,通用性非常强大,随着时间的推移,大型模型基本上会吸收所有功能。然后还有另一个未来,那里将有一大堆不同得模型,各种碎片,设计空间上有不同的点。你有这样的感觉吗:是OpenAI唯我独尊,还是有很多模型?

米拉:这取决于你想做什么。显然,现在得轨迹是这些人工智能系统将做我们正在做的越来越多的工作。他们将能够自主运作,但我们需要提供方向、指导和监督。但我不想做很多每天都要做的重复性工作。我想专注于其他事情。也许我们不必每天工作10、12个小时,也许我们可以减少工作,实现更高的产出。这就是我所希望的。就平台的工作方式而言,即使在今天,你也可以看到我们通过API提供了许多模型,从非常小的模型到我们的前沿模型。

人们并不总是需要使用最强大、最有能力的型号。有时他们只需要真正适合他们特定用例的模型,而且它要经济得多。我认为会有一个范围。但是,就我们对平台游戏的想象而言,我们肯定希望人们在我们的模型之上进行构建,我们希望为他们提供工具,使其变得容易,并让他们获得越来越多的访问和控制权。你可以带来你的数据,你可以自定义这些模型。你可以真正专注于模型之外的层,并定义产品,这实际上非常非常困难。现在有很多关注点是建立更多的模型,但在这些模型之上建立好的产品是非常困难的。

未来5-10年

马丁:我希望你能预测一下你认为这一切在3年、5年或10年后会走向何方。

米拉:我认为,今天的基础模型在文本中对世界有着伟大的表现。我们正在添加其他模式,如图像、视频和其他各种东西,因此这些模型可以更全面地了解我们周围的世界,类似于我们理解和观察世界的方式。世界不仅存在于文字中,也存在于图像中。我们肯定会朝着这个方向发展,我们将有这些更大的模型,在训练前的工作中采用所有这些模式。我们真的想让这些经过预训练的模型像我们一样了解世界。

在模型的输出部分,我们引入带有人类反馈的强化学习。我们希望模型能真正做到我们要求它做的事情,我们希望这是可靠的。这需要做大量的工作,也许还需要引入浏览,这样就可以获得新的信息,引用信息并解决幻觉。我不认为这是不可能的。我认为这是可以实现的。

在产品方面,我们希望将这一切整合到人们合作的产品集合中,并提供一个人们可以在此基础上构建的平台。如果你真的向外发展,这些模型将非常非常强大。很明显,随之而来的是对这些非常强大的模型与我们的意图不一致的恐惧。一个巨大的挑战是超级一致(Super Alignment),这是一个困难的技术挑战。我们在OpenAI有一个完整的团队来专注于这个问题。

如有疑问联系邮箱:
*本文转载自网络转载,版权归原作者所有。本站只是转载分享,不代表赞同其中观点。请自行判断风险,本文不构成投资建议。*