首页| 论坛| 搜索| 消息
主题:发布会后Sam Altman首次采访,揭秘GPT-4o怎样炼成?
爱我中华发表于 2024-05-17 15:33
近日,OpenAI发布了全新大模型GPT-4o,GPT-4o中的“o”不只是一个字母,它代表的是“omni”,意味着这款模型拥有多模态的能力,能够灵活处理文本、图像和音频等多种类型的数据。这款大模型集成了多模态交互能力,实现在320毫秒内实时响应,并具备增强的智能与情感理解能力,不管是与它闲聊,还是向它咨询问题、交代任务,都像与真人交互一样丝滑。这款模型将在未来几周内逐步向广大开发者和消费者推出,并且,它将面向免费客户开放。在与Logan Bartlett的深度访谈中,OpenAI首席执行官Sam Altman透露了这一突破性产品诞生的关键内情。Altman坦言,GPT-4o的出现并非一蹴而就,而是过去几年OpenAI在音频、视觉模型及模型结合研究方面努力的最佳力作。他认为GPT-4o关键不仅在于性能,更在于其高效运行状态,以至于这一当今全球最佳模型之一甚至可供免费用户使用,令人叹为观止。在谈及模型未来发展时,他表示AGI(通用人工智能)只是智能连续发展过程中的一个节点,很可能会以过去10年的疯狂速度持续向前,让我们有机会亲历更多不可思议的时刻。他大胆预测,在不远的将来,编程或将成为最重要的应用领域;同时,具备泛化推理能力的通用模型将扮演比众多专业化模型更为关键的角色,成为驱动科技进步的中流砥柱。以下为本期内容目录:01GPT-4o新品发布02AI发展预测03AI创业机会04通往AGI之路05OpenAI内部运营06Sam的个人思考/ 01 / GPT-4o新品发布Logan Bartlett:你今天早些时候宣布了GPT-4o的消息。它可以同时处理文本、语音和视觉信息。你能谈谈这为什么重要吗?Sam Altman:我认为这是一种令人难以置信的人机交互方式。一直以来,我们都有语音控制计算机的想法,比如Siri之类的东西。但对我来说,它们从来没有真正让人感觉自然好用。GPT-4o则完全不同,因为它可以实现很多事情,比如速度快、可以理解多种模态、语调自然,还可以根据你的指令改变说话速度和语气。它的流畅性和灵活性让我着实着迷。Logan Bartlett:你有没有发现一些让你印象深刻的用例呢?Sam Altman:目前我只用了一个星期左右,但让我惊讶的一个用例是在我全神贯注工作的时候,我可以把手机放在桌子上,不用再切换窗口,而是直接用GPT-4o作为另一个信息通道。比如说,我正在处理某件事,以前我可能不得不停下来,切换到另一个标签页,然后用谷歌搜索一些东西,点击来回浏览等等。但是现在,我只需要问它问题,它就可以立即给我答案,而我仍然可以专注于电脑屏幕上的内容,这太酷了。Logan Bartlett:促成GPT-4o诞生的是架构上的转变还是计算能力的提升?Sam Altman:这应该是过去几年我们所学到的一切的共同作用。我们一直在研究音频模型、视觉模型,以及如何将它们结合起来,同时也在努力提高模型的训练效率。并不是说我们突然解锁了一项疯狂的新技术,而是将许多部分整合到了一起。Logan Bartlett:你们是否还需要开发类似于设备模型的东西,以便降低延迟到可用水平?Sam Altman:对于视频处理来说,也许是这样。网络延迟在某些情况下会带来麻烦。比如说,我一直认为最酷的事情之一是,未来我们可以戴上AR眼镜之类的设备,然后实时用语音与世界交互,看着事物随之改变。而网络延迟可能会成为这种应用的障碍。不过就目前而言,2300毫秒的延迟感觉上已经非常快了,甚至比人类的响应速度还要快。Logan Bartlett:关于后续的ChatGPT版本,人们猜测下一个重大发布可能不会是GPT-5,而是会采取一种迭代的开发方式。你们公司似乎也的确是这样做的。这种理解方式正确吗?以后不会再有盛大的发布活动推出全新版本GPT-5,而是会采用另一种方式?Sam Altman:我们老实说还不知道。我认为我学到的一件事是,人工智能和惊喜并不总是相辅相成的。尽管科技公司通常会以发布会的方式推出产品,我们或许应该尝试不同的方式。也许我们仍然可以把它命名为GPT-5,但以不同的方式发布,或者换个名字。但就目前而言,我并不认为我们已经找到给这些产品命名和打造品牌的方法。从GPT-1到GPT-4的发布似乎还算合理。现在,GPT-4显然还在不断改进。我们还有一个想法,那就是可能存在某种“虚拟大脑”,它可以在某些情况下比其他模型产品思考得更深入。也许这会是不同的模型,但用户可能并不关心它们是否相同。因此,我们还没有想清楚如何将这些产品推向市场。/ 02 / AI发展预测Logan Bartlett:这是否意味着随着模型的不断增量改进,对计算能力的需求可能比历史上要少?Sam Altman:我想我们总会尽可能利用可获得的计算力。现在我们正在取得令人难以置信的效率提升,这非常重要。今天发布的语音模式显然是一个很酷的功能。但也许更重要的是,我们能够以如此高的效率运行它,甚至可以将其提供给免费用户。可以说,这是目前世界上最好的模型之一。任何想要免费下载ChatGPT的人都可以使用它,这比GPT-4和GPT-4Turbo有着显著的效率提升,而且我们还有很大的改进空间。Logan Bartlett:你说ChatGPT本身并没有改变世界,而只是改变了人们对世界的期望?Sam Altman:是的,如果你想用经济指标来衡量,可能找不到ChatGPT发布后生产力或其他方面的显著提升。Logan Bartlett:在未来12个月里,你认为哪些应用或领域最具前景?Sam Altman:虽然这可能会因为我所处的位置而让我产生偏见,但我认为编程是一个非常重要的领域。Logan Bartlett:这有点类似于你最近提到的一个深刻教训,你谈到了针对特定数据和特定目的训练的深度专业化模型与能够进行真正推理的泛化模型之间的区别。Sam Altman:我认为具有泛化能力的模型更重要。如果模型能够进行泛化推理,能够自己弄清楚新的东西,那么当它需要处理新的数据类型时,你可以把它输入进去,它就可以完成任务。但反之则不然,一堆特化模型组合在一起,在我看来,是无法进行泛化推理的。Logan Bartlett:你认为在未来两年内,人类和人工智能之间主要的沟通方式是什么?Sam Altman:自然语言似乎是一个非常好的选择。我对这样一个总体想法很感兴趣,即我们应该规划一种未来,让人类和人工智能能够使用相同的方式进行交流。因此,比起其他形式的机器人,我更倾向于人形机器人。因为我认为现在世界的一切基本上都是为人类设计的,我并不希望为了某种更有效的东西而改变这一切。我喜欢这样一种想法,即我们与人工智能的交流可以使用经过优化非常适合人类的语言,甚至它们彼此之间也用这种方式交流。也许我的想法并不成熟,但总的来说,我认为这是一个值得探索的方向。Logan Bartlett:对于C端用户来说,商业交互页面和易用性才是重头戏?Sam Altman:这些当然很重要。它们一如既往地很重要。你知道,我可以设想还有其他情况,比如一种市场或网络效应,在那里我们的agents能够互相沟通。当然,也可能有不同的公司和应用商店,但我倾向于认为一般的商业规则在这里仍然适用。每当有新技术出现时,人们就会认为它们不适用,但这通常是假新闻。一切传统的创造价值方式在这里依然重要。Logan Bartlett:有报道说你打算募集大量资金投资晶圆厂和半导体行业等。我想《华尔街日报》是比较可信的报道来源。英伟达也在加紧满足对AI基础设施的需求预期。你最近说过,你认为世界需要更多的AI基础设施。你是否看到了需求方面的一些情况,需要比目前英伟达和台积电等提供的AI基础设施多得多?Sam Altman:首先,我确信我们将找到办法大幅降低交付当前系统的成本。其次,我确信在做到这一点后,需求将大幅增加。第三,我确信通过构建更大更好的系统,将会有更多需求。我们都应该希望拥有一个智能太廉价以
下一页 (1/4)
回帖(4):
4 # srwam
05-18 20:02
了解一下
3 # srwam
05-18 20:02
来看看
2 # ddwg0818
05-18 12:27
来看一看资讯
1 # ddwg0818
05-18 12:27
支持一下大佬

全部回帖(4)»
最新回帖
收藏本帖
发新帖