主题:谷歌I/O2026新品汇总:Gemini全家桶、AI搜索
DoNews5月20日消息,在今日的 2026 谷歌 I/O 开发者大会上,谷歌发布了包括Gemini全家桶在内的诸多新品。以下是 Google CEO Sundar Pichai 在 Google I/O 2026 大会上的讲话编辑稿,经调整以包含更多在舞台上宣布的内容。自上一届 I/O 大会以来,我们度过了非常充实的一年。在这期间,我们保持着高频的产品发布节奏,见证了技术的不断突破与飞速进展。如今,用户越来越希望在日常使用的产品中,切实感受到 AI 带来的实际价值。我们一直专注于此,你将通过我们今天在 I/O 大会上发布的产品和功能中看到这一点。迄今,公司“AI 优先 (AI-First) ”的转型已有十年,我们始终坚信,发展 AI 是践行公司使命、大规模改善人们生活最有效的方式。正因如此,我们才坚持走一条独有的全栈式 AI 创新路线:从定制芯片、安全稳固的基础框架,到世界一流的研究与基础模型,再到触达全球数十亿用户的产品和平台。这种方式让我们能以更快的速度进行迭代与创新,并为公司的全线业务注入强劲动能。令人欣喜的是,全球用户正在以多种方式使用 AI:学生们正利用 Gemini app 准备期末考试;音乐家和艺术家将 Lyria 和 Veo 等生成式 AI 模型融入到自己的日常创作中;开发者也在使用 AI 编写代码,将想法转化为现实。全栈式 AI 发展势头用户在日常场景中如何使用 AI,是衡量技术进步的最佳标准。而要理解用户采纳 AI 的实际规模,还有一个非常直观的量化指标——token。Token 是我们的模型处理数据的基本单位,许多 token 代表着一个被解决的问题。两年前,我们在各个产品平台上每月处理的 token 量为 9.7 万亿个,这已经是一个庞大的数字。在去年的 I/O 大会上,这一数字增长到了约 480 万亿个。而到今天,这一规模同比实现了 7 倍的巨幅增长,每月处理的 token 量已一举突破 3200 万亿个。这一数据清晰地反映了我们的产品以及整个开发者和企业生态的发展:目前,每月有超过 850 万名开发者正在使用我们的模型构建全新的应用与互动体验。我们的模型 API 当前每分钟处理的 token 量已高达约 190 亿个。在过去 12 个月中,有超过 375 家 Google Cloud 企业客户各自处理了超过 1 万亿个 token,这展现出各行各业对 AI 的强劲需求。产品的增长势头目前,Google 旗下已有 13 款产品各自拥有超过 10 亿的用户规模,其中更有 5 款产品的用户数量超过了 30 亿。Gemini 模型正是吸引更多用户使用、并提升用户活跃度的核心驱动力。一切都始于搜索,在让更多用户体验到生成式 AI 的优势这件事上,它的贡献超过全球任何其他产品。目前,AI 概览 (AI Overviews) 的月活跃用户数已超过 25 亿。而搜索的 AI 模式 (AI Mode) 更是有史以来最重大的升级。该功能深受用户喜爱,在推出一年内,其月活跃用户数就已经突破了 10 亿大关。当用户在搜索中体验到这些 AI 驱动的功能后,他们使用搜索的频率更高了。搜索不再仅仅是简单的一问一答,而更像是一场连续的对话,它协助用户获取更深层的洞察,并无缝连接互联网上的海量信息。同时,Gemini app 也在飞速创新。在去年 I/O 大会时,Gemini app 的月活跃用户数为 4 亿。而今天,这一数字已突破 9 亿,在一年内增长幅度超过一倍。与此同时,用户每天提交的请求量也增长了 7 倍以上。我们增加了许多独特的功能,例如 Personal Intelligence,让回复变得更加个性化,更实用。迄今为止,我们的 Nano Banana 图像生成模型已生成超过 500 亿张图像。它成为了过去一年的明星产品,展现了世界蕴藏的巨大创造力。自然对话的 AI 体验此外,还有大量潜在的生产力有待释放。在过去一年里,我们一直在努力让用户能够直接在产品中与 Gemini 进行更自然的对话。不久前,Google Maps 迎来了十年来的最大升级,推出了全新的 Ask Maps 功能,用户现在可以直接用更复杂、篇幅更长的自然语言向地图提问。现在,我们正将这种能够自然对话的 AI 扩展到更多产品中:Ask YouTube每天都有无数用户来到 YouTube 寻找各类问题的答案。虽然平台上拥有海量的优质视频,但有时用户很难快速找到切入点。Ask YouTube 彻底重构了这一体验,让视频中的信息变得非常易于理解和浏览。AI 不仅能精准推荐最符合用户兴趣的视频,更重要的是,它能直接跳转到视频中最契合用户需求的核心片段。该功能目前已开始小范围测试,并计划于今年夏季在美国广泛推广。语音驱动的 Docs Live很多时候,我们都希望处理事务的速度能像说话一样快。得益于我们在音频模型上的技术飞跃,这在今天变得更为现实。全新功能 Docs Live 将这一体验推向了新的高度。以往使用 Gemini 创建文档,用户需要输入非常精准的提示词。而现在通过 Docs Live,用户只需口头将脑海中的想法表达出来,Gemini 就能高效地帮用户完成后续的工作。在未来,用户可以用声音来创建和编辑文档。Docs Live 将于今年夏季向订阅用户开放,届时,强大的语音功能也将同步引入 Gmail 和 Keep。撑起海量技术创新的基础看到创新在我们的产品中以如此迅猛的速度推进,实在令人惊叹。要在支持全球海量用户的同时,服务于全球开发者和企业客户,需要对基础设施进行大量投入。我们一直在为现在和未来进行布局:2022 年我们的年资本支出 (capex) 为 310 亿美元,而到了今年,这个数字预计将翻大约 6 倍,约 1800 亿美元左右。其中,自主研发的定制芯片是我们投入的核心部分。十年前,我们首次在 I/O 上发布了第一代 TPU。自那时起,我们改变了整个行业构建 AI 的方式。近期在 Cloud Next 大会上,我们正式宣布了第 8 代 TPU。这一次,我们首次采用了双芯片设计,针对训练和推理的不同需求设计的硬件架构:TPU 8t 和 TPU 8i。TPU 8t 针对大规模预训练进行了优化,其原始算力几乎是上一代芯片的近 3 倍。在训练基础设施方面我们采用了截然不同的方法。借助 JAX 和 Pathways 框架,我们的模型训练不再受到单一大型数据中心的限制,而是可以无缝地将训练任务分布到全球多个站点,在全球范围内训练 100 万个 TPU。这让我们拥有了构建全球最大训练集群的能力,对于模型构建者而言,这意味着可以在几周内而不是几个月内训练出更大、更强大的模型。TPU 8i 专为模型推理而设计。我们显著提升了每个环节的速度。因为在深耕搜索的 27 年里我们学到了最核心的一点:运行速度十分重要。除了追求速度,我们也关注可持续的能效表现。这两款全新芯片在能效上表现卓越,每瓦特性能 (performance-per-watt) 均实现了高达 2 倍的提升。Gemini Omni 模型得益于 TPUs 的进展,我们在模型、编程和智能体等领域持续推进算力性能的发展。借助世界模型 (World Models) ,AI 正在从文本预测迈向模拟现实物理世界。我们也一直在不断突破这类模型能力的边界。Gemini Omni 是我们推出的全新模型,能够基于任意输入生成任意输出模态的内容。我们将率先推出视频输出能力,并在未来逐步扩展至图片和文本。该模型将 Gemini 的核心智能与我们的生成式媒体模型深度融合,在现实世界的理解能力上实现了巨大飞跃。我们今天正式推出 Omni 系列的首个模型——Gemini Omni Flash。Gemini Omni Flash 即日起正式上线,用户可以在 Gemini app、Google Flow 和 YouTube Shorts 中使用。未来几周内,该模型也将通过 API 向开发者和企业客户全面开放。SynthID 技术升级与合作伙伴随着生成式 AI 的技术演进,对内容透明度的需求也变得愈发重要。研究表明,用户单凭肉眼,能正确识别高质量深度伪造 (Deepfake) 视频的概率仅为四分之一左右。三年前,我们推出了 SynthID——一种肉眼无法察觉的水印技术。
回帖(3):全部回帖(3)»