I/O 大会(开发者大会)是谷歌一年一度的秀肌肉时刻,也是人工智能年代不容错失的大舞台。今天清晨,新一届I/O 大会在谷歌加州总部开幕。据悉,本次大会完毕后核算提到了 AI 共 121 次(包含文本的话实践应该还不止),全面展现了谷歌怎么将AI技能融入其中心产品,从查找引擎到移动操作体系,再到专用硬件,AI的运用无处不在。
特别是Gemini 1.5 Pro的发布,标志着谷歌在处理大规模数据和提高用户体会方面迈出了重要一步。此外,谷歌还推出了更轻量级的模型Gemini 1.5 Flash,以及进一步晋级的开源模型Gemma 2,这些行动不只展现了谷歌在AI技能上的立异,也显示了其推进AI技能遍及和运用的决计。

Gemini 全家桶迭代
Gemini 1.5 Pro是本次的重头戏。谷歌将Gemini 1.5 Pro的上下文长度从原有的100万tokens提高到了200万tokens,这一晋级将极大地增强其数据处理才能,使得模型在处理愈加杂乱和巨大的数据时愈加挥洒自如。一起,谷歌还宣告Gemini 1.5 Pro将全面支撑Workspace。
据悉,全新Gemini 1.5 Pro具有原生音频了解、体系指令、JSON形式等,可以运用视频核算机视觉来剖析图画和音频的视频,这使其具有人类水平的视觉感知。运用深度神经网络,Gemini 1.5 Pro可以以超人的精度辨认图画中的物体、场景和人物。此外,谷歌宣告将Gemini 1.5 Pro面向全球开发者敞开。
一起,为了快速呼应与本钱效益,谷歌还推出更轻的模型Gemini 1.5 Flash,其在摘要生成、谈天运用、图画和视频字幕、以及从长文档和表格中提取数据等方面体现出色,首要面向广阔开发者集体。
值得一提的是,谷歌将进一步晋级开源模型Gemma 2。据了解,Gemma 2模型的高效规划使其所需的核算量少于同类模型的一半,使更广泛的用户可以轻松布置并享用本钱效益。
谷歌还宣告为Gemini渠道引进游览规划功用。该功用将结合个人信息和公共出行信息,协助用户进行航班、酒店等休假行程的预定和规划。谷歌表明,Gemini可以依据用户的提示,快速挖掘出航班时刻和酒店预定等详细细节,在短短几秒钟内拟定出适宜的休假方案。与手动规划一次游览或许需求数小时、数天乃至数周的时刻比较,Gemini简直可以瞬间完结这一进程。
谷歌表明,新的游览方案功用将在未来几个月内登陆Gemini Advanced渠道。
查找引擎晋级
谷歌信任人工智能是查找的未来。为此,谷歌开端向查找引擎“动刀”。
谷歌行将向美国和世界各地的用户推出“AI概述”——在查找成果的顶部将呈现人工智能生成的摘要,而这仅仅人工智能怎么改动查找的开端。
谷歌查找主管Liz Reid说:“咱们从生成式人工智能中看到的是,谷歌可以为您进行更多的查找。”曩昔几年,她一直在研讨人工智能查找的一切部分。“它可以从查找中完结许多艰苦的作业,所以你可以专心于你想完结工作的部分,或许你觉得令人兴奋的探究部分。”
AI概述,旨在让用户大致了解查询的答案,以及获取更多信息的资源链接。谷歌正在运用其Gemini人工智能来弄清楚你在问什么,不管你是在打字、说话、拍摄仍是拍照视频。但是,Reid说,并非每次查找都需求这么多人工智能,也不是每次查找都会得到它。“假如您只想导航到URL,您可以查找沃尔玛,然后前往walmart.com。增加人工智能并不真实有利。”她以为Gemini最有协助的当地是在更杂乱的情况下,你要么需求进行很多查找,要么乃至一开端就得到一个大约的预览。
关于本地查找,有了Gemini,“咱们可以做一些工作,比方‘在比肯山步行半小时内找到波士顿最好的瑜伽或普拉提作业室,评分超越四星级。’”或许,她持续说,你也想知道哪些对第一次来的人有最大的协助。关于用户来说,这或许意味着一种与互联网互动的全新方法:更少的打字,更少的标签,以及更多的查找引擎谈天,取得信息将愈加高效。

针对竞对推出 Project Astra 和 Veo
针对昨日OpenAI发布的GPT-4o,谷歌也发布了对标的大模型Project Astra。
据介绍,谷歌是在 Gemini 的基础上开发了智能体原型,它可以经过接连编码视频帧、将视频和语音输入组合到事情时刻线中并缓存此信息以进行有用调用,然后更快地处理信息。经过语音模型,谷歌还强化了智能体的发音,为智能体供给了更广泛的语调。这些智能体可以更好地了解他们所运用的上下文,并在对话中快速做出呼应。

别的,为了对立 Sora,谷歌开发的AI视频生成软件Veo,相同支撑运用文本生成视频,并且能创立超越60s的1080P视频,一起还能运用多种电影风格和更好地了解自然语言。
谷歌表明,创作者在运用Veo时,可以运用各种电影拍照术语来辅导Veo到达想要的视觉作用,如“延时拍摄”和“景色航拍”,削减调整提示词的时刻。别的,Veo还支撑扩展视频的功用。假如创作者对现有的视频长度不满意,可以让Veo主动扩展视频,或许弥补提示词来生成更长的视频。
现在谷歌现已敞开了试用通道,未来其还预备将Veo的一些功用增加到YouTube的短视频模块中。
Android 15
毫无疑问,人工智能是谷歌在本次大会上的重中之重。在移动操作体系上,Android 15得到了Gemini的助力,包含它行将供给的设备端功用。
当时的Android 15预发布版带来了新功用,如更多的运用程序内相机操控、部分屏幕同享和响度操控,以及对PDF、NFC和卫星衔接支撑的改善。谷歌移动操作体系的新增内容侧重于生产力,用户隐私和安全,通讯和功用等。
除了交融谷歌Gemini大模型,Android 15还新增了多项功用,比方弱光增强功用,这是一种新的主动曝光形式,它与夜间形式相机创立静态图片的方法不同,后者会经过多张组成来提高夜景体现。弱光增强的要点在于提高相机预览界面的作用,以便用户更好地在弱光环境下取景构图,或许在光线暗淡的环境下扫描二维码。
现在,Android 15开发人员和测试版仅在某些Google Pixel设备上可用,从Pixel 6到Pixel 8 Pro,以及Pixel Fold和Pixel Tablet。
第六代 TPU 面世
TPU(张量处理器)是谷歌为机器学习定制的专用芯片,发端于十一年前,在谷歌许多产品和服务中都能看到其身影,为谷歌AI帝国的树立立下了赫赫之功。
谷歌表明,全新的Trillium 可以以更快的速度练习新一代 AI 模型,一起削减推迟和降低本钱。与上一代 TPU v5e 比较,Trillium TPU 的每芯片峰值核算功用提高了 4.7 倍,高带宽内存 ( HBM ) 容量和带宽提高了一倍,芯片间互联 ( ICI ) 带宽也提高了一倍。作为迄今为止谷歌最具可持续性的 TPU,与其前代产品比较,能效提高了超越 67%。
结语
时隔一天,谷歌紧随对手 OpenAI,密布地推出了一系列AI产品或服务。在此,谷歌不只展现了其在AI技能上的打破,更显示了其将AI融入日常日子各个方面尤其是生产力的决计。
对此,英伟达高档科学家Jim Fan宣布了自己的观后感,他以为谷歌做对了一件事,“他们总算开端仔细尽力将人工智能融入查找框,”他表明,谷歌最强壮的护城河是分销,“Gemini不必是最好的模型,就可以成为世界上运用最广泛的模型。”