摘要:在这场如火如荼的AI军备竞赛中,谷歌在年底彻底打响翻身仗,成功逆袭!Google Cloud于近日也发布了一份44页「2024 数据和AI趋势报告」,直指AI智能体、多模态AI,企业搜索将成为2025年三大主导技术。
编辑:编辑部
【新智元导读】在这场如火如荼的AI军备竞赛中,谷歌在年底彻底打响翻身仗,成功逆袭!Google Cloud于近日也发布了一份44页「2024 数据和AI趋势报告」,直指AI智能体、多模态AI,企业搜索将成为2025年三大主导技术。逆袭之战开启,谷歌用90天重回巅峰!
短短90天,谷歌就从业内笑柄,逆袭成突破最大、产品最颠覆的科技大公司。
用AI初创创始人Ole Lehmann的话说,「我们正在见证2024年最大的科技转变」。
如今,前方是捷报频传。
根据OpenRouterAI的数据,Google Gemini在开发者中的市场份额从9月份的约5%,上升到了上周的>50%市场份额。
Google Gemini系列在OpenRouterAI的趋势排行中独占鳌头,远超其他模型。
在被公认是下一个AI前沿的智能体领域,谷歌的Project Mariner,可以直接让Gemini控制我们的浏览器,自行执行任务!直接一步跨越到人机交互的未来。
惊人之处在于,Mariner是一个真正可以在浏览器上完成复杂任务而不会失败的AI。预定航班、定餐馆,它都可以通过在屏幕上看到的内容完成操作。
此外,谷歌的Project Astra的早期测试报告结果也令人兴奋不已。
受邀参加项目测试的Linus Ekenstam表示,这一天很快就会到来:人手一个AI私人助理,而且它们无所不在。
我们会严重依赖这些AI助手,甚至在2025年,人类发展格局都会被带来重大改变。
更不用说,就在昨天放出的AI视频模型Veo 2.0,无论是在物理学、质量还是指令遵循上,效果都妥妥吊打Sora,全网测试,为之疯狂。
有人实测Veo 2和Sora后直言:这是自行车和宇宙飞船的区别
现在,市场已经给出了反应,在过去一个月内,谷歌的市值直接上涨了14%。
不再追逐头条,而是集中精力做产品、注重实用性的谷歌,已经成为了OpenAI真正的可怕对手。
突然逆袭,重拳反击OpenAI
曾被认为遥遥领先的OpenAI,正面临着来自谷歌的迎头痛击。
网友Chubby做了一篇长文分析,指出两个AI巨头的对战潮流正在转向。
声明:目前一切都还未定论,我的分析仅是对现状的一瞥
早在2017年,Sam Altman在一次邮件交流中就明确表示,谷歌DeepMind是在AGI竞争中最大的对手。
当时,他还未能预见其他玩家会加入这场竞争。不过,估值180亿美金Anthropic的崛起,证明了新玩家也能翻身成巨头。
Meta通过「开源」(虽然并非真正的开源)另辟蹊径,避免了与谷歌占据主导地位路线的直接竞争。
ChatGPT如同一匹黑马,自2022年横空出世以来,OpenAI一直牢牢掌握着AI的话语权。与此同时,ChatGPT成为了「AI」的代名词。
凭借此,奥特曼带领着团队迅速征服消费市场,甚至直接带飞了微软。
然而,谷歌却在这场竞赛中措手不及,连连败北。
最初的几轮交锋中,谷歌试图通过Gemini去挽救落下的成绩,并期望以此获得市场青睐,但总是未能如意。
此前,AI Overview总结能力大翻车,遭到网友连连的吐槽。
比如,建议孕妇吸烟、建议自杀跳桥、建议用胶水将胶水和披萨固定在一起....
各种荒谬的建议,简直震碎三观。
上半场的比赛中,谷歌彻底输掉了。
更耐人寻味的是,OpenAI几乎毫不费力,每次都能在谷歌发布新产品前后抢尽风头。即便在模型推理能力上,到目前为止,OpenAI也一直是遥遥领先。
人们不理解的是,谷歌DeepMind拥有世界上最好的资源,为什么会在这场竞争中略显得仓促和被动?
与OpenAI不同,他们有大量用于训练推理的TPU、更多的训练数据(比如YouTube),以及DeepMind这个世界级研究机构和顶尖人才。
DeepMind团队也在努力用实力,去证明这一切。在科学领域,AlphaFold、GenCast等等,取得了难以置信的成就。
但这些研究成果,在消费市场上并没有给谷歌带去任何实质性的帮助。
甚至,就连Anthropic这样后来者,也赢得了AI社区更多关注和支持。
然而,这种局势在12月发生了戏剧性的逆转。突然间,谷歌发力给OpenAI来了当头一棒。
就在OpenAI接连献上12天产品秀之际,谷歌推出了两款惊艳的模型——Gemini 2.0 Flash和Veo 2。
Gemini 2.0 Flash在所有基准测试中,超越了GPT-4。
AI视频模型Veo 2直接吊打Sora,展现出令人惊叹的物理世界理解能力。
它还能根据提示中的方程式2x-1=0,直接生成出得到解答x=1/2的视频。
相较之下,Sora的生成简直一言难尽。
关于新模型的亮相,谷歌并没有做任何事先的炒作和预热,用低调有力的方式做出了反击。
而对于,过去一年总结,和未来一年技术预测,谷歌也有话要说。
谷歌AI年,2025年三大技术向
今天,Google Cloud发布的一份44页「2024 数据和AI趋势报告」,直指AI智能体、多模态AI,企业搜索将成为2025年三大主导技术。
报告地址:https://services.google.com/fh/files/misc/data_ai_trends_report.pdf
当前,智能体已经能够独立完成多步骤任务,而只有约10%的大公司已经采用,另外82%公司计划三年内将智能体整合到工作流中。
谷歌云全球GenAI副总Oliver Parker表示,「不久的将来,你会看到不同智能体之间相互频繁地交流协作」。
在谷歌,他们将智能体划分为六个类:
- 面向客户的智能体:用于了解客户需求、回答与解决问题并推荐相应的产品和服务。它们支持跨多模态工作,可以分析语音与视频内容
- 员工智能体:有助于简化流程、管理重复性任务、解答问题和文档编辑与翻译。
- 创意智能体:生成有助于设计、营销、文案等项目的内容、图像,提供灵感
- 数据智能体:可以在确保准确性的基础上,通过检索与数据处理来协助研究和数据分析。
- 代码智能体:支持代码生成与提供辅助编码
- 安全智能体:降低网络攻击的危害,或者加快安全漏洞的筛查速度
然而,Parker指出,过多的智能体同时处理多个流程,可能会导致系统的混乱。
他看到了这一现象背后蕴藏着巨大的机遇,这将催生出全新的平台——智能体治理。
「我们认为一个巨大的机会即将到来,那就是一个能够管理协调你各种智能体的平台」,他讲道,这将会催动「智能体管理」或者需要一个支持 「在不同系统中的任何地方都能提供不同服务的智能体层」。
人工智能发展的五大趋势
全球多模态人工智能市场在2025年估值为24亿美元,预计到2037年底将达到989亿美元。
多模态人工智能将人工智能的理解能力提升到一个新的水平,使模型能够解读和处理一系列数据源,不仅包括文本,还包括图像、视频和音频。
目前一些主要的供应商和前沿的初创公司已经发布了许多功能强大的多模态工具,例如谷歌自己的Gemini 2.0 Flash、Mistral的Pixtral 12B或Cohere的Embed 3。谷歌预测,多模态人工智能的爆发将支持复杂的数据分析,并为人们带来对于事物更深刻的基本认识和更个性化的见解。
Parker指出,在过去的12个月里,企业已经从单一模型转变为针对不同的场景去部署多个模型,如Gemini、Anthropic、Mistral、Cohere、Llama等,而不仅仅是OpenAI模型。
虽然当前谷歌云的重点依然大多在开发上,但2025年的目标则是让企业级用户自己掌握生成式人工智能能力。
目前企业已经不仅仅只是关注模型本身,而且开始分析不同的部署平台并制定人工智能和智能体的规划发展路线图。Parker对此表示,这些通常是几年内才能看到的趋势,但在12个月内就快速呈现了,令人惊叹。
你是否还在苦恼于查询工作文档却因忘记对应关键词而无法入手项目?
现在结合了生成式人工智能的企业搜索,再也不用局限于仅基于关键词的查询了。
你可以使用图像、音频、视频或者是对话提示来快速查询访问企业内部数据。毫无疑问,这将让搜索变得极其丝滑。
在实际工作中,人们往往是搜寻到相应信息并将其整合以获得见解,做出相应决策,进而采取行动。由于许多组织的不同信息通常分散在不同的应用程序中,而人工智能搜索可以快速跨越这些应用程序将数据整合在一起,这就彰显了结合生成式人工智能的企业搜索的巨大优势。
Gemini 2.0加持编码助手,一键打通软件开发全流程
上周,谷歌发布的Gemini 2.0 Flash在编程基准SWE-bench Verified上,刷新了SOTA。
它的性能完全碾压满血版o1、Claude 3.5 Sonnet,成为公认的最强编码AI。
就在今天,谷歌宣布在Gemini Code Assist中,集成最新模型Gemini 2.0 Flash,并推出了一系列工具。
由此,开发者们可以将外部系统加入IDE,直接与GitHub、GitLab、Sentry、Google Chrome和Atlassian交互。
在此之前,Gemini Code Assist已经接入了VS Code和JetBrains。
谷歌云产品管理高级总监Ryan J. Salva表示,这个想法是为编码任务扩展更多的上下文,而不中断工作流程。
开发者只需进入Code Assist聊天页面,说明需要处理的数据,然后LLM可以自动从数据源查询并对其分析。
为了给开发者们提供便捷,谷歌计划未来还将更多工具,直接集成到Gemini Code Assist中,比如可观察性工具、安全软件以及数据库。
从ChatGPT可以协助编码之后,人工智能编码助手是GenAI的首批重要用例。GitHub、甲骨文、Harness纷纷推出了以企业为重点的编码助手。
与此同时,OpenAI和Anthropic对外提供API接口,让程序员直接在聊天平台上编程。
比如,我们可以直接在ChatGPT中的Canvas运行Python代码,还能进行交互性的编辑生成。
Anthropic推出的Claude Artifacts,与Canvas产品理念相同,皆是便于开发者们生成、编辑和运行代码。
另外,OpenAI还在ChatGPT MacOS桌面应用程序中添加了与VS Code、XCode、Terminal和iTerm 2等工具的集成。
据Gartner估计,「截止2028年,90%的企业软件工程师将使用AI编码助手,这一比例在2024年初还不到14%」。
谷歌宣称,Gemini Code Assist企业版已超越了IDE中的AI编码辅助功能,不仅可以理解本地代码库,还可以定制代码,提供代码建议。
它的定制功能可索引来自GitHub和GitLab的repos,并将于2025年初支持其他源码控制系统和自托管的内部repos。
同时,它还能完成复杂的任务,如在整个软件包中升级Java版本。此外,企业版提供了企业级安全以及法律赔偿条款。
在推出Gemini 2.0时, 谷歌同步发布了编码工具 Jules。
Salva表示Code Assist与其完全隔离,Code Assist仍是唯一由Gemini支持的通用企业级编码工具。
参考资料:
来源:新智元一点号