全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数

360影视 2025-02-07 16:50 3

摘要:产业界,他曾担任全球最大企业软件厂商Salesforce集团副总裁、亚洲研究院创始院长,从0到1搭建了Salesforce亚洲人工智能研究体系。

白交 发自 凹非寺

AI的新进展频频,人才动态也愈加重磅。

新年第一则大牛人事动向,引发业内关注。

许主洪,IEEE Fellow,新加坡管理大学终身教授,被曝加盟阿里。

许主洪是谁?1998级清华计算机系本科,硕博毕业于港中文,谷歌学术五万引大佬。

多篇关于多模态预训练论文,深刻影响了业内大模型研发,阿里Qwen、谷歌RT-2都曾引用过其研究成果。

产业界,他曾担任全球最大企业软件厂商Salesforce集团副总裁、亚洲研究院创始院长,从0到1搭建了Salesforce亚洲人工智能研究体系。

现在,阿里方面已经证实。他将出任阿里集团副总裁,向阿里AI To C业务负责人吴嘉汇报,专注于AI To C业务的多模态基础模型及Agents相关基础研究与应用解决方案。

在加盟阿里之前,他曾在工业界和学术界均拥有超20年经验,曾在新加坡南洋理工大学、新加坡管理大学担任教授。

研究方向包括机器学习的基础研究和人工智能多个领域的应用研究,包括多媒体信息检索、计算机视觉、大数据分析、社交媒体、智能网络安全、计算金融和智慧城市等。

谷歌学术显示,其发表300余篇人工智能顶级学术论文,被引五万余次,2020年至今被引近四万次。

2019年当选为IEEE Fellow,同一年当选的还有知名大佬、CMU教授邢波。

时间回到1998年,他来到清华大学计算机系读书,本科毕业前往港中文攻读硕博。

2007年他来到了新加坡南洋理工大学。期间他负责开源了一个机器学习库LIBOL,里面有一大批经典和先进的在线学习算法,用于解决大规模机器学习任务,满足各种新兴大数据挖掘应用的需求。

能够看到的是,从那时候开始,他就已经在深入思考连接技术到应用之间这一桥梁。

随后他去到新加坡管理大学,2020年获终身教职。

转折点在2019年,他正式选择踏入工业界,将自身技术积累真正融入进产业应用当中去。

他的实战场是全球最大企业软件厂商Salesforce,帮助他们补齐AI基础研究与应用这一板块。

他主导开创了多个行业先河的人工智能项目和产品,包括不限于多模态系列模型BLIP、代码生成神器CodeGen、通用CRM助手Einstein GPT。

(CRM是客户关系管理软件系统。Einstein GPT支持包括 Slack、销售、服务、营销、商务和应用程序构建器)

另一个实战场是2023年,乘着大模型的技术热潮,他创办了AI初创公司HyperGAI。

期间发布了多款多模态基础模型,特点是在不增加计算成本的情况下,实现当前世界顶尖模型的水平。

在GPT-4V和Gemini Pro等大语言模型都在专注于文本的当下,他们在多模态理解和生成上面取得了不少突破,并且有很强的应用属性在里面。

比如像HPT 1.5 端侧多模态模型,只有4B大小,性能却优于当时微软新推出的Phi-3-Vision(4B)多模态模型,并在多项基准测试中达到了GPT-4V的性能。

除了一些评测之外,模型还展示了移动端上的使用效果,能够识别图中的关键信息。

同时它也具备强大的推理能力,可以理解并解答几何题。

学术领域,他凭借深厚的专业素养和杰出的研究能力,发表了众多顶级学术论文,研究成果备受行业瞩目。

而在产业界,他将前沿技术与实际应用紧密结合,成功推动了AI多个领域的突破与落地,成为连接学术与产业之间的桥梁。

问题是有了这位顶尖AI科学家的加盟,对于阿里来说意味着什么?

在许主洪的专业擅长中,不难找到线索和答案。

在他诸多论文中,有两篇BLIP系列论文最为瞩目,累计引用过万,其中BLIP-2始终高居引用榜首。

更早之前还有技术博主专门研读了他的成果,表示GPT-4V现在还像个黑匣子,而BLIP系列研究不仅在各种视觉任务中表现出SOTA的性能,也可能是打破黑匣子的有效解决方案

2023年,各种大语言模型刚刚兴起的时候,业内就已经在思考LLM涌现的通用性和泛化能力,是否也能在视觉领域中实现。

一个统一的视觉与语言的框架,以及一个能将它们与LLM结合起来的框架,成为自然而然的技术需求。

在众多创新方法中,BLIP脱颖而出,它统一了视觉语言任务的理解与生成能力,并通过引入Captioner-Filter机制减少了监督文本的噪声,从而提高模型的训练质量。

模型核心在于独特的编码器-解码器混合架构(MED),该架构由视觉编码器、文本编码器和多模态编码器三部分组成。

每个模块都有相关的预训练目标,所有三个模块都根据这些预训练目标进行联合训练。

这系列论文所在的语言视觉智能一站式库LAVIS,GitHub超过万颗星,足以见其在业内的影响力。在这个库里还有各种BLIP的衍生,比如X-InstructBLIP、BLIP-Diffusion等等

而将时间拉回现在,随着大模型发展的深入,多模态能力作为核心属性,正在重塑着AI的应用范式。

总结来说,多模态让大模型从“单一功能工具”转变为“全知全能的Agent”,其应用场景将不断地深入与拓宽。

核心体现在两个方面:

其一,突破单模态局限,实现更全面的认知与交互。多模态大模型通过融合文本、图像、音频、视频等异构数据,能够构建更接近人类认知、近乎人类水平的模型。

这种跨模态的语义对齐能力,使AI能理解复杂场景中的隐含关联,比如识别图像中的隐喻或情感表达。像夸克、通义APP这种软件,在其智能工具、ChatBot属性之上,集成更多多模态功能之后,就能实现更多精细化功能,成为日常的AI全能助手。

更多样化更复杂的任务需求也将得到满足,多维之间的感知交互,能够实现AI在更多终端和硬件的落地,比如AI眼镜——据称是已经明确的阿里AI to C业务未来探索方向。当然这些还只是单点功能或产品形态,多模态能力还在于更多应用场景的赋能。

所以第二个方面就是:拓展更多应用场景,释放行业生产力

比如医疗场景,多模态模型融合医学影像、基因数据和临床文本,支持个性化诊疗方案生成。教育场景,结合图文、视频和语音的多模态教学助手,可动态适配学生学习风格,提供沉浸式学习体验。

但上述场景对阿里来说不是计划,而是已经部署落地的实践,并且还展现出“干中学”的技术迭代潜力。

在夸克落地的业务中,其“灵知”学习大模型在考研数学题上的正确率和得分率已经比肩OpenAI最新发布的o1模型,且远超国内其他模型。

所以了解了多模态能力与阿里AI to C业务布局的关系,或许也就看懂了许主洪的加盟。

这一次他要连接的是AI多模态能力在C端产品、应用上的端对端闭环能力。

大模型的发展路线,目前可以总结为两条,一个是面向大模型更高级智能水平的技术演进,一个是面向应用和用户价值/体验的AI技术创新。阿里AI To C业务尤其是夸克呈现出后者的特点。

于阿里而言,许主洪是人工智能学术界的领路人,在产业界同样拥有丰富的应用研发和产品创新经验——尤其他不仅搭建了Salesforce亚洲人工智能研究体系,还将研究成果转化为实际应用——主导的多个AI创新项目,将学术成果转化为商业应用,推动了AI技术产业化进程。

这种学术与产业的双重背景,使得许主洪不仅具备深厚的学术研究功底,还拥有将技术转化为实际产品的丰富经验。这种能力就是阿里AI To C业务所需要的。

而以夸克为代表的阿里AI To C业务,在大模型能力上也一直注重实用性,强调以应用产品驱动大模型的研发、升级方向。

产品追求的不是“颠覆”,而是拳拳到肉,解决用户的核心需求。夸克大模型的典型特点就是不卷参数和打榜,而是依据使用场景提供专业技术能力,衍生出通识、医疗、教育等垂类模型。

这种对用户价值的核心追求,也是AI驱动之下,夸克迅猛崛起,成为国内增长最快、势头最猛、用户使用最多的AI全能助手——没有之一。

量子位智库统计,在APP端,前10个月国内AI APP三日留存数据显示,夸克是唯一突破40%的产品,也是唯一突破两亿累计下载量的。

如果说一年前还相对低调,高速增长下的夸克现在也摊牌了,夸克已经完成了品牌升级——2亿人的AI全能助手。

当然,这也是技术、产品、场景等全方位要素驱动之下的结果,天时地利皆具备,现在阿里整个AI To C业务要发力,就是时候在“人和”——人才上点燃东风。

许主洪的加盟可能还只是开始的开始。有消息称,阿里AI To C业务正在组建顶级AI算法研究和工程团队,吸引大量业内顶级人才加盟。

而顶级科学家+顶尖团队,再加上高速前进的AI业务和场景,夸克也好,阿里AI To C业务布局也好,有机会把AI创新带入中国最熟悉的范式之下——技术驱动产品,产品反哺技术,并且在规模最大的用户市场迭代之下,实现综合实力的超车。

AI不是移动互联网,但用户需求和产品体验的价值线,大道至简,一以贯之,未曾改变。

参考链接:

[1]https://raghul-719.medium.com/neural-networks-intuitions-17-blip-series-blip-blip-2-and-instruct-blip-papers-explanation-2378bc860d53

[2]https://github.com/salesforce/LAVIS

[3]https://www.hypergai.com/blog/hpt-1-5-edge-towards-multimodal-llms-for-edge-devices

[4]https://www.linkedin.com/in/steven-hoi-8712b41/?originalSubdomain=sg

[5]https://x.com/_akhaliq/status/1620246724672380930

[6]https://github.com/salesforce/BLIP

— 完 —

来源:量子位

相关推荐