直播回顾:大模型与DeepSeek,技术、应用与未来

360影视 动漫周边 2025-03-12 18:11 2

摘要:最近,我们准备联合一线的人工智能从业者,面向普通用户,做一系列直播活动。这个活动也是从我们自身需求出发,希望能够对这个领域有一个系统、全面的了解,同时跟上人工智最前沿的技术、产业趋势。

前言

最近,我们准备联合一线的人工智能从业者,面向普通用户,做一系列直播活动。这个活动也是从我们自身需求出发,希望能够对这个领域有一个系统、全面的了解,同时跟上人工智最前沿的技术、产业趋势。

本周,这个领域的资深从业者马骁腾进行了第一次直播分享

主讲人马骁腾,利物浦大学硕士,大厂资深产品运营专家(快手,Opera,天工AI),近两年转向人工智能,是国内前5的C端AI产品初始团队成员。

以下是这次直播的主要内容摘要。

问:AI的起源

答:以一个讲故事的方式跟大家展开,竟然是跟语言学家有关。

语言学家很早就开始对AI进行探索,最早人们与AI的交互,可以追溯到机器翻译领域。谷歌翻译可以算是早期AI的代表。机器翻译能够实现不同语言之间的相互转换,比如英语和中文的互译。从最早基于规则的方法进行翻译,到后期统计机器翻译(SMT),再到如今神经机器翻译(NMT),翻译与AI一直处于相辅相成的关系。

语言学为AI奠定了坚实的理论基础。句法结构和语义理解是自然语言处理的关键要素,这些理论持续为模型设计提供指导。例如,Transformer模型中的注意力机制就是受到语言学的启发,模拟了人类在处理语言时对关键信息的聚焦能力。同时,语言学家对多义词、歧义句等复杂语义现象的研究成果,也助力AI系统更好地应对复杂的语言环境。

语言学与AI的深度融合正催生新的研究方向。神经符号AI将符号逻辑与深度学习相结合,多模态翻译则整合了文本、语音、图像等多种信息形式。像百度智能文档翻译平台支持版式还原,微软Azure AI语音实现实时口译,这些技术突破都是语言学家与工程师紧密合作的结晶。

Part 1

问:大模型的名字由来

答:大模型一般都是指大语言模型,英文名字LLM模型(Large Language Models,大语言模型)是一类基于深度学习的人工智能模型,旨在处理和生成自然语言文本。

当然除了大语言模型之外,还有就是像我们所说的就是视频模型。简单来讲,大语言模型,然后之后衍生出来一系列模型,比如说像文生图,视频就是我们还有音乐模型,但是说这几个模型的基础都一定程度依赖于说大语言模型的进步,大语言模型的发展推动了其他模型的发展。

问:大模型究竟是什么呢?

答:大模型理论基础在于神经网络算法,这是一种力求让计算机模仿人类大脑运作的理论,体现为一种算法,即一系列有条不紊的代码序列。

更准确地说,它旨在使计算机模拟人类的思考与判断过程。这一理论支撑下的大模型,其本质是一种算法。语言学为其提供了认知基础:当我们学习语言,例如学习英语,我们要学习单词和语法,再到深入了解其文化,这一系列认知步骤便构成了一种方法论。大模型通过代码将这一认知过程实现,实质上是一系列有步骤、有方法论的代码集合。

问:什么推动了AI的进展?

答:计算机学家和语言学家经过深入思考,找到了一种让机器更好地理解、处理语言的方法,最终形成了如今各种大模型的主流架构算法,即Transformer。

这个架构有些类似于生物学上神经网络的概念。它由多层神经网络构成,就像人脑拥有众多神经元一样。这些神经元进行着信息的交互,每一层都有许多神经元节点同时处理问题,然后进入下一层。这其中有着复杂的连接关系,以及灵活的架构设计。

比如说,现场可能有学金融学的同学。如果我问他银行单利和复利是什么,他会在脑海中思考这个问题。他会想起之前在哪本书上看到过相关内容,然后从记忆深处整理出关于单利和复利的概念。这个过程包括输入问题、在隐层进行思考和记忆检索、最后输出答案,这就是一个从输入到输出的过程,类似于每个人每天思考问题的方式。这也可以类比为神经元细胞的结构,它有一个输入层,接收信息;然后是中间的隐层,代表思考过程;最后是输出层,给出结果。

简单来说,大语言模型通过训练生成了一串有序的代码,分步骤处理我们输入的内容。从输入开始,经过检索内容、中间检索过程,到最后输出结果,这些内容就是我们看到的大模型呈现给我们的答案。可以称之为一个“人造大脑”,参数构成了这个“大脑”,参数越多,“大脑”就越大,可能也就越聪明,但同时需要的“营养”也就越多,每次成长都需要更多的资源。

现在我们会觉得Deepseek这类大模型无所不知,基本上什么问题都能回答。这是因为在训练大模型时,已经将各个门类、各个学科的知识,包括互联网上的知识、书本上的知识和专业领域的知识都喂给它。所以它就像人读书一样,基本上什么书都读过并且记住了。

问:AI的终局是什么

答:终极目标是能像人一样自主思考、自主学习、自主解决新问题的通用人工智能系统(Artificial General Intelligence,AGI)。就是说通用人工智能够像人一样,就是做人能做的那些事情。比如现在仿生机器人能够像人人去走,遇到石头会躲避,遇到台阶会迈步,这就是说现在的终局就是我们在往AGI的方向去发展。

问:算力是什么,为什么算力那么重要

答:算力可以看作是大模型的“营养液”。就如同汽车需要汽油来提供动力一样,大脑也需要营养供给才能思考。大模型要具备强大的学习和理解能力,首先需要构建一个规模庞大的模型结构,使其拥有足够的“算力”,也就是大模型的“营养”。当面对各种复杂问题时,它就能凭借这颗“聪明”且“容量极大”的“大脑”进行处理,并返回高质量的答案。

举个例子,人在疲惫的时候往往就不愿意去思考了。大模型也是如此,只有拥有更巨大的算力,也就是充足的“营养”,它才能持续不断地进行思考,并且还可以自行进行优化和调整。所以说,算力对于大模型而言,就如同营养对于大脑一样重要,是不可或缺的支撑。

Part 2

问:AI和Chatgpt之间是什么关系?

答:Chatgpt可以被视为AI的代表之一。打个比方,将AI看作一个类似“智能手机”这样的通用名词。那么Chatgpt就像是早期版本的iPhone——比如iPhone 4,是当时智能机领域的先驱之一。而DeepSeek则可能类似于华为Mate系列等其他品牌的智能机。因此,它们都是AI大模型或所谓大语言模型的典型代表。

GPT全称Generative Pre-trained Transformer,即生成式预训练变换模型。这个名字听起来很复杂,但实际上它指的是一种能够通过预先学习大量数据来生成新内容的AI技术。其中,“Generative”表明这是一种具有创造性的AI,可以根据已有的信息创造出全新的内容。

Pre-trained就是我们经常听到的“预训练”,这意味着会先让模型学习大量的书籍和资料,开发人员会不断地监督大模型的学习过程,并通过人类的反馈来加强其学习能力。具体来说,就是让它阅读很多书,然后像考试一样提问,答对了就给予肯定,错了就指出并纠正。这个过程类似于学生从小学读到研究生,不断积累知识直到达到各个领域都有很高的准确率。

Transformer这里指的特定的神经网络架构算法,使模型能够理解和处理各种问题。这相当于第一次实现了真正意义上的生成式AI,是一个重大的进步。

在Chatgpt之后,许多中国公司纷纷效仿这种方法,自己开发算法架构并进行训练,推出了如文心一言、豆包等不同的大模型。这些模型的训练方式基本相同,起初都是基于Chatgpt公开的研究论文,当然也不乏研究过程中的改进。

在训练大模型的过程中,需要大量的标注人员为模型提供准确的信息,并对模型的回答进行评分,以不断提高其准确性和质量。最初的时候,模型的回答可能比较生硬“不说人话”,但随着时间的推移和持续的优化,它们变得越来越流畅自然。

AI的一个重要能力就是能够生成内容,包括语义、语音以及图像和视频等多种形式。然而,对于单纯的文本生成而言,现有的大语言模型已经做得相当不错;但要生成图像或视频,则需要额外的架构支持。这就是为什么发布的Sora模型引起了广泛关注的原因——它试图在大型语言模型的基础上进一步拓展到多媒体领域。

自然语言处理是指让机器能够理解和生成人类的语言。无论是输入中文,英文还是什么语言,AI都能相应地给出回应;乃至于代码的生成,可以理解代码是计算机语言,也是仿照人类语言逻辑。

在实际应用方面,医疗领域是目前最热门的方向之一。例如,百川智能正在开展针对儿童疾病的在线问诊服务。这类应用专门针对特定领域进行了深入研究和发展,为用户提供专业的诊断建议和健康咨询等服务。总之,目前我们在办公、教育、娱乐等多个领域都看到了AI技术的广泛应用和发展。

Part 3

问:Deepseek为啥神奇,突然间全民接入Deepseek?

答:个人认为DeepSeek可以是国产之光,点赞创新精神,是一款更懂中国人和国情的大模型。它有以下三个显著特点:

开源:DeepSeek选择开源,这意味着它的代码和技术细节对所有开发者开放。开源策略不仅促进了技术的共享和交流,也使得更多的开发者能够参与到模型的优化和定制中,从而推动了整个行业的进步。

性能优异:DeepSeek在性能方面表现出色,无论是处理速度还是准确性都达到了较高水平。这使得它在各种应用场景中都能展现出强大的实力,满足用户的不同需求。

成本低廉:DeepSeek的训练成本和使用成本都相对较低。这得益于其高效的算法和优化的技术实现,使得更多的企业和开发者能够承担得起并应用这款模型。同时,低成本也意味着更高的性价比,为用户带来了更大的价值。

如下有些讨论,其实是对一些误区的澄清,

1. 说DeepSeek比Chatgpt强,比哪个GPT强?比的是什么方面?强在何处?

Chatgpt是大模型,是OpenAI的大家族之一,所以就是看大家族中的谁和谁比,跟小说似的,大弟子对比大弟子,二弟子对比二弟子。

· 比的是推理模型,是DeepSeek-R1比OpenAI-o1,模型训练成本只有OpenAI的1/10,使用成本只有1/30。

· 比推理模型的原因,其实是往AGI 上更前进了一步。

2. DeepSeek 国产之光,这个荣誉奖励的或者说鼓励的是什么?

首先回答一个问题,DeepSeek的创新是从0到1的颠覆式创新吗?

这个不是的。是1-n上的创新,原有算法基础上的部分算法创新,系统性的工程创新。这个可以有三点解释

a.模型架构环节:大为优化的Transformer + MOE组合架构

降低成本:这两个技术都是谷歌率先提出并采用的,但DeepSeek用它们设计自己的模型时做了巨大优化,并且首次在模型中引入多头潜在注意力机制(Multi-head Latent Attention,MLA),从而大大降低了算力和存储资源的消耗。

普通人能听懂的:激活大脑中的一部分功能来解决问题,不需要牵一发而动全身,这样减少了计算量,减少了消耗。

b.模型训练环节:FP8混合精度训练框架

提升速度:传统上,大模型训练使用32位浮点数(FP32)格式来做计算和存储,这能保证精度,但计算速度慢、存储空间占用大。如何在计算成本和计算精度之间求得平衡,一直是业界难题。2022年,英伟达、Arm和英特尔一起,最早提出8位浮点数格式(FP8),但因为美国公司不缺算力,该技术浅尝辄止。DeepSeek则构建了FP8 混合精度训练框架,根据不同的计算任务和数据特点,动态选择FP8或 FP32 精度来进行计算,把训练速度提高了50%,内存占用降低了40%。

普通人能听懂的:举个例子,算数学 11.11111111111×12.121212121212,算起来很复杂,而且结果也很长,简化一下,算11×12,口算基本上就能得到131,但是这个是相似值,如何又能保留更精准的呢,算11.11 ×12.12 还是11.1111×12.1212,哪个能满足最低精度要求即可。

c.算法环节:新的强化学习算法GRPO

进化速度更快,未来可期:强化学习的目的是让计算机在没有明确人类编程指令的情况下自主学习、自主完成任务,是通往通用人工智能的重要方法。强化学习起初由谷歌引领,训练AlphaGo时就使用了强化学习算法,但是OpenAI后来居上,2015年和2017年接连推出两种新算法TRPO(Trust Region Policy Optimization,信任区域策略优化)和PPO (Proximal Policy Optimization,近端策略优化),DeepSeek更上层楼,推出新的强化学习算法GRPO( Group Relative Policy Optimization 组相对策略优化),在显著降低计算成本的同时,还提高了模型的训练效率。 (GRPO算法公式。Source:DeepSeek-R1论文)

普通人能听懂的:算法的优化,就是一个方法的优化,节省步骤。原来完成一个事情需要a-b-c-d-e 5个步骤,现在可能是a-c-e 或 a-f-e 或 a-b-f,也可以到达,甚至到达的更远。

3.中美大模型差异有多大,一开始有多大,现在有多大,未来有多大?

还是很大,现在是中国取得阶段性成果,美国暂时领先,还在激烈追赶中。

谁是玩家

DeepSeek+Kimi+阿里,百度,字节等 vs OpenAI,Anthropic、谷歌、Meta、xAI 等

4.未来决定性因素

现在来讲,人和创新精神是很重要的,但是芯片也是很重要的,就看谁能够在后续的推理模型中持续的去进行创新,继续的去发布出来更好的模型,所以Deepseek问世之后,可以标志着大模型的角逐由上半场转到下半场。

这里分享一句话共勉:

迫不得已是创新之母

The necessity is the mother of the invention

总体来说,DeepSeek的诸多创新在很大程度上来自于芯片受限所带来的挑战。由于只能使用性能相对较低的H800芯片进行训练,DeepSeek被迫在算法层面进行深度优化,以弥补算力的不足。这些创新使得模型更加轻量化,不仅减少了代码的冗余,还提高了能耗效率,使得在计算资源有限的情况下也能高效运行。

更重要的是,DeepSeek符合国内的法律法规要求,并在训练过程中针对国内网络和互联网监管进行了适配。这使得其输出内容完全符合国内的信息监管标准,为国内用户提供了更加安全、合规的服务。相比之下,虽然Chatgpt等模型也表现出色,但在国内可能面临合规性问题。而DeepSeek则通过其独特的优势,特别是针对中文场景的优化和合规性设计,使其更加贴近国内用户的需求,从而在国内市场如惊雷般响彻东西南北。

Part 4

问:AI会给原有机器人领域带来什么变化?

答:AI和机器人的结合正在逐渐加强。简单来说,可以把AI看成是一种软件,AI技术如计算机视觉和自然语言处理是核心,它们的发展推动了机器人技术的智能化,使机器人能够自主决策。这就是未来五年内,甚至更长时间的发展趋势。

如今,机器狗等机器人产品已经在市场上销售,价格逐渐亲民,使得更多行业能够承担得起并应用这些技术。在泰山等景区,机器狗已经被用于搬运行李等任务。这不仅展示了AI技术在推动机器人领域发展方面的巨大潜力,也预示着未来机器人将在更多领域得到广泛应用。

随着AI行业的不断发展,对机器人等硬件行业也有积极的带动。未来,机器人领域将迎来更多的创新和突破,不仅在无人机、军事等行业发挥重要作用,还将在服务业等民用领域越来越普及。例如,现在许多酒店已经开始使用机器人进行送餐服务,这种趋势未来将会更加明显。

Part 5

问:AI行业发展到哪个阶段

答:在AI行业中,分层相对清晰。头部玩家,即大型科技公司,他们拥有雄厚的资金和资源,专注于开发自己的大模型,无论是大语言模型还是视频模型。而中小科技公司则扮演着产品经理的角色,将这些大模型包装成产品,通过APP、网站或插件等形式,帮助用户解决实际问题。

在国内,像阿里这样的头部厂商已经推出了一系列的大模型,形成了一个相对完整的布局。他们不仅在大语言模型和视频模型领域有所建树,还拥有自己的品牌和产品体系。然而,这种趋势也可能导致国内模型市场的垄断。因此,中小科技公司通常会选择开发垂直领域的应用,以差异化竞争。

例如,百川医疗专注于医疗领域的痛点和需求,提供专业的解决方案;而微度科技则在视频领域进行深度开发。这样的分层和差异化发展,使得AI行业能够更加健康、多元地发展。

Part 6

问:AI对于经济和社会的发展是积极的还是消极的?

答:AI时代的突然到来,无疑会对各行各业产生深远影响。它不仅推动了经济从要素驱动向创新驱动的转变,这一转变在经济学术语中常被称为“创新”,而且还提升了各行业的生产和运营效率,催生了新的产业形态和商业模式。

我经常与同学们讨论,AI时代的到来意味着什么。 如上表格是我问AI(Chatgpt),回复说AI将在2025年为全球经济GDP带来约7%的增长,其中制造业受到的影响最为显著,金融业、医疗、教育等领域也将经历深刻变革。我认为,有时候向AI请教一些问题是很好的,它能帮助我们对某些行业有更深入的了解。因此,如果未来大家想进入AI领域,可以考虑这几个方向。

AI时代也带来了新兴的就业机会,但面对AI,我们可能需要掌握新的技能。然而,AI对社会而言,就像每个新技术的出现一样,发展迅速并带来社会变化。这是一个转型期,但同时也伴随着伦理和法律问题。除了回答的幻觉问题外,隐私和数据安全是大家关心的焦点。人们担心AI厂家是否会全面了解个人信息,以及为什么需要进行私有化部署,这些都与法律和伦理问题紧密相关。

Part 7

问:AI 能帮我做什么

答:这取决于个人所处的行业。例如,你是从事自然语言处理、计算机视觉,还是专注于图片或视频领域?Midjourney 主要致力于图片创作;在语音方面,像科大讯飞这类公司则专注于语音对话技术,或者涉及智能制造等领域。因此,大家首先要明确自己的行业归属,然后深入到相应领域开展工作。

对于个人而言,需要关注所在行业领域中哪些技术能够为自己提供帮助。比如商业分析,需要搜集大量信息、进行客户服务,以及制作相关图表等,这些方面目前都有垂直领域的应用在做,而且做得相当不错。所以,互联网公司在开发应用时,也是沿着这个思路,思考自身能够做什么,以及哪些地方存在用户需求,进而深入某个具体方向进行研发。

以百川为例,它现在专门从事医疗问诊方面的业务;再如商汤推出的小浣熊,主要是解决出图表等问题;还有一些专注于解决编程问题的应用。

Part 8

问:对于小公司或者说工作室来讲能做什么?

答:接入大模型后,我会迅速将其开发成一个垂直领域的应用,或者思考如何将其融入到我的业务中。在产品设计时,避免堆砌过多功能,而是明确大模型在哪一方面的能力可以助我一臂之力,解决什么问题。我沿着这个思路前行,不会盲目追求多功能,而是以智能为导向,不断提升产品的智能化水平。这样,我才能精准地满足用户的需求,为用户创造价值,进而实现产品的定制化。

在中国,由于企业众多,大家的需求各不相同。因此,后续的定制化服务就显得尤为重要。现在,有很多像我这样的AI解决方案提供商,为不同的客户提供多样化的解决方案。

Part 9

从哪里可以获得最新的AI应用

AI 应用,我们之前做调研是分了大概26个场景,有国外的,国内的产品。场景在逐渐做细分。整体来讲,国外的产品起步早,办公领域比国内产品做的完善一些,大多是需要魔法,像我用的那个Gamma,这就是一个专门的 PPT 生成的平台。国内产品大多简单好上手, APP 居多,以社交,视频泛娱乐的为主。

推荐一个平台ai-bot.cn AI 工具合集,这里就是把所有的市面上不止国内还有海外所有的AI产品列出来了,这个可以直接去访问就可以了。对于个人来说,现在处于什么样的行业,或者说你想关注什么样的行业,你就去这里边去找对应的AI产品,然后它能够去帮助你,满足你的需求。这里都有分类,分类下选择一个你喜欢的产品使用就可以了。

提问和回答

问:

就能不能让 AI 像个团队似的,多个 agent搭配起来使用。问一下像实现的方式,有什么推荐吗?

答:

有的,除了直接使用现成产品的进阶版,就是刚才讲就是有点像你刚才把各个 agent串联起来,这就是工作流。可以重点关注一下字节的扣子平台,支持把 agent就是像一个流程一样,一二三四这样的去串联起来,可以自己定义。

总结与展望

今天的分享比较浅,希望大家可以知道AI行业发展的阶段,然后怎么样去找一些好的应用。

核心是我们在用大模型之前,我们先理解什么是大模型,然后也理解了AI可以哪些行业结合,知道要做哪些知识储备,可以更好地迎接未来变化。

然后下一次分享,会更干一些,现在讲的什么叫蒸馏,什么是量化,基于今天的基础,讲的更深度一些,就比如说怎么去理解大模型的幻觉,一些大模型私有化部署的产品方案。

下期剧透

Ollama下载部署到本地电脑上的Deepseek大模型其实不是Deepseek-R1,其实部署的是一个蒸馏后的模型,全名是DeepSeek-R1-Distill-Qwen-7B。 Distill 是蒸馏的意思,就跟我们酿酒一样,一大桶酒蒸馏出来小瓶酒,保留了它的原始风味,体积更小。Qwen是阿里的大模型,然后7b 是7billion 参数(billion 十亿)的一个缩写,就相当于Qwen-7B去学习Deepseek -R1 671b 的知识,然后用到的是徒弟Qwen-7B这个模型。模型更小,还有部分能力。

来源:全现在

相关推荐