智能语音:从识别到理解的跨越

360影视 2025-01-02 14:21 2

摘要:近年来,智能语音技术与互联网、企业服务、消费硬件、医疗健康等各行业的深度融合带来了新的用户需求增长和商业模式创新,创造产业经济价值、繁荣产业生态。智能语音产业的迅速发展促进了我国数字经济发展、提高了社会治理的智能化水平、推动了我国人工智能技术创新的战略突破。

导语:智能语音技术正经历从精准识别到深度理解的质变,这一跨越革新了人机交互方式,让机器能够听懂人心,开启了语音时代的新篇章

(1)智能语音行业定义

智能语音行业是以语音为研究对象,对语音语义进行识别、理解以及生成,使机器具备自然语言处理能力,并且利用其核心技术赋予机器“听觉”、“理解能力”以及“语言能力”。

智能语音技术是人工智能领域的重要分支,涉及多类型学科,其核心技术包括语音合成、语音识别、声纹识别、自然语言理解、语音去噪等。

(2)智能语音行业主要技术

(1)语音合成技术

语音合成技术是通过计算机将外部输入的文字信息转变成自然流畅的语言,赋予机器“讲话”的能力。……(全篇内容阅读原文获取)

(2)语音识别技术

语音识别技术是将人类语音中的词汇内容转换成计算机可以处理的输入内容的技术。……(全篇内容阅读原文获取)

(3)自然语言理解技术

自然语言理解技术是通过利用处理语言技术,使计算机理解人类语言的含义,并通过对话的方式回答用户提出的问题。……(全篇内容阅读原文获取)

(4)声纹识别技术

声纹识别技术是基于声纹信息识别人类身份的生物特征识别技术。声纹识别技术通过提取发声者独有的声门开合频率、口腔大小形状及声道长度等声学特征,进而识别出发声者的身份。……(全篇内容阅读原文获取)

(5)语音去噪技术

语音去噪技术是通过控制语音通信过程中的语音质量,提高系统对于语音理解的准确性,缓解噪音污染对于语音收录的影响。在语音通信的过程中,实现波束形成、回声消除和噪音抑制都需要复杂的算法和大量的信号处理,回声消除算法是目前语音去噪技术常用的算法类型。

(3)智能语音行业政策梳理

近年来,智能语音技术与互联网、企业服务、消费硬件、医疗健康等各行业的深度融合带来了新的用户需求增长和商业模式创新,创造产业经济价值、繁荣产业生态。智能语音产业的迅速发展促进了我国数字经济发展、提高了社会治理的智能化水平、推动了我国人工智能技术创新的战略突破。

国务院、工信部等政府部门纷纷出台相关行业发展规划及政策指导意见,推动行业进一步规范化发展。……(全篇内容阅读原文获取)

图表 1 2021-2024年我国智能语音行业相关政策及举措

信息来源:融中研究整理

(4)智能语音行业发展历程

1952年,AT&T贝尔实验室成功研究出世界上第一个语音识别系统Audry,标志着智能语音语言技术发展的开始。至今智能语音语言技术已经历经了近70年的发展,经历了技术萌芽期、起步期、变革式发展期、落地可用期共四个发展阶段:

……(全篇内容阅读原文获取)

智能语音行业上游为基础设施提供商,包括基础硬件设施提供商和软件服务提供商,其中服务器、开源模型和数据中心为本报告重点研究的上游供应商。

智能语音行业中游由语音技术提供商组成,包括智能语音解决方案提供商、大型互联网企业以及初创企业等,其中智能语音解决方案提供商包括科大讯飞、思必驰、捷通华声、云知声等;大型互联网企业包括阿里、百度、腾讯等。

智能语音行业下游是各应用领域,按客户类型可分为消费级市场和企业级市场。消费级应用主要立足于日常生活,包括智慧生活、智能家居、智慧办公、智能驾驶等应用场景,本质上是智能语音技术对于各类终端赋能,实现各生活场景下的语音交互。企业级应用主要服务于特定场景,包括智慧医疗、智慧教育、智慧电信/金融/电商等专业应用场景。

(1)产业链上游分析

中国智能语音产业链的上游基础层主要为基础设施供应商,主要职能是为智能语音设备的运行提供技术支持,包括服务器、开源模型及算法以及数据中心等服务供应商。

(1)服务器行业

行业概况

服务器是一种专门的计算机系统,其设计目的是为了通过网络请求提供服务、资源或数据给其他计算机(通常称为客户端)。服务器在计算机网络中扮演着核心角色,无论是在企业数据中心、云计算环境,还是在家庭网络中,服务器都是支撑各类应用和服务的关键基础设施。

服务器的工作原理可以概括为以下几个主要步骤:(1)请求接收。当客户端需要访问某种资源或服务时,它会向服务器发送一个请求。这通常是通过网络协议(如HTTP、FTP、SMTP等)完成的。(2)请求处理。服务器收到请求后,会根据请求的类型和内容进行处理。这可能涉及到读取文件、查询数据库、执行应用程序逻辑等。处理过程可能包括解析请求、处理请求和生成响应。(3)响应发送。服务器将处理结果以响应的形式返回给客户端。响应通常包含请求的结果、状态码以及必要的元数据。(4)资源管理。服务器需要管理和维护其资源,包括硬件资源(如CPU、内存、存储)和软件资源(如操作系统、服务)。它还需要处理安全性问题,如身份验证、授权和数据加密,以保护客户端的数据和通信。

服务器按物理形态可分为塔式服务器、机架式服务器、刀片服务器、高密服务器等;按用途可分为数据库服务器、应用服务器、Web服务器、文件服务器、AI加速服务器、边缘计算服务器等;按CPU指令集类型可分为CISC复杂指令集架构服务器和RISC精简指令集架构服务器,其中CISC架构服务器又被称为x86服务器,当前处于服务器的绝对垄断地位。

发展现状

根据IDC的统计数据,2019年以来,中国服务器出货量和市场规模均保持快速增长态势。出货量方面,中国服务器出货量从2019年318.6万台增长至2023年468.0万台,年均复合增长率为10.09%;市场规模方面,中国服务器市场规模从2019年182.0亿美元增长至2023年308.0亿美元,年均复合增长率为14.06%。

图表 2 2019-2023年中国服务器出货量及市场规模变化

信息来源:IDC、融中研究整理

根据IDC的统计数据,2022年中国服务器市场规模约为273亿美元,浪潮信息在中国服务器中市场份额最高,市场份额为28.10%;华为和联想次之,市场份额分别为16.90%和15.10%。中国服务器市场前五大厂商市场份额合计为62.20%,市场集中度较高。

图表 3 2022年中国服务器市场竞争格局(按营业收入)

信息来源:IDC、融中研究整理

未来趋势

根据行业内龙头企业披露的发展规划和技术研发方向,服务器市场未来发展主要呈现以下几个方面的趋势:(1)随着物联网和5G技术的普及,越来越多的数据将在边缘侧产生和被处理,因此,边缘计算将会成为服务器行业的重要趋势之一。未来,服务器的设计和部署将更加注重边缘计算的需求,例如更加灵活的架构、更高效的数据处理能力以及更低的功耗等。(2)人工智能和机器学习的集成正在改变服务器行业的面貌。AI芯片的广泛应用和智能服务器的发展预示着未来服务器将更加智能化。AI技术赋能服务器,使得系统管理的AI运维能力得到提升,自动任务转向自动决策的时代即将到来。(3)量子计算的探索也是未来的一个重要方向。随着技术的进步,量子计算有望在未来为服务器行业带来新的突破。

(2)开源模型及算法

行业概况

开源大模型是指基于开源软件模式,由全球开发者共同参与、共同维护、共同发展的机器学习模型。开源由开源规则、开源对象、开源基础设施、参与主体组成,是参与主体在基础设施之上针对对象在遵循一定规则下的一种开放式协作模式,其目的是为了能产生公开复用的产出物。

开源大模型的特点是开放性、共享性和可扩展性,这使得开源大模型在全球范围内得到了广泛的应用和推广。目前,开源大模型已经成为全球人工智能领域的重要发展趋势。模型开源生态不仅加速了人工智能技术的创新,而且推动了其在各个行业的广泛应用。通过开源大模型,企业能够更快地实现任务部署和技术落地,这对于人工智能产业的发展起到了关键作用。

按模型类型,开源模型可以分为语言模型、多模态模型、数学模型和代码模型等;按开源程度,开源模型可以分为完全开源和部分开源;按应用场景,开源模型可以分为通用型和行业特定型。

……(全篇内容阅读原文获取)

发展现状

大语言模型的开源推动了深度学习和人工智能的持续发展,也催生了一系列前沿探索和落地应用。2017年Google首次提出了Transformer架构,该架构成为后续人工智能大模型构建的基础。此后,Google、Meta AI、清华大学、百川智能、智谱华章、阿里云、OpenAI、腾讯等相继发布自己的模型,并将其源代码开源。目前,腾讯的混元大模型家族是目前业界参数规模最大的开源模型,其主力军“混元Large”模型拥有3890亿参数,并支持长达256K的上下文处理。

图表 4 开源大模型重大事件

信息来源:融中研究整理

国内模型百花齐放,互联网大厂、初创公司、科技企业均有代表性模型产品。国内模型技术辨识度不高,据Super CLUE测评结果榜单,头部的国内模型在得分上相差并不显著。在国内主流的模型中,互联网厂商和科技企业在大模型上起步较早,如百度在GPT-4发布的后一天即23年3月15日发布文心一言,23年3月29日360智脑10发布,2023年4月通义千问上线,23年5月6日讯飞星火1.0发布。进入2024年,初创公司的大模型产品得到了更广泛的关注,例如24年3月月之暗面更新Kimi智能助手200万字的上下文支持能力,直接引发了百度、360等厂商对长上下文的适配。同月阶跃星展STEP模型发布,其STEF2宣称为万亿参数MOE模型,直接对标GPT-4的参数(一般认为是1.8T参数的MoE),在大多数国内模型以千亿参数为主的环境下,将参数量率先提升到万亿级别。4月,MiniMax也发布了万亿参数MoE架构的abab 6.5。

图表 5 国内主流大模型格局

信息来源:融中研究整理

商业模式

开源大模型的商业模式与收入模型和成本结构有关。在开源方面,对外开源和使用开源所面对的商业模式有所不同。从成本角度而言,对外开源所含的成本包括社区运营成本、开源安全成本;使用开源所含的成本包括开源合规成本、开源安全成本等。总体来看,开源大模型商业模式包括服务收费、关联业务盈利、生态盈利以及获客后商业化盈利等模式,具体情况如下表:

图表 6 开源大模型不同商业模式对比

信息来源:融中研究整理

发展趋势

开源大模型未来发展趋势主要表现在性能、应用场景和生态建设等方面。性能方面,随着算力的增强和数据集的丰富,未来的大模型规模将进一步扩大,带来更强的计算能力和处理速度,性能持续提升。应用场景方面,随着技术的不断进步,开源大模型不仅将在传统的自然语言处理领域得到广泛应用,还将渗透到医疗诊断、智能交通等新兴领域。同时,多模态融合成为主流趋势,文本、图像、音频等多种模态的数据将在大模型中实现有机融合,为跨模态的应用提供有力支持。生态系统搭建方面,开源模式降低了使用门槛,促进了技术共享和创新,并推动了全球知识分享与技术协同,随着更多企业和研究机构加入开源行列,开源AI大模型的生态系统将更加健全。

(3)数据中心行业分析

……(全篇内容阅读原文获取)

(2)产业链下游分析

智能语音市场按客户类型可分为消费级市场(2C或2B2C)和企业级市场(2B)。消费级应用,立足于个人日常生活,主要包括了智慧生活、智能家居、智慧办公、智能驾驶等场景,本质上是智能语音技术(以语音助手为代表)对于各类终端的赋能,是AIoT大生态的重要构成。具体产品包括了:智能手机、智能可穿戴、智能音箱、智能家电、翻译机、录音笔、转写TWS耳机、智能车载等。专业级应用:服务于特定场景,如智慧医疗、智慧教育、智慧电信/金融/电商等。相较而言,专业级应用具有更高的垂直属性和know-how壁垒。具体产品包括了智慧课堂、自动审阅、学习机(2C属性)、智慧客户/呼叫等。

(1)消费级应用

智能语音+车载

车载智能语音是智能语音重要消费级应用场景之一,是车辆与驾驶者之间的沟通桥梁,不仅能够理解和执行驾驶者的指令,还能以人性化的方式回应,充分体现了现代汽车智能化的发展趋势。

图表 7 不同汽车品牌智能语音控制系统对比

信息来源:融中研究整理

智能语音+家居

智能语音技术与家居的结合已经成为现代智能家居系统的重要组成部分。通过语音交互,用户可以方便地控制各种智能家居设备,实现更加便捷、舒适和安全的居家体验。智能语音助手不仅能够执行基本的语音命令,如播放音乐、调节灯光等,还能学习用户的习惯并提供个性化的建议和服务。

大多数智能家居声控系统与多种品牌的智能设备兼容,包括智能灯泡、智能插座、智能家电等,用户可以根据自己的需求不断扩展系统功能。目前,市场上主流的智能家居声控系统包括Amazon Echo、Google Nest Hub、Apple Home Pod、小米音响、天猫精灵等,这些智能声控系统分别搭载了不同的语音助手,从而实现对家居设备的控制。

图表 8 不同品牌智能家居语音控制系统对比

信息来源:融中研究整理

(2)专业级应用

……(全篇内容阅读原文获取)

(1)智能语音行业发展现状

人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学,其三大基础技术是机器视觉、智能语音和机器学习。

中国智能语音市场竞争格局呈现出头部企业集中的特点,主要由科大讯飞、百度、阿里巴巴等科技巨头主导。根据IDC的统计数据,科大讯飞在中国智能语音市场中占据主导地位,市场份额约为44.2%。百度紧随其后,市场份额为27.8%。此外,苹果、Nuance和小i机器人也占有一定市场份额,分别为15.4%、6.9%和3.0%。

图表 9 中国智能语音市场竞争格局

信息来源:IDC、融中研究整理

(2)智能语音行业主要企业分析

(1)科大讯飞

科大讯飞是中国最大的智能语音技术提供商,成立于1999年,专注于语音识别、自然语言理解、机器学习推理及自主学习等领域的研究。其核心技术在语音合成、语音识别、口语评测等方面处于国际领先地位,并广泛应用于教育、医疗、金融、智能家居等多个领域。

图表 10 科大讯飞业务及产品布局

信息来源:融中研究整理

根据科大讯飞2024年半年报,科大讯飞2024年上半年主营业务收入约为93.25亿元,其中教育产品和服务、开放平台、运营商相关业务、智能硬件为营收占比较大的业务板块,其中教育产品和服务2024年上半年实现营收28.6亿元,占比为30.78%;开放平台2024年上半年实现营收23.45亿元,占比为25.14%。

图表 11 科大讯飞2024年H1各项业务营收占比情况

信息来源:《科大讯飞股份有限公司2024年半年度报告》、融中研究整理

科大讯飞的核心竞争力主要表现为以下几个方面:(1)科大讯飞承建有认知智能全国重点实验室、语音及语言信息处理国家工程研究中心以及国家首批新一代人工智能开放创新平台等国家级平台;(2)在行业标准方面,科大讯飞先后主导和参与制定了国内外智能语音、人工智能领域标准70余项,主导制定的全球首个人机交互领域智能语音交互ISO/IEC国际标准。

科大讯飞2024年首次发布了星火语音大模型,在首批37个主流语种上已整体超越OpenAI公司推出的Whisperlarge-v3,保持了科大讯飞智能语音技术的国际领先水平,未来有望在每个C端产品上带来人机交互的颠覆式变革。

(2)思必驰

……(全篇内容阅读原文获取)

(3)百度语音

……(全篇内容阅读原文获取)

(3)智能语音市场规模

根据《思必驰科技股份有限公司首次公开发行股票并在科创板上市招股说明书》披露的数据,2021年中国智能语音市场规模将达到285亿元,较2020年的217亿元增长31.34%。未来在语音识别技术、语音合成技术、大模型等的更新迭代下,智能语音行业市场规模将进一步扩大,预计2030年市场规模将增长至1452亿元。

图表 12 我国智能语音市场规模及预测

信息来源:思必驰招股说明书、融中研究整理


来源:融中财经

相关推荐