tts资讯_360影视

【粤语ASR&TTS】粤语语音识别与合成：重塑粤语智能化标杆

随着人工智能技术的发展，语音识别和合成技术日益成熟，逐渐成为人机交互的重要组成部分。在众多语言中，粤语以其独特的文化魅力和广泛的应用场景吸引了大量的关注。本文将探讨广州深声科技有限公司（以下简称“深声科技”）在粤语语音识别与合成技术领域的探索与突破。

tts 粤语语音识别 asr 粤语语音识别 2025-06-11 19:17 6

使用 NVIDIA Triton 和 TensorRT-LLM 部署 TTS 应用的最佳实践

针对基于 Diffusion 和 LLM 类别的 TTS 模型，NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Lovelace GPU 上，F5-TTS 模型每秒可生成长达 25 秒的音频；Sp

nvidia tts triton nvidiatriton 2025-06-11 10:59 5

4款好用的AI文本转语音工具，AI语音生成工具推荐

跟大家分享几款本站收录的实用AI语音合成工具，支持文本转语音的在线功能，非常适合视频制作中使用。

语音 llm tts audio 语音合成 2025-06-07 11:13 9

给语音贴情绪标签：MIKU-PAL如何突破情感语音合成的瓶颈

在人工智能快速发展的今天，让AI能够用丰富的情感说话已成为研究热点。然而，制作高质量的情感语音合成系统一直面临一个关键瓶颈：缺乏大规模且一致性强的情感语音数据。2025年5月，来自Fish Audio（美国圣克拉拉）的研究团队Yifan Cheng、Ruoyi

语音情绪 tts 语音合成 meld 2025-06-05 23:46 6

波森AI推出EmergentTTS-Eval，革新评估标准

在2025年5月29日，波森AI（Boson AI）的研究团队向学术界发布了一项开创性研究。这项名为"EmergentTTS-Eval"的工作由Ruskin Raj Manku、Yuzhi Tang、Xingjian Shi、Mu Li和Alex Smola共

模型 tts tn 波森波森ai 2025-06-04 16:31 7

Orpheus TTS 告别机械感；OpenCodeReasoning解锁编程推理新高度

文本转语音模型近几年取得了显著进展，但现有模型在实际应用中仍有很多局限。大多数模型只能生成单一音色的语音，无法生成富有情感的语音。为了应对这一挑战，Canopy Labs 开源了文本转语音模型 Orpheus-TTS 。

编程推理 tts op opencodereasoning 2025-05-30 05:25 5

声网赋能，这些AI应用如何实现自然流畅对话体验？

在生成式AI技术的不断推进下，对话式AI正迅速融入各行各业，为用户提供前所未有的互动体验。声网技术作为这一变革的重要推手，为多个AI应用带来了极致的对话体验。

应用 tts rtc asr 绘本故事 2025-05-28 18:45 9

扣子空间上线极致拟人的AI播客，这次真是降维打击了

我就去直接试了一下。当我实际听到扣子空间生成的AI播客音频的时候，我的第一反应是震撼，第二反应是恐惧，然后才是兴奋。

播客 tts prompt mcp 拟人 2025-05-28 11:15 5

ACL 2025 高分接收 | 高感情语音技术：逻辑智能小语种TTS破局之道

语音合成（TTS）技术近十年来突飞猛进，从早期的拼接式合成和统计参数模型，发展到如今的深度神经网络与扩散、GAN 等先进架构，实现了接近真人的自然度与情感表达，广泛赋能智能助手、无障碍阅读、沉浸式娱乐等场景。

语音小语种 tts acl tts破局 2025-05-26 14:39 7

Dia-1.6B TTS：优秀的文本到对话生成模型

Dia-1.6B TTS是由Nari Labs开发的一款拥有16亿个参数的文本转语音模型（TTS）。本文将详细介绍该模型，以及其访问途径、使用方法，并展示实际应用结果以真正了解该模型的功能。

模型 tts spaces dia nari 2025-05-22 10:12 9

AI日报：腾讯混元图像2.0毫秒级生图；Windsurf重磅发布SWE-1系列；MiniMax Speech-02登顶全球TTS榜首

✨ 参数量提升，毫秒级响应速度，告别传统等待模式。🌟 超写实画质，理解复杂指令准确率超95%，减少“AI味”。🎨 实时绘画板功能支持多图融合，优化设计流程。详情链接:https://hunyuan.tencent.com/

tts t windsurf 混元图像 windsurf重磅 2025-05-17 00:27 7

登顶 Arena！MiniMax 最新 Speech-02 模型屠榜

开年以来，从科技巨头到创业公司再到研究机构，都在发力 TTS 模型。2 月，字节跳动海外实验室推出一款轻量级 TTS 模型 MegaTTS3-Global；3 月，出门问问联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构，共同开源新一代

模型 tts vae minimax arena 2025-05-16 17:04 10

面向边缘计算的多模态协同推理系统设计

边缘计算作为一种新兴的计算范式，通过将计算资源和服务部署到靠近数据源或用户的网络边缘，具有低延时、高可靠性和隐私保护等优点，但也面临资源受限的挑战。针对边缘计算设备资源受限的特点，提出一种多模态基础模型协同推理框架，以提升智能语音交互系统的性能和效率。通过将语

模态推理 tts nano asr 2025-05-16 12:04 8

开源播客TTS模型神器:Muyan-TTS，0.33秒生1秒音频，零样本语音合成

快速生成：约 0.33 秒生成 1 秒音频，适合批量生成长语音内容；说话人适配：支持自定义说话人，进行个性化语音定制；支持长内容连贯合成：无需打断，可自然连续地朗读 5 分钟甚至更长文本；离线部署友好：Hugging Face 提供模型权重，支持本地推理。

开源播客 tts 音频 tts模型 2025-05-13 14:24 10

突破大模型推理瓶颈！首篇「Test-Time Scaling」全景综述

本文由来自香港城市大学、麦吉尔大学（McGill）、蒙特利尔人工智能实验室（MILA）、人大高瓴人工智能学院、Salesforce AI Research、斯坦福大学、UCSB、香港中文大学等机构的多位研究者共同完成。第一作者为来自香港城市大学的博士生张启源和

模型推理 tts 全景 scaling 2025-05-13 10:58 9

WT588D16-28SS：一款替代TTS的语音合成芯片

WT588D16-28SS语音芯片电压范围宽，控制方式灵活，外围电路简单，支持多种音效，性价比优越。在相关领域具备替代性，可取代TTS方案，广泛适用于各类产品设计。

芯片 tts uart wt588d 叫号机 2025-05-06 16:28 8

方言TTS医学语义保真解决方案：音素库构建与模型优化的协同策略

音素重组现象：以"室性心动过速"为例，粤语发音需将普通话的"室"（shì）转化为/sɐt̚⁵⁵/，涉及入声韵尾/-t̚/的特殊处理。闽南语的"速"（sù）则可能发为/sɔk̚³²/，存在喉塞音与声调差异。声调-语义关联断裂：方言声调系统与普通话差异显著（如粤语

tts 方言语义音素方言tts 2025-04-28 11:46 9

“思考更长时间”而非“模型更大”是提升模型在复杂软件工程任务

还在为部署动辄数百 GB 显存的庞大模型而烦恼吗？还在担心私有代码库的安全和成本问题吗？通义灵码团队最新研究《Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scal

模型软件工程 tts orm cot 2025-04-22 16:39 7

替代TTS语音合成芯片--WT588D16-28SS语音芯片

WT588D16-28SS语音芯片电压范围宽，控制方式灵活，外围电路简单，支持多种音效，性价比优越。在相关领域具备替代性，可取代TTS方案，广泛适用于各类产品设计。

语音芯片 tts t5 wt588d 2025-04-17 08:45 8

通过TTS模型让猴哥给你讲个故事

TTS（Text-to-Speech，文本转语音）技术是一种将书面文本转换为口语语音的技术。这种技术广泛应用于各种场景，如语音助手、导航系统、有声读物、自动电话应答系统等。TTS系统的目的是为了让计算机能够“说出”人们能理解的语言，从而改善人机交互的体验，使得

模型 tts ffmpeg tts模型 autoexit 2025-04-10 22:42 6