Dia-1.6B TTS:优秀的文本到对话生成模型

360影视 欧美动漫 2025-05-22 10:12 2

摘要:Dia-1.6B TTS是由Nari Labs开发的一款拥有16亿个参数的文本转语音模型(TTS)。本文将详细介绍该模型,以及其访问途径、使用方法,并展示实际应用结果以真正了解该模型的功能。

译者 | 李睿

审校 | 重楼

Dia-1.6B TTS是由Nari Labs开发的一款拥有16亿个参数的文本转语音模型(TTS)。本文将详细介绍该模型,以及其访问途径、使用方法,并展示实际应用结果以真正了解该模型的功能。

你是否正在寻求一种合适的文本转语音模型?拥有16亿个参数的Dia-1.6B TTS模型或许是理想之选。令人惊讶的是,这款模型竟是由两名本科生在毫无资金支持的情况下开发的。本文将介绍这款模型以及如何访问与使用,并通过实际结果了解其强大的功能。在使用该模型之前,首先了解其基本情况。

Dia-1.6B是什么?

以文本作为输入,自然语音作为输出为目标的模型称为文本到语音模型。Nari Labs开发的Dia-1.6B参数模型是文本到语音模型之一。这款模型具备根据文本生成高度逼真对话的能力,并支持非语言交流,例如笑声、打喷嚏、吹口哨等,其强大的功能令人期待。

如何访问Dia-1.6B?

用户可以通过以下两种方法访问Dia-1.6B模型:

(1)在Google Colab中使用Hugging Face API

(2)使用Hugging Face Spaces

第一种方法需要获取API密钥,然后将其与代码集成到Google Colab中。第二种方法无需编程,支持交互式地使用Dia-1.6B。

1.使用Hugging Face和Google Colab

该模型可在Hugging Face上使用,可以在Google Colab笔记本(notebook)中的T4 GPU提供的10GB 内存(VRAM)的帮助下运行,可以通过一个简短对话来演示其使用方法。

在开始之前,首先需要获取Hugging Face访问令牌,用于运行代码。如果还没有密钥,可以访问https://huggingface.co/settings/tokens并生成一个密钥。

确保启用以下权限:

在Google Colab中新建一个笔记本,并将其密钥添加到secrets中(其名称为HF_Token):

注:切换到T4 GPU运行这个笔记本。否则无法使用运行该模型所需的10GB内存。

(1)首先克隆Dia模型的Git存储库:

复制

!git clone https://github.com/nari-labs/dia.git1.

(2)安装本地软件包:

复制

pip install ./dia1.

(3)安装soundfile音频库:

复制

!pip install soundfile1.

在执行完上述命令后,重新启动会话,然后再继续。

(4)在安装完成后,进行必要的导入并初始化模型:

复制

import soundfile as sf
from dia.model import Dia
import IPython.display as ipd
model = Dia.from_pretrained("nari-labs/Dia-1.6B")1.2.3.4.

(5)初始化文本以进行文本到语音转换:

复制

text = "[S1] This is how Dia sounds. (laugh) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."1.

(6)对模型运行推理:

复制

output = model.generate(text)
sampling_rate = 44100 # Dia uses 44.1Khz sampling rate.
output_file="dia_sample.mp3"
sf.write(output_file, output, sampling_rate) # Saving the audio
ipd.Audio(output_file) # Displaying the audio1.2.3.4.5.

输出的语音:

这段语音非常像人类的声音,该模型在非语言交流方面表现优异。值得注意的是,由于没有语音模板,其结果是不可复制的。

注:可以尝试修复模型的种子以再现结果。

2.使用Hugging Face Spaces

可以尝试通过Hugging Face Spaces来克隆语言。这里有一个直接使用模型的在线界面:https://huggingface.co/spaces/nari-labs/Dia-1.6B

在这里可以传递输入文本,另外也可以使用“音频提示”来复制声音。这里输入了之前生成的音频。

以下文本作为输入:

复制

[S1] Dia is an open weights text to dialogue model.
[S2] You get full control over scripts and voices.
[S1] Wow. Amazing. (laughs)
[S2] Try it now on Git hub or Hugging Face.1.2.3.4.

你可以进行评判,你认为这个模型是否成功捕捉并复制了之前的语音?

注:在使用Hugging Face Spaces生成语音时出现了多个错误,可以尝试更改输入文本或音频提示以使该模型正常工作。

使用Dia-1.6B时的注意事项

在使用Dia-1.6B模型时,应该注意以下几点:

该模型没有针对特定的声音进行微调。每次运行都会有不同的声音。可以尝试修复模型的种子以重现结果。

Dia模型使用44.1kHz采样率。

在安装库后,需要确保重新启动Colab笔记本。

在使用Hugging Face Spaces生成语音时出现了多个错误,可以尝试更改输入文本或音频提示以使模型工作。

结论

Dia-1.6B模型的输出结果令人期待,尤其是与竞争对手相比。其最大优势在于支持广泛的非语言交流。该模型具有独特的语调,声音也令人感觉很自然,但是由于没有针对特定语音进行微调,可能难以复现特定语音。与其他生成式人工智能工具一样,人们应该负责任地使用这种模型。

常见问题解答

问题1:在对话中只能有两个对话者吗?

答:对话并不局限于只有两个对话者。虽然两个人的对话(如[S1]和[S2])比较常见,但可以通过标记为[S1]、[S2]、[S3]等方式增加更多对话人。这在模拟小组对话、访谈或多方对话时特别有用。只要确保在提示中清楚地指出谁在说话,Dia-1.6B模型就可以正确地跟随并为每个对话者生成连贯的回复。这种灵活性允许更动态和上下文丰富的交互。

问题2:Dia 1.6B是付费模型吗?

答:Dia 1.6B模型并不是付费模型,可以完全免费使用。它是一款托管在Hugging Face上的开源对话模型,无需订阅费或授权成本。无论是学生、开发者还是研究人员,都无需预付任何费用。这使其成为实验、原型设计或教育用途的理想选择。

问题3:是否在不用担心硬件或编码情况下使用这个模型?

答:用户可以直接通过Hugging Face Spaces使用Dia 1.6B模型,它提供了一个基于web的界面。这意味着无需设置Python环境、安装库或者担心GPU的可用性。只需访问其页面,就可以在浏览器中立即与Dia 1.6B模型进行互动。

问题4:可以针对自己的用例对Dia 1.6B进行微调吗?

答:是的,如果用户有特定的数据,并希望Dia 1.6B模型在其研究领域表现得更好,可以对Dia 1.6B模型进行微调。但需要具备一些技术专长和计算资源,或者可以使用Hugging Face的训练工具。

问题5:Dia 1.6B模型是否有令牌或使用限制?

答:在默认情况下没有强制性限制,但Hugging Face Spaces可能会有速率或对话时间限制来管理服务器负载。

来源:日暮长太息

相关推荐