Dia-1.6B TTS：优秀的文本到对话生成模型

摘要：Dia-1.6B TTS是由Nari Labs开发的一款拥有16亿个参数的文本转语音模型（TTS）。本文将详细介绍该模型，以及其访问途径、使用方法，并展示实际应用结果以真正了解该模型的功能。

译者 | 李睿

审校 | 重楼

Dia-1.6B TTS是由Nari Labs开发的一款拥有16亿个参数的文本转语音模型（TTS）。本文将详细介绍该模型，以及其访问途径、使用方法，并展示实际应用结果以真正了解该模型的功能。

你是否正在寻求一种合适的文本转语音模型？拥有16亿个参数的Dia-1.6B TTS模型或许是理想之选。令人惊讶的是，这款模型竟是由两名本科生在毫无资金支持的情况下开发的。本文将介绍这款模型以及如何访问与使用，并通过实际结果了解其强大的功能。在使用该模型之前，首先了解其基本情况。

Dia-1.6B是什么？

以文本作为输入，自然语音作为输出为目标的模型称为文本到语音模型。Nari Labs开发的Dia-1.6B参数模型是文本到语音模型之一。这款模型具备根据文本生成高度逼真对话的能力，并支持非语言交流，例如笑声、打喷嚏、吹口哨等，其强大的功能令人期待。

如何访问Dia-1.6B？

用户可以通过以下两种方法访问Dia-1.6B模型：

（1）在Google Colab中使用Hugging Face API

（2）使用Hugging Face Spaces

第一种方法需要获取API密钥，然后将其与代码集成到Google Colab中。第二种方法无需编程，支持交互式地使用Dia-1.6B。

1.使用Hugging Face和Google Colab

该模型可在Hugging Face上使用，可以在Google Colab笔记本（notebook）中的T4 GPU提供的10GB 内存（VRAM）的帮助下运行，可以通过一个简短对话来演示其使用方法。

在开始之前，首先需要获取Hugging Face访问令牌，用于运行代码。如果还没有密钥，可以访问https://huggingface.co/settings/tokens并生成一个密钥。

确保启用以下权限：

在Google Colab中新建一个笔记本，并将其密钥添加到secrets中（其名称为HF_Token）：

注：切换到T4 GPU运行这个笔记本。否则无法使用运行该模型所需的10GB内存。

（1）首先克隆Dia模型的Git存储库：

复制

!git clone https://github.com/nari-labs/dia.git1.

（2）安装本地软件包：

复制

pip install ./dia1.

（3）安装soundfile音频库：

复制

!pip install soundfile1.

在执行完上述命令后，重新启动会话，然后再继续。

（4）在安装完成后，进行必要的导入并初始化模型：

复制

import soundfile as sf
from dia.model import Dia
import IPython.display as ipd
model = Dia.from_pretrained("nari-labs/Dia-1.6B")1.2.3.4.

（5）初始化文本以进行文本到语音转换：

复制

text = "[S1] This is how Dia sounds. (laugh) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."1.

（6）对模型运行推理：

复制

output = model.generate(text)
sampling_rate = 44100 # Dia uses 44.1Khz sampling rate.
output_file="dia_sample.mp3"
sf.write(output_file, output, sampling_rate) # Saving the audio
ipd.Audio(output_file) # Displaying the audio1.2.3.4.5.

输出的语音：

这段语音非常像人类的声音，该模型在非语言交流方面表现优异。值得注意的是，由于没有语音模板，其结果是不可复制的。

注：可以尝试修复模型的种子以再现结果。

2.使用Hugging Face Spaces

可以尝试通过Hugging Face Spaces来克隆语言。这里有一个直接使用模型的在线界面：https://huggingface.co/spaces/nari-labs/Dia-1.6B

在这里可以传递输入文本，另外也可以使用“音频提示”来复制声音。这里输入了之前生成的音频。

以下文本作为输入：

复制

[S1] Dia is an open weights text to dialogue model.
[S2] You get full control over scripts and voices.
[S1] Wow. Amazing. (laughs)
[S2] Try it now on Git hub or Hugging Face.1.2.3.4.

你可以进行评判，你认为这个模型是否成功捕捉并复制了之前的语音？

注：在使用Hugging Face Spaces生成语音时出现了多个错误，可以尝试更改输入文本或音频提示以使该模型正常工作。

使用Dia-1.6B时的注意事项

在使用Dia-1.6B模型时，应该注意以下几点：

该模型没有针对特定的声音进行微调。每次运行都会有不同的声音。可以尝试修复模型的种子以重现结果。

Dia模型使用44.1kHz采样率。

在安装库后，需要确保重新启动Colab笔记本。

在使用Hugging Face Spaces生成语音时出现了多个错误，可以尝试更改输入文本或音频提示以使模型工作。

结论

Dia-1.6B模型的输出结果令人期待，尤其是与竞争对手相比。其最大优势在于支持广泛的非语言交流。该模型具有独特的语调，声音也令人感觉很自然，但是由于没有针对特定语音进行微调，可能难以复现特定语音。与其他生成式人工智能工具一样，人们应该负责任地使用这种模型。

常见问题解答

问题1：在对话中只能有两个对话者吗？

答：对话并不局限于只有两个对话者。虽然两个人的对话（如[S1]和[S2]）比较常见，但可以通过标记为[S1]、[S2]、[S3]等方式增加更多对话人。这在模拟小组对话、访谈或多方对话时特别有用。只要确保在提示中清楚地指出谁在说话，Dia-1.6B模型就可以正确地跟随并为每个对话者生成连贯的回复。这种灵活性允许更动态和上下文丰富的交互。

问题2：Dia 1.6B是付费模型吗？

答：Dia 1.6B模型并不是付费模型，可以完全免费使用。它是一款托管在Hugging Face上的开源对话模型，无需订阅费或授权成本。无论是学生、开发者还是研究人员，都无需预付任何费用。这使其成为实验、原型设计或教育用途的理想选择。

问题3：是否在不用担心硬件或编码情况下使用这个模型？

答：用户可以直接通过Hugging Face Spaces使用Dia 1.6B模型，它提供了一个基于web的界面。这意味着无需设置Python环境、安装库或者担心GPU的可用性。只需访问其页面，就可以在浏览器中立即与Dia 1.6B模型进行互动。

问题4：可以针对自己的用例对Dia 1.6B进行微调吗？

答：是的，如果用户有特定的数据，并希望Dia 1.6B模型在其研究领域表现得更好，可以对Dia 1.6B模型进行微调。但需要具备一些技术专长和计算资源，或者可以使用Hugging Face的训练工具。

问题5：Dia 1.6B模型是否有令牌或使用限制？

答：在默认情况下没有强制性限制，但Hugging Face Spaces可能会有速率或对话时间限制来管理服务器负载。

来源：日暮长太息

标签：模型 tts spaces dia nari

本文地址：https://news.43u.com.cn/a/1712413.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!