字节豆包如何连接AI终端

摘要：A：微信有light和pro两个版本，同样是pro 32K时，前后文本长度参量相关数据有所不同，输出从0.002增长大概四倍多，若带有识图能力会涨到0.009接近一分钱，图片输入时是0.003。token数计算方面，高质量图片会压缩到最多1312个token（

Q：微信light和pro版本有什么区别？

A：微信有light和pro两个版本，同样是pro 32K时，前后文本长度参量相关数据有所不同，输出从0.002增长大概四倍多，若带有识图能力会涨到0.009接近一分钱，图片输入时是0.003。token数计算方面，高质量图片会压缩到最多1312个token（图片分辨率除以784，若结果大于1312则继续压缩到1312再上传处理，若小于则按较小值计算），低质量图片最高256个token（算法同样是除以784）。价格上，如1080P图传上去是1000个token，处理一张是三厘钱，十张三分钱；256K的纯文字输出是0.009，比32K的贵三倍，输入差别不大。

Q：不同模型在创作科幻小说时效果如何？

A：选取了light 4K、pro 32K、pro 128三个模型进行对比，4K的速度快，12秒写完但内容更像目录；32K每章有一点故事但作为章节内容不大够；128K能直接把整个故事写完。耗时方面，4K最快12秒，32K是25秒，128K耗时更长但token数总量反而少一些。在处理长文本（接近2000个token）时，4K会超出模型上下文限制，在创作或回答逻辑问题时不同模型差距比较明显。

Q：不同版本API在识别图片内容时效果如何？

A：以识别冰箱里有什么东西为例，light版本存在识别不准确的情况，如把没看到的认成有，还可能瞎编一些内容，且在分辨率过低时不会做上下层区分；另一个版本能分层介绍，但在分辨率低时也会出现识别不准确的情况，如把不同的都识别成红色西红柿。

Q：豆包的light和pro识图API之间有何区别？

A：调用数量上，light调用了五千多个，pro调用了6000个，但识别水平不一样；在电脑上调用程序相对容易，比如用python，调用豆包API时输入prompt，会调用选好的模型返回对应内容，实际程序调用机制比较复杂；且如果用于智能终端或玩具，其变化不够多样化。

Q：扣子是什么，有什么作用？

A：扣子可以用于创建智能体，能为AI设置角色，使其按照角色给出回答，例如可以将角色设置为西游记的孙悟空，它会按照该角色进行回答。

Q：扣子的收费标准是怎样的？

A：扣子收费根据调用次数和模型的token消耗来计算。调用一次扣子收费0.002元；若配置知识库，则按时间收费，每GB每月1元；不同模型收费不同，如视觉理解pro版输入1000个token是0.003元，输出是0.009元，通用模型32k pro输入1000个token是0.0008元，输出是0.002元；light版本效果稍差，角色扮演和工具调用与32K pro价格一样；此外还有其他家的模型可供选择。

Q：如何调用扣子？

A：在电脑上演示时，需要把相关库加进来，对应token请求，然后输入问题；在智能终端上不会用PC上的程序方式调用；若将角色设置为孙悟空，打招呼时它会以角色身份回应，有了cos加成后，字节提供的API回答不再单调。

Q：如何创建智能体？

A：可以创建智能体，如选test创建在个人空间，还可以自定义人物性格，比如让其模仿诗人李白，可让其自动优化，优化后会有对应的技能，直接替换即可设置好人物逻辑。

Q：除了自己创建外，还有哪些智能体相关功能？

A：还有像商店一样别人编好的功能，如写作、抽卡器、灵魂对话器等，调用起来比较方便，且目前这些功能都是不收费的。

Q：硬件方面与软件API有何关联，展示的玩具是怎样的？

A：软件API是根基，构成了相关内容，要将内容输出出去；展示的玩具是一个可以对话的玩具，按按键可以跟它说话，它会动并使用AI回答，拆解后其内部构造比较简单。

Q：在ESP32板子上开发程序时，具体的操作步骤是怎样的？

A：首先打开阿迪亚诺的IDE软件，选中板子类型（如ESP32），安装好板子相关程序后选中板子名字。它使用类似C++的编程语言，需先安装必要的库，定义变量，若联网要指定请求的网址等。假设API和程序设置好后，将板子插到电脑上上传，会将编写的内容编成电路板可识别的语言烧录进去，使其成为驱动，再放回到相应硬件中。

Q：在与AI终端连接实现语音交互时，语音处理的流程是怎样的？

A：需要先将语音通过语音转文字功能转成文字（如ChatGPT的whisper、微软及字节等都有相关API或语音大模型可实现），再将文字输给大模型，大模型返回结果后再通过语音合成将文字转成声音播放出来。

A：可以，但这种电路板处理能力有限，能识别的命令数量有限，大概可以识别几百个不同的命令，如开灯、关灯等控制指令。而与大语言模型对话时，语言可能性无限，这种情况必须交给云端处理。不过像“开始播放音乐”“嘿小爱”等简单唤醒词，在本地离线情况下可以处理。

Q：ESP32板子除了声音对话功能外，还有哪些可扩展性？

A：可以添加显示器（能显示基础RGB内容）、红外发射器（可发射红外信号控制智能家居）、湿度检测器、声音检测器等。可以读取气温、湿度、分贝等数据，还能外接操纵其他机械设备。此外还可以接相机进行读取，也可作为单纯语音助手，往AI方向发展除语音外主要应用是接摄像头等。

来源：新浪财经

标签：字节豆包字节豆包

本文地址：https://news.43u.com.cn/a/248017.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!