字节豆包如何连接AI终端

摘要:A:微信有light和pro两个版本,同样是pro 32K时,前后文本长度参量相关数据有所不同,输出从0.002增长大概四倍多,若带有识图能力会涨到0.009接近一分钱,图片输入时是0.003。token数计算方面,高质量图片会压缩到最多1312个token(

Q:微信light和pro版本有什么区别?

A:微信有light和pro两个版本,同样是pro 32K时,前后文本长度参量相关数据有所不同,输出从0.002增长大概四倍多,若带有识图能力会涨到0.009接近一分钱,图片输入时是0.003。token数计算方面,高质量图片会压缩到最多1312个token(图片分辨率除以784,若结果大于1312则继续压缩到1312再上传处理,若小于则按较小值计算),低质量图片最高256个token(算法同样是除以784)。价格上,如1080P图传上去是1000个token,处理一张是三厘钱,十张三分钱;256K的纯文字输出是0.009,比32K的贵三倍,输入差别不大。

Q:不同模型在创作科幻小说时效果如何?

A:选取了light 4K、pro 32K、pro 128三个模型进行对比,4K的速度快,12秒写完但内容更像目录;32K每章有一点故事但作为章节内容不大够;128K能直接把整个故事写完。耗时方面,4K最快12秒,32K是25秒,128K耗时更长但token数总量反而少一些。在处理长文本(接近2000个token)时,4K会超出模型上下文限制,在创作或回答逻辑问题时不同模型差距比较明显。

Q:不同版本API在识别图片内容时效果如何?

A:以识别冰箱里有什么东西为例,light版本存在识别不准确的情况,如把没看到的认成有,还可能瞎编一些内容,且在分辨率过低时不会做上下层区分;另一个版本能分层介绍,但在分辨率低时也会出现识别不准确的情况,如把不同的都识别成红色西红柿。

Q:豆包的light和pro识图API之间有何区别?

A:调用数量上,light调用了五千多个,pro调用了6000个,但识别水平不一样;在电脑上调用程序相对容易,比如用python,调用豆包API时输入prompt,会调用选好的模型返回对应内容,实际程序调用机制比较复杂;且如果用于智能终端或玩具,其变化不够多样化。

Q:扣子是什么,有什么作用?

A:扣子可以用于创建智能体,能为AI设置角色,使其按照角色给出回答,例如可以将角色设置为西游记的孙悟空,它会按照该角色进行回答。

Q:扣子的收费标准是怎样的?

A:扣子收费根据调用次数和模型的token消耗来计算。调用一次扣子收费0.002元;若配置知识库,则按时间收费,每GB每月1元;不同模型收费不同,如视觉理解pro版输入1000个token是0.003元,输出是0.009元,通用模型32k pro输入1000个token是0.0008元,输出是0.002元;light版本效果稍差,角色扮演和工具调用与32K pro价格一样;此外还有其他家的模型可供选择。

Q:如何调用扣子?

A:在电脑上演示时,需要把相关库加进来,对应token请求,然后输入问题;在智能终端上不会用PC上的程序方式调用;若将角色设置为孙悟空,打招呼时它会以角色身份回应,有了cos加成后,字节提供的API回答不再单调。

Q:如何创建智能体?

A:可以创建智能体,如选test创建在个人空间,还可以自定义人物性格,比如让其模仿诗人李白,可让其自动优化,优化后会有对应的技能,直接替换即可设置好人物逻辑。

Q:除了自己创建外,还有哪些智能体相关功能?

A:还有像商店一样别人编好的功能,如写作、抽卡器、灵魂对话器等,调用起来比较方便,且目前这些功能都是不收费的。

Q:硬件方面与软件API有何关联,展示的玩具是怎样的?

A:软件API是根基,构成了相关内容,要将内容输出出去;展示的玩具是一个可以对话的玩具,按按键可以跟它说话,它会动并使用AI回答,拆解后其内部构造比较简单。

Q:在ESP32板子上开发程序时,具体的操作步骤是怎样的?

A:首先打开阿迪亚诺的IDE软件,选中板子类型(如ESP32),安装好板子相关程序后选中板子名字。它使用类似C++的编程语言,需先安装必要的库,定义变量,若联网要指定请求的网址等。假设API和程序设置好后,将板子插到电脑上上传,会将编写的内容编成电路板可识别的语言烧录进去,使其成为驱动,再放回到相应硬件中。

Q:在与AI终端连接实现语音交互时,语音处理的流程是怎样的?

A:需要先将语音通过语音转文字功能转成文字(如ChatGPT的whisper、微软及字节等都有相关API或语音大模型可实现),再将文字输给大模型,大模型返回结果后再通过语音合成将文字转成声音播放出来。

A:可以,但这种电路板处理能力有限,能识别的命令数量有限,大概可以识别几百个不同的命令,如开灯、关灯等控制指令。而与大语言模型对话时,语言可能性无限,这种情况必须交给云端处理。不过像“开始播放音乐”“嘿小爱”等简单唤醒词,在本地离线情况下可以处理。

Q:ESP32板子除了声音对话功能外,还有哪些可扩展性?

A:可以添加显示器(能显示基础RGB内容)、红外发射器(可发射红外信号控制智能家居)、湿度检测器、声音检测器等。可以读取气温、湿度、分贝等数据,还能外接操纵其他机械设备。此外还可以接相机进行读取,也可作为单纯语音助手,往AI方向发展除语音外主要应用是接摄像头等。

来源:新浪财经

相关推荐