摘要:不知从何时起,AI不再是冰冷的代码与算法,而是我们身边不可或缺的灵动伙伴。工作中,无论什么问题或者琐事,都可以让AI代劳;生活中,要生成照片、视频,甚至编首歌、谱个曲,AI也不在话下。
这些原生AI应用“承包”智慧日常
作者/ IT时报记者 潘少颖 孙永会
编辑/ 潘少颖 孙妍
不知从何时起,AI不再是冰冷的代码与算法,而是我们身边不可或缺的灵动伙伴。工作中,无论什么问题或者琐事,都可以让AI代劳;生活中,要生成照片、视频,甚至编首歌、谱个曲,AI也不在话下。
但是,不可否认的是,有时AI也不那么靠谱,偶尔也会有“失灵”的时候,或者说目前AI的能力还未到达可以让人类“心想事成”的境地。
技术的完美并非一蹴而就,而是需要时间和实践的积累。AI也需要一次次细微雕琢,让它在未来的日子里更加精准地服务于我们的需求。
工作篇
“AI小秘书”驾到 还有难题吗?
腾讯元宝 VS Kimi智能助手
技术是生产力,掌握技术的能力,是高级生产力。
处理文件、分析数据、安排会议……随着AI的加入,职场上不仅是同事之间的配合,也是人与AI的配合。我们学会了向它提出需求,解读它的分析结果,利用它的优势来提升工作效率。有了AI这样一个不知疲倦的“工作狂”,工作日常正在被改变,而AI应用也越来越聪明,不断和屏幕前的用户互动,满足他们在工作上的需求。试问,当打开电脑的那一刻,谁还调不出几个AI“小秘书”呢?
任务一:做表格
一张表格,让AI“颤抖”
收集数据、整理信息、选择表格格式、调整列宽行高……做表格是职场中一项既基础又烦琐的任务,每一份看似简单的表格背后实则暗藏玄机。
AI能快速做出一份完美的表格吗?
“我需要制作一个关于达人投放的表格,可能包括时间、达人选择、注意事项等维度,考虑得不够全面,请帮我补充。”这是给腾讯元宝和kimi智能助手的任务。
腾讯元宝给出的第一个回答中,列出了一个基本表格的模板,表格中包括时间、达人选择、合作形式、投放内容、预算分配等,每一项需要填写的内容也给出了模板,比如合作形式可以是直播带货,投放内容可以是产品推广。虽然表格不是很完整,但腾讯元宝根据要求补充了不少建议,比如达人选择的维度,可以关注粉丝量级、粉丝活跃度、内容质量等,效果评估维度可以关注销售额提升、品牌曝光度提升等情况。总的来说,一个表格的基本雏形有了。
kimi智能助手并没有直接给出表格,而是给出了10个维度,每个维度都有细分内容,比如在“达人选择”中,可以填写达人历史合作案例、达人报价、合作意向等,在“预算与成本”中可以填写总预算、达人费用、制作成本等。
从维度划分来看,kimi智能助手给出的维度更多。但作为出题人,希望得到一个表格形式。因此,腾讯元宝和kimi智能助手接到的第二个任务是将这些维度整合成一张表格。
无论对职场人还是对AI而言,做表格都是不容易的。腾讯元宝给出的依然是一个表格雏形,呈现的维度只有时间规划和达人选择,其他维度都在表格之外;而kimi智能助手还是没能画出表格,只是用“︱”把一个个维度隔开,看上去比较乱。
虽然最终两个AI应用并没有给出一个较为完整的表格,但他们都在衍生回答中给出了做表格的一些方法,比如kimi智能助手会教用户如何设置Excel表格的公式自动计算总预算等。
点评腾讯元宝和kimi智能助手在初次回答时,都能够根据基础需求提出补充的维度和建议,这些信息对用户有一定的参考价值。但在将维度整合成表格形式的操作上,两者都存在不足,降低了可读性和易用性,需要用户进行二次处理。
任务二:做PPT
搭出框架 助力“加分”
字体、图片、颜色、动画效果……和做表格一样,做PPT也是大部分职场人士的必备技能,一份精美的PPT往往能够成为“加分项”。美化一份PPT需要动心思,AI未必能胜任,但它能做出一个基本的PPT吗?
腾讯元宝和kimi智能助手要做的PPT主题是“可持续城市发展的未来”,每页PPT的内容包括可持续城市发展的定义、面临的挑战和未来趋势。
当《IT时报》记者向腾讯元宝给出做PPT的任务时,它直截了当地表示“无法直接创建PPT文件,为您提供PPT大纲和内容建议”。腾讯元宝给出的第一版PPT大纲,封面上有标题“可持续城市发展的未来”,建议插入一张未来城市的科幻插图或绿色城市景观照片。但是,除了封面,剩余的PPT都没有图片建议,而且每页PPT所展示的文字内容也相对简单。
“把PPT大纲细化为具体的幻灯片内容”,这下,腾讯元宝细化了不少内容,比如在对“可持续城市发展的定义”中,列出了环境保护、经济发展、社会包容性三个点,并且对每个点都有解释。但是,虽然文字内容细化了,图片建议依然没有。
和腾讯元宝一样,kimi智能助手给出的第一版PPT大纲也比较简单,只是展示了每一页的标题和内容概括。在要求细化后,kimi智能助手同样也丰富了每一页中的内容概要,不过补充的内容没有腾讯元宝多。同样是“可持续城市发展的定义”,腾讯元宝在“环境保护”中提到,包括减少各类污染物排放,如工业废气、汽车尾气等;保护自然资源,如合理利用水资源、森林资源等;维护生物多样性,保护城市中的动植物栖息地。而kimi智能助手给出的内容只是“环境保护:减少污染、保护自然资源和生物多样性”。但kimi智能助手在配图方面给出的建议很具体,比如在“可持续城市发展的成功案例”中,它建议可以找哥本哈根自行车道和新加坡的城市景观。
点评从目前这两个App的测试结果来看,PPT还是要自己动手做,AI只能给出内容和插图建议,有助于用户快速锁定PPT的整体结构。但是,如果要提升PPT的实用性和美观度,还需要AI提供更多的配图建议和内容建议等。当然,如果能生成一份“拿来即用”、只需补充美化一下的PPT就更好了。
任务三:生成纪要
从“原生态”到“思维导图”
和生成PPT或者表格等技术活相比,根据速记生成一份会议纪要相对简单,关键看能不能将会议重点、决定事项以及任务分配等提炼出来。看看腾讯元宝和kimi智能助手的总结及提炼能力如何?
腾讯元宝和kimi智能助手得到是一份15000字的“原生态”采访速记,内容关于随申办的发展变迁,未经任何整理,其中有不少口语化的表达以及记者和采访对象之间的互动,要求是整理出关键点以及每个关键点的主要内容。
kimi智能助手总结出了5个点,从上海市民信箱的开通和创新,到向随申办演变,以及随申办的亮点与创新、未来规划,这条主线基本符合记者的采访脉络,对于每个点的主要内容,kimi智能助手也能一一罗列出来,比如在随申办的亮点中,其总结出了一码通城、电子亮证、一件事服务等。
腾讯元宝也梳理出了相似的脉络,值得一提的是,腾讯元宝页面左边显示原文档,右边则是深度阅读模式中的“总结”“精读”和“脑图”三个板块。“脑图”是其亮点功能,之前梳理出的脉络,清晰地展现在一张思维导图上,看起来比文字更为直观,而且可以直接下载。
kimi智能助手无法像腾讯元宝一样生成一张清晰的思维导图,其思维导图有Code、经典和手绘三种模式,但展示的图片很小,下载也不清晰。
点评整体来看,腾讯元宝和kimi智能助手在根据长篇速记生成纪要方面,都展现出了较强的总结和提炼能力,关键点及主要内容都说到了点子上。在纪要形式方面,腾讯元宝更胜一筹,一张思维导图很“惊艳”,如果用户能够根据需求调整思维导图的布局和样式就更好了。
娱乐篇
谁是“AI全能王”?
可灵AI VS 豆包 VS 智谱清言
2024年,是国内文生视频模型爆发的一年,Vidu、可灵AI、清影相继上线,为用户提供了丰富的选择,满足不同创作需求,应用场景也日益广泛,影视动画制作、游戏开发等领域,都有AI的基因。
这一年来,你都用过哪些模型?又有哪些收获?《IT时报》记者对可灵AI、豆包、智谱清言三款模型进行了测试。一起来看,它们在视频、图片以及音乐三个维度上的生成能力。
任务一:生成图片
各有千秋 有时会“开小差”
打开可灵AI的AI图片功能,如果想要生成一张照片,需要输入500字以内的创意描述,选择图片比例和生成的数量,数量在1—9张不等。需要注意的是,如果下载所生成的无水印图片,要买会员。
一家三口7天营养菜单怎么设计、给宠物取个有意思的名字、抖音视频脚本模板生成……相对而言,豆包的“AI生图”功能较为齐全,功能选择也较多。页面提供模板、插画、卡通、水墨、写真等30多种风格,此外,还有扩图、消除、变清晰等美化功能。
《IT时报》记者采取的提问方式由浅入深,提示词由单一到复杂,首先统一输入“生成一张图片写着‘吉祥如意’的春节海报,比例为9:16”。可灵AI和豆包都生成了一张图片,从效果看,两张图片各有千秋,豆包生成的图片所含元素较多,有烟花、祥云、灯笼等,比较喜庆,有动感;可灵AI则以红色为背景,配以红灯笼、红色瓷器等,比较静态,不过,可灵AI经过多次“调教”才出现最后的效果,此前生成的图片里,频繁出现“福”字,但没有“吉祥如意”。
接着,《IT时报》记者扩充了提示词:油画、左侧文字“吉祥如意”、中国文化、舞狮、传统服装、五彩、红、黄、蓝、绿、白、喜庆、狮头、富有表情的眼睛、灵动、蓬松的鬃毛、装饰元素、表演者、传统服装、金色刺绣、红丝带、寺庙、庭院、红灯笼、庆典、五彩纸屑、欢乐气氛。此次的要求更为详细,两幅图的效果更加接近,欢腾的舞狮场面是主体,还有各种烘托气氛的彩带等。但细看,还是豆包更胜一筹,提示词中的要素几乎都得以表现。
“贵州遵义的一个山村下雪了,银装素裹,用瓦片盖的木头房子,木头刷的是红漆,小孩子在门前打雪仗,很快乐”,不同于关键词提问法,以句子进行提问,二者的差异比较明显。豆包对提示词的理解几乎正确,但对西南地域建筑的解读不够到位,成图类似欧洲小镇风格;可灵AI呈现的建筑更为逼真,但对“小孩子打雪仗,很快乐”的场景刻画不足。
点评可灵AI与豆包的图片生成功能各有千秋,提供了丰富的图片生成选择,在效果相近的情况下,用户可以根据自己的喜好选择。当然,两者在理解和应用提示词以及自然语言方面还有提升的空间,期待各家大模型继续优化对提示词的理解、具体某一地域实际情况的训练。
任务二:生成视频
“细节大师”与“氛围高手”
由于豆包视觉模型的测试和体验需要申请,在视频生成维度,PK的是可灵AI和智谱清言中的清影AI视频生成功能,两款模型皆包含文本生成视频和图片生成视频两种方式。
在文生视频方面,《IT时报》记者设置的画面风格为温馨和谐,运镜方式为拉远,灵感描述如下:电影感镜头,夕阳西下,一束暖阳透过树梢洒在波光粼粼的湖面上,树叶随风轻舞,光影交错间,一群归巢的鸟儿掠过天际;随后,镜头快速向右移动拍摄到湖边的一座小木屋。
对比两个短视频,记者发现,尽管提示词相同,但得到的效果差异较大。可灵AI生成的视频符合基本要求,但未展现“鸟儿掠过天际”这一动作,此外,画面氛围更像是日出之景,而非日落。不过运镜恰到好处,给人舒适之感。清影AI的效果整体令记者满意,暖阳中的湖面、树叶、鸟儿等物象具有真实感,美中不足之处在于缺少了小木屋这一景象。
在图片生成视频方面,《IT时报》记者选择了相册里一张乡村邮递员送包裹的图片,提示词为“一名邮政投递员在雪地里缓慢地行走,一边走,一边紧紧地抱紧包裹”。在清影AI的成片中,镜头摇晃,有种眩晕感,伴随雪花的飘落,邮递员走得小心翼翼,和提示词的内容关联度较高,但不太自然,草丛的摆动看上去也不贴合实际。可灵AI的成片效果较好,画面没有太多的起伏和额外的动作设计,右下角的草丛轻轻晃动,邮递员的步伐和节奏与现实生活贴近。
点评在文生视频方面,两款大模型都展现了对文本较高的理解力,但在细节呈现和氛围营造上存在差异;而在图生成视频方面,两款模型各有千秋。如果更看重画面的真实感和细节呈现,清影AI略胜一筹;如果更看重画面的稳定性和自然感,以及镜头运用的恰当性,可灵AI可能是一个更好的选择。未来,期望在大模型生成的视频中,人物动作能够更加自然,对提示词的理解更加深刻。
任务三:生成音乐
定制自己的专属旋律
三款大模型中,只有豆包可生成音乐,可灵AI只能成生视频和图片,智谱清言只能产出歌词。
在豆包中,点击“音乐生成”,页面上有民谣、流行、摇滚等10余种类型,此外,还可以选择忧郁、鼓舞、放松等氛围。
歌词是一首音乐的重要组成部分,《IT时报》记者把“回家、团圆、亲情”作为音乐主题,很快,豆包生成了一首涵盖歌名、旋律和歌词的音乐,歌名可以在歌曲生成后任意修改。
“漂泊在远方的孩子,心有了思念,想起那温暖的家中有亲情相连,为了能与亲人早点相见,怀揣着归心踏上回家的路线……”旋律的舒适感配上朴素的歌词,这个作品符合记者的预期效果,不过在演唱上仍带有些许的机械感。
当向其发出“可以改编一首经典音乐吗”的问题,页面则显示“未经版权方许可改编经典音乐用于公开传播等行为是侵权的”,如果仅作为个人练习、娱乐,在不涉及商业用途等情况下,可以尝试按照自己的创意对经典音乐在旋律、节奏、编曲等方面做适当改动,比如加快舒缓的古典乐节奏,变成轻快风格等。由此可见,音乐生成的功能还是以模型“原创”为主。
点评豆包的“音乐生成”功能提供了一个便捷且富有创意的音乐创作平台,可以轻松生成多样化的音乐作品,降低了音乐创作的门槛。虽然演唱部分带有一定的机械感,但表现已相当不错,此外,还充分考虑了版权问题。期望豆包的音乐生成功能在演唱的方面能更加自然,也期待有更多的大模型能有音乐输出的相关功能。
来源:IT时报