摘要:前面我在讲通用AI智能体的时候专门谈到过Genspark,当时也对其进行了简单的测试和验证,基本的结论是略弱于Manus和Google的DeepResearch,但是比智谱清言沉思,Kimi的深度探索明显强很多。毕竟还是前百度高管出来创业的新推出的产品。
Hello,大家好,我是人月聊IT。
前面我在讲通用AI智能体的时候专门谈到过Genspark,当时也对其进行了简单的测试和验证,基本的结论是略弱于Manus和Google的DeepResearch,但是比智谱清言沉思,Kimi的深度探索明显强很多。毕竟还是前百度高管出来创业的新推出的产品。
而对于AI工具生成PPT,我前面也专门谈到,当前实际AI一键生成PPT基本不可用,更加推荐类似结合Napkin分页生成PPT。
当时我专门写了一篇文章详细说明。
DeepSeek+Napkin AI来做PPT,要转变一键生成PPT的思路
同时我也试用了类似DeepSeek+Kimi,AIPPT,百度,讯飞多个类似的AI生成PPT产品或工具,都难以达到很好的效果。
在你清晰了你的PPT材料的听众需求和目标后,支撑PPT的核心仍然是内在的结构化逻辑。结构化逻辑最终通过你的PPT材料进行呈现和表达。但是在逻辑和呈现之间还有一个关键的步骤。
这个步骤就是结构化。
你只有做好了内容的结构化,你才清楚采取什么样的构图方式去呈现。而这个结构化在我谈思维类的文章里面经常提到,核心的结构化包括了静态结构和动态结构,对应不同的呈现方式。
静态结构包括核心就是组成要素,常见的就是表格化,矩阵,思维导图等呈现方式。而动态结构核心就是时间线索,常见的就是阶段,活动,流程,成长和演进路线等表达方式。
这就是我强调的PPT制作里面最核心的两个内容,逻辑+结构。掌握了这个所有的类似PPT制作工具,模板都是浮云。哪怕你不用任何图表,全文字和条目化的方式来写这个PPT,也是一个优质的PPT。
那么现在AI-PPT工具真正的问题在哪里呢?
就是我们前面谈到的,大部分AI工具实际很难真正理解生成的MarkDown文档纲要的核心语义,拆分出对应的结构逻辑,选择最恰当的构图方式进行呈现。这才是当前AI-PPT最要命的地方,即图不达意,采用错误的构图来描述AI生成的内容纲要。我突然发现,这和我们操作做PPT的时候,看到票的PPT模板爱不释手,强硬把内容套入到PPT模板一样。
而大部分的AI-PPT工具现在就在这个阶段。但是我回顾我前面这篇文章的时候,即使采用Napkin也没有完全解决逻辑+结构化的问题。
落后思路-文字套模板
也就是传统PPT生成不论采用什么工具,其核心思路都是先讲文字进行分类,拆分,条目化等结构化提炼工作。然后再将结构化提炼后的文字内容套入到预设的各种PPT图形化模板。如果是静态结构组成,就套组成结构模板;如果是动态阶段流程,就套用流程类模板。
传统PPT生成往往对于动态阶段流程处理力不从心,而Napkin也仅仅是解决了动态流程图模板的套用问题。
文字结构化再讨论模板不应该是PPT生成的关键思路。
新思路-文字转逻辑或结构化图表
这里面的关键问题在于AI需要真正去理解文字的内在结构逻辑,然后将其转变为一种类似咨询公司或软件架构设计中常用的结构图,逻辑图,交互图这种方式进行呈现。
这才是一种真正具备内在生命力的PPT。
实际我自己也一直在考虑这个问题,包括我前面做了大量的类似MarkDown写文章,SVG画逻辑图的实践。所以我当时想的一种可行的思路应该是AI对目标需求或已有的文章内容进行理解,在理解后进行文字内容拆分,在拆分的时候重点体现内在逻辑结构和关系,然后借助SVG代码来实现框架图和逻辑图的绘制,最终再将文字内容+构图输出并形成完整的PPT。
这样的PPT才是我们需要的PPT。
那么当前Genspark新推出的AI幻灯片功能,刚好就是按这个思路实现的,只是他没有用SVG绘图,而是采用了Html+JS图表绘图来进行单页PPT的制作。整体思路仍然是对已有文档进行理解和拆分,够级文档目录结构,然后再逐页生成PPT内容,核心变化就是每页PPT内容不再是简单的文字归类,而是体现了文字内在逻辑的结构图,逻辑图。
这就是以后历史文档,类似Word,PDF文档一键生成PPT核心思路。
也正是这个原因,我个人试用下来感觉至少是在目前,对于已有历史文档一键生成PPT承接来说,Genspark当前是最强王者。
下面我们来看下整体使用的效果如何。
背景情况就是我准备将我已有的一份项目管理计划最佳实践的Word文档转化为PPT汇报材料。整个文档部分截图如下:
那么我们就上传这份材料给Genspark让AI基于该文档帮我们生成PPT。这个时候AI初步分析完成后给出的PPT纲要,结构图规划如下:
可以看到完全根据我文档的内容进行了章节拆分,结构图和逻辑图的规划。有了这个内容后自然就是详细生成每页PPT内容。对于最终生成的PPT内容当前可以导出为PDF格式或PPT可编辑格式。
我们看下最终生成的效果内容:
以上就是Genspark帮我完整生成的PPT。从这个完整例子可以看到,随着AI智能体的深度思考能力的加速进化,基于历史文档一键生成PPT完全可行。这种PPT不再是简单的框图套用,而是真正将文字逻辑转化为了结构图或逻辑图或者图表,真正体现了每页内容的文字+图+表的综合呈现。
至少你看了上面内容会感觉跟咨询公司输出PPT的思路和风格已经相当接近。预计再过半年到1年,基于文档生成汇报类PPT将完全不再需要人为过多干预就可以完成。类似我前面研究的另外一个主题,即AI后续将具备生成完整的图文并茂的方案和文章的能力。
当然Genspark产品本身需要付费,我也只能做一个简单的测试和验证,但是至少说明一键生成PPT这条路已经形成了新的方法和途径,完全可行。后续这块的演进和发展完全值得期待。
再次说明,要对AI的进化持敬畏之心。
今天的分享就到这里,希望对大家有所启发。当然如果你熟悉Agent开发和定制,你完全可以参考我前面给出的思路,自己来设计Workflow,结合Cursor等辅助工具来完成一个文档一键转PPT的小应用。
来源:人月聊IT