介绍两款开源的多格式文档转 Markdown 输出利器

摘要:用于展示的文件格式有千千万,但许多记录笔记、写作博客、分享交流的朋友们会更偏爱 Markdown 一些。因为 Markdown 规范较为统一,纯文本的方式简洁优雅、体积小巧。今天来和大家分享近期看到的两款多格式文档转 Markdown 格式输出的工具

用于展示的文件格式有千千万,但许多记录笔记、写作博客、分享交流的朋友们会更偏爱 Markdown 一些。因为 Markdown 规范较为统一,纯文本的方式简洁优雅、体积小巧。今天来和大家分享近期看到的两款多格式文档转 Markdown 格式输出的工具

Docling 绝对是前段时间霸榜的热门讨论项目,它是由 IBM Deep Search 开发,口号为「Get your documents ready for gen AI」

它支持庞大的文档格式:PDF, DOCX, PPTX, XLSX, Images, HTML, AsciiDoc,并可以输出为 HTML, Markdown 和 JSON 三种格式。还可以和 LlamaIndex 与 LangChain 集成,做一些 AI 链路开发

微软也不甘示弱,火速推出了自己的同类项目,还起了一个很微软的名字 MarkItDown。这个工具同样基于 Python,不过只支持输出为 Markdown 格式

MarkItDown 同样支持丰富的文件格式,尤其是针对微软自己的办公套件:含 .pdf, .pptx, .docx, .xlsx, csv, json, xml, EXIF metadata 等等。有开发者根据这个项目做了 网页 Demo,欢迎试用

曾几何时,PDF 转 Word 这样的流程,都不能得到很好的转换效果。如今随着 AI 和编程技术的不断进步,我们看到越来越多优秀的格式转换工具能够为我们

来源:高效码农

相关推荐