微软发布了一个文档转Markdown的利器:MarkItDown

360影视 2024-12-20 09:05 4

摘要:微软近期开源了一个叫 MarkItDown 的文档转换工具,可以将各种文件轻松转换为Markdown格式,今天就来给大家介绍一下!

微软近期开源了一个叫 MarkItDown 的文档转换工具,可以将各种文件轻松转换为Markdown格式,今天就来给大家介绍一下!

Markdown 是一种轻量级标记语言,由 John Gruber 和 Aaron Swartz 在 2004 年共同创建。它以其简洁的语法和易读性而闻名,非常适合用于编写结构化的文档。Markdown 文件通常以 .md 或 .markdown 为扩展名,可以在各种平台和设备上轻松编辑和预览。目前Markdown 是自媒体创作者和程序员使用最广泛的文档语言。

软件:Typora 非常全面使用教程,程序员写文档必备工具

MarkItDown 是微软近期开源的一款专门用于将各种文件转换为 Markdown 各式的工具。

PDF:支持将 PDF 文件中的文本内容提取并转换为 Markdown 格式。PPT:将 PowerPoint 演示文稿中的文本和图像内容转换为 Markdown。Word:将 Word 文档中的内容转换为 Markdown,保留基本的格式和结构。Excel图像(EXIF 元数据和 OCR 光学字符识别)音频(EXIF 元数据和语音转文字)HTML:将 HTML 文件中的内容转换为 Markdown,保留基本的格式和结构。CSV、JSON、XML:将 CSV、JSON 和 XML 文件中的数据转换为 Markdown 格式,便于进一步处理和分析。ZIP 文件(迭代处理压缩包内的文件)

MarkItDown 提供了一种简单易用的界面,用户只需上传文件即可自动完成转换过程。无需复杂的设置和配置,大大节省了用户的时间和精力。

MarkItDown 支持十几种常见文件格式。无论是文档、表格、图像还是音频文件,MarkItDown 都能实现转换。

MarkItDown 是一款开源工具,用户可以根据需要进行定制和扩展,满足个性化的需求。

官网:https://github.com/microsoft/markitdown

使用教程

这里给大家简单说一下如何本地使用MarkItDown。这里以Win10电脑为例。

因为MarkItDown基于Python环境开发,所以需要安装python并且配置环境变量。

Python下载官网:https://www.python.org/downloads/

然后点击Windows进入下载界面

然后下载安装包,版本我这边下载的是3.12.8.

下载后正常安装python,默认勾选配置环境变量即可。安装步骤非常简单,直接一步步操作就行了,这里就不多说了。

安装python并且配置环境变量ok后可以使用cmd命令检查是否安装成功。

运行cmd命令窗口,输入

python

回车,正确安装python如下图:

然后安装依赖包,输入如下命令:

pip install markitdown

安装效果如下图:

安装完成后就可以使用命令行进行测试了。

这里找一个text.xlsx文件,文件效果如下图:

markitdown test.xlsx > test.md

执行命令后如下图:

转换成功后打开转换后的效果如下图:

目前测试过程中发现几个不足之处:

带有图片的文档转换,图片转换总是失败pdf针对编码有问题,容易出现转换报错的情况

估计后续还要不少问题等待修复和优化,毕竟刚开源不久,等待后续更好用的版本发布吧。

总结

以上是微软发布MarkItDown工具的介绍,大家如果在配置当中有啥问题欢迎评论区沟通交流!

来源:免费高清壁纸大全

相关推荐