发布第三天，我的开源项目突破 1K Star！

摘要：为啥这个工具一发布就受到广泛的关注和喜爱呢，下面我来具体介绍一下。

3.13 号，我对外发布了第一个版本，到 3.16Star

为啥这个工具一发布就受到广泛的关注和喜爱呢，下面我来具体介绍一下。

目前各行各业都在积极探索微调自己行业的大模型，其实微调的过程不是难事，最难的是数据集准备的环节，高质量领域数据集的构建始终面临多重挑战，所以我之前数据集的教程一发出，大家问的最多的就是数据集的问题：

我总结了常见问题就是这些：

目前市面上确实没有一款工具可以满足这样的需求，因此，借助 AI，我大概花了 3 个晚上的时间构建出了 Easy DataSet（https://github.com/ConardLi/easy-dataset）的第一个版本，通过系统性解决方案实现从文献解析到数据集导出的全流程闭环。

架构设计

Easy DataSet 以 项目制 为核心单元，贯穿「文献处理-问题生成-答案构建-标签管理-格式导出」全链路：

核心模块：

数据生成引擎：

格式生态适配：

工具使用

目前 Easy Dataset 支持客户端、NPM、Docker 三种启动方式，完全在本地处理数据，无需担心数据隐私问题。

为了解决各种本地部署的环境问题，可以直接用客户端启动，支持以下平台：

可以直接到 https://github.com/ConardLi/easy-dataset/releases/latest 下载适合自己系统的安装包：

本项目基于 Next 构建，所以本地只要有 Node 环境就可以通过 NPM 直接启动，适合开发者，需要调试项目的同学：

docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset任务参数精细化配置：

列表视图，可查看和管理已经生成好的所有问题：

领域树视图（基于领域树视图查看和管理问题，可以更方便的掌握全貌，便捷管理问题：）：

答案生成：

数据集列表：

可以查看已经生成好的所有数据集，包括创建时间、使用模型、领域标签、是否有思维链等，可对不满意的数据集进行调整和删除。

数据集质检与标注：

多格式导出：

导出示例：

多平台搜索：

聚合 HuggingFace、Kaggle、Opendatalab 等多个平台，输入关键词即可一站式检索，支持跳转原平台下载。

未来规划

当前 Easy Dataset 还处于比较早期的阶段，刚实现了最基本的构想，后续还会陆续支持以下功能，致力于打造成最完善和专业的大模型数据集构造平台：

本项目完全开源（ Apache 2.0 协议），欢迎广大开发者提交 PR 共建，也欢迎大家提出宝贵意见（可直接提交 Issues 或者加作者微信 ConardLi 反馈），作者会根据反馈数量确定后续迭代优先级。

来源：莱娜探长

标签：开源数据集 npm dataset easydataset

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!