数据工程是什么?

360影视 欧美动漫 2025-04-08 00:19 2

摘要:数据版本控制(DVC),像Git管理代码一样管理数据和机器学习模型,记录数据集、特征、模型权重的版本变更。

一、数据工程是什么?

数据工程主要是实现数据存储、清洗、标注与知识结构化。

二、数据工程包含哪些?

数据标注:人工标注占比超70%,涵盖属性、框选、描点等类型。

数据增强:通过旋转、裁剪、加噪提升模型泛化能力。

三、数据工程的关键技术包括哪些?

数据版本控制(DVC,像Git管理代码一样管理数据和机器学习模型,记录数据集、特征、模型权重的版本变更。

自动化特征工程(FeatureTools),通过深度特征合成(Deep Feature Synthesis, DFS),从原始数据中自动提取时间、聚合、关系型特征。

来源:11不吃香菜a

相关推荐