摘要:数据版本控制(DVC),像Git管理代码一样管理数据和机器学习模型,记录数据集、特征、模型权重的版本变更。
一、数据工程是什么?
数据工程主要是实现数据存储、清洗、标注与知识结构化。
二、数据工程包含哪些?
数据标注:人工标注占比超70%,涵盖属性、框选、描点等类型。
数据增强:通过旋转、裁剪、加噪提升模型泛化能力。
三、数据工程的关键技术包括哪些?
数据版本控制(DVC),像Git管理代码一样管理数据和机器学习模型,记录数据集、特征、模型权重的版本变更。
自动化特征工程(FeatureTools),通过深度特征合成(Deep Feature Synthesis, DFS),从原始数据中自动提取时间、聚合、关系型特征。
来源:11不吃香菜a