AI数据的“消费升级” 强化数据标注提升数据供给水平

360影视 国产动漫 2025-05-13 18:13 1

摘要:小到手机扫码、人脸识别、智能客服,大到智慧医疗、自动驾驶,人工智能已成为各行各业变革的核心引擎。在人工智能发展历程中,数据一直被当作其“血液”,而数据标注是人工智能算法得以有效运行的关键环节,是人工智能产业发展的先决条件。日前,国家数据局发布《数据标注优秀案例

(记者 林碧涓)小到手机扫码、人脸识别、智能客服,大到智慧医疗、自动驾驶,人工智能已成为各行各业变革的核心引擎。在人工智能发展历程中,数据一直被当作其“血液”,而数据标注是人工智能算法得以有效运行的关键环节,是人工智能产业发展的先决条件。日前,国家数据局发布《数据标注优秀案例集》,充分展示各地在数据标注领域的应用成效;运营商方面,中国电信发布了星海·多模态数据标注平台;软通智慧联合华为发布数据标注赋能高质量知识库解决方案……产业各方助力数据标注产业高质量发展。

AI 产业呼唤 “高质量燃料”

从智能语音助手秒懂方言,到图像识别系统精准区分癌细胞,AI 应用的深度与广度持续拓展,用户对 AI 服务的需求早已从“能用”升级为“好用”“精用”。这背后,是对数据质量的严苛要求,数据的精准度、多样性和时效性直接影响 AI 模型的训练效果。

数据标注就是通过给文本、语音、图片、视频等各种各样的数据“打标签”,形成高质量数据集,让机器“读得懂、学得快、训得好”。高质量的数据标注能够显著提升模型的性能,其更接近人类的认知水平,低质量的数据标准则会导致模型失效或产生误导性结果,直接影响应用结果。因此,数据标注不仅关乎人工智能技术的进步,更对数字经济、产业升级乃至社会生活的智能化转型具有深远意义。

去年底,国家发改委等四部门联合发布《关于促进数据标注产业高质量发展的实施意见》,明确指出,“到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%”,并系统性部署需求牵引、创新驱动、生态培育、支撑保障四大任务。根据中商情报网数据显示,2025年中国数据标注市场规模有望突破100亿元。

当前,数据标注领域存在多重挑战,其一,大模型的发展,传统人力标注已无法满足数据需求;其二,由于人力、时间成本、管理等因素导致AI数据标注成本高;其三,不同行业对数据标注的需求存在显著差异,具有很强的专业性和定制化特点,例如在面对自动驾驶等复杂场景下,还需对特殊场景进行标注,以达到安全性和可靠性。这就要求打造智能化的数据标注手段,推进数据标注工具实现迭代升级,以降低标注成本,提升数据标注质量。

科技创新,夯实数据供给的 “智能地基”

在国家大力推进“人工智能+”行动和数据标注产业布局的战略背景下,中国电信坚持创新驱动,开展技术攻关,持续推进数据标注产业发展。

中国电信依托国家大数据重点研发工程,自主研发大数据PaaS、融AI多模态治理、数据标注等十大平台组件。在去年底,升级发布了“星海“大数据品牌体系,持续推进多行业、多区域、多模态数据资源汇聚,以开放100个数据集和能力为阶段目标打造数据资源地图。当前,数据要素平台已从海南拓展到全国7省、29地市,服务超150家客户,构建规模超9万亿Token的大模型训练数据集。

在前不久召开的第八届数字中国建设峰会·智能云生态大会中,发布的星海多模态数据标注平台拥有三大技术能力,即一是AI辅助自动化标注技术,自动化预标注准确率超过92%;二是4D全模态标注技术,将3D空间与时序相结合,应用于自动驾驶场景;三是低空空间感知标注技术,对关键目标跟踪的连续性达到98%,有效提升飞行管制运营能力。

值得一提的是,中国电信的《多模态数据自动化标注与增强平台》和《视觉大模型自动标注一站式生产运营》两项成果成功入选《数据标注优秀案例集》,为人工智能产业提供了高质量数据支撑的典型范例。

基于先进标注技术,中国电信积极参与国家级数据标注基地建设,目前已在成都、沈阳、保定3个标注基地落地应用。在成都基地,已有 13 家标注企业入驻,从业人员超900人,标注产业逐步聚集成链;在保定基地,将围绕大规模多模态数据,打造智能数据标注生成管理平台,实现数据从采集到模型部署的全流程自动化,大幅提升数据集生产效率,降低AI模型训练门槛。

培育繁荣生态,实现高水平数据供给

数据标注产业作为人工智能发展的关键基础,其高质量发展依赖于技术创新、政策引导与行业协同的深度融合。

当前,国家积极推动数据标注标准体系的建设,提升数据质量的可控性,降低算法迭代的试错成本,夯实产业协作技术基础。截止2025年2月底,我国在数据标注领域正在开展或已完成的标准建设共9项,相比于其他数据产业标准工作,数据标注领域标准建设存有巨大空间。

数据标注产业健康有序发展,离不开多元主体的协同发力。以北京电信与北京邮电大学共建的 “行业数据智能标注联合实验室” 为例,该实验室聚焦高质量数据集建设,针对大模型数据集海量、多源、多模态且具高准确性、一致性和时效性要求的特点,联合实验室将构建从采集、存储到加工的全流程治理环节,形成专属工具集与行业标准,并将推动人形机器人、具身智能等领域的数据标注标准化,助力行业数据标准建设,为AI大模型训练提供“数据粮仓”。

在推进产业高质量发展过程中,实现标注产品标准化、建立健全价值评估体系至关重要。通过对标全国数标委数据集相关标准,结合市场需求与行业特性,进一步完善数据集质量评测体系,因地制宜建设行业高质量数据集,能够有效推动人工智能技术与千行百业深度融合。

本文来自【通信信息报社】,仅代表作者观点。全国党媒信息公共平台提供信息发布传播服务。

ID:jrtt

来源:全国党媒信息公共平台

相关推荐