让大模型“巧妇”有“米”可炊,他家的数据60家大模型抢着要

摘要:在一个群模共舞的时代,一家AI创业公司怎么做到行业头部?位于杭州萧山的景联文科技给出的答案是,为大模型训练提供海量的数据。用CEO刘云涛的话来说,他们就是让大模型这些“巧妇”有“米”可炊。

橙柿互动 记者 刘永丽 海报设计 李前芳

在一个群模共舞的时代,一家AI创业公司怎么做到行业头部?位于杭州萧山的景联文科技给出的答案是,为大模型训练提供海量的数据。用CEO刘云涛的话来说,他们就是让大模型这些“巧妇”有“米”可炊。

大学时创业

拿到人生第一个100万

刘云涛出生于安徽一个商业家庭,从小的耳濡目染让他对创业充满了热情,在浙江大学城市学院读工商管理时,总想着自己折腾点什么事情出来。

大一暑假看着学校的运动场地空下来,刘云涛就琢磨要么办个跆拳道培训班。他从5岁开始学习跆拳道,曾获得过多个奖项,国家二级运动员。后来培训班的项目从跆拳道扩展到羽毛球、网球等其他运动,一度注册了专业的体育培训公司,赚到了人生中的第一个100万。

“现在回过头去看,那个时候创业更多靠的是冲劲,从各方面讲都比较初级,不能称得上多成功,但也积累了宝贵的经验,实践中深度学习了商业逻辑和管理策略,也让我更确信自己的优劣势在哪里。”

因为创业,刘云涛还申请了延期毕业,延续少儿体育培训的路子,折腾过其他的项目。“不过后来的项目也没有多成功,好在也没白‘挨打’。”说起自己前半程创业经历,刘云涛有种独有历尽千帆的云淡风轻。

从卖技术到卖材料

数据标注的价值被挖掘

景联文科技成立于2012年,目前是一家基于自研数据工程平台提供AI数据服务的科技企业。

最初几年,公司主营的业务是为各大手机厂商提供手机指纹防伪算法解决方案,简单来说就是不能让别人用假指纹来解锁你的手机,曾经获得2017年和2019年的Fingerprint Liveness Detection Competition国际活体指纹检测大赛第一名。

刘云涛2019年加入公司,考虑到手机指纹防伪算法的解决方案需要运用到很多手段攻击数据库,他突发奇想:为什么不直接把这些攻击手段卖给对方?

从卖技术到卖数据,刘云涛第一次尝试到数据作为一种“原材料”的价值所在,景联文也从此进入AI数据标注行业。

此后,景联文科技在AI数据领域不断扩张,基于自身Solar数据工程处理平台提供AI数据采集、标注、微调、分析、挖掘等服务,先后获取iso27001、Iso9001、Iso27701、DCMM认证等资质,参与8项国家数据交换格式和数据安全标准制定。

2022年,景联文科技开始布局大模型数据服务赛道,建成了完善的数据代理、生产、清洗流程,为国内头部大模型公司提供丰富的算料。“我们手里教育方面的题库,去年至少60家大模型都想要。”刘云涛说。

现在,景联文科技也在国防军事智能化领域,基于自身平台提供高效的数据处理能力和高质量数据产品。刘云涛也成了“iso国际标准专家”和“国家标准第一起草人”。

大模型时代

数据的需求量成指数级上升

在上海大数据联盟最新发布的一份2024中国AI大模型产业图谱中,在腾讯云、阿里云、联通云等云计算巨头扎堆中,“景联文”三个字显得有些突兀。

大语言模型之所以能够展现出惊人的理解和生成能力,是因为从海量的预训练数据中学习了丰富的世界知识。

一般而言,大模型厂商在处理数据时遵循的流程通常包括几个环节:首先,数据从各渠道获取被获取后,进入数据工程部门,数据工程师会对数据进行清洗和预处理;接着,处理好的数据会被交给算法部门,算法部门会利用多种方法进一步处理,包括调参、通过监督学习对模型进行调整,最终会被应用到具体的任务或产品中。

这中间就给景联文这样的数据公司提供了机会,他们需要做的就是把全球的优质数据买回来处理成算料,再卖给大模型厂商。

目前,景联文在细分领域已经做到交易量前两名,并且覆盖了绝大多数头部科技公司,比如手机厂商华为、三星、腾讯、小米、阿里等。

“目前我们有400个拥有领域知识的标注工程师,预计在明年将达到2000人。”刘云涛介绍,其实标注师一度也曾到1000多人,后来因为要求变高优化了一批,“刚开始招聘的时候,要求是会用电脑就行,现在显然已经不适用了。”

随着AI技术的快速发展,数据标注这个工作也在不断高质量发展迭代,只论标注人员简单的标注项目越来越少。标注需求更加精细化、专业化,要求标注人员应具备相应的专业知识和技能,对标注员的学历等级、语言能力、理解能力,专业知识背景的要求都越来越高,比如语言标注团队要求会各种小语种,医疗标注需要医学院毕业的学生。

除此之外,大模型时代,算法技术的突破带来更复杂、更大规模的数据处理需求。数据标注企业必须具备强大的数据处理能力,包括数据平台的智能化水平、数据工程化能力、对大模型/AI算法的理解等。

景联文科技已经从以前的纯人工标注,发展为目前AI算法预标注加人工标注审核的生产模式,景联文数据工程平台有数据智能识别和自动化标注功能,能有效降低高质量数据的获取成本。

“数据标注公司的核心竞争力还是利用数据工程平台进行自动化标注,实现降本增效,不是一家简单的人力标注公司。”刘云涛说,公司在2022年底建立了北京、深圳双研发中心,就在五道口,为的就是挖到国内更顶尖的数据工程算法人才。

对于这个正欣欣向荣的行业来说,故事才刚刚开始。

对话“新”青年

橙柿互动:掌握数据之后,有想过自己直接去做大模型吗?

刘云涛:没有想过。AI时代核心三要素:数据、算法、算力,数据是成就算法的核心要素,如何把海量的多模态数据加工成功高质量的算料,这是一个千亿的市场。我们期待用自己数据工程平台为千行百业的科技公司带去高质量“燃料”。

橙柿互动:数据标注并不是一个行业门槛很高的领域,你们是如何做到行业领先的?

刘云涛:在大部分人眼里数据标注行业门槛低,在当今大模型时代我认为这是一个拥有高门槛的行业。当今数据形态多种多样,如何能把数据利用人工+算法的能力处理成高质量算料,才能建立门槛。

这个领域主要是看中两个能力,一个是数据寻源能力,首先要有收集到海量的原始数据能力;第二个是数据处理能力,我们非常重视从技术角度而非人力角度来解决整体数据生产流程中存在的问题,根据不同的客户需求来定制技术方案。

目前我们自研的景联文数据工程平台包括数据处理、项目管理和数据安全管控等模块,有SAM自动预标注算法,能够实现对图像视频、语音、文本等数据的智能识别。通过AI辅助,帮助客户大幅度降低了数据准备时长和成本,科技公司自然会优先选择我们。

橙柿互动:如何评价自己作为一个CEO的角色?

刘云涛:我是一个市场型CEO,我每年有一半的时间都在出差和客户进行交流,这是我制定公司方向的取胜秘诀。我的底线就是带领公司活下去,责任是让公司过的更好,愿景是为中国AI科技公司提供高质量、高性价比的数据算料。这条路还很长,我们期望与全球优秀的科技客户一起共同探索和推动人工智能技术的发展,成为行业中最值得信赖的数据解决方案提供商。

来源:都市快报一点号

相关推荐