在人工智能背景下了解非结构化数据

摘要:今天创建的数据量确实令人震惊。IDC预测,到2028年,全球数据将达到400ZT字节(4000亿兆字节),其中90%的数据被归类为非结构化数据。如此多的数据和如此多的非结构化数据的扩散,提出了两个主要问题:我们如何管理这一切,以及我们如何利用它来为下一代人工智

今天创建的数据量确实令人震惊。IDC预测,到2028年,全球数据将达到400ZT字节(4000亿兆字节),其中90%的数据被归类为非结构化数据。如此多的数据和如此多的非结构化数据的扩散,提出了两个主要问题:我们如何管理这一切,以及我们如何利用它来为下一代人工智能应用程序提供动力?

在这里,我们将深入研究什么是非结构化数据,当今领先的组织如何利用它来推动业务,以及随着数据量继续呈指数级增长,我们可以期待什么。

关于不同数据类型的入门

大多数人熟悉的传统数据形式是结构化数据,它与基于表格的格式完美契合。多年来,结构化数据一直是传统数据库系统和数据管理的基础,因为它具有固有的数据存储和检索形式。

比其传统前身更上一步的是半结构化数据,这些数据是响应基于表格的格式的刚性而到达的。半结构化数据保留了结构化数据的一些组织元素,但消除了传统的表格约束。这种类型的数据推动了Cassandra、MongoDB和Redis等NoSQL数据库的增长和普及,这些数据库旨在管理更灵活的数据结构。

这给我们带来了非结构化数据,这已经压倒性地成为最常见的数据类型。正如其名所示,非结构化数据可以以任何形式或格式出现,大小差异很大,并创建复杂的语义关系。因此,非结构化数据需要一种截然不同的处理和管理方法。

更深入地研究语义复杂性,考虑同一对象的三张不同照片。尽管每张照片背后的原始数据可能差异很大——文件大小、像素数、分辨率等——但它们的语义是相同的。这就是现代数据管理的挑战所在。存储、搜索和分析内容的最佳方法是什么,不是基于其技术特征,而是基于其含义?

许多类别的非结构化数据

非结构化数据主要有两种口味:人类生成和机器生成。人类生成的非结构化数据的例子包括:

短信:我们大多数人使用非正式语言写短信,如缩写(GTFO!)和表情符号。

电子邮件:虽然通常比短信更正式,但电子邮件通常包含半结构化数据的混合,如发往字段,以及自由格式的文本和图像或附件。

社交媒体帖子:社交媒体平台上的内容在结构和内容上差异很大,具体取决于所使用的媒介(例如Facebook与LinkedIn与Twitter/X)。

手写笔记:手写笔记是非结构化数据的原始形式之一,可以包括文本、图表、图纸或其他视觉元素。

音频录音:音频可以接收多种形式的非结构化数据,包括语音邮件、电话、音频笔记和其他类型的音频文件。

成绩单:采访、会议、电话和演讲都可以进行转录,每个都具有不同的准确度。

图像:视觉数据可以包括照片、图表、图表、插图和屏幕截图,每个图像都可能包含从面部表情到文本叠加再到复杂场景的多层信息。

视频:视频内容将视觉、音频和通常的文本元素(如字幕或叠加)结合到复杂的非结构化数据中,从简短的移动剪辑到专业制作再到监控片段。

非结构化数据也可以由机器生成,例子包括:

物联网数据:随着智能互联网连接设备数量的增长,它们创建和收集的数据量也在增加。

传感器数据:同样,收集数据的传感器的数量和类型持续增长,如运动传感器、GPS传感器、温度传感器等。

机器日志数据:这种类型的数据可以包括系统日志、应用程序日志和事件日志。

自然语言处理(NLP)数据:语音识别、语言翻译和情绪分析技术都会产生非结构化数据。

网络和应用程序数据:网络和移动应用程序生成各种非结构化数据,包括性能数据、用户数据和错误日志。

上述列表当然并不详尽,因此很容易看出非结构化数据是如何以及为什么主导我们的宇宙的。

非结构化数据对数据管理意味着什么

结构化数据和非结构化数据之间的差异意味着传统数据库系统和现代人工智能数据库系统以不同的方式处理信息。考虑在图书馆整理书籍等任务。对于传统的数据库——结构化数据——搜索将涉及寻找一本明确标记所有内容的特定书籍:书名、作者姓名、出版日期等。如果你想找到斯蒂芬·金写的所有书籍,你只需要搜索作者目录并找到完全匹配的。

这是传统数据库工作方式的基本表示,是一种精确和可预测的查找精确匹配的方法。

与此同时,当涉及到现代人工智能数据库(非结构化数据)时,搜索将涉及找到与您最喜欢的书籍相似。与其考虑作者或标题,不如考虑写作风格和内容等其他因素。这种类型的搜索更具主观性,更多地依赖于“感觉”,而不是黑白的完全匹配。

这就是现代人工智能数据库与上述非结构化数据类型配合的方式。这些数据库不是寻找完全匹配的,而是寻找相似或“足够接近”的结果。

这个例子的关键区别在于,传统数据库使用老式图书馆目录来找到完全匹配。如果你搜索“斯蒂芬·金”,你会得到一份只有斯蒂芬·金的书的列表。另一方面,人工智能数据库更像是要求某人推荐与斯蒂芬·金写的书籍相似的书籍,无论是语气、写作风格、主题还是其他特征。在这种情况下,您可能会收到一个强有力的建议,但它们可能不是“完美”的匹配。

使用现代人工智能数据库的方法是一种平衡行为。如果您花更多时间搜索,并考虑书籍的更多属性(语气、风格、主题等),您将获得更准确的结果——但过程会更慢。

这一切意味着什么

非结构化数据的持续爆炸性增长使管理成为所有类型组织需要克服的越来越关键的挑战。非结构化数据将以惊人的速度超出结构化数据,能够最能理解和与之互动的组织将在竞争中脱颖而出。驾驭这种新范式需要企业实施并充分利用工具,使他们能够从数据资产中提取价值。

这里的关键词是无缝。那些无缝管理结构化和非结构化数据的人,为了弥合原始数据和有意义地推动业务向前发展的见解之间的差距。400泽塔字节的时代即将到来。最终,区分非结构化数据和结构化数据将使组织从中有效获得价值的能力背道而后。

作者:James Luan是Zilliz的工程副总裁,也是开源矢量数据库Milvus的创建者。James拥有康奈尔大学的计算机工程硕士学位,并在甲骨文、Hedvig和阿里巴巴云担任数据库工程师的丰富经验。他在开发阿里巴巴云的开源数据库HBase和自主开发的NoSQL数据库Lindorm方面发挥了至关重要的作用。他是LF人工智能和数据基金会技术咨询委员会的受人尊敬的成员,为塑造人工智能和数据技术的未来贡献了他的专业知识。

来源:AI中国一点号

相关推荐