hive

集团数据湖表优化与管理实践

抖音集团内部使用的数据湖格式称为 ByteLake,它是基于 Apache Hudi 深度定制的一个数据库框架,其核心功能包括支持 ACID、增量消费更新和湖仓统一元数据管理,适用于数仓分析、交互式分析及特征工程等场景。

timeline hive filegroup bytela 2025-03-10 09:00  5

Hive引擎底层初探

Hive是一个基于Hadoop的数据仓库工具,用于处理和分析大规模结构化数据。Hive提供了类似SQL的查询语言(HiveQL),使得熟悉SQL的用户能够查询数据。Hive将SQL查询转换为MapReduce任务,以在Hadoop集群上执行数据处理和分析。

hive hive引擎 底层初探 2025-01-22 14:31  7

集团离线数仓血缘基础能力的构建与应用

第一类问题:聚焦于如何有效识别数据传输链路,特别是在各公司离线数仓规模持续扩大的背景下。用户常遇到以下挑战:首先,针对多业务线场景,需要明确某一 Hive 表中包含哪些业务线的数据,以及某个业务线的数据具体存储在哪些 Hive 表中。这要求企业具备标签识别能力

sql hive 血缘 2025-01-10 09:00  9

《Hive编程指南》读书笔记

最近刚接触写hive SQL,却发现许多查询的执行速度远不如预期。为了提升查询效率,我去阅读了《Hive编程指南》,希望通过理解其底层机制来找到优化的方式,并为未来能编写出高效的SQL奠定基础。谨以此文做个记录。

编程 hive hive编程 2024-12-03 11:01  11