一文读懂如何选择数据架构

摘要：当今世界，数据已成为组织最宝贵的资产之一，在制定战略决策、优化运营和获得竞争优势方面发挥着至关重要的作用。在此背景下，数据工程是一门关键学科，它管理和指导从数据收集到转换、存储和访问的整个过程。

当今世界，数据已成为组织最宝贵的资产之一，在制定战略决策、优化运营和获得竞争优势方面发挥着至关重要的作用。在此背景下，数据工程是一门关键学科，它管理和指导从数据收集到转换、存储和访问的整个过程。

在大数据时代，企业不仅需要拥有数据，还需要解释数据、使其可访问并将其集成到决策支持系统中。这需要开发与数据处理和管理相关的新的、更灵活的解决方案。随着数据量、多样性和用例的不断增加，组织正在转向能够响应各种需求的架构。在这种背景下，数据管理策略（例如数据仓库、数据湖、数据湖仓和数据网格）发挥着重要作用。每种方法在数据类型、访问模型、性能要求、组织结构和治理策略方面都提供了不同的解决方案。数据仓库专注于结构化数据，而数据湖为存储大量数据提供了更灵活的结构。另一方面，数据湖仓结合了两种方法的优势，为数据分析创建了一个优化的环境。同时，数据网格旨在通过微服务架构分散数据管理，从而允许在大型组织中更有效地分配数据责任。

然而，成功的数据架构的基础必须从设计过程的一开始就奠定。这不仅关乎技术架构的构建，还在于使其与组织目标和数据管理策略保持一致。本文将探讨这些流程的理论细节，并提供一个示例项目来演示如何构建这样的系统。

一、需求分析：成功数据架构的基石

以正确的方法开始构建数据架构，对于避免后期可能出现的问题至关重要。因此，项目初期最重要的第一步就是需求分析。如果需求定义不明确，以错误的架构启动项目将导致资源和时间的浪费。

在着手数据架构项目之前，至关重要的是要清楚地了解要构建的具体内容。并非所有数据架构项目都遵循标准模板。每个组织的数据结构、业务目标、期望和用户需求都是独一无二的。因此，负责构建数据架构的技术团队必须与相关业务部门和利益相关者密切合作，明确范围。

为了本文的目的，我们定义了一个示例项目工作流程。根据需求，我们选择了一种架构，并基于该架构继续进行流程。然而，我们也从解释的角度讨论了其他替代方案。

在这个示例项目中，目标是创建一个现代化的数据仓库，用于整合销售数据并对这些数据进行有意义的分析。所使用的平台可以是任何 DBMS（例如 MS SQL、PostgreSQL 等）。主要目标是强化数据驱动的决策机制，简化报告流程，并产生业务洞察。

二、需求分析的目的是什么？

进行需求分析是为了：

• 了解业务需求，

• 确定利益相关者的期望，

• 明确范围，并

• 选择正确的技术基础设施。

在示例项目中，假设数据来自两个主要源系统（ERP 和 CRM）。 ERP（企业资源计划）是一个用于整合公司所有业务流程和资源的软件系统。该软件将财务、人力资源、生产、物流、销售和市场营销等一系列业务职能整合在一起。ERP 系统的目标是通过高效利用公司资源（时间、劳动力、物料、资金等），使流程更加有序和透明。另一方面，CRM（客户关系管理）是一个用于管理和改善公司与现有客户和潜在客户关系的软件系统。CRM 软件收集并分析客户数据，帮助公司在销售、市场营销和支持流程中制定更个性化、更高效的策略。

当 ERP 和 CRM 系统以 CSV 格式提供数据时，使用基于文件的数据源需要在整个ETL（提取、转换、加载）过程中进行仔细的规划和强大的数据控制。原始数据通常不完整、损坏或不一致，因此需要在进行分析之前进行清理并解决质量问题。

仅仅清理数据是不够的；还必须将其集成到一个用户友好且易于理解的结构中。数据模型应该简洁、合乎逻辑，并且设计得能够支持分析。在示例项目中，不需要跟踪历史数据。这意味着在数据加载过程中只会考虑最新的记录，从而使系统更简单、更快速。这样做是为了简化解释并简化模型。

另一个关键要求是为系统最终生成的数据模型提供清晰易懂的文档。该文档确保技术团队和业务用户都能更轻松地适应系统。该文档解释了如何使用数据仓库、每个表的用途以及如何建立关系，这直接影响项目的可持续性。

综上所述，在本项目中：

将使用 SQL，数据源将以 CSV 文件的形式从 ERP 和 CRM 系统提供，数据将被清理并转换成用户友好的模型，仅使用最新的数据，我们将准备一份详细的文件作为最终结果。

一旦完成此分析，项目的结构就会清晰起来，下一阶段，即数据架构的设计，就会开始。扎实的需求分析是所有数据项目的基石。

三、设计数据架构：创建正确的结构

数据架构设计是直接影响数据仓库项目成功的关键步骤。此阶段定义了数据仓库的结构以及数据的处理方式。精心设计的数据架构有助于数据的流动、集成、存储和访问。然而，设计数据架构的方法有很多种，选择合适的方法应与项目的需求和目标相符。

（一）数据架构选项

数据架构设计方法的选择取决于项目目标、数据类型和预期用途。每种方法都有其优势和挑战。因此，彻底研究每种方法的基本特性并了解它们在哪些情况下最适用至关重要。

1.数据仓库（Data Warehouse）

数据仓库通常是一种用于收集大量结构化数据的结构，这些数据经过优化后可用于分析和报告。在基于 SQL 的系统中，数据以特定的结构进行组织，商业智能应用程序会处理这些数据。数据仓库通常具有以下特点：

•结构化数据存储：数据仓库仅处理结构化数据。这些数据通常存储在关系数据库中，并组织成标准化和结构化的表。这使得数据能够存储在明确定义的数据结构（例如列和行）中。

•专注于报告和分析：数据仓库经过优化，允许数据分析师和商业智能团队轻松生成报告。这使得快速查询和执行广泛的数据分析变得更加容易。

•数据清理与集成：在数据仓库中，ETL（提取、转换、加载）流程用于清理和合并来自不同来源的数据。此过程确保数据以一致的格式加载到仓库系统中，并且干净可用。

优点：

•高性能报告：数据仓库针对报告进行了优化，可以有效地处理复杂的查询，提供快速的洞察并促进高性能报告。

•数据安全性和一致性：数据仓库保持高水平的数据安全性并确保数据的一致性，为决策和分析提供可靠的环境。

•轻松查询和访问：数据组织良好，易于查询和访问。这使得数据分析师能够快速检索和处理数据。

挑战：

•仅适用于结构化数据：数据仓库仅适用于结构化数据，这意味着它不适用于半结构化或非结构化数据，例如文本文件、图像或视频。

•高成本：处理和存储大型数据集的成本可能很高，尤其是在处理海量数据时。维护这样的系统可能需要在基础设施和运营成本方面投入大量资金。

用于构建数据仓库（DW）架构的平台：

•Google BigQuery：提供无服务器且高度可扩展的架构，使其适合快速部署和处理大量数据，而无需管理基础设施。

•Amazon Redshift：AWS 上快速且可扩展的数据仓库解决方案，非常适合已经与 AWS 生态系统集成的项目。

•Snowflake：基于云的平台，具有共享架构，支持多云部署，为数据仓库提供极大的灵活性和可扩展性。

•Microsoft Azure Synapse Analytics（以前称为 SQL DW）：将数据仓库与大数据集成相结合，使其成为利用 Microsoft Azure 生态系统的组织的多功能选择。

•Teradata：传统的大数据解决方案之一，通常用于需要复杂数据仓库解决方案的大规模内部部署环境。

•IBM Db2 Warehouse：IBM 的企业数据仓库解决方案，适用于需要具有高安全性和可靠性的强大内部部署解决方案的组织。

数据架构平台的选择取决于项目的规模、预算、技术要求和团队的专业知识。对于中小型项目，像 Google BigQuery 或 Snowflake 这样的无服务器解决方案可能是首选，因为它们设置快捷、维护成本低。Amazon Redshift 对于集成在 AWS 生态系统内的项目来说非常有利。对于使用 Azure 的企业，推荐使用 Microsoft Azure Synapse，因为它兼具数据湖和数据仓库的功能。对于实时数据需求或需要频繁更新的大型数据集，Snowflake的时序是数据和性能能力尤为突出。对于需要高安全性和数据主权的案例，像 Teradata 或 IBM Db2 Warehouse 这样的本地解决方案是理想之选。

2.数据湖（Data Lake）

数据湖是一种灵活的结构，可将结构化、半结构化和非结构化数据整合在一起存储。这种架构通常用于存储原始数据，并用于高级分析。数据湖常用于大型数据项目，尤其是在数据科学和机器学习等领域，因为处理各种类型数据的能力至关重要。

数据湖允许组织以原生格式存储海量数据，从而更轻松地集成和分析来自各种来源的数据，而无需进行前期结构化。这种灵活性使数据湖特别适合需要大量存储和处理能力的大数据项目。

不同数据类型的存储：数据湖可以以原始格式存储各种类型的数据（从数据库到文本文件、图像等等）。数据通常以基于文件的格式（例如 CSV、JSON、Parquet）存储。这允许包含结构化数据和非结构化数据，从而为数据存储提供了极大的灵活性。

• 数据处理灵活性：该架构为数据工程师和数据科学家提供了广泛的灵活性，使他们能够以任何他们选择的方式处理数据。它非常适合高级分析和机器学习任务，因为原始数据可以根据需要进行处理和转换。

• 数据更新：数据湖非常适合处理不断变化和增长的数据集，支持实时或近实时的数据处理。这对于需要最新信息进行分析的项目尤其有用。

优点：

•结构化和非结构化数据的存储：数据湖允许存储各种类型的数据，从而提供数据存储的灵活性。

•数据灵活性：数据湖提供了极大的灵活性，允许轻松添加不同类型的数据，而不需要严格的结构。

•适用于机器学习和高级分析：由于数据湖具有存储原始数据的能力，因此非常适合复杂的机器学习任务和高级分析过程。

挑战：

•复杂的数据管理：管理湖中的数据可能极具挑战性。如果没有合理的组织，数据将难以处理，从而导致“数据沼泽”问题，数据变得杂乱无章，难以处理。

•数据安全和访问控制：与数据仓库相比，由于系统内存储的数据类型和格式多种多样，管理数据湖中的数据安全和访问控制可能更加复杂。

用于构建数据湖架构的平台：

•Amazon S3：构建数据湖最常用的基础设施，为海量数据提供可扩展且经济高效的存储。

•Azure 数据湖存储 (ADLS Gen2)：基于 Microsoft Azure 构建的高性能数据湖解决方案，专为大规模分析而设计。

•Google Cloud Storage (GCS)：Google Cloud 的数据湖解决方案，提供可扩展的存储和与其他 Google Cloud 服务的集成。

•Apache Hadoop HDFS：适用于本地系统，提供分布式文件系统来存储和处理大型数据集。

•MinIO：一个开源的、与 S3 兼容的数据湖构建平台，提供可扩展且灵活的对象存储。

3. Data Lakehouse（数据湖+数据仓库组合）

数据湖仓(Data Lakehouse) 充当数据湖和数据仓库之间的桥梁，将数据湖处理的灵活性与数据仓库的结构化数据管理功能相结合。这种方法整合了结构化数据和非结构化数据，在两个世界之间提供了灵活性。本质上，数据湖仓将数据湖的原始数据存储能力与数据仓库中针对结构化数据的优化查询性能相结合。这使其成为需要兼顾两者优势的组织的理想解决方案，它能够轻松集成各种数据类型，同时提供高效的分析查询性能。

灵活性和结构：数据湖仓将数据湖的灵活性与数据仓库的结构和性能相结合。数据可以以结构化格式存储，同时还可以处理和集成半结构化和非结构化数据。这种混合方法使组织能够处理各种类型的数据，同时保持一致的结构以用于分析。

高级分析和报告：在数据湖中，可以执行基于 SQL 的查询和机器学习操作，以满足分析和报告需求。这使组织能够在同一平台上利用传统的商业智能和先进的数据科学技术。

优点：

•将数据仓库的性能与数据湖的灵活性相结合。

•融合两种方法的优点，并为处理不同数据类型提供有利的环境。

挑战：

•复杂的设置和管理：由于结构化和非结构化数据的集成，这些类型的架构可能难以设置和管理。

•高级数据管理和性能优化：需要仔细管理和优化数据处理和性能，使得维护更加耗费资源。

用于构建数据湖架构的平台：

•Databricks + Delta Lake：通常与 Lakehouse 架构相关联，提供批量和流数据处理的统一方法，重点关注可靠性和性能。

•Apache Iceberg：Netflix 开发的开源 Lakehouse 解决方案，提供支持大规模数据湖和 ACID 事务等功能。

•Apache Hudi：一种支持数据版本控制和流处理的开源解决方案，通常用于处理大量传入数据，并能够跟踪随时间的变化。

•Azure Synapse Analytics：一个结合数据仓库和数据湖功能的平台，非常适合使用 Microsoft Azure 的组织，可实现两种架构之间的无缝集成。

•Snowflake（最近更新）：已开始提供 Lakehouse 功能，融合了数据湖和数据仓库的性能和功能。

•Google BigLake：Google Cloud 的 Lakehouse 解决方案，它集成了跨多个云的存储和分析，提供灵活且可扩展的数据处理。

数据湖架构的平台选择应基于大数据的灵活性和分析的性能预期。如果需要流处理和批处理的组合，并且需要开源的灵活解决方案，那么Databricks + Delta Lake是一个不错的选择。对于企业 Azure 环境，建议使用结合了数据湖和数据仓库功能的Azure Synapse Analytics。BigQuery + BigLake集成对 Google Cloud 用户非常有利，因为它能够将数据湖数据与分析查询相结合。如果数据版本控制、ACID 合规性和成本优化很重要，则应考虑Apache Hudi或Apache Iceberg等解决方案。此外，如果需要集中管理来自不同域的数据，那么与 Databricks 集成的Unity Catalog可能是治理的理想选择。

下表比较了上述三种架构：

4.数据网格

数据网格 (Data Mesh) 提出了一种分布式架构，而非中心化的数据结构。在这种方法中，每个部门创建自己的数据产品并与其他部门共享。数据网格使数据架构模块化且去中心化，尤其适用于大型复杂的组织。

•分布式数据管理：每个部门创建并负责自己的数据产品。这避免了将数据集中在一个位置，从而提供了更大的灵活性。

•预防瓶颈：通过避免创建集中式数据管理结构，数据网格可以防止传统集中式系统中通常出现的瓶颈。

优点：

• 分布式结构允许更灵活的数据管理和访问。

• 数据所有权由各部门共享，每个部门负责自己的数据产品。

挑战：

• 缺乏集中数据管理会给维护数据一致性和完整性带来挑战。

• 数据集成和处理工作流程可能变得更加复杂。

用于构建数据网格架构的平台：

•AWS Lake Formation + Glue + S3：提供基于域的数据访问和治理。

•Databricks Unity Catalog：支持 Data Mesh 的数据治理方面。

•Starburst / Trino：支持跨域数据查询和联合。

•Snowflake：通过安全数据共享促进域之间的数据共享。

•Kafka / Event Streaming（Confluent、Redpanda）：用于域间数据流。

•DataHub / Amundsen / OpenMetadata：专注于元数据管理和编目。

数据网格架构平台的选择取决于组织对领域驱动的数据所有权模型（该模型摒弃了中心化）的准备程度。如果团队构建为独立开发数据产品，则建议使用支持中心化治理的解决方案，例如 Databricks Unity Catalog 或 Snowflake Secure Data Sharing。如果需要跨不同数据源的数据联合和统一查询，则适合使用 Starburst 或 Trino 等分布式查询引擎。对于元数据管理和透明数据发现，DataHub、Amundsen 或 OpenMetadata 等工具是理想之选。在需要事件驱动数据共享的场景中，Kafka 或 Confluent 基础设施可以实现域间的实时数据流。在具有明确内部数据所有权和访问策略的组织中，这些工具结合使用，可以构建成功的数据网格基础设施。

在数据架构选择方面，每种方法都有各自的优势和挑战。数据仓库提供了更结构化、更注重报告的框架，而数据湖则提供了灵活性和强大的大数据分析能力。数据湖仓弥合了两者之间的差距，而数据网格则提供了更灵活、更去中心化的数据管理模型。正确的方法应根据项目的需求和长期目标来确定。

在本项目中，我们选择了数据仓库方法，因为它专注于处理结构化数据，以实现快速报告和商业智能。每个项目都有不同的需求，因此选择合适的方法对于确保数据管理流程的成功至关重要。

（二）选择正确的方法

在本项目中，数据仓库方法被认为是最合适的选择。对于需要处理结构化数据并专注于报告和商业智能的项目来说，数据仓库是理想的方法。然而，其他方法，例如数据湖、数据湖仓和数据网格，也可能对特定项目有利。

每种方法都有其独特的优势和挑战。例如：

•数据仓库提供了强大的报告和分析功能，但只能处理结构化数据。

•数据湖提供了灵活性和多种数据类型，但可能导致复杂的数据管理。

•Data Lakehouse结合了两者的优点，提供了灵活性和性能。

•数据网格呈现分布式架构，但必须注意集成和一致性挑战。

数据仓库方法已作为示例，以满足项目需求。然而，在确定任何数据项目最合适的方法时，必须考虑数据类型、分析需求和用例等因素。

四、Medallion架构详解：现代数据仓库设计

数据仓库设计中使用的不同方法对系统的灵活性、性能和效率有重大影响。在本文中，我们将研究流行的数据仓库设计方法，例如 Inmon、Kimball、Data Vault 和 Medallion，然后对 Medallion 架构进行更深入的解释。

（一）Inmon 方法：集中式数据仓库设计

Inmon 是最早也是最古老的数据仓库设计方法之一。根据 Inmon 的说法，数据仓库被设计为企业数据仓库 (EDW)，其中所有数据都存储在一个中心位置。在这种方法中，所有数据都经过规范化处理，并使用高级数据模型加载到仓库系统中。

特征：

• 数据通常使用第三范式（3NF）存储。

• 提供企业级方法，即整个组织的中央数据仓库。

• 数据集成过程复杂，但保证了数据的高度准确性。

优点：

• 数据一致且组织良好。

• 适用于大型项目和企业级数据集成。

挑战：

• 开发过程缓慢，因为一切都需要从头开始重组。

• 需要复杂且耗时的数据建模。

（二）Kimball 方法：用户友好的数据仓库

与 Inmon 相比，Kimball 提供了更加用户友好且灵活的方法。在 Kimball 的方法论中，数据仓库被设计成更小、更具体的部分，称为数据集市。数据使用简单的模型（例如星型模式和雪花模式）进行组织。

特征：

• 数据通常经过非规范化和优化，以便于查询。

• 每个数据集市都为特定业务领域提供特定的报告和分析目的。

优点：

• 提供便捷的访问和快速的查询。

• 非常适合小型项目或特定分析要求。

挑战：

• 非规范化的数据可能会导致大型数据集中的数据冗余。

• 管理数据一致性变得更具挑战性。

（三）Data Vault：灵活且模块化的数据模型

Data Vault 方法通过提供灵活性和模块化，为数据仓库设计带来了新的视角。在这种方法中，数据以原始形式存储，然后通过添加业务规则进行处理。Data Vault 通常是大型复杂数据项目的首选。

特征：

• 提供快速适应和灵活性。

• 数据准确性和业务规则在每一层分别处理。

• 数据分为三个核心组件：Hub、Link、Satellite。

优点：

• 允许与各种数据源快速集成。

• 轻松适应不断变化的业务需求。

挑战：

• 复杂的数据模型可能会给管理带来困难。

• 可能需要更高的加工成本。

（四）Medallion 架构：现代且简化的数据仓库设计

Medallion 架构是现代数据仓库设计的最新方法之一。该结构将数据处理过程分为三层：青铜层（原始数据）、白银层（清理数据）和黄金层（符合业务规则的数据）。

1.Medallion 架构的关键层

•青铜层（原始数据）：青铜层是数据最初接收并以未处理形式存储的地方。数据保持其原始状态，在此阶段不进行任何转换。目标是保留数据最初接收时的状态。数据工程师将原始数据存储在此层，以便进行错误调试和可追溯性（跟踪数据源和更改）。

•白银层（清理数据）：在银级层中，原始数据经过清理、规范化和整理。该层专门用于数据转换和清理过程，为分析做好准备。数据中任何缺失或错误的部分都会得到纠正，并通过改进使数据更加一致。

•黄金层（符合业务规则的数据）：黄金层是为商业智能、报告和分析准备数据的地方，并应用了业务规则。在此层中，数据建模和分析根据业务用户的需求进行。数据与商业智能工具（例如 Power BI、Tableau 等）保持一致，并针对报告流程进行了优化。

2.各层级要求下图展示了各层级的要求。例如，满足“青铜级”层级的要求后，将其保存为文件，无需进一步处理。之后，将“白银级”层级中的转换应用到单独的文件中，并进一步优化数据。各层级负责完成其特定范围内的任务。最后，“黄金级”层级代表数据已准备好进行建模和商业智能任务的阶段。下图清晰地展示了这些阶段。

Medallion Architecture 的优势

•简洁易懂：Medallion 结构简单易懂，无需复杂的数据模型。每一层都代表着不同的目的和功能。

•可追溯性：由于数据的每个阶段都是可追溯的，因此可以快速识别和解决任何数据问题。

•灵活性和性能：它既提供了灵活性，又实现了快速的数据处理和查询。此外，由于每个阶段都可以单独处理，因此数据管理具有高度的灵活性。

Medallion Architecture的应用

•大数据项目：Medallion 架构是收集和处理大量数据的项目的理想解决方案。

•高级分析和机器学习：黄金层中为报告和分析准备的数据支持青铜层和白银层中原始数据的高级分析。

•数据仓库和商业智能需求：Medallion 架构非常适合数据仓库和商业智能项目。

Medallion 架构是一种高度灵活高效的现代数据仓库设计方法。该模型为数据工程师和业务分析师提供了显著的优势，确保了数据处理每个阶段的清晰度和可追溯性。Medallion 提供了至关重要的优势，尤其对于需要高级分析和报告的项目而言。

五、可视化数据仓库架构

数据仓库的设计和架构通常涉及复杂的结构，仅用文字难以解释。因此，创建可视化的表示形式对于使数据仓库项目更易于理解和实施至关重要。可视化图表有助于说明复杂的数据流和系统结构，确保所有利益相关者都能理解设计。

（一）数据仓库架构图中的关键元素

在绘制数据仓库架构时，应考虑以下关键要素：

1.数据源在图表中，数据源通常用方框表示，并通过指向数据仓库的箭头连接。数据源可以有多种格式，例如：

• 数据库

• CSV 文件

• APIs

• Web 服务

这些元素的可视化标志着项目数据流的第一步。

2. ETL 流程（提取、转换、加载）从数据源提取数据、进行转换并将其加载到数据仓库的过程称为 ETL。提取（数据收集）、转换（数据转换）和加载（数据加载）这几个步骤通常在图中用顺序箭头表示。每个步骤代表数据流中的不同阶段，应在图中清晰可见。

3. 数据仓库数据仓库通常表示为一个集中式结构，所有数据都收集在这里并准备进行分析。处理后的数据存储在这里并发送到报告流程。

4. 层级结构如果采用类似 Medallion Architecture 的方法，则应在图表中清晰地标明不同的层级（青铜、白银、黄金）。每一层都以标签的形式直观地表示，该标签描述了数据处理的程度及其预期用途。

5. 商业智能和报告（BI & Reporting）商业智能 (BI) 工具和报告平台，用于向最终用户呈现数据，也应包含在图表中。报告工具是分析和解释数据的最后一步。

通过将数据仓库组件组织成这些可视化元素，所有项目利益相关者可以更轻松地理解数据仓库架构中涉及的结构、流程和过程。

（二）可视化数据仓库模式

下面是一个示例图，展示了数据仓库架构如何可视化：

1 . 数据源（例如 ERP、CRM 系统）提供流向数据仓库的数据。

2. ETL 流程显示数据如何从源移动到仓库。

3. 层和商业智能工具表明如何处理数据并呈现给用户。

在数据仓库设计中使用可视化图表是使复杂的数据流和系统结构更易于理解的有效方法。清晰地可视化数据流、数据层和商业智能工具，有助于所有项目利益相关者更轻松地理解流程。在整个项目中，这些图表可以作为参考，指导每个阶段，确保数据仓库实施的成功执行。

六结论

数据架构的选择不仅仅是一个技术决策，更是一个战略和组织决策。本文详细讨论了数据仓库、数据湖、数据湖仓和数据网格等不同的架构方法，并结合示例解释了每种方法的适用场景、优势、挑战以及可用于实现这些方法的平台。此外，本文还基于一个实际项目详细阐述了需求分析、数据源识别、ETL 流程、建模和文档编制等步骤，展示了如何将 Medallion 等现代架构应用于数据工程。最终，选择合适的数据架构应根据数据类型、分析需求、组织结构和长期目标进行。这样，企业不仅可以处理数据，还可以构建敏捷、可持续且强大的系统，从数据中创造价值。

来源：小王论科技

标签：架构 azure 商业智能数据仓库 bigquery

本文地址：https://news.43u.com.cn/a/2630092.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!