Azure Data Factory(九)基础知识回顾

azure,data,factory,基础知识,回顾 · 浏览次数 : 6

小编点评

**一、引言** 本文将介绍 Azure Data Factory 的概念知识,包括以下内容: - Azure Data Factory 是一个基于云的数据继承服务,允许组织城建,计划和编排数据管道。 - Azure Data Factory 提供了可视化界面或基于代码的方式来集成来自各种来源的数据,对其进行转化和处理,然后再将其加载到数据目标存储中。 **二、Azure Data Factory(一)入门简介** Azure Data Factory 是一个云数据服务,用于将来自各种数据源收集、处理和交付到目标数据目标中的数据管道。它支持广泛的数据源,包括本地和云上的数据源,并提供数据移动、数据转换、监控和管理等功能,使其成为数据集成的综合解决方案。 **三、Azure Data Factory(二)复制数据** 使用复制数据活动可以将数据从一个移动数据地点复制到其他。支持广泛的数据源和目标,包括本地数据源和基于云的数据源。 **四、Azure Data Factory(三)集成 Azure Devops 实现CI/CD** Azure Data Factory 可用于集成 Azure Devops,从而实现自动化数据集成工作流程。 **五、Azure Data Factory(四)集成 Logic App 的邮件通知提醒** 使用 Logic App 发送邮件通知即可在数据管道完成时通知相关人员。 **六、Azure Data Factory(五)Blob Storage 密钥管理** Azure Data Factory 提供用于管理您的 Azure Blob Storage 密钥的 API。 **七、了解集成运行时 (IR)** 集成运行时 (IR) 是 Azure 数据工厂的基本组件,可帮助您轻松执行和管理数据集成工作流程。 **八、总结** Azure Data Factory 是一种功能强大的数据处理平台,可用于各种数据集成任务。通过了解其概念知识和组件,您可以更好地理解和使用它,为您的数据集成项目做一些贡献。

正文

一,引言

  在本文中,我们将继续了解什么是 Azure Data Factory,Azure Data Factory 的工作原理,Azure Data Factory 数据工程中的数据管道,并了解继承运行时 ----- IR。

--------------------我是分割线--------------------

1,Azure Data Factory(一)入门简介

2,Azure Data Factory(二)复制数据

3,Azure Data Factory(三)集成 Azure Devops 实现CI/CD

4,Azure Data Factory(四)集成 Logic App 的邮件通知提醒

5,Azure Data Factory(五)Blob Storage 密钥管理问题

 6,Azure Data Factory(六)数据集类型为Dataverse的Link测试

7,Azure Data Factory(七)数据集验证之用户托管凭证

8,Azure Data Factory(八)数据集验证之服务主体(Service Principal)

9,Azure Data Factory(九)基础知识回顾

二,正文

1,什么是 Azure Data Factory ?  

  Azure Data Factory 是一种基于云的数据继承服务,允许组织城建,计划和编排数据管道。Azure Data Factory 提供了可视化界面或基于代码的方式来集成来自各种来源的数据,对其进行转化和处理,然后再将其加载到数据目标存储中。

  Azure Data Factory 支持广泛的数据源,包括本地和基于云上的数据源,例如  Sql Server,Azure Blob,Dataverse 等等,它还提供数据移动,数据转化,监控和管理等功能,使其成为数据集成的综合解决方案。

2,ADF 的工作原理是什么?

  Azure 数据工厂 (ADF) 通过提供可视化界面或基于代码的方法来定义、计划和执行数据管道。这些管道可用于执行各种任务,包括数据移动和转换。

以下是 ADF 工作原理所涉及的步骤:

  1. 创建数据工厂:第一步是在 Azure 中创建数据工厂。这可以在 Azure 门户中或使用 Azure CLI 完成。
  2. 定义数据源和目标:创建数据工厂后,您需要定义要在管道中使用的数据源和目标。数据源可以是本地的或基于云的,目标可以是 Azure Data Lake Storage、Azure Blob 存储或 Azure SQL 数据库。
  3. 创建管道:管道是 ADF 的构建块。它们定义了移动和转换数据所需的步骤。可以在 ADF 可视化界面中或使用 Azure 数据工厂 SDK 创建管道。
  4. 计划管道:可以安排管道定期运行或按需运行。这允许您自动执行数据管道。
  5. 监视管道:ADF 提供监视功能,以便您可以监视管道的状态、查看日志并管理已处理的数据。

  ADF 是一个功能强大的工具,可以帮助您为各种数据集成场景构建、调度和编排数据管道。对于需要的各种规模的组织来说,这是一个不错的选择集成来自各种来源的数据并将其加载到各种目标中。

这里有一些额外的细节关于 ADF 的工作原理:

  • 数据连接器:ADF 支持各种数据连接器,包括本地数据源和基于云的数据源。这使得您可以轻松地将来自各种来源的数据集成到数据管道中。
  • 数据转换:ADF 提供各种数据转换活动,例如复制数据、转换数据和运行脚本。这可以让你根据以下内容操纵和塑造您的数据您的需求。
  • 调度和监控:ADF 提供调度和监控功能,因此您可以自动执行数据管道并监控数据的状态。这有助于您确保数据管道按预期运行并且数据始终是最新的。
  • 集成运行时:ADF 提供集成运行时,负责执行管道中的活动。集成运行时分为三种类型:Azure IR、自托管 IR 和 Azure-SSIS IR。这使您可以根据您的特定需求选择正确的集成运行时。
  • 安全功能:ADF 提供多种安全功能保护您的数据,例如数据加密和访问控制。这可以帮助您确保您的数据安全并且只能访问授权用户。

3,Azure 数据工厂中的数据管道

  ADF 中的管道是数据集成的构建块,使您能够自动执行复杂的任务,例如数据移动、转换和决策。管道由一项或多项活动组成,它们是 ADF 中的基本工作单元。有多种类型的活动可供选择,每种活动都经过精心设计执行特定任务。

  1)数据移动:
使用复制数据活动从一个移动数据地点 其他。此活动支持广泛的数据源和目标,包括本地数据源和基于云的数据源。通过复制数据活动,您可以执行从源数据存储复制数据等操作目标数据存储或从其中复制数据地点 数据存储中的另一个。

  2)数据转换:
ADF 提供了多种转型活动,使您能够操纵和塑造您的数据。例如,您可以使用派生列活动基于表达式、Lookup 活动创建新列从另一个数据源检索数据,以及聚合活动汇总数据。ADF 还支持使用 Azure Databricks 或 Azure Functions 进行基于代码的转换,为您提供灵活性创建量身定制的自定义转换您的具体需求。

1,控制流:
管道可以包括控制流活动,使您能够根据条件执行操作。例如,您可以使用 If Condition 活动根据表达式的结果或 For Each 活动执行不同的活动对集合中的每个项目执行相同的一组活动。这些活动可以让你创建可以适应的复杂工作流程改变数据和条件。

2,依赖关系:
管道可以包括依赖关系活动之间,它决定活动执行的顺序。例如,您可以指定一个活动只能在另一个活动完成后启动,或者多个活动应并行运行。这些依赖关系让你创建高效的工作流程,最大限度地减少延迟并最大限度地提高资源利用率。

3,监控和管理:
  ADF 提供强大的监控和管理功能,使您能够监视管道的状态、查看日志并管理已处理的数据。您可以在 ADF 可视化界面中查看管道、活动和数据集的状态,或使用 Azure 数据工厂 REST API 以编程方式检索状态信息。这可以让你快速识别任何问题或瓶颈并采取纠正措施确保您的数据集成工作流程顺利运行。

4,了解集成运行时 (IR)

  集成运行时 (IR) 是 Azure 数据工厂 (ADF) 的基本组件,可帮助您轻松执行和管理数据集成工作流程。IR 提供了一个安全、可扩展且受管理的环境,用于运行管道中指定的活动,例如数据移动和转换任务。

让我们更深入地研究 Integration Runtime 在 ADF 中的作用:

目的: IR 的主要目标是为执行数据集成活动提供安全、托管且可扩展的环境。通过抽象基础设施和网络复杂性,IR 使您能够只专注于构建数据集成逻辑,而不用担心底层细节.

类型:它负责执行管道中的活动。IR 分为三种类型:

  • Azure IR:此 IR 用于基于云的数据源和目标之间的数据集成。
  • 自托管 IR:此 IR 用于本地和基于云的数据源和目标之间的数据集成。
  • Azure-SSIS IR:此 IR 用于需要托管环境来执行 SQL Server Integration Services (SSIS) 包的数据集成方案。

安全性:IR 非常重视安全性,自动处理网络安全和数据加密问题。此外,IR 支持 Azure Active Directory (AAD) 身份验证,使您能够使用 AAD 凭据安全地访问数据源和目标。

可扩展性:IR设计应对可扩展性挑战,自动调整基础设施和网络资源满足您的数据集成任务的需求。例如,IR 可以在峰值负载期间自动增加集群中的节点数量,并在负载下降时自动减少节点数量。

监控:IR提供实时监控和管理功能,使您跟踪数据集成操作的性能和状态。您可以通过 ADF 可视化界面监视 IR、管道和活动,或使用 Azure 数据工厂 REST API 以编程方式检索状态信息。

总之,集成运行时是 Azure 数据工厂不可或缺的组件,为执行数据集成工作流提供安全、可扩展和托管的环境。借助 IR,您可以灵活、可扩展地执行数据集成操作,让工作变得更加轻松满足您的数据集成场景的需求。

三,结尾

  今天我们继续介绍了 Azure Data Factory 的概念知识,集合前几期实践内容,能更好的了解 Azure Data Factory 常见的组件,更清晰的了解我们可以使用 Azure Data Factory 为我们的项目做哪些贡献了。

参考链接:Azure 数据工厂

作者:Allen 

版权:转载请在文章明显位置注明作者及出处。如发现错误,欢迎批评指正。

与Azure Data Factory(九)基础知识回顾相似的内容:

Azure Data Factory(九)基础知识回顾

一,引言 在本文中,我们将继续了解什么是 Azure Data Factory,Azure Data Factory 的工作原理,Azure Data Factory 数据工程中的数据管道,并了解继承运行时 IR。 我是分割线 1,Azure Data Factory(一)入门简介 2,Azure

Azure Data Factory(六)数据集类型为Dataverse的Link测试

一,引言 之前有讲过 Azure Data Factory 的 Copy Data 的操作,演示了将 Blob Storage1 的数据通过 Azure Data Factory 复制到 Blob Storage2 中,今天我们玩一个不一样的,Azure Dataverse -》 Azure Dat

Azure Data Factory(七)数据集验证之用户托管凭证

一,引言 上一篇文章中,我们讲解了 Azure Data Factory 在设置数据集类型为 Dataverse 的时候,如何连接测试。今天我们继续讲解认证方式这一块内容,打开 Link Service 可以看到多种认证方式,由于上一届已演示了 Office365 的认证方式,那么今天就着重讲解一下

Azure Data Factory(八)数据集验证之服务主体(Service Principal)

一,引言 如下图所示,今天我们接着上一篇内容,继续讲解 Azure Data Factory 中的数据集连接服务的认证方式:Service Principal 关于 Service Principal 的创建 可以参考:Azure AD(四)知识补充-服务主体 至于需要给 Service Princ

【Azure Function App】在ADF(Azure Data Factory)中调用 Azure Function 时候遇见 Failed to get MI access token

问题描述 在ADF(Azure Data Factory)中,调用Azure Function App中的Function,遇见了 Failed to get MI access token There was an error while calling endpoint with error m

【Azure 应用服务】Azure Data Factory中调用Function App遇见403 - Forbidden

问题描述 在Azure Data Factory (数据工厂)中,调用同在Azure中的Function App函数,却出现403 - Forbidden错误。 截图如下: 问题解答 访问Azure Function App遇见403 - Forbidden错误,这是因为Function App启用

【Azure 存储服务】Azure Data Lake Storage (ADLS) Gen2 GRS Failover是否支持自动切换或者手动切换到灾备的终结点呢?

问题描述 在Azure的存储服务中,介绍灾备恢复和Storage Account故障转移的文档中,有一句话“Account failover is not supported for storage accounts with a hierarchical namespace enabled.” 而

【Azure Event Hub】Event Hub的Process Data页面无法通过JSON格式预览数据

问题描述 在Event Hub的门户页面中,可以通过Process Data页面查看Event Hub中的数据,但是当使用JSON格式预览时(View in JSON),却出现错误。 消息一: No data was found for preview from 'test01'. Make sur

【Azure Redis 缓存】应用中出现连接Redis服务错误(production.ERROR: Connection refused)的排查步骤

问题描述 在PHP应用中,连接Redis的方法报错 RedisException(code: 0): Connection refused at /data/Redis/Connectors/PhpRedisConnector.php production.ERROR: Connection ref

[转帖]decimal and numeric (Transact-SQL)

https://learn.microsoft.com/en-us/sql/t-sql/data-types/decimal-and-numeric-transact-sql?view=sql-server-ver16 Applies to: SQL Server Azure SQL Databas