如何使用Boto3启动AWS Glue数据目录爬虫的调度程序

AWS Glue 是一个完全托管的数据集成服务，可帮助您以更少的时间轻松地移动和转换数据。AWS Glue Data Catalog 提供了一个统一的元数据存储库，其中包含了描述数据的结构以及数据在 AWS 数据存储中的位置的信息。数据目录爬虫旨在收集您的数据集的元数据，并将其存储在 AWS Glue Data Catalog 中。AWS Glue 数据目录爬虫可以通过预定的时间间隔运行，以便自动更新数据集的元数据。在本文中，我们会学习如何使用 Boto3 – AWS Software Development Kit (SDK) for Python ，启动 AWS Glue 数据目录爬虫的调度程序。

阅读更多：Python 教程

前提条件

在开始本文所述操作之前，请确保您已经：

创建了 AWS Glue 数据目录爬虫。
了解如何创建 AWS Glue 周期触发器。

如果您还没有完成上述操作，请在做本文所述操作之前，完成上述操作。

安装 Boto3

Boto3 是使用 AWS 服务的 Python SDK。在执行本文所述操作之前，请确认您已经在本地机器上安装了 Boto3。在命令行中键入以下命令，安装 Boto3：

pip install boto3

启动调度程序

下面，我们将讲解如何使用 Boto3 启动 AWS Glue 数据目录爬虫的调度程序。启动调度程序分为以下两部分：

步骤 1 – 获取 AWS Glue 调度程序

首先，我们需要添加关于 AWS Glue 调度程序的信息。使用以下代码获取 AWS Glue 调度程序对象。

import boto3

glue_client = boto3.client('glue')

scheduler_response = glue_client.get_scheduler()

步骤 2 – 启动调度程序

下面代码展示了如何使用以下五个参数来启动调度程序。

CrawlerName – 数据目录爬虫的名称。
ScheduleName – 周期触发器的名称。
State – 启动调度程序的状态。在本例中，状态应为“READY”。
Time – 启动调度程序的时间。在本例中，启动时间为“2022-01-01T00:00:00”。
TriggerType – 触发器的类型。在本例中，触发器的类型为“SCHEDULED”。

response = glue_client.start_crawler_schedule(
    CrawlerName='Movies-Crawler',
    ScheduleName='every-15-minutes',
    State='READY',
    Time='2022-01-01T00:00:00',
    TriggerType='SCHEDULED'
)

现在，您已经成功启动了您的 AWS Glue 数据目录爬虫的调度程序！