如何使用Boto3启动AWS Glue数据目录爬虫的调度程序
AWS Glue 是一个完全托管的数据集成服务,可帮助您以更少的时间轻松地移动和转换数据。AWS Glue Data Catalog 提供了一个统一的元数据存储库,其中包含了描述数据的结构以及数据在 AWS 数据存储中的位置的信息。数据目录爬虫旨在收集您的数据集的元数据,并将其存储在 AWS Glue Data Catalog 中。AWS Glue 数据目录爬虫可以通过预定的时间间隔运行,以便自动更新数据集的元数据。在本文中,我们会学习如何使用 Boto3 – AWS Software Development Kit (SDK) for Python ,启动 AWS Glue 数据目录爬虫的调度程序。
阅读更多:Python 教程
前提条件
在开始本文所述操作之前,请确保您已经:
- 创建了 AWS Glue 数据目录爬虫。
- 了解如何创建 AWS Glue 周期触发器。
如果您还没有完成上述操作,请在做本文所述操作之前,完成上述操作。
安装 Boto3
Boto3 是使用 AWS 服务的 Python SDK。在执行本文所述操作之前,请确认您已经在本地机器上安装了 Boto3。在命令行中键入以下命令,安装 Boto3:
pip install boto3
启动调度程序
下面,我们将讲解如何使用 Boto3 启动 AWS Glue 数据目录爬虫的调度程序。启动调度程序分为以下两部分:
步骤 1 – 获取 AWS Glue 调度程序
首先,我们需要添加关于 AWS Glue 调度程序的信息。使用以下代码获取 AWS Glue 调度程序对象。
import boto3
glue_client = boto3.client('glue')
scheduler_response = glue_client.get_scheduler()
步骤 2 – 启动调度程序
下面代码展示了如何使用以下五个参数来启动调度程序。
- CrawlerName – 数据目录爬虫的名称。
- ScheduleName – 周期触发器的名称。
- State – 启动调度程序的状态。在本例中,状态应为“READY”。
- Time – 启动调度程序的时间。在本例中,启动时间为“2022-01-01T00:00:00”。
- TriggerType – 触发器的类型。在本例中,触发器的类型为“SCHEDULED”。
response = glue_client.start_crawler_schedule(
CrawlerName='Movies-Crawler',
ScheduleName='every-15-minutes',
State='READY',
Time='2022-01-01T00:00:00',
TriggerType='SCHEDULED'
)
现在,您已经成功启动了您的 AWS Glue 数据目录爬虫的调度程序!
结论
在本文中,我们学习了如何使用 Boto3 启动 AWS Glue 数据目录爬虫的调度程序。使用本文所述步骤,您可以在 AWS Glue 中设置数据目录爬虫的调度程序,并根据您的需求,在给定的时间间隔自动运行。要了解更多有关 AWS Glue 的信息,请查看 AWS Glue 文档。