如何使用Boto3从AWS Glue数据目录获取一个/多个指定爬虫的指标？

前言

AWS Glue 是一项用于数据集成，批量数据处理和ETL工作流程的完全托管的服务。AWS Glue 的爬虫功能可以自动检测数据存储中的数据，并生成可用于ETL任务的数据目录和元数据表。本文将介绍如何使用Boto3从AWS Glue数据目录获取一个/多个指定爬虫的指标。

准备工作

面向对象的Python编程知识。
AWS账号以及相应的AWS证书访问密钥。
安装AWS SDK for Python (Boto3)。
在AWS Glue中创建一个活动的爬虫并且已成功运行。

步骤

步骤一：创建Boto3客户端并指定区域

首先，将在Python脚本中创建一个Boto3客户端，指定区域和相关的访问密钥。

import boto3

client = boto3.client(
    'glue',
    aws_access_key_id=YOUR_ACCESS_KEY,
    aws_secret_access_key=YOUR_SECRET_KEY,
    region_name='us-west-2'
)

步骤二：获取Glue爬虫的指标

使用get_crawler_metrics()方法获取一个或多个指定Glue爬虫的指标。此方法将获取指定爬虫的当前ioc采样中的指标。

response = client.get_crawler_metrics(
    CrawlerNameList=[
        'my-crawler-1',
        'my-crawler-2',
    ],
    MaxResults=10
)
for crawler in response['CrawlerMetricsList']:
    print(crawler['CrawlerName'], crawler['TablesCreated'], crawler['TablesUpdated'])

步骤三：获取Glue的所有爬虫的指标

使用get_all_crawler_metrics()方法获取AWS Glue所有爬虫的指标。

response = client.get_all_crawler_metrics(MaxResults=10)
for crawler in response['CrawlerMetricsList']:
    print(crawler['CrawlerName'], crawler['TablesCreated'], crawler['TablesUpdated'])

步骤四：获取当前正在运行的爬虫的状态

使用list_crawlers()方法获取当前正在运行的Glue爬虫和它们的状态。

response = client.list_crawlers()

for crawler in response['CrawlerNames']:
    status = client.get_crawler(Name=crawler)['Crawler']['State']
    print(crawler, status)

步骤五：获取最近活动的时间戳

使用get_last_crawler_run()方法获取Glue爬虫的最近活动时间戳(UTC时间)并返回CrawlerRun。

response = client.get_last_crawler_run(
    CrawlerName='my-crawler',
    MaxResults=1,
    ScanCompleted=True
)

print(response['CrawlerRun']['StartTime'])