如何使用Python迭代遍历数据集并显示样本数据？

在机器学习、深度学习、数据分析等领域中，我们经常需要使用大量数据进行实验和模型训练。对于数据科学家和工程师来说，了解如何有效地遍历和显示样本数据是十分重要的。在Python中，我们可以使用迭代器来方便地遍历数据集，同时使用一些库来将数据可视化。

更多Python文章，请阅读：Python 教程

迭代器

在Python中，我们使用迭代器来遍历数据集。迭代器是一种实现了__iter__和__next__方法的类，它可以逐个返回数据集中的元素和标签。我们可以使用iter()函数来创建一个迭代器，举个例子：

data = [1, 2, 3, 4, 5]
iter_data = iter(data)

print(next(iter_data))  # 打印第一个元素
print(next(iter_data))  # 打印第二个元素

输出的结果为：

1
2

可以看到，我们创建了一个列表data，然后使用iter()函数创建了一个迭代器iter_data。我们接着使用next()函数来逐个返回iter_data中的元素。

在机器学习中，我们经常使用的数据集类型是numpy数组或是pandas数据框。这些数据集也支持迭代器的使用方法。以numpy数组为例，代码如下：

import numpy as np

data = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
iter_data = iter(data)

print(next(iter_data))  # 打印第一个元素
print(next(iter_data))  # 打印第二个元素

可以看到，与前面的列表不同，我们可以使用numpy数组进行迭代操作，每次返回的是一个数组。同样的，这里我们也是使用了iter()和next()函数来进行迭代处理。

数据可视化

除了使用迭代器来遍历数据集中的元素和标签外，我们还可以使用一些库将数据可视化。常用的库有matplotlib、seaborn、plotly等，这里我们以matplotlib为例。

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [3, 5, 1, 6, 3]

plt.plot(x, y) # 绘制折线图
plt.show() # 显示图像

这里我们创建了两个列表x和y，接着使用plt.plot()函数进行可视化处理，最后使用plt.show()函数将图像显示出来。同样的，我们也可以使用其他的可视化库完成相似的任务。

代码实现

下面是一个完整的python实例代码，包括了如何使用迭代器遍历numpy数组数据，并将数据可视化的步骤：

import numpy as np
import matplotlib.pyplot as plt

data = np.array([[100, 70], [120, 80], [90, 60], [110, 90], [95, 75]])
data_iter = iter(data)

fig, ax = plt.subplots()

for i in range(len(data)):
    point = next(data_iter)
    ax.scatter(point[0], point[1], color='red')
    ax.annotate(f"({point[0]}, {point[1]})", (point[0]+0.5, point[1]+0.5))

ax.set_xlabel('Weight')
ax.set_ylabel('Height')
ax.set_title('Height vs. Weight')

plt.show()

这里我们使用了numpy数组data，创建了一个迭代器data_iter。接着，我们使用matplotlib库将数据可视化，绘制出了身高和体重的散点图。对于每一个数据点，我们使用ax.scatter()函数绘制散点，然后使用ax.annotate()函数在图中添加数据点的标签。最后，我们使用ax.set_xlabel()、ax.set_ylabel()和ax.set_title()函数设置x轴、y轴和图表的标题，最终使用plt.show()函数将图像显示出来。