如何在Python中分割数据以进行训练和测试，而不使用Sklearn

在机器学习或人工智能模型领域，数据是其基础。处理数据的方式决定了模型的整体性能。这包括不可或缺的将数据集分成学习和验证集的任务。虽然sklearn的train_test_split()是一个常用的方法，但有时Python爱好者可能没有它，或者想知道如何手动实现类似的结果。本文将介绍如何在不依赖sklearn的情况下将数据分成学习和验证集。我们将利用Python的内置库来实现这个目标。

示例1：分离数据的原理

在深入了解细节之前，让我们先了解一下原理。机器学习算法需要大量的数据来学习。这个数据集合，即学习集，帮助模型解析模式并进行预测。然而，为了评估模型的能力，我们需要一些模型之前未接触过的数据。这些未触及的数据就是验证集。

如果将相同的数据用于学习和验证，会导致过拟合的模型 – 模型在学习数据上表现出色，但在未触及的数据上表现不佳。因此，数据通常被分成70-30或80-20的比例，其中较大的部分用于学习，较小的部分用于验证。

在Python中手动分离数据

我们将从使用Python内置操作进行简单而有效的数据分离开始。这里使用的样本是一个整数列表，但该技术适用于任何数据类型。

假设我们有以下数据集data：

data = list(range(1, 101))  # data is a list of integers from 1 to 100

目标是将这些数据分成80%的学习数据和20%的验证数据。
最初，我们将导入必要的库。
随机模块提供了各种生成随机数的函数，我们将利用它来对数据进行洗牌。然后，我们将洗牌后的数据。
在洗牌数据之后，我们将其分隔为学习集和验证集。

split_index决定了数据被分叉的点。我们将其计算为split_ratio和数据集大小的乘积。

最后，我们使用切片来创建学习和验证数据集。

学习数据包括列表开头到split_index之间的元素，验证数据由split_index到列表结束的元素组成。

示例

import random
random.shuffle(data)

split_ratio = 0.8  # We are using an 80-20 split here
split_index = int(split_ratio * len(data))

train_data = data[:split_index]
test_data = data[split_index:]

输出

train_data = [65, 51, 8, 82, 15, 32, 11, 74, 89, 29, 50, 
34, 93, 84, 37, 7, 1, 83, 17, 24, 5, 33, 49, 90, 35, 57, 
47, 73, 46, 95, 10, 80, 59, 94, 63, 27, 31, 52, 18, 76, 
91, 71, 20, 68, 70, 87, 26, 64, 99, 42, 61, 69, 79, 12, 
3, 66, 96, 75, 30, 22, 100, 14, 97, 56, 55, 58, 28, 23, 
98, 6, 2, 88, 43, 41, 78, 60, 72, 39]

test_data = [45, 53, 48, 16, 9, 62, 13, 81, 92, 54, 21, 
38, 25, 44, 85, 19, 40, 77, 67, 4]

由于代码涉及到数据的随机洗牌，每次尝试运行时输出可能会有所不同。

示例2：利用Numpy来分离数据

另一种无需sklearn的分离数据的技术是利用numpy库。Numpy是一个强大的用于数值计算的库，可以用来构建数组并高效地对其进行操作。

以下是利用numpy来分离数据的方法：

首先，导入numpy库。然后，构建一个numpy数组。
洗牌该数组。最后，拆分数组。

索引表示我们的数据池分成学习和验证子集的点。它是通过利用预定的拆分比例（在我们的例子中为80-20拆分的0.8）乘以数据点的累积计数来确定的。

最后一步是使用计算得到的拆分索引创建训练和测试数据集。我们使用列表切片来进行此操作。

示例

import numpy as np

data = np.array(range(1, 101))  
# data is a numpy array of integers from 1 to 100
np.random.shuffle(data)

split_ratio = 0.8  # We are using an 80-20 split here
split_index = int(split_ratio * len(data))

train_data = data[:split_index]
test_data = data[split_index:]

输出

train_data = [52, 13, 87, 68, 48, 4, 34, 9, 74, 25, 
30, 38, 90, 83, 54, 45, 61, 73, 80, 14, 70, 63, 75, 
81, 97, 60, 96, 8, 43, 20, 79, 46, 50, 76, 18, 84, 
26, 31, 71, 56, 22, 88, 64, 95, 91, 78, 69, 19, 42, 
67, 77, 2, 41, 32, 11, 94, 40, 59, 17, 57, 99, 44, 
5, 93, 62, 23, 3, 33, 47, 92]

test_data = [49, 66, 7, 58, 37, 98, 100, 24, 6, 55, 
28, 16, 85, 65, 51, 35, 12, 10, 86, 29]