Python 如何将Scikit-learn IRIS数据集转换为2特征数据集

Python 如何将Scikit-learn IRIS数据集转换为2特征数据集

Iris 是一个多变量花卉数据集,是最有用的Python scikit-learn数据集之一。它有3类,每个类别有50个实例,并包含三种Iris物种的花瓣和萼片部分的测量,即Iris setosa, Iris virginica和Iris versicolor。此外,Iris数据集还包含每个物种的50个实例,并包含四个特征,分别是sepal_length(cm),sepal_width(cm),petal_length(cm),petal_width(cm)。

我们可以使用主成分分析(PCA)将IRIS数据集转换为一个具有2个特征的新特征空间。

步骤

我们可以按照以下给定的步骤使用PCA在Python中将IRIS数据集转换为一个2特征数据集:

步骤1 :首先,从scikit-learn导入所需的包。我们需要导入datasets和decomposition包。

步骤2 :加载IRIS数据集。

步骤3 :打印有关数据集的详细信息。

步骤4 :初始化主成分分析(PCA)并应用fit()函数来拟合数据。

步骤5 :将数据集转换为新的维度,即2特征数据集。

示例

在下面的示例中,我们将使用上述步骤将scikit-learn IRIS植物数据集转换为具有PCA的2个特征。

# Importing the necessary packages
from sklearn import datasets
from sklearn import decomposition

# Load iris plant dataset
iris = datasets.load_iris()

# Print details about the dataset
print('Features names : '+str(iris.feature_names))
print('\n')
print('Features size : '+str(iris.data.shape))
print('\n')
print('Target names : '+str(iris.target_names))
print('\n')
X_iris, Y_iris = iris.data, iris.target

# Initialize PCA and fit the data
pca_2 = decomposition.PCA(n_components=2)
pca_2.fit(X_iris)

# Transforming iris data to new dimensions(with 2 features)
X_iris_pca2 = pca_2.transform(X_iris)

# Printing new dataset
print('New Dataset size after transformations: ', X_iris_pca2.shape)

输出

将产生以下输出 –

Features names : ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

Features size : (150, 4)

Target names : ['setosa' 'versicolor' 'virginica']

New Dataset size after transformations: (150, 2)

如何将鸢尾花数据集转换为只含3个特征的数据集

我们可以使用一种统计方法称为主成分分析(PCA)来将鸢尾花数据集转换为新的具有3个特征的特征空间。PCA基本上通过分析原始数据集的特征,线性投影数据到新的特征空间。

PCA背后的主要概念是选择数据的“主要”特征并基于它们构建特征。这将给我们一个新的数据集,其大小较小,但具有与原始数据集相同的信息。

示例

在下面的示例中,我们将使用PCA(初始化为3个组件)转换scikit-learn的鸢尾花植物数据集。

# Importing the necessary packages
from sklearn import datasets
from sklearn import decomposition

# Load iris plant dataset
iris = datasets.load_iris()

# Print details about the dataset
print('Features names : '+str(iris.feature_names))
print('\n')
print('Features size : '+str(iris.data.shape))
print('\n')
print('Target names : '+str(iris.target_names))
print('\n')
print('Target size : '+str(iris.target.shape))
X_iris, Y_iris = iris.data, iris.target

# Initialize PCA and fit the data
pca_3 = decomposition.PCA(n_components=3)
pca_3.fit(X_iris)

# Transforming iris data to new dimensions(with 2 features)
X_iris_pca3 = pca_3.transform(X_iris)

# Printing new dataset
print('New Dataset size after transformations : ', X_iris_pca3.shape)
print('\n')

# Getting the direction of maximum variance in data
print("Components : ", pca_3.components_)
print('\n')

# Getting the amount of variance explained by each component
print("Explained Variance:",pca_3.explained_variance_)
print('\n')

# Getting the percentage of variance explained by each component
print("Explained Variance Ratio:",pca_3.explained_variance_ratio_)
print('\n')

# Getting the singular values for each component
print("Singular Values :",pca_3.singular_values_)
print('\n')

# Getting estimated noise covariance
print("Noise Variance :",pca_3.noise_variance_)

输出

它将生成以下输出:

Features names : ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

Features size : (150, 4)

Target names : ['setosa' 'versicolor' 'virginica']

Target size : (150,)
New Dataset size after transformations : (150, 3)

Components : [[ 0.36138659 -0.08452251 0.85667061 0.3582892 ]
[ 0.65658877 0.73016143 -0.17337266 -0.07548102]
[-0.58202985 0.59791083 0.07623608 0.54583143]]

Explained Variance: [4.22824171 0.24267075 0.0782095 ]

Explained Variance Ratio: [0.92461872 0.05306648 0.01710261]

Singular Values : [25.09996044 6.01314738 3.41368064]

Noise Variance : 0.02383509297344944

Camera课程

Python教程

Java教程

Web教程

数据库教程

图形图像教程

办公软件教程

Linux教程

计算机教程

大数据教程

开发工具教程