Pandas中所有列之间的相关性分析|极客笔记

Pandas中所有列之间的相关性分析

参考：pandas correlation between all columns

在数据分析中，了解变量之间的相关性是非常重要的。相关性分析可以帮助我们理解数据集中不同变量之间的关系，从而为数据预处理和特征工程提供依据。本文将详细介绍如何使用Pandas库来计算DataFrame中所有列之间的相关性。

1. Pandas简介

Pandas是一个强大的Python数据分析库，提供了高效的DataFrame对象来存储和处理结构化数据。Pandas提供了大量的功能来进行数据清洗、处理、分析和可视化。在本文中，我们将重点介绍如何使用Pandas来计算数据集中各列之间的相关性。

2. 相关性的类型

在统计学中，最常见的相关性类型有三种：皮尔逊相关系数（Pearson）、斯皮尔曼等级相关系数（Spearman）和肯德尔等级相关系数（Kendall）。每种相关系数都有其适用的数据类型和条件。

皮尔逊相关系数：衡量两个数据集合是否在一条线上的程度，适用于连续数据且数据呈正态分布。
斯皮尔曼相关系数：基于等级的相关性，适用于非正态分布的数据或有序分类数据。
肯德尔等级相关系数：也是基于等级的相关性，适用于小样本数据。

3. 使用Pandas计算相关性

在Pandas中，DataFrame.corr()方法可以用来计算列之间的相关性。该方法默认计算的是皮尔逊相关系数，但也可以通过参数选择计算斯皮尔曼或肯德尔相关系数。

示例代码1：创建DataFrame

import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {
    'A': np.random.randn(100),
    'B': np.random.rand(100),
    'C': np.random.randn(100) * 100,
    'D': np.random.randint(low=1, high=100, size=100)
}
df = pd.DataFrame(data)

print(df)

Output:

Pandas中所有列之间的相关性分析

示例代码2：计算皮尔逊相关系数

import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {
    'A': np.random.randn(100),
    'B': np.random.rand(100),
    'C': np.random.randn(100) * 100,
    'D': np.random.randint(low=1, high=100, size=100)
}
df = pd.DataFrame(data)

# 计算所有列之间的皮尔逊相关系数
pearson_corr = df.corr(method='pearson')
print(pearson_corr)

Output:

Pandas中所有列之间的相关性分析

示例代码3：计算斯皮尔曼相关系数

import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {
    'A': np.random.randn(100),
    'B': np.random.rand(100),
    'C': np.random.randn(100) * 100,
    'D': np.random.randint(low=1, high=100, size=100)
}
df = pd.DataFrame(data)

# 计算所有列之间的斯皮尔曼相关系数
spearman_corr = df.corr(method='spearman')
print(spearman_corr)

Output:

Pandas中所有列之间的相关性分析

示例代码4：计算肯德尔相关系数

import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {
    'A': np.random.randn(100),
    'B': np.random.rand(100),
    'C': np.random.randn(100) * 100,
    'D': np.random.randint(low=1, high=100, size=100)
}
df = pd.DataFrame(data)

# 计算所有列之间的肯德尔相关系数
kendall_corr = df.corr(method='kendall')
print(kendall_corr)

Output:

Pandas中所有列之间的相关性分析

4. 可视化相关性

了解了如何计算相关性之后，可视化这些相关性是帮助我们更好理解数据的重要步骤。Pandas可以与Matplotlib和Seaborn等库结合使用，来创建相关性矩阵的热图。

示例代码5：使用Matplotlib和Seaborn创建热图

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {
    'A': np.random.randn(100),
    'B': np.random.rand(100),
    'C': np.random.randn(100) * 100,
    'D': np.random.randint(low=1, high=100, size=100)
}
df = pd.DataFrame(data)

# 计算所有列之间的皮尔逊相关系数
pearson_corr = df.corr(method='pearson')

# 使用Seaborn绘制皮尔逊相关性热图
sns.heatmap(pearson_corr, annot=True, cmap='coolwarm')
plt.title('Pearson Correlation Matrix')
plt.show()

Output:

Pandas中所有列之间的相关性分析

5. 分析相关性结果

计算和可视化相关性之后，下一步是分析这些相关性结果。高相关性（接近1或-1）意味着两个变量有很强的正相关或负相关关系。如果相关性接近0，则表示两个变量几乎没有线性关系。

示例代码6：筛选高相关性的列对

import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {
    'A': np.random.randn(100),
    'B': np.random.rand(100),
    'C': np.random.randn(100) * 100,
    'D': np.random.randint(low=1, high=100, size=100)
}
df = pd.DataFrame(data)

# 计算所有列之间的皮尔逊相关系数
pearson_corr = df.corr(method='pearson')

# 筛选出高度相关的列对
high_corr = pearson_corr.abs() > 0.8
high_corr_pairs = high_corr.unstack().sort_values(kind="quicksort", ascending=False)
print(high_corr_pairs[high_corr_pairs != 1])

Output:

Pandas中所有列之间的相关性分析

6. 处理相关性问题

在某些情况下，高度相关的特征可能会导致多重共线性问题，特别是在建模时。处理这种问题的一种方法是删除一些高度相关的特征。

示例代码7：删除高度相关的特征

import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {
    'A': np.random.randn(100),
    'B': np.random.rand(100),
    'C': np.random.randn(100) * 100,
    'D': np.random.randint(low=1, high=100, size=100)
}
df = pd.DataFrame(data)

# 计算所有列之间的皮尔逊相关系数
pearson_corr = df.corr(method='pearson')

# 假设我们决定删除列'B'
df_reduced = df.drop('B', axis=1)
print(df_reduced.head())

Output:

Pandas中所有列之间的相关性分析