Pandas 如何创建相关矩阵

Pandas 如何创建相关矩阵

相关分析是数据分析中的关键技术,帮助识别数据集中变量之间的关系。相关矩阵是一张显示数据集中变量之间相关系数的表格。它是一个强大的工具,能够提供有关数据中潜在模式的宝贵见解,并且广泛应用于金融、经济学、社会科学和工程等领域。

在本教程中,我们将探讨如何使用Pandas这个流行的Python数据处理库创建相关矩阵。

要使用Pandas生成相关矩阵,必须按照以下步骤进行:

  • 获取数据
  • 构建一个Pandas DataFrame
  • 使用Pandas生成相关矩阵

示例

现在让我们通过不同的示例来了解如何使用Pandas创建相关矩阵。

以下代码演示了如何在Python中使用Pandas库从给定的数据集创建相关矩阵。数据集包含三个变量:销售额、开销和利润,对应三个不同的时间段。代码使用数据创建一个Pandas DataFrame,然后使用该DataFrame创建相关矩阵。

然后,提取Sales和Expenses之间以及Sales和Profit之间的相关系数,并将其与相关矩阵一起显示。相关系数表示两个变量之间的相关程度,值为”1″表示完全正向相关,”-1″表示完全负向相关,”0″表示没有相关性。

请参考下面的代码。

# Import the pandas library
import pandas as pd

# Create a dictionary containing the data to be used in the correlation analysis 
data = {
   'Sales': [25, 36, 12], # Values for sales in three different time periods
   'Expenses': [30, 25, 20], # Values for expenses in the same time periods
   'Profit': [15, 20, 10] # Values for profit in the same time periods
}

# Create a pandas DataFrame using the dictionary
sales_data = pd.DataFrame(data)

# Use the DataFrame to create a correlation matrix
correlation_matrix = sales_data.corr()

# Display the correlation matrix
print("Correlation Matrix:")
print(correlation_matrix)

# Get the correlation coefficient between Sales and Expenses
sales_expenses_correlation = correlation_matrix.loc['Sales', 'Expenses']

# Get the correlation coefficient between Sales and Profit
sales_profit_correlation = correlation_matrix.loc['Sales', 'Profit']

# Display the correlation coefficients
print("Correlation Coefficients:")
print(f"Sales and Expenses: {sales_expenses_correlation:.2f}")
print(f"Sales and Profit: {sales_profit_correlation:.2f}")

输出

在执行时,你将得到以下的输出−

Correlation Matrix:
              Sales   Expenses     Profit
Sales      1.000000   0.541041   0.998845
Expenses   0.541041   1.000000   0.500000
Profit     0.998845   0.500000   1.000000
Correlation Coefficients:
Sales and Expenses: 0.54
Sales and Profit: 1.00

对角线上的数值表示变量与其自身之间的相关性,因此对角线上的值表示相关性为1。

示例

让我们再看一个示例。考虑下面展示的代码。

在这个示例中,我们创建了一个包含三列和三行的简单DataFrame。然后我们使用DataFrame的.corr()方法计算相关矩阵,最后将相关矩阵打印到控制台上。

# Import the pandas library
import pandas as pd

# Create a sample data frame
data = {
   'A': [1, 2, 3],
   'B': [4, 5, 6],
   'C': [7, 8, 9]
}
df = pd.DataFrame(data)

# Create the correlation matrix
corr_matrix = df.corr()

# Display the correlation matrix
print(corr_matrix)

输出

执行时,您将得到以下输出 –

A    B    C
A  1.0  1.0  1.0
B  1.0  1.0  1.0
C  1.0  1.0  1.0

结论

总之,在Python中使用pandas创建相关矩阵是一个简单直接的过程。首先,使用所需数据创建一个pandas DataFrame,然后使用 .corr() 方法计算相关矩阵。所得到的相关矩阵提供了有价值的关于不同变量之间关系的见解,对角线上的值表示每个变量与自身的相关性。

相关系数的取值范围在-1到1之间,接近-1或1的值表示更强的相关性,接近0的值表示较弱或无相关性。相关矩阵在数据分析、金融和机器学习等各种应用中都非常有用。

Camera课程

Python教程

Java教程

Web教程

数据库教程

图形图像教程

办公软件教程

Linux教程

计算机教程

大数据教程

开发工具教程

Pandas 精选笔记