Python 检测和处理回归中的多重共线性
多重共线性是指回归模型中的自变量之间存在高度相互关联。它可能导致模型的系数不准确,使得很难判断不同的自变量如何影响因变量。在这种情况下,有必要识别和处理回归模型的多重共线性,并通过不同的程序和它们的输出逐步解释。
方法
- 检测多重共线性
-
处理多重共线性
步骤
步骤1 −导入必要的库
步骤2 −将数据加载到pandas Dataframes中
步骤3 −使用预测变量创建相关矩阵
步骤4 −创建相关矩阵的热力图以可视化相关性
步骤5 −计算每个预测变量的方差膨胀因子
步骤6 −确定预测变量
步骤7 −应该删除预测变量
步骤8 −重新运行回归模型
步骤9 −再次检查
方法一:检测多重共线性
利用pandas包的corr()函数确定自变量的相关矩阵。使用seaborn库生成一个热力图来显示相关矩阵。利用statsmodels包的variance_inflation_factor()函数确定每个自变量的方差膨胀因子(VIF)。当VIF大于5或10时,表示存在高度多重共线性。
示例一
在这段代码中,数据加载到Pandas DataFrame后,预测变量X和因变量y被分离。我们使用statsmodels包的variance_inflation_factor()函数计算每个预测变量的VIF。在此过程的最后一步是在一个新的Pandas DataFrame中存储VIF值和预测变量的名称之后显示结果。使用此代码,将生成一个包含每个预测变量的变量名称和VIF值的表格。当一个变量具有高VIF值(大于5或10,具体取决于情况),进一步分析该变量是很重要的。
import pandas as pd
from statsmodels.stats.outliers_influence import variance_inflation_factor
# Load data into a pandas DataFrame
data = pd.read_csv("mydata.csv")
# Select independent variables
X = data[['independent_var1', 'independent_var2', 'independent_var3']]
# Calculate VIF for each independent variable
vif = pd.DataFrame()
vif["VIF Factor"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
vif["features"] = X.columns
# Print the VIF results
print(vif)
输出
VIF Factor Features
0 3.068988 Independent_var1
1 3.870567 Independent_var2
2 3.843753 Independent_var3
方法二:处理多重共线性
去除模型中一个或多个强相关的自变量。可以使用主成分分析(PCA)将高度相关的自变量合并为一个变量。使用正则化方法(如Ridge或Lasso回归)可以减少强相关自变量对模型系数的影响。使用上述方法,可以使用以下示例代码来识别和处理多重共线性 –
import pandas as pd
import seaborn as sns
from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.decomposition import PCA
from sklearn.linear_model import Ridge
# Load the data into a pandas DataFrame
data = pd.read_csv('data.csv')
# Calculate the correlation matrix
corr_matrix = data.corr()
# Create a heatmap to visualize the correlation matrix
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
# Check for VIF for each independent variable
for i in range(data.shape[1]-1):
vif = variance_inflation_factor(data.values, i)
print('VIF for variable {}: {:.2f}'.format(i, vif))
# Remove highly correlated independent variables
data = data.drop(['var1', 'var2'], axis=1)
# Use PCA to combine highly correlated independent variables
pca = PCA(n_components=1)
data['pca'] = pca.fit_transform(data[['var1', 'var2']])
# Use Ridge regression to reduce the impact of highly correlated independent variables
X = data.drop('dependent_var', axis=1)
y = data['dependent_var']
ridge = Ridge(alpha=0.1)
ridge.fit(X, y)
这个函数除了输出每个自变量的VIF值之外,不会生成任何其他输出。运行这段代码只会输出每个自变量的VIF值,不会打印出任何图表或模型性能。
在这个示例中,首先将数据加载到pandas DataFrame中,然后计算相关系数矩阵,最后创建热力图来展示相关系数矩阵。然后,在测试每个自变量的VIF后,我们会剔除与其他自变量高度相关的自变量。我们使用岭回归来减少高度相关自变量对模型系数的影响,并使用PCA将高度相关的自变量合并为一个变量。
import pandas as pd
#create DataFrame
df = pd.DataFrame({'rating': [90, 85, 82, 18, 14, 90, 16, 75, 87, 86],
'points': [22, 10, 34, 46, 27, 20, 12, 15, 14, 19],
'assists': [1, 3, 5, 6, 5, 7, 6, 9, 9, 5],
'rebounds': [11, 8, 10, 6, 3, 4, 4, 10, 10, 7]})
#view DataFrame
print(df)
输出
rating points assists rebounds
0 90 22 1 11
1 85 10 3 8
2 82 34 5 10
3 18 46 6 6
4 14 27 5 3
5 90 20 7 4
6 16 12 6 4
7 75 15 9 10
8 87 14 9 10
9 86 19 5 7
使用Pandas包,可以通过这个Python程序生成一个名为DataFrame的数组数据结构。具体维度由四个不同的列组成:助攻、篮板、得分和评分。该库在代码的第一行中被导入,并在此后被简化为”pd”来降低复杂性。通过在第二行代码中执行pd.DataFrame()方法来最终构建数据框。
使用print()方法在第三行代码中将数据框打印到控制台。每列的值构成了列表的定义,充当了输入到函数的字典的键和值。每个球员的信息以表格格式显示,得分、助攻和篮板的统计数据以列方式排列,每一行代表一个球员。
结论
总而言之,在模型中有两个或更多的预测变量彼此之间存在强相关性时,这被称为多重共线性。这种情况会使解释模型结果变得困难。在这种情况下,很难确定每个独立的预测变量如何影响结果变量。