Python-Pandas中的GroupBy求正负值之和

在数据分析中，经常需要对数据进行按照某个变量进行分组并求和的操作。Pandas作为Python的一个强大的数据分析库，自然也提供了GroupBy函数用于按照某个列进行分组，但是如果需要求出正负值之和，该如何操作呢？

首先，我们需要准备一份示例数据。假设我们有一个存储着某公司员工每个月工资条信息的数据表，包含姓名、工号、月份和工资四列。我们希望对每个员工按照月份进行分组求正负值之和，以便于我们更好地分析和管理员工的工资情况。

姓名	工号	月份	工资
张三	1001	1	1000
李四	1002	1	-800
王五	1003	1	1200
张三	1001	2	-600
李四	1002	2	1500
王五	1003	2	-900
张三	1001	3	800
李四	1002	3	1100
王五	1003	3	-500

我们首先需要导入Pandas库，并读取这份数据。

import pandas as pd

data = pd.read_csv("salary.csv")
print(data)

上述代码中，我们使用read_csv函数从外部文件读取数据，并输出到控制台中。

接下来，我们将按照姓名和月份两个列进行分组，并使用sum函数对每个分组的工资进行求和，最后将结果存储在一个数据表中。

grouped_data = data.groupby(['姓名', '月份'])['工资'].sum().reset_index()
print(grouped_data)

上述代码中，我们使用了Pandas中的GroupBy函数来按照姓名和月份两列进行分组，然后针对每个分组内的工资列进行求和。最后，我们使用reset_index函数将结果恢复为一个标准的数据表，以便于我们进行后续的操作。

现在，我们已经成功地计算出了每个员工每个月份的总工资，但是我们希望进一步得到每个员工每个月份正负值之和的数据。

grouped = grouped_data.groupby('姓名')['工资'].agg(['sum', 'count']).reset_index()
grouped = grouped.assign(正值之和=lambda x: x[x['sum'] > 0]['sum'].sum())
grouped = grouped.assign(负值之和=lambda x: x[x['sum'] < 0]['sum'].sum())

print(grouped)

上述代码中，我们首先对上一步求和后的结果再次进行分组，根据姓名列进行分组，并使用agg函数来对每个分组内的工资列进行汇总。其中，sum函数用于求和，count函数用于计数。

接着，我们使用assign函数来设置正值之和和负值之和这两个新的列。在其中，我们使用lambda函数对数据进行筛选和计算操作。具体来说，我们使用x[x['sum'] > 0]['sum'].sum()来计算每个人正值之和，使用x[x['sum'] < 0]['sum'].sum()来计算每个人负值之和。

最后，我们再次使用reset_index函数将结果恢复为一个标准的数据表，并输出到控制台中。