Pandas groupby方法使用教程：合并多行中的字符串

在本文中，我们将介绍如何使用Pandas的groupby方法合并多行中的字符串。我们会先介绍一些与groupby相关的概念和方法，然后结合实例来说明如何操作。

什么是groupby？

Pandas中的groupby方法是一种分组操作，在指定列上对数据进行分组后，对每个分组执行某个计算或聚合操作。groupby的基本语法如下：

df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)

其中by参数表示分组依据，可以是单个列名、多个列名组成的列表或Series、字典、函数等。下面通过一个例子来说明groupby的具体用法。

示例

在使用groupby前，我们先构造一个DataFrame：

import pandas as pd

data = {
    'Origin': ['USA', 'Japan', 'Europe', 'Japan', 'Japan', 'USA'],
    'Manufacturer': ['Ford', 'Toyota', 'BMW', 'Honda', 'Nissan', 'Ford'],
    'Model': ['Mustang', 'Prius', 'M3', 'Civic', 'Skyline', 'F-150'],
    'Type': ['Sedan', 'Hatchback', 'Sedan', 'Sedan', 'Coupe', 'Pickup'],
    'Price': [27500, 24000, 49350, 22000, 50000, 35000]
}
df = pd.DataFrame(data)

我们得到如下的数据表：

	Origin	Manufacturer	Model	Type	Price
0	USA	Ford	Mustang	Sedan	27500
1	Japan	Toyota	Prius	Hatchback	24000
2	Europe	BMW	M3	Sedan	49350
3	Japan	Honda	Civic	Sedan	22000
4	Japan	Nissan	Skyline	Coupe	50000
5	USA	Ford	F-150	Pickup	35000

现在我们想要统计每个产地的汽车数量，并将每个产地的汽车型号用逗号隔开。这个任务可以通过groupby方法来实现，具体代码如下：

df.groupby('Origin')['Model'].apply(lambda x: ', '.join(x))

执行结果如下：

Origin
Europe           M3
Japan      Prius, Civic, Skyline
USA         Mustang, F-150
Name: Model, dtype: object

可以看到，我们成功地将每个产地的汽车型号用逗号隔开了，并且以产地为索引构成了一个Series对象。

当然，groupby的功能不仅仅局限于如此简单的聚合操作。在groupby之后，我们还可以对每个分组进行更多的操作，比如：

过滤数据：df.groupby('Origin').filter(lambda x: x['Price'].mean()>30000)
对每个分组应用自定义函数：df.groupby('Type').apply(lambda x: x['Price'].max() - x['Price'].min())
按指定顺序排序：df.groupby('Origin')['Price'].sum().sort_values()

更多示例可以参考Pandas官方文档：https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html