Pandas Series与单列DataFrame

在数据分析中，常常会用到Pandas这个Python库，其中Series和DataFrame是两个非常重要的数据结构。本文将着重介绍Pandas中的Series与单列DataFrame的使用。

更多Pandas相关文章，请阅读：Pandas 教程

什么是Pandas Series？

Series是Pandas中最基本的数据类型之一，可以看做是一维数组。它由两个部分组成：索引（Index）和数值（Value）。Series可以通过传入一个list或ndarray来创建。

下面是创建Series的一个示例代码：

import pandas as pd

data = [1, 2, 3, 4]
index = ['a', 'b', 'c', 'd']
s = pd.Series(data, index=index)
print(s)

输出结果如下：

a    1
b    2
c    3
d    4
dtype: int64

在上述示例中，我们首先导入了Pandas库，然后定义了一个list作为Series的数据，另外还定义了一个索引。最后，我们通过pd.Series()函数创建了一个名为s的Series对象，其中data就是我们要传入的数据，index是我们之前定义的索引。在输出结果中，我们可以看到索引和对应的数值。

需要注意的是，Pandas Series中的数值可以是任何可哈希（hashable）的Python对象，而不仅仅是数字。此外，Pandas可以通过自动对齐索引的方式对多个Series对象进行算术运算。

这里需要注意的一点是，Pandas Series与Python中的List有一些类似之处，但是二者是不同的数据类型。相比于List，Pandas Series有更多的方法和函数可以使用，具有更高的灵活性和自由度。

单列DataFrame的创建方法

除了Series之外，DataFrame是另一个值得介绍的数据结构。它是由多个Series对象按照相同的索引组成的表格数据结构。在Pandas中，DataFrame可以通过各种方法来创建，例如读取外部数据文件、手动输入、复制等。下面我们介绍一种简单常用的方法创建单列DataFrame。

import pandas as pd

data = [1, 2, 3, 4]
df = pd.DataFrame(data, columns=['A'])
print(df)

输出结果如下：

在上述代码中，我们首先导入Pandas库，然后定义了一个data列表作为单列DataFrame中的数据。接着，我们调用pd.DataFrame()来创建一个名为df的DataFrame对象，其中data就是我们传入的数据，columns=['A']是我们定义的列名称。在输出结果中，我们可以看到DataFrame有两列，一列是索引（0到3），另一列是我们传入的数据。

需要注意的是，在创建单列DataFrame时，必须为之指定列名称。当然，如果需要添加多列时，可以在pd.DataFrame()中传入多个Series对象，并指定各自的列名即可。

如何从Series创建DataFrame？

Series和DataFrame在很多实际应用场景中是紧密关联的。在某些情况下，我们可能需要将一个Series转换为DataFrame才能进行下一步操作。下面我们演示如何从Series对象创建DataFrame对象。

import pandas as pd

data = {'A': [1, 2, 3, 4], 'B': ['a', 'b', 'c', 'd']}
s = pd.Series(data['A'], index=data['B'])
df = pd.DataFrame(s, columns=['A'])
print(df)

输出结果如下：

   A
a  1
b  2
c  3
d  4

在上述代码中，我们定义了一个字典data，其中包含两个键值对，键分别为'A'和'B'，值分别为列表[1, 2, 3, 4]和['a', 'b', 'c', 'd']。然后，我们通过pd.Series()函数将data['A']转换为一个Series对象，将data['B']作为索引。接着，我们通过pd.DataFrame()函数将Series对象转换为DataFrame对象，并指定columns=['A']为DataFrame的列名称。在输出结果中，我们看到了一个只有一列的DataFrame对象，其中的索引使用了之前定义的data['B']。

需要强调的是，创建DataFrame时，往往需要考虑到数据类型和推断。如果我们不了解数据的具体类型，可以使用infer_objects()函数来推断数据类型，以确保DataFrame的正确性。

Series与单列DataFrame的操作

在Pandas中，Series和单列DataFrame具有许多相似的特性，因此，许多操作都可以通用。下面是一些常见的操作：

索引和切片

对于Pandas中的Series和DataFrame，可以通过[]来进行索引和切片操作。具体来讲，可以通过传入一个位置、一个标签或一个序列来完成。

import pandas as pd

data = [1, 2, 3, 4]
index = ['a', 'b', 'c', 'd']
s = pd.Series(data, index=index)
print(s[0]) # 1
print(s['a']) # 1
print(s[1:3]) # b    2, c    3

在上述代码中，我们首先定义了一个Series对象，然后通过位置和标签进行了索引和切片操作。注意，这里的切片包括开始位置，但不包括结束位置。

import pandas as pd

data = [1, 2, 3, 4]
df = pd.DataFrame(data, columns=['A'])
print(df[0]) # 0    1, 1    2, 2    3, 3    4

在单列DataFrame中，使用[]来索引或切片时，不需要使用列名称。

算术运算

在Pandas中，多个Series对象之间可以进行算术运算，而单列DataFrame也可以。

import pandas as pd

data1 = [1, 2, 3, 4]
index1 = ['a', 'b', 'c', 'd']
s1 = pd.Series(data1, index=index1)

data2 = [2, 3, 4, 5]
index2 = ['a', 'b', 'c', 'd']
s2 = pd.Series(data2, index=index2)

print(s1 + s2) # a    3, b    5, c    7, d    9, dtype: int64

data3 = [2, 3, 4, 5]
df = pd.DataFrame(data3, columns=['A'])

print(s1 + df['A'])

在上述代码中，我们首先定义了两个Series对象s1和s2，并进行了加法运算，其结果是一个新的Series对象。我们还定义了一个单列DataFrame，使用df['A']来获取列A的Series对象，并将它与s1进行加法运算。

需要注意的是，在进行算术运算时，如果两个Series对象之间存在缺失数据，则结果也会出现缺失值。

逻辑运算

在Pandas中，可以对Series和单列DataFrame对象进行逻辑运算。

import pandas as pd

data = [1, 2, 3, 4]
index = ['a', 'b', 'c', 'd']
s = pd.Series(data, index=index)

print(s > 2) # a    False, b    False, c    True, d    True

在上述代码中，我们定义了一个Series对象，然后使用大于符号进行逻辑运算，结果是一个布尔值的Series对象。

在单列DataFrame中，使用逻辑运算符可以进行同样的操作。

import pandas as pd

data = [1, 2, 3, 4]
df = pd.DataFrame(data, columns=['A'])

print(df > 2)

在上述代码中，我们定义了一个单列DataFrame对象，并使用大于符号进行逻辑运算，结果也是一个布尔值的DataFrame对象。

函数操作

Pandas支持许多内置函数，可以对Series和单列DataFrame对象进行操作。

import pandas as pd
import numpy as np

data = [1, 2, 3, 4]
index = ['a', 'b', 'c', 'd']
s = pd.Series(data, index=index)

print(s.mean()) # 2.5
print(np.log(s)) # a    0.000000, b    0.693147, c    1.098612, d    1.386294

data2 = [2, 3, 4, 5]
df = pd.DataFrame(data2, columns=['A'])

print(df.apply(lambda x: x*2)) #    A, 0, 4, 6, 8, 10

在上述代码中，我们定义了一个Series对象和一个单列DataFrame对象，并对它们进行了一些函数操作。mean()函数计算Series对象的均值，np.log()函数计算Series对象各元素的自然对数。我们还使用了apply()方法对单列DataFrame对象进行函数操作，该方法可以接受一个函数作为参数，并将函数应用于每一行或每一列数据。在这里，我们使用了一个lambda函数对DataFrame的每个元素进行乘以2的操作，得到了一个新的DataFrame对象。

需要注意的是，在应用函数时，需要注意传参的方式，以及函数的返回值类型和形状是否符合预期。