Pandas 分析数据活动
Pandas是数据科学领域中非常流行的工具。它被广泛用于分析数据活动。
将数据进行清洗、转换和建模以找到与企业决策相关的信息的过程被称为数据分析。从数据中提取可用信息并根据分析做出决策是数据分析的目标。
在本文中,我们将学习Pandas在数据科学中的作用。
Python或C的后端源代码可从Pandas库获取。
有两种策略可用于完成数据分析−
- Series
-
DataFrames
Pandas Series
Pandas定义了一个称为Series的数组,可用于存储任何类型的数据。它是一个网格的单列或一维数组。Series是一组与每个行相关联并具有唯一索引值的独立标签的值的集合。创建Series时,这些独特的索引值是动态定义的。
创建新的Series
创建一个空的Series −
import pandas as pd
s=pd.Series()
让我们来看看其他情况。
案例1:只有标量值
import pandas as pd
array= [9,6,3,2,8,5]
seri= pd.Series(array)
print(seri)
输出
0 9
1 6
2 3
3 2
4 8
5 5
dtype: int64
以罗马数字打印带索引的系列 −
index=['i' , 'ii', 'iii', 'iv', 'v', 'vi']
seri1= pd.Series(array, index)
print(seri1)
输出
i 9
ii 6
iii 3
iv 2
v 8
vi 5
dtype: int64
案例2:字典值
import pandas as pd
dict= {'i' : 1 , 'j': 2, 'k': 3, 'l': 4}
s= pd.Series(dict)
print(s)
输出
i 1
j 2
k 3
l 4
dtype: int64
案例3:多维数组
import pandas as pd
array= [[1,2], [3,4,5], [6,7,8]]
s=pd.Series(array)
print(s)
输出
0 [1, 2]
1 [3, 4, 5]
2 [6, 7, 8]
dtype: object
Pandas DataFrame
一个由行和列组成的2D数据结构称为Pandas DataFrame。以下关键的Pandas结构由一系列的序列组成,是Excel表格上的多维表格。它简化了表格数据,其中每一行表示一个观察值,每一列表示一个变量。
下面是一个示例,展示了DataFrame的功能。在下面的代码片段中可以看到相同的效果。
import pandas as pd
data= {
"calories": [100,200,300],
"duration" :[20,30,35]
}
df=pd.DataFrame(data)
print(df)
输出
calories duration
0 100 20
1 200 30
2 300 35
让我们看看其他实例。
案例1:标量值
import pandas as pd
dic1= {'i' : 1 , 'j': 2, 'k': 3, 'l': 4}
dic2= {'i' :5 , 'j': 6, 'k': 7, 'l': 8, 'm' :9}
instance= {'first' : dic1, 'second': dic2}
df= pd.DataFrame(instance)
print(df)
输出
first second
i 1.0 5
j 2.0 6
k 3.0 7
l 4.0 8
m NaN 9
案例2:系列数据
import pandas as pd
s1=pd.Series([1,2,3,4,5])
s2=pd.Series(['a','b','c'])
s3=pd.Series(['A','B','C','D'])
instance= {'first' : s1, 'second': s2, 'third': s3}
df= pd.DataFrame(instance)
print(df)
输出
first second third
0 1 a A
1 2 b B
2 3 c C
3 4 NaN D
4 5 NaN NaN
案例3:2D NumPy数组
在构建DataFrame时,2D数组的维度必须保持不变。
import pandas as pd
array1= [[1,2], [3,4,5], [6,7,8]]
array2= [['a','b'], ['c','d','e'], ['f','g','h']]
instance= {'first' :array1, 'second': array2}
df= pd.DataFrame(instance)
print(df)
输出
first second
0 [1, 2] [a, b]
1 [3, 4, 5] [c, d, e]
2 [6, 7, 8] [f, g, h]
数据科学和机器学习中的Pandas
在收集到数据之后,数据会保存在多个数据库中,可以在不同的数据科学活动和项目中使用。数据科学的工作包括两个阶段-
- 数据清洗阶段
-
分析探索性的数据
这些阶段为您提供了一个一流的数据集来进行交互。从这个经过过滤的数据集开始,可以创建一个机器学习模型。Pandas库提供了广泛的功能,让您可以从获取原始数据到为额外测试提供高质量数据的整个过程中进行操作。
数据分析的经验成为开发者选择深入研究和机器学习模型的合适路径的跳板。
比较使用各种Pandas操作和过程创建的多个子集可以是统计分析的一部分
我们已经看到了使用Pandas进行数据操作和数据分析的示例。让我们更详细地看看如何为机器学习处理数据。
Pandas如何加速ML模型的创建
每个机器学习项目都需要大量的时间投资。这是因为它使用了多种技术,例如在创建ML模型之前研究基本趋势和模式。Python的Pandas包提供了各种用于操作和分析数据的工具。
Pandas在创建ML模型时是必不可少的。以下是几个过程。
导入数据
Pandas库中有各种工具可以从不同的源中读取数据。CSV文件可以用作数据集函数,它提供了广泛的数据处理选择。以下代码片段用于导入数据。
查找缺失数据
Pandas提供了一种工具来确定处理缺失数据的多种方法。首先,您可以使用ISNA()方法检查数据并识别任何缺失值。此函数检查每行和每列的值。如果值不存在,则返回True;否则返回False。
可视化数据
在Pandas中,可以通过绘图来有效地查看数据。在DataFrame中,可以使用plt.plot()函数。在绘图之前,必须导入Matplotlib。此函数支持直方图、线图、箱线图、散点图和条形图等多种数据可视化形式。与数据聚合工具一起使用时,绘图函数非常有用。
特征转换
Pandas提供了多种特征转换函数。由于大多数常用的机器学习库只接受数值数据,非数值特征必须进行转换。Pandas中的get_dummies函数可以将每个不同的值应用于数据列时,将其转换为二进制列。
结论
Pandas是一种广受欢迎的数据科学和数据分析工具,许多专业人士和数据科学家使用。通过Pandas DataFrame,它们可以处理数据并创建机器学习模型。尽管学习曲线稍微陡峭,但它极大地提高了数据操作的效率。