Numpy 将Int64作为默认整数类型而非标准Int64在Pandas中

在使用Pandas时，常常需要处理大型数据集。在处理数据过程中，数据类型往往是我们需要注意的一点。Pandas的核心对象是DataFrame，它是一个由行和列组成的表格。在DataFrame中，每一列都有其数据类型。默认情况下，Pandas中整数类型是int64，它是一种标准整数类型。然而，在Numpy中，int64被视为有符号的64位整数类型，而Int64被视为无符号64位整数类型。

最近，Numpy宣布将Int64作为默认整数类型而非标准int64，这将影响到Pandas中整数的默认数据类型。这篇文章将探讨这个改变，以及这个改变对数据科学家和分析师的影响。

阅读更多：Numpy 教程

Numpy的Int64和标准int64

Int64是一个无符号的64位整数类型，可以存储大到18446744073709551615的正整数。标准int64是一个带符号的64位整数类型，可以存储从-9223372036854775808到9223372036854775807之间的整数。虽然它们看起来很相似，但它们其实是不同的数据类型。在Numpy中，Int64与标准int64有一些显著的区别。

在Numpy中，使用三种整数类型：int8，int16和int32，分别表示有符号的8、16、32位整数类型。然而，int64被定义为无符号的整数类型，也就是Int64。

Int64成为默认整数类型

在Numpy 1.20之后，Int64将成为默认的整数类型，而不是标准的int64。这个改变旨在解决一些类型混淆的问题。例如，在Pandas和Numpy中，相同的整数值可能会具有不同的数据类型。这可能会导致一些意想不到的结果，例如不连续的内存或错误的计算结果。

为了避免这种混淆，Numpy宣布将Int64作为默认整数类型。这意味着，在使用Pandas时，在默认情况下，整数列将使用Int64而不是标准int64。

对Pandas的影响

由于Pandas是建立在Numpy之上的，因此这个改变将对Pandas的整数类型有很大的影响。在之前的版本中，Pandas使用标准int64作为默认整数类型。但现在，Pandas的整数类型将是Int64。

这个改变对数据科学家和分析师来说将产生一些影响。首先，这意味着在使用Pandas时，需要注意整数列的默认数据类型，以避免意外的结果。例如，如果你在Pandas中定义一个新的整数列，你需要记住默认的数据类型是Int64，因此如果需要标准int64或其他类型的整数，需要进行显式转换。

import pandas as pd

# 声明一个新的整数列，使用默认的数据类型
df = pd.DataFrame({'A': [1, 2, 3, 4, 5]})

# 使用标准int64
df['B'] = df['A'].astype('int64')

# 使用其他类型，如int8
df['C'] = df['A'].astype('int8')

此外，这个改变还会影响到Pandas的内存使用。在使用Int64时，Pandas的整数列将需要更多的内存，因为它是一个无符号的64位整数类型。在处理大型数据集时，这可能会导致内存使用问题。