NumPy 数组的高级操作：统计与聚合函数

NumPy 是 Python 中用于科学计算的基础库之一，提供了强大的数组操作功能。在数据分析和科学计算中，统计与聚合函数是非常重要的工具，它们可以帮助我们从数据中提取有用的信息。本文将深入探讨 NumPy 中的统计与聚合函数，包括它们的用法、优缺点以及注意事项。

1. 统计与聚合函数概述

统计与聚合函数是对数组中的数据进行计算和汇总的函数。它们可以帮助我们快速获取数据的特征，例如均值、方差、最大值、最小值等。NumPy 提供了多种统计与聚合函数，常用的包括：

np.sum()
np.mean()
np.median()
np.std()
np.var()
np.min()
np.max()
np.percentile()
np.unique()

1.1 优点

高效性：NumPy 的统计函数是用 C 语言实现的，速度比 Python 的原生实现快得多。
简洁性：使用 NumPy 的函数可以用更少的代码实现复杂的统计计算。
多维支持：NumPy 的统计函数支持多维数组，可以通过指定轴（axis）参数来进行操作。

1.2 缺点

内存消耗：对于非常大的数组，某些操作可能会消耗大量内存。
缺乏灵活性：NumPy 的统计函数通常只支持基本的统计操作，复杂的统计分析可能需要使用其他库（如 SciPy 或 Pandas）。

1.3 注意事项

在使用聚合函数时，确保数据类型的正确性，避免因数据类型不匹配导致的错误。
对于缺失值（NaN），某些函数可能会返回 NaN，使用时需注意。

2. 常用统计与聚合函数示例

2.1 `np.sum()`

np.sum() 函数用于计算数组元素的总和。

import numpy as np

# 创建一个数组
arr = np.array([[1, 2, 3], [4, 5, 6]])

# 计算总和
total_sum = np.sum(arr)
print("总和:", total_sum)  # 输出: 21

# 按行计算总和
row_sum = np.sum(arr, axis=1)
print("按行总和:", row_sum)  # 输出: [ 6 15]

# 按列计算总和
col_sum = np.sum(arr, axis=0)
print("按列总和:", col_sum)  # 输出: [5 7 9]

2.2 `np.mean()`

np.mean() 函数用于计算数组元素的均值。

# 计算均值
mean_value = np.mean(arr)
print("均值:", mean_value)  # 输出: 3.5

# 按行计算均值
row_mean = np.mean(arr, axis=1)
print("按行均值:", row_mean)  # 输出: [2. 5.]

# 按列计算均值
col_mean = np.mean(arr, axis=0)
print("按列均值:", col_mean)  # 输出: [2.5 3.5 4.5]

2.3 `np.median()`

np.median() 函数用于计算数组元素的中位数。

# 创建一个包含奇数个元素的数组
arr_odd = np.array([1, 3, 5, 7, 9])

# 计算中位数
median_value = np.median(arr_odd)
print("中位数:", median_value)  # 输出: 5.0

# 创建一个包含偶数个元素的数组
arr_even = np.array([1, 2, 3, 4, 5, 6])

# 计算中位数
median_value_even = np.median(arr_even)
print("偶数个元素的中位数:", median_value_even)  # 输出: 3.5

2.4 `np.std()` 和 `np.var()`

np.std() 和 np.var() 分别用于计算标准差和方差。

# 计算标准差
std_value = np.std(arr)
print("标准差:", std_value)  # 输出: 1.707825127659933

# 计算方差
var_value = np.var(arr)
print("方差:", var_value)  # 输出: 2.9166666666666665

2.5 `np.min()` 和 `np.max()`

np.min() 和 np.max() 分别用于计算数组元素的最小值和最大值。

# 计算最小值
min_value = np.min(arr)
print("最小值:", min_value)  # 输出: 1

# 计算最大值
max_value = np.max(arr)
print("最大值:", max_value)  # 输出: 6

2.6 `np.percentile()`

np.percentile() 函数用于计算给定百分位数的值。

# 创建一个数组
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# 计算第 25 百分位数
percentile_25 = np.percentile(data, 25)
print("第 25 百分位数:", percentile_25)  # 输出: 3.25

# 计算第 50 百分位数（中位数）
percentile_50 = np.percentile(data, 50)
print("第 50 百分位数:", percentile_50)  # 输出: 5.5

# 计算第 75 百分位数
percentile_75 = np.percentile(data, 75)
print("第 75 百分位数:", percentile_75)  # 输出: 7.75

2.7 `np.unique()`

np.unique() 函数用于找出数组中的唯一值，并可以返回它们的计数。

# 创建一个包含重复元素的数组
arr_unique = np.array([1, 2, 2, 3, 4, 4, 4, 5])

# 找出唯一值
unique_values = np.unique(arr_unique)
print("唯一值:", unique_values)  # 输出: [1 2 3 4 5]

# 找出唯一值及其计数
unique_values, counts = np.unique(arr_unique, return_counts=True)
print("唯一值及其计数:", dict(zip(unique_values, counts)))  # 输出: {1: 1, 2: 2, 3: 1, 4: 3, 5: 1}

3. 总结

NumPy 提供了丰富的统计与聚合函数，能够高效地处理数组数据。通过这些函数，我们可以快速计算出数据的各种统计特征，帮助我们进行数据分析和科学计算。在使用这些函数时，需注意数据类型、缺失值处理以及内存消耗等问题。掌握这些函数的使用，将极大提升我们在数据处理和分析中的效率。

NumPy 数组的高级操作：统计与聚合函数

1. 统计与聚合函数概述

1.1 优点

1.2 缺点

1.3 注意事项

2. 常用统计与聚合函数示例

2.1 np.sum()

2.2 np.mean()

2.3 np.median()

2.4 np.std() 和 np.var()

2.5 np.min() 和 np.max()

2.6 np.percentile()

2.7 np.unique()