统计分析基础 7.1 描述性统计分析

描述性统计分析是统计学中最基础也是最重要的部分之一。它的主要目的是通过总结和描述数据的特征,帮助我们理解数据的分布、中心趋势和变异性。描述性统计分析通常包括集中趋势的测量(如均值、中位数和众数)、变异性的测量(如方差、标准差和四分位数)以及数据的分布形态(如偏度和峰度)。

1. 集中趋势的测量

1.1 均值(Mean)

均值是最常用的集中趋势测量方法,计算公式为所有数据点的总和除以数据点的数量。

优点

  • 简单易懂,计算方便。
  • 对于正态分布的数据,均值是一个很好的代表值。

缺点

  • 对极端值(离群值)敏感,可能导致误导性结果。

示例代码

# 创建一个数据集
data <- c(10, 20, 30, 40, 100)

# 计算均值
mean_value <- mean(data)
mean_value

1.2 中位数(Median)

中位数是将数据按大小排序后,位于中间位置的值。对于偶数个数据,中位数是中间两个数的平均值。

优点

  • 对极端值不敏感,能够更好地反映数据的中心位置。

缺点

  • 计算相对复杂,尤其是在数据量较大时。

示例代码

# 计算中位数
median_value <- median(data)
median_value

1.3 众数(Mode)

众数是数据集中出现频率最高的值。对于某些数据集,可能存在多个众数。

优点

  • 能够反映数据中最常见的值,适用于分类数据。

缺点

  • 可能不存在众数,或者存在多个众数,导致结果不唯一。

示例代码

# 计算众数的自定义函数
get_mode <- function(v) {
  uniq_v <- unique(v)
  uniq_v[which.max(tabulate(match(v, uniq_v)))]
}

# 创建一个数据集
data_mode <- c(1, 2, 2, 3, 4)

# 计算众数
mode_value <- get_mode(data_mode)
mode_value

2. 变异性的测量

2.1 方差(Variance)

方差是数据点与均值之间差异的平方的平均值,反映了数据的离散程度。

优点

  • 提供了数据变异性的量化指标。

缺点

  • 单位是原数据单位的平方,可能不易于解释。

示例代码

# 计算方差
variance_value <- var(data)
variance_value

2.2 标准差(Standard Deviation)

标准差是方差的平方根,表示数据点与均值之间的平均距离。

优点

  • 与原数据单位相同,易于解释。

缺点

  • 同样对极端值敏感。

示例代码

# 计算标准差
sd_value <- sd(data)
sd_value

2.3 四分位数(Quartiles)

四分位数将数据分为四个部分,分别是第一四分位数(Q1)、第二四分位数(Q2,等于中位数)和第三四分位数(Q3)。

优点

  • 能够提供数据的分布信息,尤其是数据的中间部分。

缺点

  • 不能提供关于数据分布的完整信息。

示例代码

# 计算四分位数
quartiles <- quantile(data)
quartiles

3. 数据的分布形态

3.1 偏度(Skewness)

偏度是描述数据分布不对称程度的指标。正偏度表示数据右侧尾巴较长,负偏度表示数据左侧尾巴较长。

优点

  • 能够揭示数据分布的非对称性。

缺点

  • 计算较为复杂,且对样本量敏感。

示例代码

# 安装并加载必要的包
install.packages("e1071")
library(e1071)

# 计算偏度
skewness_value <- skewness(data)
skewness_value

3.2 峰度(Kurtosis)

峰度是描述数据分布尖峭程度的指标。高峰度表示数据集中在均值附近,低峰度表示数据分散。

优点

  • 能够提供数据分布的形态信息。

缺点

  • 同样计算较为复杂,且对样本量敏感。

示例代码

# 计算峰度
kurtosis_value <- kurtosis(data)
kurtosis_value

4. 总结

描述性统计分析是数据分析的基础,能够帮助我们快速了解数据的特征。通过集中趋势、变异性和分布形态的测量,我们可以对数据进行全面的描述。然而,在使用描述性统计时,我们需要注意其优缺点,合理选择合适的统计量,以避免误导性结论。

在实际应用中,描述性统计分析通常是数据分析的第一步,后续的推断统计分析和建模分析都基于对数据的深入理解。因此,掌握描述性统计分析的基本概念和方法,对于任何数据分析师都是至关重要的。