探索性数据分析

探索性数据分析

探索性数据分析(EDA)是一种分析数据的方法,强调在没有预设假设的情况下探索数据集中的模式和见解。

目的是让数据“自己说话”,并指导分析,而不是强加严格的结构或理论。

目标

探索性数据分析(EDA)主要分析和调查数据集,以发现模式、识别异常值、检验假设和检查假设。

EDA 有几个关键目标:

  1. 快速总结和描述数据集的特征。通过可视化数据分布和计算描述性统计量,我们可以对数据集中变量的主要属性有一个概览。
  2. 检查数据质量并识别任何问题。数据可视化和汇总统计量可以轻松揭示可能需要在分析前进行处理的缺失值、错误和异常值。
  3. 通过探索数据的有趣方面来形成假设并得出见解。模式可能建议通过统计建模测试的因果假设。异常值通常包含有用的领域见解。
  4. 理解变量之间的关系。可视化可以揭示二元关系的性质——形状、方向、形式、异常值等。这指导了相关性和回归模型的选择。
  5. 测试你打算稍后应用的统计模型的假设。直方图形状指示参数分布假设。散点图检查线性假设。确定假设失效的地方提供了必要的数据转换或替代模型的指导。

本质上,EDA 涉及在正式建模之前主动调查我们的数据内容,以指导选择、揭示需要解决的问题,并确保我们从数据资源中提取所有潜在价值。

灵活性和缺乏严格假设使 EDA 在开放式理解中具有无与伦比的价值。

技术

探索性数据分析(EDA)强调灵活性和探索不同的方法,让数据集的关键方面显现出来,而不是从一开始就严格测试假设。

它是一个迭代周期,我们分析、可视化和转换数据以提取意义。

EDA 原则构成了“数据科学”的基础,并补充了传统的统计推断。智能使用 EDA 可以提供对现象的丰富理解,从而指导因果理论和模型的构建。

尝试各种统计和机器学习技术以了解数据集的不同方面。
而不是坚持预定的分析计划,重点是使用适合特定数据集的多样化工具。
技术可能包括聚类算法、决策树、线性回归、方差分析等,具体取决于数据特性和研究目标。

图形技术

EDA 强调使用图形技术揭示数据中的模式、关系和异常值。

EDA 中的图形技术不仅仅是辅助工具,而是深入理解数据的关键。定量摘要无法实现这一点。

图形方法提供了无与伦比的数据探索能力,因为它们能够利用分析师的自然模式识别能力
图片可以让我们的强大视觉感知注意到数值摘要可能遗漏的东西。

创建图表、图表和图以直观地检查数据分布、变量之间的关系、异常值等。

图形技术示例包括:

  • 直方图:用于可视化单个变量的分布,识别异常值,并比较不同组之间的变量。
  • 散点图:用于可视化两个变量之间的关系并评估其相关性。
  • 箱线图:用于可视化单个变量的分布,识别异常值,并比较不同组之间的变量。
  • 概率图:用于评估数据集是否遵循特定的理论分布,例如正态分布。
  • 残差图:用于通过分析残差中的模式来评估拟合模型的有效性。

汇总

描述数据集的关键统计量以理解集中趋势(均值、中位数)、离散程度(方差、百分位数)、形状(偏度)、异常值等。

这些数值汇总补充了视觉检查。

集中趋势:这指的是数据集的“典型”或“中间”值。常用的集中趋势测量方法包括:

  • 均值:所有值的总和除以值的数量。它是最常报告的位置测量值,但对极端值(异常值)敏感。
  • 中位数:当数据按顺序排列时的中间值。它被认为比均值更稳健,因为它受极端值的影响较小。
  • 众数:数据集中出现频率最高的值。它的使用不如均值和中位数常见,在多峰分布(有多个峰值的分布)中,它可能不是集中趋势的良好代表。

离散程度:也称为变异性或分散性,描述数据值的分散程度。关键的离散程度测量方法包括:

  • 方差:测量平均平方偏差。较大的方差表示更大的离散程度。
  • 标准差:方差的平方根。它以与原始数据相同的单位表示,比方差更具可解释性。对于近似正态分布的数据,大约 95% 的值落在均值的 2 个标准差范围内。
  • 四分位距(IQR):第 75 个百分位数(Q3)与第 25 个百分位数(Q1)之间的差值。IQR 是一个稳健的离散程度测量方法,受异常值的影响小于方差或标准差。
  • 范围:最大值与最小值之间的差值。它对异常值敏感,不如其他离散程度测量方法稳健。

形状:描述分布的对称性和尖锐度。两个重要的形状测量方法是:

  1. 偏度:测量分布的不对称性。正偏度表示右侧尾部较长,而负偏度表示左侧尾部较长。
  2. 峰度:测量分布相对于正态分布的“尖锐度”。正峰度(尖峰)表明峰更高且尾部更重,而负峰度(平峰)表明峰更平且尾部更轻。

列联表是探索性数据分析(EDA)的基本技术,用于通过表格形式呈现每个类别的频率来汇总数据,特别是分类数据。

列联表有助于简化复杂的数据集并识别主导模式。从列联表中获得的见解可以指导进一步分析中适当统计方法的选择。

以下是列联表如何汇总数据:

  • 频数计数:列联表涉及创建一个表格,列出分类变量的每个不同类别及其在数据集中出现的次数。这提供了数据在不同类别之间分布的清晰图景。例如,如果你有关于学生专业的数据,列联表会显示每个专业(如“计算机科学”、“生物学”)及其注册的学生人数。
  • 相对频率(百分比):除了原始计数外,列联表通常还包括每个类别相对于总观察数的百分比或比例。这允许轻松比较数据集中不同类别的代表性。
  • 交叉表的基础:列联表作为更高级技术——交叉表的基础,用于分析两个或多个分类变量之间的关系。交叉表创建一个二维表,行和列代表两个变量的不同类别,单元格值代表落在这些类别交集中的观察数或百分比。

数据转换

当数据偏离了正态分布时,许多基于正态性假设的统计技术可能会产生误导或错误的结果。

转换提供了一种重塑数据的方法,使其更接近正态分布,从而增强这些统计技术的适用性。

数据转换涉及使用数学函数来修改数据集的结构,以便更容易地发现模式。

例如,如果像收入这样的变量高度偏斜,应用对数转换可以使其分布正常化,解决某些统计测试中的潜在问题。

除了提高正态性外,探索性数据分析(EDA)中的转换还可以增强数据模式的清晰度、线性化趋势和稳定方差。

它们在确保所选择的统计分析与数据特征一致方面发挥着重要作用,最终导致更准确和可靠的结果。

以下是重新表达数据的一些好处:

  • 改善数据和残差的对称性和正态性:更对称的分布通常使均值成为中心趋势的更准确度量。此外,许多统计测试(如t检验和回归等线性模型以及方差分析)都假设正态性。
  • 各组之间的方差更具可比性:当比较多个组时,方差分析(ANOVA)和协方差分析(ANCOVA)模型通常假设这些组具有相似的方差。重新表达数据可以帮助实现这一点。
  • 变量之间的关系更加线性:简化变量之间的关系可以使数据分析和解释变得更加容易。
  • 回归线周围的变异更加稳定:这种同方差性是许多统计模型的常见假设。
  • 增强加法模型的适用性:重新表达可以改善加法模型的拟合,该模型将响应与两个或更多因素相关联。这可以减少对复杂交互项的需求。

对数值(如时间、比率等非负实数值)进行转换时,建议从对数开始。对于计数(非负整数),平方根和对数是良好的初始转换方法。

在分析偏斜数据时,研究人员通常旨在将其标准化。然而,重要的是要认识到,偏斜有时可能反映变量之间的真实非线性关系,而不仅仅是统计异常。

例如,药物剂量与症状数量之间可能存在二次关系,即较高剂量最初会减少症状,但极高剂量会导致症状复现。

异常值检测

识别扭曲总体模式的异常值,并纠正错误值或专门分析异常值,因为它们通常揭示有关研究现象的有用信息。

异常值识别不仅仅是简单地丢弃不方便的数据点。而是批判性地检查数据,理解极端值背后的故事,并做出明智的决策,以确保得出准确且有意义的结论。

为什么异常值识别很重要?

  • 数据完整性和有效性:异常值可能代表数据收集、编码或实验程序中的错误。识别这些异常值可以进行调查并进行潜在的修正或删除,确保数据准确反映研究现象。
  • 模型准确性和解释:异常值可能会不成比例地影响统计模型,导致与大多数数据的拟合不佳。这可能导致关于变量之间关系的误导性结论。移除或调整异常值可以提高模型准确性,从而得出更可靠的解释。
  • 泛化能力:异常值可能限制结果的泛化能力。识别异常值有助于定义研究范围,并确定结果可以可靠泛化的总体。

可以使用以下方法识别异常值:

  • 围栏方法:通常用于箱形图,使用四分位距(IQR)定义异常值边界。超出须线(从铰链(大约第25和75百分位数)延伸1.5倍IQR)的点通常被认为是潜在的异常值。
  • Z分数:测量数据点与均值的标准差数。绝对Z分数较大的点可能是异常值。
  • 学生化残差:用于回归分析。与可能因杠杆作用不同而具有误导性的原始残差不同,学生化残差经过标准化,遵循t分布。这种标准化有助于识别潜在模式和异常值。
  • 库克距离:也用于回归分析,量化删除特定数据点对回归模型系数的影响。库克距离较大的案例对模型有重大影响,可能需要更仔细地检查作为潜在的异常值。
  • 统计测试:如格鲁布斯测试等专门测试可以正式测试异常值

选择合适的工具:将技术与数据和目标匹配

  • 目标:了解变量的分布情况
  • 技术:直方图

直方图是理解变量分布的强大工具。它们提供了集中趋势、离散程度、模态和异常值的见解。

通过显示指定范围(区间)内的频率或比例,直方图提供了数据分布的可视化表示。

直方图的形状可以揭示数据是否对称、偏斜、单峰、双峰或其他明显模式。

尝试不同的区间大小可以帮助揭示分布形状的更多或更少细节。

描述性分析与探索性分析

描述性分析侧重于总结数据表面显示的内容。探索性分析则深入挖掘以发现数据中的微妙模式和不明显的趋势。

描述性分析可能会告诉数据集的平均值、中位数和标准差。探索性分析将使用可视化、转换和用不同技术对数据进行建模,以超越简单的汇总统计量来揭示变量之间的关系。

因此,描述性分析描述数据显示的内容,而探索性分析探索数据中的细微差别以提取更深层次的意义。

但良好的数据分析同时使用这两种技术——汇总统计量补充图表和可视化以揭示关系。

描述性分析

  • 总结和呈现数据,而不进行推断或建模
  • 使用简单的图形,如直方图、条形图、汇总统计量
  • 目标是描述数据中的模式

探索性分析

  • 对数据中的模式、关系、效应进行推断
  • 严重依赖图形和可视化
  • 转换/操作数据以提取意义
  • 理解数据的迭代循环
  • 目标是从数据中提取更深层次的见解

参考文献

Behrens, J. T. (1997). 原则和探索性数据分析的程序. Psychological Methods, 2(2), 131–160.

Emerson, J. D., & Stoto, M. A. (1983). 转换数据. 在 D. C. Hoaglin, F. Mosteller, & J. W. Tukey
(编), 理解稳健和探索性数据分析 (pp. 97–128). Wiley.

Hoaglin, D. C., Mosteller, F., & Tukey, J. W. (编). (1991). 探索性方差分析的基础. Wiley.

Tukey, J. W. (1977). 探索性数据分析. Reading, MA: Addison-Wesley.

Velleman, P. F. (2008). 真相、该死的真相和统计. 统计教育杂志:国际期刊, 16(2).


引用来源

本文翻译自以下网站:

simplypsychology.org

使用声明

本文仅供教育和参考用途。如需转载或引用,请注明出处和作者。

如果你有任何问题或建议,请随时联系微信公众号。

回到首页