中位数
数学术语
中位数是统计学中的一个基本概念,中位数(Median)是统计学中用于描述数据集中趋势的指标之一。它是指将一组数据按大小顺序排列后,位于中间位置的数值。中位数能够有效地将数据集分为两部分,其中一半的数据值小于中位数,另一半大于中位数。中位数不受数据集中极端值的影响,因此在数据分布不对称或存在异常值时,中位数是一个更为稳健的统计量。中位数在多个领域如经济学社会科学等都有广泛应用,如用于确定收入的中等水平、研究社会现象的中心趋势等。
研究历史
在历史上中位数几乎是作为平均数的替代品而出现的。大约在1755年,博斯科维奇(Boscovich)在有关测量的误差工作中用到了中位数。从历史现象学的角度看,中位数的出现可能是为了取代平均数。在19世纪,科学家们有不同的理由用中位数代替平均数。1874年,费歇尔试图用天文学中行之有效的方法描述心理学和社会现象,他使用了中位数,其重要原因是它在计算上的简化和直觉上的清晰性。埃其渥斯同样倾向于中位数,因为平均数对极端数据太敏感,而中位数往往比平均数更“稳健”(即对极端数据不敏感)。1882年,高尔顿在使用这个术语之前就已经知道这个概念,但他起初使用其他术语,如“最中间的值”,“中等的”等。1847年,他在一次演讲中给出了下列描述:“一个占据中间位置的物体具有这样的性质,比它多的物体的数目等于比它少的物体的数数目。”
定义
中位数(Median),又称中点数,中值,是按顺序排列的一组数据中居于中间位置的数。其定义如下:
如果数据集中有奇数个数据,中位数是中间的那个数。 如果数据集中有偶数个数据,中位数是中间两个数的平均值。
一个数集中最多有一半的数值小于中位数,也最多有一半的数值大于中位数。如果大于和小于中位数的数值个数均少于一半,那么数集中必有若干值等同于中位数。
计算方法
假设有一组数据:
将它按从小到大的顺序排序为:
用来表示这组数据的中位数。则当N为奇数时,;当N为偶数时,。
计算示例
奇数个数据:
例如,数据集为 {3, 1, 4, 1, 5}。首先将数据排序:{1, 1, 3, 4, 5}。中位数是中间的数,即3。
偶数个数据:
例如,数据集为 {23, 29, 20, 32, 23, 21, 33, 25}。首先将数据排序:{20, 21, 23, 23, 25, 29, 32, 33}。中位数是第四个数和第五个数的平均值,即 (23+25)/2 = 24。
特点
稳健性:中位数不受数据集中极端值的影响,因此在存在异常值或数据分布不对称时,中位数比算术平均数更具代表性。
代表性:中位数可以较好地代表一组数据的中心位置,特别是在数据分布不均匀时。
计算简单:中位数的计算方法相对简单,只需将数据排序后找到中间的数即可。
相关数学概念
平均数(Mean):所有数据加总后除以数据的个数。平均数对极端值敏感,容易受异常值影响。
众数(Mode):数据集中出现频率最高的数值。众数用于描述数据的集中趋势,特别适用于分类数据。
方差(Variance):描述数据分散程度的统计量,是各数据与平均数差值的平方的平均数。
标准差(Standard Deviation):方差的平方根,用于描述数据的离散程度。
极差(Range):数据集中最大值与最小值之差,用于描述数据的波动范围。
应用
中位数在多个领域有广泛应用,包括但不限于:
经济学:用于确定收入、房价等的中等水平,避免极端值的影响。
社会科学:研究社会现象的中心趋势,如人口年龄分布、教育水平等。
数据分析:作为数据清洗和预处理的一部分,识别和处理异常值。
参考资料
最新修订时间:2025-12-09 16:03
目录
概述
研究历史
参考资料