推论统计是基于抽样调查从局部推断总体,并对不确定事物进行决策的统计方法,其理论基础为
概率论,核心内容包括总体参数估计与
假设检验两类。参数估计通过样本统计值推断总体参数(如平均数、标准差、相关系数等特征),分为
点估计和
区间估计:前者直接以样本值估计总体参数,后者通过显著水平确定
置信区间范围;假设检验则利用样本数据验证总体特征假设(包括差异显著性检验等),判断统计值差异是否源于
抽样误差。其中显著水平决定了置信区间的可信度与范围宽度,区间估计的把握程度随显著水平提高而增强。
统计推断需解决参数估计和假设检验两类问题,前者通过抽样结果估计总体参数值及范围,后者通过显著性考验区分真实差异与抽样误差。该方法广泛应用于从有限样本数据推断整体特征的场景(涵盖回归系数等
多元分析),需借助
抽样理论与方法实现。
统计推论是统计描述的对称,在抽样调查中,从样本的统计值来推论总体的参数值,以及根据抽样的结果对调查前所作的假设作出拒绝或接受的判断的方法。统计推论分为
参数估计和
假设检验两部分。
参数估计就是根据抽样结果,科学地估计总体参数值的大小和范围。参数估计有两种方法:①点估计。利用样本统计单值直接估计未知总体参数的方法。如从某市抽取100名少年犯人作为样本,计算出他们的年龄均值为16.5岁,然后将该值作为全市少年犯人的平均年龄。这种以点代面的估计方法即为点估计法。点估计法一般只用来对总体参数进行粗略的估算,由于它不能说明估计的准确程度和可靠度,因此很少使用。②区间估计。在一定的把握程度上对总体参数可能落入的一个数值范围做出估计的方法。如计算出某市少年犯人的平均年龄可能在16-17岁之间的范围内,这种估计总体参数在一定区间的推断方法就是区间估计法。由于有抽样误差的存在,区间估计会受样本统计值和样本误差的影响而发生波动,因此需判断估计成功的把握程度。把握程度可用显著水平的概念来表示。所谓显著水平,是指根据概率计算的当样本与总体没有真实差异时出现实得误差的最大可能性。如对某市少年犯人重复抽样100次,如果有96次或是91次所作的区间估计包含了少年犯人的平均年龄在16-17岁之间,则进行一次估计成功的概率为96%或91%,即显著水平达到4% (0. 04)或9% (0. 09),也就是说估计错误的可能性不超过4%或9%。按一定显著水平求得的估计区间称为置信区间。应当说明,在进行区间估计时所选定的显著水平愈高,把握程度越高。区间估计的范围也愈大;反之,把握程度则愈小,区间估计的范围也就愈小。
假设检验是根据抽样调查统计结果在一定可靠性基础上对原来的假设作出接受或拒绝的判断。如认为“某市犯罪人员的婚姻状况以未婚为主”就是一个命题,该假设是否正确,要用从总体抽出的样本进行检验,得出承认或推翻假设的结论。因此,假设检验也只通过研究样本对事先作出的有关总体特征的假设进行检验的基本过程。
假设检验主要解决两类问题:①对总体的某些特征提出适当的假设后,利用抽样方法进行检验。检验结果有两种情况:一是检验结果与假设之间存在一定的偏差;二是检验结果与假设完全相符。若是第一种情况,一定要了解偏差是真的表明假设错误,还是由于抽样误差造成的;若是第二种情况,也不能贸然说假设是正确的,也可能是由于抽样误差造成的。②对从两组或两组以上样本计算出的统计值之间的差异进行显著性考验。
统计值之间的差异有可能是它们所代表的不同总体的总体参数的差异,也有可能是同一总体但由于抽样误差造成的,因而要进行显著性考验。在显著性考验中,如果检验结果差异显著,就可推断这种差异代表总体参数之间的差异,否则样品可能来自同一总体,或者认为总体参数间无真实差异,或者也可认为样本统计值的差异只是由于抽样误差造成的。在此应当注意的是,任何时候都不能凭样本统计值之间的差异,轻率得出它们代表的总体的参数间存在差异的结论。