现代社会统计方法的应用及问题探析
摘要:随着科学技术的不断进步与?l展,现代计算机技术不断进步,统计分析软件也在不断完善,这就促进了现代社会统计方法的产生。
本文对现代社会统计方法的应用及问题进行了研究,为相关研究提供有用的参考。
下载论文网 关键词:现代社会 统计方法 计算机技术 数据分析 中图分类号:C81 文献标识码:A 近年来,计算机技术不断发展在很大程度上促进了统计分析软件的产生与完善。
统计学在西方社会学领域中应用十分广泛,艾德里安?E?拉夫特里(Adrian E?Raftery)教授将战后西方社会应用统计的发展按照数据的具体类型分为三个阶段,第一个阶段从20世纪40年代开始,在这个阶段主要应用交叉表,主要是对各个变量之间的相关关系进行测量;第二个计算是从20世纪60年代开始的,在这个阶段人们使用以个体为单位的调查数据,分析的重点为与线性结构关系的有关的因果模型。
第三阶段是从20世纪80年代末开始的,在这一阶段中主要以数据的多元化以及数据与数据之间的相互关联为标志,如文字性数据以及个人生命史记录等。
本文对国际上社会科学目前普遍使用的统计方法进行了归纳和分析。
现阶段在现代社会科学领域之中应用最广泛的统计方法进行了介绍,分别是连续型数据方法、分类数据分析法、生存分析法、结构方程模型。
1 连续型数据的应用及问题分析 连续型数据是社会统计方法之中最常见的一个模型,在这个模型之中最典型的就是线性回归模型,同时线性回归模型也是统计学其他模型的基础。
另外,方差分析(Analysis of Variance ANOVA)和线性回归的联系十分密切。
1950年费希尔提出将由于每一个原因导致的方差从它这个原因引起的方差之中分离出来,就是方差分析[1]。
在线性回归之中因变量可能是以单变量的方式出现,也有可能多个变量同时出现。
举例来说:在膳食结构对人的身体发育情况的影响作用中,要测量很多个变量,如身高、体重以及腰围等。
在处理这个问题时可以将以上三个因素都看作因变量,从而建立线性回归模型。
但是身高、体重以及腰围三者之间存在一定的相关性,如果把它们分别看作因变量就会在一定程度上影响三者之间的相关性,最终就会影响统计结果。
如某一个变量不受膳食结构的而影响,但是应用上述方法,最终在线性回归模型上这个因素也会反应为“有显著影响”。
所以多个因变量的情况下可以应用多维线性回归模型(Multivariate Linear Regression Models),这个模型可以用Y=XB+U的形式表示,其中Y代表k个因变量的n个观察值的nxk阶矩阵;X则代表m个因变量的n个观察值的nxk阶矩阵;B代表nxk阶回归系数矩阵;U代表nxk阶的随机误差。
以上所介绍的一般线性回归模型主要是针对具有连续变化数据以及一些简单的数据结构,而对于其他数据比较复杂的统计模型会成为相对独立的模型。
2 分类数据的应用及问题分析 连续变量的线性回归模型是从20世纪初开始受到关注,分类数据分析(Categorical Data Analysis)是20世纪中后期才被人重视,分类数据分析在社会学中应用最为广泛[2]。
对分类数据的分析主要从两个方面进行分析,其中一个方面与假设检验具有一定的相关性,具体来说就是对分类变量之间的关系进行检验;另外一个方面主要是用自变量来解释因变量的广义线性模型法,最常见的一种方法就是逻辑斯蒂回归法[3]。
分类数据的表现形式十分多样,其中最常见的表现形式就是交叉表,具体来说就是把某一个变量看作行另外一个变量看作列,这就就可以把行变量看作自变量,把列变量看作因变量。
举例来说,在作为学生干部是否就具有好的学习成绩的检验中,将当学生干部看作变量1,将好的学习成绩看作变量2,检验两个变量之间是否存在联系,并且分析两者之间的关系是否显著。
在分类数据的检验中,检验思路为:假设变量之间没有差异,那么交叉表之中的条件分布与它对应的边缘分布是一致的,因此在这个假设条件下求得的单元之就被称为期望值。
实际值与期望值的差的评分除以方差,在大样本的条件之下应该与特定的卡方相近。
这里说的二元变量,就是指只有两个变量值,并且这两个变量值还服从二项分布。
如上面提到了学生干部问题,通过变量1和2研究能够分析两个变量之间的联系。
但是在使用这一方法时,要注意观察交叉表之中的条件分布与它对应的边缘分布是否一致。
同时要对交叉表使用的样本数据进行统计的显著性检验,如果检验结果表示两个变量之间没有显著性的关系,那么交叉表的分析是没有意义的。
因此,在使用这一方法时,还要对交叉表中的两个变量进行显著性检验,以此保证交叉表分析具有统计学意义。
3 生存分析的应用及问题分析 社会统计学之中生存分析最早在生物统计学之中应用,社会学为生存分析起了一个名字,叫做事件史分析(Even―history Analysis)[4]。
随着这种方法的应用与实践,发现只要是对事物的某一状态的持续时间进行详细的分析,都能够叫做生存分析。
例如一个人从失业状态到再就业状态。
对一个人从找到工作开始到最终结束工作的一段时间中发生的所有事件进行分析。
研究这个人在工作持续时间内影响他最终离职的原因。
现阶段,生存分析法在各个领域之中应用广泛,但是在不同领域中应用的名称是不同的,如在工程领域之中生存分析法被称为可靠性分析。
生存分析主要就是对事物的某一个状态从开始结束持续时间的描述和介绍,在实际分析的时候,首先要根据已经掌握的数据对生存函数进行计算,并且把生存函数当作因变量再建立回归模型,通过回归模型之中的自变量对因变量进行详细的解释。
由于,生存分析主要的分析对象是时间数据,所以生存分析的数据结构比较特殊,通常情况下要通过回顾性调查和跟踪性调查收集数据。
生存分析和一般的线性回归模型不同,因为一般的线性回归模型不能分析时间变量。
如,在一个人从失业状态到再就业状态的研究中,要对这个人的整个工作过程进行过回顾性调查和跟踪性调查收集数据。