对数线性模型与对应分析在临床列联表资料中的结合应用

【摘要】   对数线性模型对应分析都是可以处理列联表资料的有用工具,而且都可以研究变量之间的相互关系。对应分析可以通过其因子载荷平面图,用直观的方式表达变量间的关系,找到有相关关系的变量,为对数最优线性模型的选择提供有用的信息。

【关键词】 列联表对数线性模型对应分析

1 方法简介   列联表可以表达多个分类变量交叉计数的资料分析手段采用独立性检验或构造模型的方法,对数线性模型是常用的模型之一。对数线性模型是进一步用于离散型数据或整理成列联表格式的数据的统计分析工具。它可以把方差分析线性模型的一些方法应用到对交叉列联表分析中,从而对定性变量间的关系做更进一步的描述和分析列联表分析无法系统地评价变量间的联系,也无法估计变量间交互作用的大小,而对数线性模型是处理这些问题的最佳方法[1]。     对数线性模型的结构有:两两关连模型、条件独立模型、部分独立模型、相互独立模型[2]。我们可以根据模型拟合优度检验的统计量G2和Pearson χ2选择最优对数线性模型,本研究主要探索性的介绍对应分析对数最优模型选择中的应用。   对应分析(Correspondence Analysis)又称RQ型因子分析,它是在R型因子分析和Q型因子分析的基础上发展起来的一种新的多元统计方法,主要用于分析二维数据阵中行变量和列变量之间的关系[3]。它利用降维的思想可以在一张二维图上同时画出属性变量不同取值的情况,列联表的每一行及每一列在二维图上用一个点来表示, 以直观的形式描述属性变量各种状态间的关系[4]。在对应分析图中,若代表行变量某个类别或等级的点,与代表列变量某个类别或等级的点在同一方位上距离较近,则表明两者有较强的关联性;若距离较远或不在同一方位,则表明两者关联性较弱或无关联性[3]。   因此我们在选择对数线性模型可以列联表资料进行对应分析,通过其因子载荷平面图我们可以清楚地看到变量之间的相互关联程度,从而可以初步断定哪些变量之间有相互交互作用,可以对数最优线性模型的初步选择提供重要信息。

2 对数线性模型对应分析在应用上的比较   相同之处:都可以对多项分类列联表资料进行分析;都可以分析变量间的相互关系;变量都无自变量和因变量之分。    不同之处主要是:   ① 对数线性模型要求变量都是定性变量,而对应分析可以用于定性变量,也可以用于定距尺度与定比尺度的数据[5]。   ②对应分析虽然可能揭示变量间的联系,但它不能说明两个变量之间存在的联系是否显著[6],只是一种探索性的分析,而对数线性模型可以变量间的联系进行假设检验。   ③对应分析最早用于处理列联表资料, 即数据是正整数, 现也用于处理非整数资料[7]。一般要求数据不小于0。若有数据小于0, 则所有数据加上一适当的常数即可[8]。

3 应用实例   为了研究Colles骨折在不同年份、不同性别、不同年龄中的分布情况,对天津市医院骨折病例资料进行分析分析年份(X)、性别(Y)和年龄(Z)对Colles骨折发生频率的影响[2]。资料见表1。   对表1的列联表资料拟合了9种可能的对数线性模型(表2),利用两模型的偏差之差(ΔG2)作为χ2值,其自由度之差(Δdf)作为自由度,可判断两模型建有无差异。本例经过模型比较最终选择部分独立模型(X,YZ)为最佳模型模型表示为:     Lnμijk=λ+λix+λjy+λkz+λjkyz。

其中μijk为变量x的i水平、y的第j水平、z的第k水平对应格子中的理论频数,λ为常数项,λxi为变量x的第i水平的主效应,相应地λjy和λkz分别为变量y、z的第j水平和第k水平的主效应,λjkyz表示变量y的第j水平变量z第k水平间的交互效应。   这一模型提示,不同的性别(Y)发生Colles骨折的年龄(Z)不同,即性别与年龄有交互效应存在。

表1 1980年和1981年Colles骨折病例数(略)。

表2 表1资料各种可能的对数线性模型及其拟合优度检验(略)。

对数线性模型的最终输出结果(略)可知,男性在10~19、20~29和30~39岁这3个年龄段发生骨折的频率高于女性,差别具有统计学意义。女性在50~59、60~69和70~79岁这3个年龄段发生骨折的频率最高,但检验上没有统计学意义。   以下我们对表1进行对应分析,检验结果是否跟对数线性模型分析一致,为便于对应分析资料整理成表3的形式。

0 次访问