5 r×c列联表的概率
对于r×c列联表,可以有=r(r-1)/2个行对子和
=c(c-1)/2个列对子。假设行为a和b,列为c和d,概率
,r×c列联表一共有
个θ。实际上,我们只需要(r-1)(c-1)个概率

就能够决定变量是否相关。当(r-1)(c-1)个θ等于1时,个θ也必然等于1,两个变量相互独立。
当变量是定序的时,概率有三种类型(参见图1-2)。
1.局域概率

该式由相邻的两行和两列的概率构成,用于检验列联表的“局域”相关。
2.行是局域、列是全域的概率

简单地说,概率由相邻两行的全部概率构成。如果
θ′≥1(或logθ′≥0),j=1,…,c-1
那么

这表明i+1行的概率分布随机高于i行,即i+1行的较大概率处于列定序变量赋值尺度的高端。当应变量是定序的时,{}可用来比较两行的概率分布。
在学习对数线性模型和对数概率比回归模型时,以上两种θ是经常用到的统计量,可以说是贯穿全书的重要工具。
3.全域概率
将r×c列联表的行和列合并为2×2列联表,概率:

图1-2(a)θij,(b),(c)
资料来源:Agresti,1984。

是两个变量整体相关的量度。
显然,由于将相邻类别或层次进行不同合并,局域、局域-全域和全域概率不止一个。三个概率有以下关系:如果所有局域,那么所有局域-全域
。如果所有局域-全域
,那么所有全域
。对每一类型而言,如果所有对数概率等于0,则变量相互独立。我们应用表1-4的数据,说明三种定序变量的概率。表1-5包含三种样本的定序概率
,
,
,
,
,
分别表示局域概率、局域-全域概率和全域概率。统计结果如下。
(1)用接受大学教育和接受中学教育相比,家庭收入“中下”的人接受大学教育的概率是家庭收入“下下”的人的1.42 倍,家庭收入“中上”的人接受大学教育的概率是家庭收入“中下”的人的1.63 倍,家庭收入“上上”的人接受大学教育的概率是家庭收入“中上”的人的1.39倍。
(2)用接受大学教育和接受中、小学教育相比,家庭收入“中下”的人接受大学教育的概率是家庭收入“下下”的人的1.70 倍,家庭收入“中上”的人接受大学教育的概率是家庭收入“中下”的人的1.73倍,家庭收入“上上”的人接受大学教育的概率是家庭收入“中上”的人的1.44倍。
(3)用接受大学教育和接受中、小学教育相比,家庭收入“中下”、“中上”、“上上”的人接受大学教育的概率是家庭收入“下下”的人的2.37倍,家庭收入“中上”、“上上”的人接受大学教育的概率是家庭收入“下下”、“中下”的人的2.21倍,家庭收入“上上”的人接受大学教育的概率是家庭收入“下下”、“中下”、“中上”的人的2.25倍。
以上分析着重于家庭收入和接受高等教育的关系。实际上,表1-5的三组概率表明受教育程度的每一层次都与家庭收入密切相关,收入越高,家庭成员接受较高水平教育的比例越大。
表1-5 受教育程度和家庭收入的定序概率

资料来源:中国社会科学院社会学研究所的社会调查。
是相邻两行的局域-全域概率,可以从另一角度证明以上的推论。公式1-6表明,当θ′≥1时,行(i+1)的概率分布随机高于行i,即行(i+1)在列的层次高端的概率大于行i在列的层次高端的概率。所以,随着家庭收入的增长,家庭成员接受较高水平教育的比例增大,家庭收入和受教育程度之间有线性增长的趋势。