![社会及行为科学研究法(3?资料分析)](https://wfqqreader-1252317822.image.myqcloud.com/cover/924/23667924/b_23667924.jpg)
三 多分类别模型
上一节介绍的胜算对数及机率单元两个基本模型,都是立基于依变项是属于二分类别资料所建构出来的分析方法。但在一般日常生活中,行为者所面临的离散选项的类别属性,常是包括三个或以上的多分类反应。例如,选举时选民对于不同政党(或候选人)的抉择、消费者购物时对于不同品牌产品的选择、民众对于不同职业的抉择,甚或是平常所选择的交通运输工具等,均具有多重类别的选项属性。本章接下来,便开始介绍当研究者在处理的资料具有这类性质时,如何仰仗其他的回归模型来加以分析。
在不同多分类别的模型当中,最基本就属始于Theil(1969, 1970)提出的多项胜算对数模型(multinomial logit)。多项胜算对数模型在社会科学领域的使用相当广泛,加上后续许多进阶模型皆以此作为基础,所以它可视为各种多分类别模型的基本模型。本节除详细说明它的内涵外,也将介绍McFadden(1973)据此进一步发展出的条件式胜算对数模型。两者差异主要是在处理的自变项形态有所不同,但对计算选项机率所假设的残差分布则完全一致,所以也有学者将两模型一同视为广义的多项胜算对数模型。
参考方块 3-1
Daniel McFadden是美国著名计量经济学家,1937年7月29日出生于美国北卡罗来纳州的罗利市(Raleigh, NC), 1956年毕业于明尼苏达大学物理系,1962年获该校经济学博士学位。曾任教于麻省理工学院、耶鲁大学、加州大学柏克莱分校等学校,现任职加州大学柏克莱分校经济学系讲座教授和计量经济实验室主任。由于他在离散选择模型原理和方法上的重大贡献,2000年时与另一学者James Heckman同时荣获诺贝尔经济学奖的殊荣。
McFadden对计量方法的贡献,主要是拓展计量经济学在个体经济理论上的应用。早期计量经济学受凯恩斯学派与新古典经济学派论战的影响,焦点多放在总体经济问题之上,以探讨国民经济为主体的经济行为。近代随着个体统计数据愈来愈丰富,个人、家庭或厂商等个体经济决策及其影响因素,重获计量经济学界的关注,而McFadden发展用以分析个体行为的理论和方法,便是现代个体计量经济学领域中最为重要的一环。
在许多离散选择模型的发展上,McFadden最为人熟知的贡献是他所提出的条件式胜算对数模型,用以分析依附选择(choice specific)变数的影响。此外,为改善离散选择模型面临的不相关选项独立性(IIA)假设,他也与一些学者分别建构出巢状胜算对数模型(nested logit)、混合多项胜算对数模型(mixed logit)等更进阶的分析模式,近年来这些模型已在交通运输、住宅选择等研究领域广受肯定与运用。除了实际的统计模型外,McFadden容易让人忽略但同样重要的贡献,是将这些离散选择模型与原本个体经济的概念连结起来。在此之前,个体选择所进行的实证研究尚缺乏经济理论的支持,McFadden回归到个体经济理论的基本假设,以个体选择某一特定选项方案是力求效用的最大化为准,提出效用函数中的随机变化来开发跟阐述这些离散选择模型,此一模式现已成为多元选项模型分析架构的主流。
(一)多项胜算对数模型
根据Long(1997)的归纳,理解多项胜算对数模型(Multinomial Logit, MNL)的方式有很多种,包括机率模式、胜算模式及离散选择模式等多种途径。其中,由McFadden(1973)提出的离散选择模式,是以经济学中个体选择效用极大化为基础,由于McFadden将MNL模型进一步发展成接下来要介绍的多种类别资料模型,本文接着便以他的效用极大化模式来切入各个模型架构。
根据McFadden的看法,个体行为者对于各种可替代选项方案的决策模式,会以所能获得的效用作为参考基准;也就是当一个理性的行为者面临有许多种可供选择的方案时,他(她)会综合考虑个人偏好、各种选项方案特性以及社会经济特性等因素,并且在比较各种方案的效用之后,选择可以让其达到效用最大化(utility maximization)的选择方案。依据这样的概念,行为者i选择替代方案j的效用函数Uij,可表示如下:
Uij=Vij+εij
式中显示,选项方案j所能带给行为者i的效用Uij包含两个成分,一个是Vij,代表效用中可以衡量的部分,另一个要素εij则是效用的随机误差项,当中包括不可观察到的效用、可观察到效用的衡量误差、函数指定误差、抽样误差或变数选定误差等不可控制的因素。
MNL模型下行为者的选择机率,便是从各方案的效用函数而来。当行为者i面临所有的选项集合j时,行为者i选择方案j的机率Pij,取决于选择该项方案所带来效用的多寡。以不同可替代选项方案中j与k两选项来看,两者之间谁给行为者的效用愈大,行为者选择该方案的机率就愈大,此一概念的数学形式表示如下:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0111_0001.jpg?sign=1739324832-b2iRaLMgb3VceeCql7lS6ryAU4j2l7vQ-0-0dc4294343ba91e29dc7d87a82750ead)
如同其他类别资料的回归模型一样,MNL模型接下来需根据对误差项分配做出假定来进行机率估算;McFadden(1973)对此证明出要推导出合理的MNL结果,效用函数的随机误差项εij需是第一型极端值分配(type I extreme value distribution),也可称之为Gumbel分配或双指数分配(double exponential distribution)。在标准第一型极端值分配状况下,平均数是常数Euler-mascheroni constant(趋近0.58),众数是0,标准差是,误差项的机率密度函数与累积机是率密度函数分别为:
f(εij)=exp(-εij)·exp [-exp(-εij)]
F(εij)=exp [-exp(-εij)]
在确认效用误差项呈现第一型极端值分配形态后,便可据此回到式(3-8)中以εij与εik的累积密度函数计算出行为者i选择方案j的机率,详细演算过程可参考McFadden(1981)、Hausman与McFadden(1984)、Ben-Akiva与Lerman(1985)等的介绍,从结果来看其机率为:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0112_0002.jpg?sign=1739324832-5tTzcJdefzLp9Kx043IaBut9RH0q5jkq-0-65e77fe20f73baea0164a54e86e5dc06)
假设可衡量的效用Vij与行为者个人属性的自变项具线性关系,此时观察到的效用函数为:
Vij=xi′βj
将之置入式(3-9)便可求知一般熟悉的MNL模型估算机率:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0112_0003.jpg?sign=1739324832-8YsgAeLms1PSCd7ZdFywGlzdRlwgS6zb-0-65cd3a690e48dde2493cdb8f4a2bb349)
需要注意的是,式(3-10)所推估出的机率有参数无法辨识(identification)的问题,也就是若将原先的参数βj换成另一数值带入原式中,会得出同样的机率估计值。为解决这项辨识问题,最常使用的方式是研究者选定其中一组选项为基准,将参数估计值限制为0,假设选项一(j=1)是基准选项,此时设定β1=0,式(3-10)可改成完整版的:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0112_0004.jpg?sign=1739324832-e7VOL9NU62v0rYn8EGqNByffAY4UzDh2-0-79c060e65afb4ebfc64a0263e9f54c80)
得知各选项的机率后,接着便是以最大概似法来找出各项参数,在多元选项模型中,求取最大化的对数概似函数为:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0113_0001.jpg?sign=1739324832-7dLkKnhuziU3MIspqxHddV7pVbErpBfe-0-06728e83c4eee42cf8d6980ce84df6e8)
其中dij为一个标示变项(indicator variable),当选项方案j被行为者i选到时它为1,其他情况则是0,也就是y=j时dij为1,除此之外dij都是0。此一对数概似函数的设定在多分类别模型的求解过程中多半相同,后文不再赘述。
最后是关于资料呈现的方式,上面虽已推算出模型中各选项的机率,但在呈现分析结果时,仍与一般回归一样是以自变项系数β为主要对象。承式(3-11)以选项一为基准选项,将两式相除并取对数后可得:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0113_0002.jpg?sign=1739324832-4YkXm85wmj5zFpvrT8Yxdd394x8BFX7y-0-a07bb9b59d088fce5213b37128534eec)
由式(3-13)可知MNL模型中的系数,主要是衡量某一个选项方案相对于对照基准选项机率的对比,所以结果会是各自变项最终会出现(j-1)组选项的系数估计值。此外值得一提的是,若选项方案仅有两个时,也就是j=2时,因为Pr(yi=1)=1-Pr(yi=2),此时MNL模型与两分类的Binary Logit结果完全一致,换言之,Binary Logit可以看做MNL模型下的一种特例。
(二)条件胜算对数模型
MNL模型虽是处理依变项具多元类别属性最常见的模式,但在使用上有许多限制,本节首先讨论它在处理自变项上的条件以及McFadden依MNL架构所发展出的条件式胜算对数模型(Conditional Logit, CLGT);另一个对使用MNL模型较为严苛的限制,即所谓不相关选项独立性的假设,则会在下节做介绍,而第五节便继续介绍不受该假设限制的其他多元类别回归模型。
要了解CLGT模型需从自变项的不同特性说起,一般我们所处理的自变项虽可能影响依变项的变化,但另一方面它并不受该行为者最终选择方案的影响,也就是它独立于行为者的最终决定,这类型的变量可称为个人专属变项(individual specific variable)。但经济学家在做交通运输研究时发现,许多自变项的选取是依附在行为者的选项之上;举例来说,假设我们要调查台北上班族选取交通工具的原因,每位受访者有搭捷运、坐公交车跟开汽车等三种选项。由于通勤时间的长短常是决定上班族最终决定采用哪种交通工具的主因,所以除了询问受访者的交通工具选项外,同时也需搜集每位受访者采取三种不同工具所花的通勤时间,只是最终选定的时间变量会取决于该受访者的交通选项而定。像交通工具耗时多寡这类自变项便称之为依附选择变项(choice specific variable),与一般个别专属变项的意义截然不同,而且这是在多元类别资料分析中所独见的状况。
为了克服MNL模型无法分析自变项具依附选择属性的问题,McFadden在MNL架构上提出CLGT模型来配合这类型变量的分析。理解CLGT模型估算的方式,从可衡量效用函数的设定观之,若自变项具有选项属性时,表示会受选项j的影响而改变,原先的xi便不足以代表,此时可衡量效用Vij与依附选项自变量间的线性关系变为:
Vij=zi′jα
其中自变项zij为行为者i选择第j个选项属性的向量,α则为衡量变量影响效果的参数向量。将上述效用函数带回式(3-9),便可得到CLGT模型中行为者选择某一选项方案的预期机率为:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0114_0001.jpg?sign=1739324832-rV5wrbS4D8yiUZ2V4xbqE9SetKzmqL8l-0-b157b6f47b2f1cbe743d4a4dbd7c00d1)
CLGT与MNL两模型不仅对选项的机率估计值非常类似,两者对误差项分配的假设也一样,同样是呈现独立且相同分配(independent and identical distribution, IID)的第一型极端值分配,并据此以其累积机率密度函数来计算其选项机率。除此之外,两个模型采最大概似法所用的概似函数亦同,如式(3-12)所示。不过两者的估算结果有截然不同的表现方式,MNL模型的βj系数基本上是依据不同选项方案所估算而来,会依每个j选项的结果估计出一组参数估计值;与MNL模型估算的结果相较,CLGT模型最大的特色是zij代表依附在行为者所选方案为准之效用变项,无论最后选择的替代方案结果为何,也不论可供行为者选择的方案究竟有多少,这类型的自变项仅会估计出一组α系数,以代表某一自变项在各选项间的共同效用。
表3-3引用王鼎铭(2003)对2001年“立委”选举选民投票行为所做的分析,来做说明CLGT模型估算系数的特性。就每位选民而言,该届选举他(她)可以投票的选项包括国民党、民进党、亲民党及台联等四个主要政党参选者,也就是yi有四种选项类别,多元类别资料的形态相当清楚。在自变项上,则是仅考虑选民“统独”、环保、社福、改革等四项政策偏好对投票的影响,每项政策再依投票的空间理论(spatial theory)与方向理论(direction theory)区分出选民与四个政党的距离(distance)与乘积(product)。由于空间与方向理论是假定选民在选择任何一个政党时,会依该党政策理念所造成的效用来判断政策偏好与立场,因此具有上述依附选择的属性。换句话说,即使选民确有评估各个政党所带给他(她)的政策效用,但最后政策变数的选取是以他(她)最后投票的对象而定。从结果来看,无论是国、民、亲、台联哪几个政党选项相较,每项政策仅出现一个α估计值,代表该政策的影响也只有一个(注意表3-3中距离与乘积是依不同理论所设定的不同政策变项)。
表3-3 2001年“立委”选举的投票行为分析
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0115_0001.jpg?sign=1739324832-qwbjXCYvOWRzfbS9dsgdmoU9uxQIKss0-0-831816919ee8bbba2f1330dede5965c8)
注:括号内为标准差,∗P<0.05; ∗∗P<0.01。
不过在多数社会科学的研究架构下,单纯采用依附选择变项的例子毕竟不多。例如刚才举台北上班族选交通工具的例子,除了工具的耗时因素外,可能还要同时考虑行为者的所得(假设有钱人不喜欢搭大众交通工具)、性别(假设男性较偏好开车)等因素,此时的控制变项便同时包含依附选择与个人专属这两种属性的自变项。若遇到这种状况,单纯地使用CLGT模型并无法满足,而是需要一个可以同时纳入两种变项类型的统计架构,这除了可视为一种广义的CLGT模型外,由于在特性上是整合了MNL与CLGT两种模型,也可视为离散选择模型中的混合模型(mixed model)(Greene, 2003),此时预期机率的公式如下:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0116_0001.jpg?sign=1739324832-DpbCf7gaGMHe2UYTkI0iWU2vugnQ3ezV-0-cbb3c57cd723d00d64eb878bbe536876)
从此一混合模型的机率公式可看出,最大的特色便是同时纳入依附选择变项z与个人专属变项x两种类型,并将不同性质的系数同时呈现出来。换言之,除了CLGT模型所计算出的α系数外,也会如MNL模型依每个j选择的结果,估计出一组β估计值。
为清楚表示这种混合模型的特质,我们再回到前面举的投票行为例子来看。除空间理论所提供的研究假设与变项架构吻合依附选项特性外,其他投票学说与理论也需一并考虑。例如,选民政党倾向、省籍等因素,便是在台湾选举文献常见影响投票行为的控制变量,而这类变量毫无疑问的均属个人专属变项。表3-4为王鼎铭(2003)研究中的另一个分析结果,除前述的政策偏好外,再增加选民政党倾向、性别、年龄、教育程度、所得水准及省籍等六种个人专属变项,此一模式即为MNL与CLGT两种模型混合测量的结果。
表3-4 台湾选民投票行为分析(2001年“立委”选举)
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0117_0001.jpg?sign=1739324832-wEN60T74HIGjvKCIHfZYiKd8KZo1E0QJ-0-3f7160096e310200fc880c7f3a67a426)
注:括号内为标准差,∗P<0.05; ∗∗P<0.01。
(三)小结
由于MNL模型的计算单纯并且容易理解,因此在各学术领域的应用相当广泛。以政治学领域的选举研究为例,由于单计不可让渡选制的施行,“国会”及地方议会选举经常出现许多参选人竞逐复数席次的席位,因此在实证分析选民投票选择参选人(或政党)这一课题上,MNL模型可说是相关研究探索时的重要工具。至于CLGT模型的实证运用,受限于理论架构需符合变量的设定,一般常见于经济学从事交通运输的研究。在选举研究领域除了本节提到的空间投票理论是一重要实例外,社会心理学派提出会影响投票行为的政党认同(party identification),虽长期被认定是属于个人特性的变项,但也有像Merrill与Grofman(1999)等学者提出它具有依附选择的性质,应该改用CLGT模型来分析该变项。
最后要强调的是,MNL与CLGT模型除了处理的自变项的形态有所不同外,两者对计算选项机率所假设的残差分布完全一致,模型因残差分布所受的限制也一样,广义来说并无差别,所以本章后续将两模型视为一般的多项胜算对数模型,以区别于其他采不同残差分布的多分类别回归模型。
参考方块 3-2
源自Downs(1957)的空间投票理论(spatial theory of voting)主张选民是理性的,以其效用的最大化决定投票取向,而选民的效用与候选人的政策距离呈现渐降关系,也就是双方立场距离愈近,选民效用愈大,所以选民会在众多候选人中选择与他的政策理念最接近的人选。由于Downs的空间理论是假设效用偏好与政策距离的远近相关,所以又可称为趋近理论(proximity theory)。另外由Rabinowitz与MacDonald(1989)提出的另一种空间模型,称为方向理论(direction theory),虽仍维持着传统空间理论的理性假设,却不认为理性的选民会依照与候选人政策距离的远近,来做效用的评估或投票的准则。方向论者认为选民无法完全辨别自己或候选人政策的确切位置,多数的选民仅能就候选人相对位置进行分析,所以候选人的政策只要不超出可接受的范围,候选人政见的方向与强度,才是决定选民是否投票给他/她的关键。
在实际检测两种理性投票理论上,许多学者提出可供验证的整合架构,这里以Lewis与King(2000)模型的简化版本为例,选民的效用函数可设定为:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0118_0002.jpg?sign=1739324832-y511ABrDzl70cxEI67R9m5Cvcvh2oRtx-0-bc7b6136a4ca2e9cec3ec4ffe8badf08)
其中i代表各个选民,j是不同的政党选项,k则是代表不同的政策议题。vik是选民i对议题k的政策偏好位置,cijk则是选民i所知的政党j对于k议题的立场或政见。为政策的距离变项(length variable),测量选民与政党对政策议题偏好的远近,以观察趋近理论的效度;2·vik·cijk则为政策的数量乘积(scalar product),用来测量选民与政党之间有关政策议题方向的强弱。当某项政策k的影响要满足趋近理论的假设时,政策差距愈小愈好,所以最重要的是β1k<0;而要是如方向理论所预期的话,乘积变项则是要愈强愈佳,此时政策的系数是期待β2k>0。
从空间理论的分析架构可知,无论是距离变项抑或数量乘积,均是以选民所选政党政策理念所造成的效用来判断的,也就是选民评估的政策是依所支持政党带来的效用而定,所以对空间理论而言政策议题的影响方式是属于依附选择变项。也因此,多数空间投票论者认为在此一理论的架构下,不应以一般的多项胜算对数模型来执行。