社会及行为科学研究法(3?资料分析)
上QQ阅读APP看书,第一时间看更新

五 修正IIA限制的多分类别模型

如前所述,一般胜算对数模型的误差项均假设为第一型极端值分配,并呈现各自独立且同质的iid分布;但也因为误差项的这种特性,使得据此计算出的选项机率先天上会受到不相关选项独立性(IIA)的限制。诚如上一节的讨论,若估算结果未能满足此一假设时,模型的估计值会有参数不一致的问题。IIA的前提除了是一种统计问题外,许多学者认为它更是对行为者决策模式的一种假设,代表行为者要认知各选项间并无替代性;这种先验条件除了非常主观与严格外,也常不能吻合经验世界的实况,因此折损一般胜算对数模型应用上的价值。面对这个情况,万一IIA检定又无法通过时,此时势必要寻求新的统计模型,本节便提出几种不受这项限制者的多分类别回归模型。

由于IIA的问题源自误差项分布的假设,根据Train(2003)的归纳,可以排除MNL模型的第一型极端值分配基本上有三种方法,一是采一般极端值模型(generalized extreme value models,简称GEV模型),二是多项机率单元模型(multinomial probit),三是混合胜算对数模型(mixed logit)。本节分别介绍这几种模型的内涵,不过一般极端值模型仅说明当中最常见的巢状胜算对数模型(nested logit),而多项机率单元模型与混合胜算对数模型机率的完整估算公式需以多重积分(multiple integral)表示,加上辨识的限制与函数设定的多变性,本节也仅就其基本架构做初步介绍。

(一)巢状胜算对数模型

针对IIA所带来的挑战,包括McFadden(1978)在内的许多学者发展出另一种特别的分析方式,称为巢状(或群组式)胜算对数模型(nested logit)。由于NL模型选项组的归类,类似于由上至下的分析树形图来进行划分,因此也有人称为层级胜算对数模型(hierarchical logit)。NL模型架构的特性,是将母群选项集(choice set)中的所有选项,根据选项间的相似度及特性,汇整成具不同变异程度的次级选项组(或巢,nets)。以王鼎铭(2008)分析台湾2005年“选举修宪任务型国大”为例,选民投票选项因各政党“修宪”立场的不同,基本上可分成四类:赞成“修宪”的泛蓝(国民党)、赞成“修宪”的泛绿(民进党)、反对“修宪”的泛蓝(新党及亲民党)及反对“修宪”的泛绿(台联及建国党),由于可依“修宪”立场区分出不同选项的群组特性,此时选民类似树状决策的架构如图3-1所设定。

图3-1 2005年“修宪”投票的群组式结构

参考方块 3-3

为更清楚了解IIA的重要性,这里以2000年台湾大选为例来做说明。当年主要有三组较具实力的候选人,陈水扁(民进党)、连战(国民党)及宋楚瑜(无党)三强鼎力。假设原先支持三者的人数比例都各占三分之一,用机率来表达就是选民投给三人的选择机率是一样的,P=P=P=1/3,此时两两候选人相比的胜算比都是1,即P/P=1、P/P=1、P/P=1。在一般多项胜算对数模型下,无论是有其他候选人加入竞逐或有人退出选战,原先这些候选人间的胜算比并不会改变,这便是IIA假设的基本内涵。

不过从台湾政治实际的状况来看,当年另有民进党脱党参选的许信良加入战局,他所获得的选票虽不多,但由于会瓜分一些泛绿选票,陈水扁跟其他候选人选择机率对比的结果会受一定程度的影响;换言之,有许信良这一选项的加入,这时原先的胜算比结果应会产生P/P<1、P/P<1的变化。再假设另一种更显著的影响状况,若当时从国民党出走的宋楚瑜最后退出选举,学理跟经验上会引起泛蓝的弃保效应,原先支持宋楚瑜的选民会策略性的将选票转向支持另一位泛蓝候选人连战,此时若产生选票完全移转,则P=1/3、P=2/3,两者胜算比会变成P/P=1/2。事实上即便不是完全移转,只要原先宋楚瑜的选票不会均分给陈、连两人,选项的胜算比一定会与原先数值不同,如此便违反IIA的假定。正由于此一假设与许多实证经验跟理论相违,使得一般胜算对数模型在使用上受到相当程度的限制。

透过不同属性选项的归类,NL模型中的选项具备两种特性:①同一群组中任两选项机率的胜算比会独立其他选项;②不同群组的任两选项机率的胜算比,则会受到这两群组其他选项的影响。换言之,透过不同群组的分类,可使IIA的条件仅局限于群组内特定选项间的选择,而不同群组间的选项本质上没有IIA的性质,以借此宽松IIA的严谨限制;而这种部分放宽IIA的形式,Train(2003)称之为跨群组选项间的不相关群组独立性。

为进一步探讨NL模型的内涵,可延续图3-1两层次的决策架构,从行为者i的选择选项方案j的效用函数Uij来看,此时可观察到的效用可分成两个成分,假设Wil代表群组,Zij代表选项:

Uij=Wil+Zijij

其中下层(或第二层)j选项属于上层(或第一层)l群组之一,jJ,J为选项总数,lL,L为群组总数。Wil代表的上层效用会受影响群组的变量而改变,Zij则是直接受选项变量的影响。至于效用函数的残差项,在NL模型中的设定与一般胜算对数模型下的第一型极值分布稍有不同,采独立且单极的一般极值分配(简称GEV分配),且容许同一群组的残差可以相关,不同群组选项间的残差则相互独立不相关。由于NL模型采用这种一般极值分配来计算选项机率,所以可被视为一般极值模型(GEV模型)的一种类型。

至于NL架构下估算机率的方式如同效用函数一样,可视为两种机率的结合。此时行为者i选择j的机率,是l群组任一选项在被选中的机率与选取l群组前提下选中相乘的结果,简单来说就是选项条件机率乘以群组边际机率的结果,可用Pij=Pij| l×Pil来表示,其中Pij是选取l群组的机率,Pij| l则是在l群组的前提下选取j选项方案的机率,两者相乘可得知行为者i选择j的机率Pij。由于选项与群组各有其效用函数,从此可看出NL模型的特色,是以各层的结构来分别进行估算,这种形式可称为解构的胜算对数分析。从其推算结果来看,两个层次的机率分别是:

其中Iil称为群组结构中第l群组的包容值(inclusive value),其公式为:

τl则是包容值对应的参数估计值,而Jl代表特定群组l下的选项集合。NL模型中包容值的重要性,在于它是佐证的分类过程与选项群集是否妥适的重要指标,根据McFadden(1981, 1984)的说明,包容值的参数必须介于0和1之间,模型的估算结果方可吻合随机效用最大化的原则,若是没有满足这个区间,显示模型可能有设定错误的问题。此外,若参数值愈接近0,代表次群组内各选项间之相关性愈高,反之若估计参数接近1,表示次群组内各选项间相互独立并无相关,此时便是符合IIA假设。万一所有群组的包容值参数均等于1时(Iil=1,l=1, 2, …,L),一般极值分配会变成第一型极值分配,条件机率与边际机率相乘后演算的结果会发现,NL模型与一般的胜算对数模型并无差别。

参考方块 3-4

一般极端值模型除了本节介绍的基本双层次巢状胜算对数模型外,如果选项分类结构合适,可扩展到三层甚至更多层的形式,这些多层次的巢状胜算对数模型,可参考McFadden(1978)、Ben-Akiva与Lerman(1985)等文献。不过无论是双层或多层形式的巢状胜算对数模型,每个选项方案限制只能出现一次在单一群组,但万一有选项的特性会出现在不同群组的状况时,则基本的巢状胜算对数模型便不适用。这种重叠群组或重叠巢(overlapping nests)的状况在实际生活经验时常出现,例如运输研究在归纳通勤族选择上下班交通工具时,除可将与人共乘跟自行开车两选项放置同一群组外,由于共乘又与坐大众交通工具一样缺少时间弹性,所以与其他大众交通群组也有相关,此时共乘选项的性质便属于可以重叠于不同群组之间。

针对重叠群组的问题,一般极端值模型中有许多进阶模型可以处理。例如Bierlaire(1998)提出所谓交叉巢状胜算对数模型(cross-nested logit),专门处理单一选项同时出现在多个不同群组的状况。此外,为同群组内的选项彼此相关程度完全一样的问题,Chu(1989)提出成对组合胜算对数模型(paired combinatorial logit),将所有选项以成对组合的方式两两置入同一群组,使每个选项会隶属J-1个群组(J是选项总数),并测量选项间相似度参数以考虑所有成对组合的相关性。至于Wen与Koppelman(2001)提出的一般化巢状胜算对数模型(generalized nested logit),则是结合相关模型的优点,它除了让每一选项可以同时属于不同群组外,更容许选项在不同群组的比重相异,所以不像成对组合胜算对数模型只比较两两选项组合,而是考虑到所有选项群组可能的排列组合。上述的这几种模型,与NL模型一样均采一般极值分配来设定残差项分配及计算选项机率,所以都统称为一般极端值模型(Train, 2003)。

最后再回到王鼎铭(2008)分析任务型“国大”投票的结果,以说明NL模型解构式胜算对数的特性。如图3-1所示,选民“修宪”投票的第一层决策为赞成或反对“修宪”两个不同群组,第二层才是不同政党选项,且各有不同的效用函数。先从影响“修宪”选择的解释变量来看,主要是选民对四项“修宪”议题的支持程度,包括立委人数减半、公民投票纳入条文、“立委”选制改为单一选区两票制以及废除“国民大会”等四项“修宪”条文的支持度;至于政党选择的解释变量,除基本的选民性别、年纪、省籍、教育水准等控制变项外,还包括沿袭一般选举理论的政党认同、“统独”偏好及族群认同等几项影响投票行为的变量。根据NL模型分析分层决策的特性,可以解构出两层胜算对数结果如表3-5所示。

表3-52005年“修宪”选举之群组式胜算对数分析

注:括号内为标准误,代表P<0.05; ∗∗代表P<0.01。

表3-5最上面一层的系数是影响“修宪”选择的结果,四项议题仅选制变革具统计显著水准,表示“修宪”方案中关于选举制度的改革方案,才是真正驱动选民做出第一层支持“修宪”决定的主要动力,第二层是影响政党选择的系数结果。值得说明的是,选民“统独”偏好在这次“修宪”选举并未如一般选举左右投票意向,主要是因2005年“修宪”的议题性相当明确,没有太多意识形态的干预,加上采比例代表制没有偏激参选人在竞选,使得国、民两党都明确支持“修宪”的前提下,“统独”偏好在这次选举并未产生作用。另外更需注意的是政党认同、族群认同等重要变项仅在同群组的国、民两党选项间产生影响,而不影响选民做跨群组的泛绿与国民党或泛蓝与民进党间的决定。这不同于一般所熟悉的台湾政治光谱特性,却佐证了依“修宪”立场划分不同群组的必要性。简单来说,2005年选举时对选民最大的影响不是在政党的光谱,而是各政党不同的“修宪”立场,影响选民跨群组选择的因素是建构在“修宪”议题,而政党选择变项的影响力仅内化于各次群组内的选择。

(二)多项机率单元模型

根据Train(2003)的归纳,一般的MNL模型除了因为IIA而有选项方案互相替换(substitution patterns)的问题外,它还有另外两项限制,一是无法表现出随机偏好的变动(random taste variation),二是无法应用在定群追踪资料(panel data)。以NL模型为代表的GEV模型虽可解决IIA的问题,但若要同时处理另外两项限制,则需凭借本小节介绍的多项机率单元模型(multinomial probit, MNP)或是下一小节介绍的混合胜算对数模型。

虽然MNP模型复杂并且需靠模拟法估算参数,但在学界起源不算短,早自Hausman与Wise(1978)、Daganzo(1979)已有系统整理出模型的架构。MNP模型处理IIA的问题是直接更改误差项的分布形式,使之与相同且独立的第一型极值分配脱钩,而将选择效用的误差项改为呈现多变量常态分布(multivariate normal distribution)。若从行为者的选择效用Uij观之,与MNL模型一样分为可观察到的效用Vij与无法观察到的随机误差项εij两部分,由于误差项在此设定为联合常态分配,MNP模型下行为者i选择方案j的效用函数Uij可表示为:

Uij=Vij+εij,j=1,2, …,J[εi1,εi2, …,εiJ]~N(0, ∑)

该式显示误差项的联合分布(joint distribution)呈现多变量常态,平均数为0,共变异矩阵为∑, ∑=[σjk] j, k=1,2, …, J,以显示会随不同行为者不同选项方案而变动的特性,此时残差之密度函数可表示为:

由此来看,MNP模型基本上就是透过了多变量常态分布,允许残差项彼此可以不完全独立且不相同,不仅充分表现出行为者的实际选择行为,更可借此排除IIA的限制,可说是最一般化的模式。

在确定残差项呈现多变量常态分配的特性后,便可据此推估出选项的预期机率。MNP模型机率的完整计算公式复杂,以效用函数模式的概念来看,某一选项j会被挑中,代表对该行为者而言,Uij所带来的效用大于其他选项的效用,所以行为者i选择j的机率即为其他选项方案与j的效用差均为负的机率,据此MNP模型的预期机率可用一般化的公式来诠释:

其中I(.)是指标函数(indicator function),用来确认括号内情形成立,如果括号中的情况成立时为1,若没有当中选取方案效用较大的情况则是0。

式(3-15)其实仅是一般计算累积机率运算的模式,例如,若设定εi是呈现对数分配,此时将ϕεi)换成λεi)进行运算,便可得出第三节MNL模型下预期的选择机率。不过在MNP模型下,由于异质性与多变量常态分布的假设,对误差项εi进行的积分不是所谓的封闭形态(closed form),ϕεi)没有特定的形式。此项限制不仅使得模型的完整机率公式无法简单呈现,更使得MNP模型无法直接采最大概似法对积分项进行估算。此时需改采参数模拟的方式进行,由于这是在最大概似法的过程中增加了模拟的步骤,其参数校估方式可称为最大模拟概似法(maximum simulated likelihood)。

(三)混合胜算对数模型

混合胜算对数模型(mixed logit, MXL)的概念在1980年代的实证研究便出现过,但由于形式的多样,到了McFadden与Train(2000)才进行系统性的整理,且原先常用的名称叫混合多项胜算对数模型(mixed multinomial logit),直至Train(2003)后才有现行较通用的混合胜算对数模型。即便如此,现在在称谓上仍有学者习惯把它叫做随机参数胜算对数模型(random parameters logit)(如Greene, 2003)、随机系数胜算对数模型(如Louviere et al., 2000)或误差成分胜算对数模型。

MXL模型与一般多项类别模型不同的特色是,它所估算的系数并非固定常数而是一种随机参数,会依不同行为者的不同属性而异。以Revelt与Train(1998)、Train(1997)等从随机参数的设定来看MXL模型,其随机参数βi包含固定的平均系数b及不可观测的随机个人异质偏好ei,由于βi无法实际测量到,此时模型实际上可说是在估算βi的分布状况。将这个架构带入行为者i选择j选项的效用函数,可得:

Uij=Vijij

=xijβiij

=xij(b+ei)+εij

=xijb+xijeiij

由于xij代表的是一种与εij互不相关的误差项,因此可将MXL模型的效用函数改成下列较常见,并且强调误差成分的形式:

Uij=xijb+ηijij

MXL模型最关键的特征,便是ηijεij两项随机误差的设定。其中εij的分布仍属相同且独立的第一型极值分布,与MNL模型的假设一致。至于另一残差ηij彼此具异质性并容许与选项相关,会随着不同行为者与不同选项而改变;最重要的是,ηij实际分布可依不同研究旨趣与学理进行设定,没有限制特定的分配形态。除了可像MNP模型假设为常态分布外,也常有研究设定为对数常态分布、均匀分布或是三角分布(triangular distribution)等。借由这样的残差结构可以看出,MXL模型与MNP模型一样,是透过相关性与异质性的误差项设定,使得模型放宽了对IIA的限制。

MXL模型虽开放残差项ηij可以有不同分布的可能性,但模型的预期机率仍可用一般形式表示如下:

Pij=∫Lij(βi)f(βi| θ)dβi

其中Lijβi)是在特定参数下的胜算对数,其值为:

f(.)是根据不同分配状况下的机率密度函数,须注意的是此时的选择机率是取决于描述βi分配的平均值、共变异等参数值θ,所以是用fβi)来表示βi的密度函数。由于MXL模型拥有两种不同的误差分配来定义机率密度函数,此一函数可视为混合的机率分布。

最后值得一提的是,MXL模型与MNP模型的积分式一样属于开放模式(open form),不像一般模型在参数校估出来之后,无须透过数值积分技术即可直接算出机率,而且此时机率的多重积分无法透过准确的最大概似法完成,所以MXL模型参数校估方式也需采最大模拟概似法来完成。

(四)小结

上述NL、MNP与MXL三种模型各有千秋,从处理IIA问题的角度来看,除非改采进阶的一般极值模型,基本的NL模型仅放宽部分选项的替代形式,特定群组中的选项仍受IIA的限制,加上无法处理定群追踪资料及个体异质性的问题,使它在这几种模型看似较居劣势。不过NL模型是当中唯一属封闭模式的模型,可较精准估算出选项机率,MNP与MXL模型都需采最大模拟概似法,估计出的参数虽具一致性与渐进有效性,但由于将机率的概似函数转换为对数的关系,其概似值是偏误的,只是随着模拟次数的增加偏误会变小。换句话说,使用MNP与MXL这两个模型特别需要依靠较多的样本来支持模拟次数,方可使估计值能趋一致性。

至于MNP与MXL两模型相较,McFadden与Train(2000)认为透过残差项分布的设定,MXL模型的结果可以趋近任何一种满足效用极大化的离散选择模型,特别是当系数呈常态分布时便可趋近MNP模型;相对来看MXL模型不像MNP模型局限于系数需具常态分布的假设,他们也因此认为MXL模型使用上较MNP模型更具弹性。再从演算过程的难易来相较,两模型模拟时随机抽取的途径不同,当MXL模型分配的向度少于选项数量时,其模拟过程使用的向度会比MNP模型少,由于多重积分的维度数会增加模拟结果聚合的困难,所以他们认为此时MXL模型参数的计算与校估会较MNP模型来得简单。