![社会及行为科学研究法(3?资料分析)](https://wfqqreader-1252317822.image.myqcloud.com/cover/924/23667924/b_23667924.jpg)
二 回归模型的设定
(一)确认依变项的分配
进行回归分析的先决要件是依变项存在有变异量。一个不具变异而为常数的依变项,因为常数为恒定的数值,因此只能被不具变异的自变项来解释,此为逻辑学中的一致法,此法运用在质性的研究方法上十分常见,却不适用于回归模型的量化分析。
进一步来说,回归分析亦可视为是对依变项的变异数进行正交分割(orthogonal decomposition),切割成解释变异和误差变异两部分:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0059_0001.jpg?sign=1739540154-UHOjqryQZPzwMamdlLCB5bGAsL4jodeM-0-43d0e375b5c655418916b572389e1e5b)
倘若依变项的变异数为0,那么就无法进行变异数正交分割的运算,也不能对回归模型进行分析。正因为依变项的变异数在回归分析中是主要的分析标的,我们必须要先能定义依变项的统计分配,否则无法得知其变异数的数学定义,回归分析遂无法进行。采最大概似法的观点,倘若欲求的回归系数假设为已知可得资料和模型假设为E,由于分析对象为概似函数值L(H),按定义为依变项的事后几率P(H|E),因此估计上需要知道依变项的几率密度函数,亦即要能定义依变项的事前统计分配P(E|H)。
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0059_0002.jpg?sign=1739540154-Q1LpL6FoF7blnKSalkloaITv74PGHpWN-0-1a4587a5d104362c49042927f6689f06)
此处由于资料和模型假设已知,所以P(E)为1,同时从主观几率论的观点来说,既然我们心中对任何参数值假设的真确性毫无所知,因此P(H)为一定值,其数值等于1除以所有已知参数值假设的个数,所以:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0059_0003.jpg?sign=1739540154-YFRtD8vH2lFLEfy2CgDgc8qIp1zxF44t-0-3b79be6b5989d4ffc55fa900a0811c0f)
此即概似原则(likelihood principle)。
如果依变项的分配形式未知,一般做法会将依变项径自设为常态分配,来定义其基本统计性质。表面上虽然看不出有确认依变项分配的需要,但是透过对于依变项变异数和几率分配函数的主张,事实上已经预设了依变项的基本统计性质,而这点亦适用于一般被认为不具统计分配假设(distribution free)的简单线性回归模型。关于此,请参考延伸阅读1中高斯马可夫定理的说明。
(二)设定回归模型的函数形式
回归模型的基本函数形式可分为“线性”和“非线性”两种。由于本章主要讨论的范畴仅限于线性回归模型的函数形式,关于非线性的部分,请参考本书“类别依变项的回归模型”一章或Bates与Watts(1988)。
在线性回归模型中,若自变项矩阵以X表示,回归系数向量β表示(当x与y以不加上下标的小写表示时,是指称抽象的自变项与依变项,若加了下标,则指特定观测值或变量名称),如果加进依变项向量Y和误差项向量e,完整的线性回归模型可表述为:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0060_0001.jpg?sign=1739540154-lhnd4dtrRak2ABoviF2HRpSomhRHB8qI-0-efcdbe8dfa52ee84f95abcc1247edbe8)
在回归系数向量β中,除了β0表常数项或称为截距项外,其他的βi皆代表自变项与依变项之间关联性的大小,称为β系数(beta coefficient),在母体中是具有固定数值的未知参数。简单来说,如果β系数的值为正,则自变项与依变项间有正向的共变关系,若为负,则关系为负向,而如果为0,代表自变项和依变项之间完全独立,两者不具有共变的关系。
从概念上来说,式(2-4)所显示的函数关系,可以诠释为:
![](https://epubservercos.yuewen.com/C22FA2/12421582404562106/epubprivate/OEBPS/Images/figure_0060_0002.jpg?sign=1739540154-PW0Qiv3Vhobkhh1Er8klIwCdNy9VZB1T-0-a416cd56e7359f598eaa5c837881143d)
因此,Xβ代表的就是研究者基于理论所提出可解释依变项的研究假设,而误差项e则是基于特定推论方法下,现实经验现象和研究者所提理论假设两者间所产生的歧异程度。而针对回归系数的诠释,可将β0视为“不在模型中列举的自变项对于依变项预测所产生的固定数值”,而将βi视为“变动一单位自变项xi所伴随而来依变项变化βi单位的效果”。
关于自变项的分配假设,在没有明确规范的条件下,一般假设为连续性的常态分配,但实际上这个假设常常不成立,不管是自变项为离散的二分或多分变数,或者自变项在值域上存在着有限界域性。此外,在一般线性模型中,研究者进行推论时多半将已搜集到自变项资料视为固定数值(fixed value),而不论其背后的分配性质会对于回归模型产生怎样的影响。在本章中,只要没有特别提及,都预设这个前提是成立的。
此外,当有任一自变项为离散分配时,则回归模型与变异数分析(ANOVA)和共变数分析(ANCOVA)都可由一般线性模式(general linear models, GLMs)来含括。在参数推估时,除了自变项回归系数β外,同时也会针对离散分配的自变项进行变异数成分(variance components)的估计,因此会对于回归系数和变异数成分分别进行t分配和F分配的检定。
(三)误差项的设定
在多数的情况下,回归分析中对于误差项是假设为随机性误差,有别于系统性误差,“随机性误差”指涉的是回归模型和经验资料间的歧异纯粹是“偶然的”,没有一定规律可以来预测误差发生的大小和方向,然而“系统性误差”所指涉的是,即便我们不一定知道回归模型和经验资料间的歧异来自哪些因素,但大体上我们可以找出误差的大小或者是方向,因此误差是具有“系统性”的。
如果在回归分析中的误差项是具有系统性的,那么回归模型的解释就会违反了“不偏性”,即回归模型的预测值跟现实结果是有偏差的,因此一般都假设误差项是随机的。不然的话,就应该将系统性误差的部分从误差项中提列出来,纳入回归模型的设定中,由常数项或自变项来解释。而这种做法也反映在主张自变项和误差项为相互独立的经常假设上。
尽管如此,在某些情形下,有时候研究者希望使参数估计较有效率(变异较小),而会选择牺牲“不偏性”这个良好的统计性质,比方说在“阶层线性模式”的参数估计中,Dempster、Rubin与Tsutakawa(1981)就提出了具有偏误但比较有效率的估计方法,而至今仍被广为接受而成为通解。
此外,当资料的构成特性涵盖了不同层次变量,具有群组的特质或时序先后性等,或是模型本身在依变项和自变项具有内生性(endogeneity),此时无法假设误差项为随机的,必须将误差项纳入模型设定来进一步分析。通常上述的分析工作都要应用到比较繁复的进阶模型,比方说“阶层线性模式”“时间序列分析”“结构方程式模型”等。