在讨论双变量分析的结尾,我们已经涉及到多变量了。
社会科学统计分析在近几十年的发展 基本上是围绕着多变量分析展开的。
在社会科学的教学领域,研究生阶段的 统计课程讨论的大多数是多变量分析。
比较极端的情形是每一个模型都是一门课程,因此在一个
小节的时间里,对多变量分析的内容我们甚至做不到走马观花,
而只能跑马观花。目的很简单,就是为同学们进一步地学习构建一个概念框架,
方便同学们沿着自己的兴趣去努力。这一节我们讨论多变量分析。
为了让同学们更加简单地理解多变量分析, 我们可以从多元线性回归开始,这个公式我们见过,对吗?
在这个公式中,有一个因变量,若干个自变量, 拟合的是一个因变量的变化,受到来自多个自变量的影响。
还记得在统计分析时我们构建的理解框架?
在统计分析中,变量的数量、类型、层次 直接影响到拟合事物之间关系模式时
对方法的选择。在多变量分析中,因变量可能有不同的类型, 连续的,非连续的;自变量呢,不仅可能有不同的类型,
还可能有不同的层次,这就使得在多变量分析中需要考虑的因素急剧增加,
也让模型变得更加复杂。不过不管怎样变化,
多变量的复杂分析,基本上都是在多元线性回归模型基础上的演变。
为此我们还是要依据变量的数量、类型、层次来讨论多变量的统计分析。
这幅图同学们应该记得对吧?在介绍统计分析的理解框架时用到的。
我们从这幅图涉及到的因素,及多变量分析模型开始。
从显变量、单层次、截面数据、单个因变量的情形开始, 这里我们限定了数据类型为截面数据,
也限定了变量的层次为一个层次,还限定了因变量的数量 为一个因变量,没有限定的是变量的类型、自变量的数量,
当然,多变量分析,自变量至少是两个,我们来看看在这样的 条件下有哪一些模型可以用来拟合事物之间的关系模式。
最直接的就是OLS模式, OLS是ordinary least square的缩写。
如果数据满足高斯假定,且变量为连续变量,或者模拟连续变量,就是
不管是不是连续变量,可以转换为模拟的连续变量,那么,
就可以运用最小二乘法原理构建多元线性回归模型 来拟合事物之间的关系模式。
OLS模式显然是把所有的自变量平行放置的, 有些情况下,事实并非如此,
比如一个人的教育获得,通常会与前一个阶段的情况 有关,一个人不可以不通过初等教育就直接接受高等教育,
虽然初等教育、高等教育都是受教育,可两组之间并不是平行的。
如此,自变量会影响到中介变量,中介变量 再影响到因变量,而不是自变量直接影响到因变量,
这样呢,就构成了因变量与自变量之间的路径。
在这个路径中,每一个箭头都可以被理解为一个简单回归模型的等号,
从自变量到因变量,就变成了若干个简单回归的集合。
这就是路径分析,路径分析就可以被理解为多个简单回归模型的接力。
路径分析的条件是因变量为连续变量,且满足OLS模型的条件,
路径分析用于解释自变量变化如何线性地影响了 因变量的变化,并串成一组变量间的关系。
如果从自变量到因变量的路径非常 清楚,可是不清楚每一个自变量对因变量的影响到底有多大,重要不重要。
假设我们有100个自变量,看起来呢,每个自变量都 可能对因变量有影响,显然,每个自变量对因变量的影响
不是等价的, 这样人类认识问题的局限就开始发挥作用了。我们不希望
列出100个自变量,而希望找到主要的自变量, 为此就需要对每一个自变量对因变量的影响到底有多大进行分析,
这就是因子分析,依然运用了违规分析的逻辑和方法。
因子分析模型,可以这样来理解。假设有k个自变量,
都是被标准化之后的变量,筛选自变量的模型可以记为,
在这个公式中,x是筛选的因子,
f为公因子,α为因子载荷, u为不能由公因子解释的部分。
这样呢,我们就可以获得每个自变量对因变量的因子载荷。
因子载荷的大小就是这个变量是不是留在模型中的依据。
在测量指标的建构中,因子分析是最常见的筛选指标的方法。
在很多情况下,因变量不一定就是连续变量,比如喜欢不喜欢就不是连续变量。
如果因变量不是连续变量,也 不可以转化为模拟的连续变量,那么就意味着因变量为定类变量,尤其是二分变量,
这就需要运用Logistic回归模型来拟合事物之间的关系模式。
Logistic回归的基本原理依然是基于线性回归模型的, 不过它计算的因变量是以二分变量的一个选项为对照,
分析另一个选项的发生比。我们来看例子, 教育对社会流动的影响,是社会流动研究领域的经典议题。
如果要证明随着教育程度的增加,向上社会流动的概率也会增加,
就可以用调查数据,用流动的、没有流动的两个组进行比较。
用向上流动的概率除以没有向上流动的概率,再取自然对数,
看这个数值与受教育程度、年龄和性别有怎样的关系。
用公式就可以这样表示,这里p是流动的概率,1-p是不流动的概率,
等号的后边就是回归方程式常见的表达方式了。
类似地,因变量为非连续变量, 二分变量是一类,
定序变量也是一类,对数线性模型又是一类;还有呢, 同学们在高级统计学中会接触到更加全面一些的内容。
现在我们来看看改变因变量的数量。还是 显变量、截面数据、一个层次,仅仅把因变量改为多个,
多个因变量的情形在现实生活中是很普遍的, 比如公共政策,几项政策的出台就会导致多个方面的改变。
在多个自变量、多个因变量的条件下,只要没有时间因素的影响,也不存在
变量的层次问题。如果因变量为连续变量,或者可以模拟为连续变量,自变量也
为连续变量,或者也可以模拟为连续变量,那么就可以采用典型相关分析方法。
同样,在多个自变量,多个因变量条件下,只要没有时间因素的影响,也不存在
变量的层次问题。同样,如果因变量为连续变量,或者模拟为连续变量, 自变量为非连续变量,
那么,这时候就需要采用多元方差分析了。
现在我们改变数据类型,还是显变量、一个层次, 不过呢,数据不是截面数据,而是历时数据,
历时数据就意味着时间在其中发生了影响,
在时间序列上就意味着初始自变量在某个时间节点上会影响某种变量;
再随着时间的推移,让我们看看现在的因变量, 简单地说,在自变量中,如果前一个时间阶段的变量的关系会影响到
后一个阶段,那么因变量与多个自变量之间的关系就构成了时间序列关系。
这就是时间序列分析的基本逻辑,用于时间序列分析的
有多个模型,具体的模型技术同学们还是到高级统计学的课程中去学习。
拟合事物之间关系模式,受到时间影响的,不仅有时间 序列模型,还有生存分析,就是在一个时间段内,
某个事件的存活概率的分析。
事件史分析探讨的是事件发生的方式 及其影响因素,可以被看做是生存分析的一个类型、
一个应用。在事件史分析中,又区分为离散实现模型和比例
风险模型等,综合运用了针对连续变量、非连续变量的分析技术。
还有其他的模型,同样,同学们在高级统计学的课程中会接触到。
这一部分的课程还没有结束,我们先休息一会儿。