我们知道了痕迹作为人类社会活动的印迹如何变成了数据,痕迹数据
从由痕迹数据化而转化为数据, 在传感器、互联网络、存储技术不断发展的今天,
变成了由传感器记录与传输 而无需另外数据化的痕迹数据。我们也知道了痕迹数据如何变成了大数据。
其实,在数据爆发性增长的今天,是不是大数据关系不大,关系重大的是
是由传感器记录并传输,由网络汇集的数据,小到一个小的机构,
大到类似于百度、谷歌这样的超大型数据机构,由上述方式汇集的数据 都是可以用于科学研究的数据。
随着传感器的发展,甚至可以说在未来的岁月里,得数据者 得天下。这一节我们讨论大数据的调查方法。
大数据的出现,不只是给商业界带来了惊喜,也为社会科学的研究提出了挑战。
Schönberger 和 Cukier 2012年的一部《大数据时代》甚至可以说搅动了社会科学的研究领域,
他们在书中提出的三个主张堪比社会科学的革命。
第一个主张:总体而非抽样, 自从统计学诞生以来,抽样被认为是获取研究数据的科学方法。
还记得我们在讨论抽样时提到过的L.Kish的观点? Kish曾经主张在美国取消人口普查,而代之以抽样调查;
无论是普查还是抽样调查,那都还是调查, 随着大数据的出现,
两位甚至干脆说在方法上可以完全运用总体数据而不是抽样数据,
对调查与研究而言,显然,那是具有颠覆性的观点。
第二个主张:效率而不是精确。
我们知道对社会调查而言,控制误差是数据质量的基础,
也是调查数据的生命线。对大数据而言,其特征之一就是速度,
如果用调查数据的完整性来思考大数据,那么大数据似乎不是完整的数据,
进而不是有质量的数据,可是,Schönberger 和 Cukier却说大数据的特征是速度快,
而不是数据精确,似乎是在说,在量足够大的条件下, 数据质量已经不是问题,问题是如何能够快速地
挖掘到数据中的金子。第三个主张是:相关而不是因果。
因果推断一直是统计学、社会调查与研究的目标之一,尽管抽样
调查是用样本推断总体,不过呢,还是希望发现事物之间的因果关系,
发现因果,才可以用于干预、预测,可是,Schönberger 和
Cukier却说, 大数据的重点已经不是因果推断了,而是速度从整体数据中发现变量之间的相关关系。
我们知道事物之间的关系模式有两类,一类是相关,一类是因果,相关
相关是因果的条件之一,如果知道相关,也就为因果 提供了条件,两者之间不一定是非此即彼的关系。
不管大家对这三个观点有怎样的评论,我个人 也有不同观点和看法,比如说我对这三个观点就不完全赞同,
总体和抽样并不矛盾,
效率和精确也不矛盾,相关和因果更是 相辅相成,不过知道这些观点影响甚大是重要的,
由此看来,大数据似乎与其他调查的基本假设完全不同。
我们知道社会调查与研究方法中的其他调查与研究方法的基本假设,
是假设检验,有了大数据是不是就可以进行总体归纳了呢?
是不是就可以运用自然科学中的重复检验了呢?是不是就可以不要假设检验了?
我的观点是尽管大数据看起来是总体, 似乎可以运用总体数据进行归纳,
事实上,即使是通过总体数据进行归纳,也需要有假设, 假设事物之间的关系模式,
更何况大数据并不是直接可以运用于研究的 数据,而是原始数据,是需要经过加工的数据,
没有假设,怎么样去清理数据、加工数据呢?
或许我还陷在传统数据的思维之中,不过呢,就我观察到的大数据利用而言,假设检验还- 是基础,
尽管对大数据的利用方式不同,比如说对大数据重在发现, 而不是从样本推论总体,不过研究活动的属性
并没有改变,那就是发现事物之间的关系模式, 把握事物之间的关系模式。
了解了大数据的这些特征,一个紧随的问题就是大数据还需要调查吗?
如果把调查仅仅当做是数据采集,的确,大数据 是已经采集好的数据了,无需调查;
但如果说调查还意味着围绕研究 问题找到合适的数据,那么大数据就需要调查,
不过这个调查不是采集数据,而是选择数据。
大数据的特征让任何个人 都无力去采集数据,采集数据的都是机构,刚刚兴起的
刚刚兴起的大数据应用主要是机构性的、尤其是商业机构, 互联网络相关的商业机构,或者政府机构。
学术研究,似乎还没有走到以PB级数据为研究数据的程度,即使是
看起来有学术性的研究,比如谷歌的流感模型,那也是谷歌公司用谷歌的搜索数据进行的研究,
至少到目前为止还没有学术机构声称直接在运用大数据做研究。
其次,学术研究是否需要利用到PB级以及以上的数据,
本身就是一个疑问,到目前为止,社会调查与研究更关注的是来自于大数据的数据,
从大数据中提取的研究用数据,并非完整的大数据,而是大数据的样本,
当然,这个样本不是严格抽样意义上的样本, 而是大数据中具有样本意义的数据。
在个人计算机或者服务器上可以处理的数据, 这样访员不再需要向调查对象或者人去搜集数据,
而是向数据、向机器去搜集数据。
我们来看例子,Gary King是哈佛大学IQSS的 主任,也是运用大数据中的数据做社会科学研究的代表人物之一,
2013年他和同事发表了一篇文章,讨论中国社会的沉默表达,
数据来源就是从中国1382个社交网站上爬取的数据,
注意,他不是直接从社交网上获取的数据,而是运用网络工具爬取的数据,
也就是从大数据中获取的一部分数据,爬取就是调查的一个方式,后边会讨论。
接着再看例子,我,北京大学的 团队,阿里巴巴的团队共同做了一项研究:谁在开网店。
我们运用了两部分数据,一部分是从淘宝平台后台提取的数据, 从大数据中
抽样获取的数据,一部分呢,则是以提取的数据为抽样框,用这个抽样框
进行抽样调查的数据,显然,对这些数据的利用,采用了抽样原理。
再看一个例子,严洁教授等人运用CFPS的并行数据,
访员行为的数据进行研究,发现了访员的臆答行为, 这个数据显然不是大数据,没有达到PB级别,而是痕迹数据,
可是在数据特征上,除了体量不大以外,其他的都 与大数据的特征一致。
从这些例子我们已经看到大数据,从大数据中抽取的数据,以及运用痕迹数据的可行性。
为了更好地利用大数据,我们需要知道大数据可能来自于哪些领域。
我们已经知道大数据是通过传感器采集的, 之前说的还是一般意义上的传感器,不是特定意义上的传感器,
仅就特定意义上的传感器而言,其增长速度也是惊人的。
2005年,射频识别的传感器数量只有1.5亿个, 而到2010年就已经增加到了30亿个。
由这些传感器采集的数据的量那是可想而知的。
除了传感器,互联网络的发展是大数据
又一个重要来源。谷歌每天处理大约24个PB的数据;
百度每天新增10个TB,处理100个PB的数据,总量接近了1个EB。
移动终端的发展让社交网络成为大数据的重要来源。
脸书每天处理25TB的数据;推特每天处理7个TB的数据;
腾讯每日新增200到300个TB的数据,压缩后的总量已经达到了100个PB。
还有数字化的通信,中国移动每天产生10个TB以上的话单,
30个TB以上的上网日志,和100个TB以上的信令数据。
还有数字化、网络化的金融,每个交易周期纽约证券交易所捕获
1个TB的交易数据。还有电子商务,仅就零售而言,淘宝每天的
订单都会超过1000万单,阿里巴巴的数据积累已经超过了100个PB。
其实科研也产生大量的数据, 只是到目前还限于自然科学研究领域。欧洲核子研究
研究中心的强子对撞机每秒产生40个TB的数据。
政府也掌握了庞大的数据, 斯诺登事件已经说明美国政府运用其技术优势在世界各地通
通过互联网络的骨干网,收集各类数据,据说美国政府拥有 800个TB以上的数据,这应该是最保守的估计。
为了给同学们一个大数据的印象,我们以每分钟为例,看看都有哪些数据。
这是英特尔公司做的一份示意图,2013年一年一共产生了四个ZB数据,
一分钟基于IP的数据传输量达到了1.5个亿B,
其中呢,基于谷歌的查询就有四百一十万条,微信的信息达到一千万条,
短信达到三千四百七十万条,课后大家可以仔细看看这幅图,还是蛮有意思的。
再看看纯粹社交类型的数据,谷歌搜索是一样的,四百万次。
发出的邮件达到两亿封之多。
推特数据二十七点七万次,同样,如果大家有兴趣,课后也可以做一些探讨。
用这两幅图,我希望说明的是大数据已经逐步的
在进入各个行业和领域,不过究其类型,在目前大致有第一类,社会网络数据。
比如微信,微博,人人,脸书等等。
还记得Garry Ken的研究,说在中国有一千多个社交网站,到底有多少,还真 不知道。第二类,人机交互数据。
比如网购,网游,网娱,工作,交通,医疗等等,只要是人与
机器交互的都有可能汇集为大数据。
第三类是狭义的传感器及其机器数据。
比如GPS数据,智能电表,智能交通,计算,实验数据等。
这些就是主要的大数据领域。
对这些数据,我们怎么调查呢?与其他调查一样, 同样需要准备,前提还是要把研究问题操作化,
只有操作化,才知道研究变量。只有知道研究变量,才知道选择什么数据。
因此,运用大数据,同样需要研究假设,需要假设事物之间的关系模式。
同样需要把研究问题操作化为变量之间的关系模式,变量同样要操作化,
与其他问题一样,操作化就是要明确调查研究的变量。
尽管大数据含有非结构化的数据,不过这里的非结构化,仅仅指,
接近于数据内容的层级的非结构化,或者说内容的非结构化。
而不是所有层级都是非结构化的,这一点一定要澄清。
明确要调查的变量,就是明确含有变量数据的数据层级。
比如,微博,某用户微博的内容是非结构化的,但是,
某用户的ID,则是结构化的数据,是用户变量的一个属性值,
获得用户的所有微博内容,尽管是非机构化的, 只要有内容,就为结构化提供了条件,为
分析提供了原始的数据。如果准备好了,接下来就是实施, 实施的方法要看数据的来源,不同来源的数据有不同的实施方法。
如果希望直接运用大数据,那就必须与数据
拥有机构来合作,在中国,有数据的机构不少,有大数据的机构不多。
几大主要的互联网公司,是主要的大数据拥有者,比如bat,
百度,阿里巴巴,腾讯,还有新浪搜狐等。
如果希望在大数据中抽取数据,既可以和数据拥有公司合作。
比如,我们在开网店的时候,就是和阿里巴巴的几个部门在合作,
如果不能喝数据拥有公司合作,那么就可以运用一些技术手段, 比如使用网络爬虫,对拥有大数据的机构而言,
每一类数据,如果是可以提供给社会的,一般都提供了某些数据接口, 运用网络爬虫,
通过数据拥有机构提供的数据接口,就可以获得相关的数据。
GarryKen的数据研究应该就是采用这样的方法所获得的数据。
当然如果有接触渠道,直接请数据拥有机构,提供样本数据是最好的。
与其他的调查比较,如果说其他调查 是通过选择对象,通过提问,通过观察来搜集数据的。
那么在大数据中收集数据,则是通过选择数据
来搜集数据,可以认为这是大数据调查与其他调查最大的区别。
听到网络爬虫这个名字,可能有同学有兴趣马上去自己尝试,
如果大家有计算机学科的同学,我建议课后可以找找有计算机技术的同学, 让他们手把手的交,是入门最快捷的方式。
在此之前需要同学们知道什么是网络爬虫, 网络爬虫又叫网页蜘蛛,网络机器人,是一个自动下载网页内容的计算机程序。
根据要抓起的目标,有选择的访问互联网上有 相关内容的网页及相关链接,进而获取调查相关变量的内容。
网络爬虫采集数据的原理很简单, 收集数据的研究者,要根据需要编写网络爬虫脚本。
各种脚本都有,把编写好的脚本提前测试,
在测试没有差错的条件下,部署到某个再现的计算机或者是服务器上运行。
网络爬虫就会把从互联网上获取的网页信息,
存储到建好的网页库,在网页库的基础上呢,再建立索引库。
这样,原始数据就准备好了,有了这套原始数据,就可以进入数据的整理和清理环节了。
看起来,从大数据中获取数据有点不大像调查。其实不是,那就是调查,
只是与传统调查有不同罢了。
与其他的的调查比较,对数据化了的痕迹数据调查,没有了访员,
至少是没有了大规模的访员队伍,这是最大的变化,没有了访员自然也没有了督导员,
甚至没有了受访者,即使数据拥有机构为我们提供数据,那也不是受访者来做应答。
还有呢,没有了设计者与调查者之间的区分,
通常,找数据拥有机构要数据的人就是研究者或者研究团队的成员。
重要的是增加了计算机程序员,在计算机辅助调查中, 我们有程序员,不过呢两类程序员的目的是不同的。
在计算机辅助调查中,程序员是开发调查应用程序的, 而在大数据调查中呢,程序员更多的是在帮助研究者。
通过计算机获取数据,清理数据。
下边我们把这一节的内容做一个小结, 痕迹数据要调查吗?是的,不做调查就没有研究数据。
大数据还需要调查吗?回答是肯定的。大数据 对研究而言,就像一团乱麻,不仅乱,而且
体量极大,超出了一般计算能力的范围。
对大数据的调查有两种途径,要么 使用一个时间节点的全数据,要么使用一个时间节点的抽样数据。
两种途径,如果能够与数据拥有机构合作,就再好不过了。
即使数据拥有机构可以提供数据,也许要知道提取什么样的数据,
因此,把研究问题变量化,明确与变量对应的数据 非常重要。
如果不能,也可以通过网络工具获取抽样数据, 但却无法获得全部的数据。
这一节的内容就到这里,下边我们把这一周的内容做一个小结。
总体而言,这一周的讨论都是在讨论文献调查,不过前