厦大数据挖掘中心|大数据时代对传统统计学变革的思考之二:大数据给统计学带来的发展

2016-04-07 管理员

统计学的优势在于“以小见大”,但容易产生误差等问题,对于大数据来说,可以利用更多甚至是总体的数据来克服这个问题。

统计学可以与大数据进行合作,做到以小见大、由繁入简,在大数据的基础上大大提高统计效率、模型拟合度和推断准确性。

下面就从五个方面来说明大数据给统计学带来的发展。

   1.统计质量提高

1996年,国际货币基金组织制定了数据公布特殊标准(Special Data Dissemination Standards,简称SDDS),通过规范统计指标概念范围、数据来源渠道、数据编制方法以及数据发布程序,更准确把握相关经济体资本进出、外汇储备、产业数据,以增强经济监测能力。

据此,我们归纳出四个原则来把握统计质量的内涵:适用性、准确性、时效性、平衡性

适用性

适用性是指收集的统计信息符合用户的需求,使统计信息最大化地满足用户。大数据的广泛覆盖性能够很大程度上满足适用性的原则。

以消费者物价指数(CPI) 为例,传统的价格统计涉及的商品和销售点种类繁多,且随着社会的发展、经济的进步和人们消费观念的改变,数据是动态的,必定会产生很大的误差,使得统计工作者不能保证统计数据是否适用于用户的需求。而基于大数据的“在线价格指数”不再必须通过样本进行分析,统计数据可以包含所有的商品和线上销售网点,可以实现通过总体进行分析,使统计误差大幅度下降。

时效性

传统统计数据具有滞后性和低频率等缺点,大数据由于其来源为信息网络,具有及时性和时效性的优点。

仍以CPI为例,CPI 的发布频率为每月,如我国的 CPI 通常在每月9日发布上个月的CPI,由此可见,CPI的发布存在滞后;而“在线价格指数”能够根据市场的变化对价格进行即时的更新与汇总,提高了统计信息的时效性,并且“在线价格指数”的频率可以从每月提高到每天甚至更高,据此分析出来的通货膨胀规律相比传统统计准确率大大提高。

准确性

准确性主要指估算值与“真值”之间的差异度。实际上所谓“真值”是不可知的,一般目标为保证统计误差在可接受的范围内变动,据此保证统计的准确性,通过分析抽样误差、人为误差、计数误差、模型设计误差等多个对准确性产生影响的因素,测算统计估值的变动系数、标准差、协方差等。

由于大数据的全面性,因此可以通过减小统计过程中的人为误差保证统计结果的准确性。

例如,传统样本搜集方法中,受调查者会有意、无意地对真实情况进行掩饰。大数据可以在受调查者无意识的情况下收集他们的真实信息、获得数据,如手机现在已经成为人们必不可少的工具之一,当移动通讯用户带着手机进行出行、吃饭等一系列日常活动时,移动通信商就已经在用户无意识的情况下通过跟踪定位手机采集到了用户的位置信息。这种方法获得的数据显然比传统调查方法所获得的数据更为真实准确,从而在此基础上的统计分析结果更为可信。

平衡性

平衡性,即协调性,在统计学中指数据的协调能力。

造成数据平衡性缺失的原因有很多,比如使用数据者对数据的理解与发布数据者有差异。大数据时代通过网络数据资源,有助于数据平衡性的提高。根据SDDS的第二条规则,在公布统计数据的同时,在统计框架内公布有关总量数据的分项,并公布有关数据的比较和核对方法与结果,有利于支持和鼓励使用者对数据进行核对和检验,借此提高数据平衡性。

2.统计成本降低

统计成本是进行一项统计调查或开展统计工作所实际付出的代价,为统计工作过程中耗费的人力、财力、物力的总和。下面从调查方法与数据利用率两个角度来阐述大数据时代统计成本的降低。

从收集数据的方法来看

传统统计收集数据的方法主要依靠调查,如调查问卷、电话采访,或者通过查询统计报表。开展一次普查,可能就要动用全国之力,这些方法都存在其缺点,准确性得不到保证,并且统计成本相当可观。

在大数据时代,数据的获得途径为信息网络、移动通信等。因此从统计成本的各个要素来看,大数据时代的统计成本会大幅下降,且可以得到更大规模、更高准确性的数据。

从所得数据的利用率来看

传统统计中,统计资料的失效过期是一个长期无法得到改善的问题,即使是依靠巨大的财政以及社会投入取得的大量的普查资料,因其开发方式单一传递被动以及向公众发布的手段方式的局限,往往得不到及时广泛的利用。

在大数据时代,对数据的初始收集就没有很强的目标性。首先,数据可以服务于多个研究目的,无需再根据目的来重新收集数据;其次,数据被多次利用意味着数据价值的增加;再次,相比于传统统计,每个统计目的收集数据的成本会大幅下降。

3.统计学科体系延伸

大数据时代,对于统计学的发展我们应该用发展、辩证的眼光去看待,统计学应当在大数据的思想框架下构建新的学科体系。

将大数据总体统计的思想和方法纳入统计学学科体系是非常必要的。样本统计对样本的要求是能够正确的代表总体,这就要求总体的观察单位必须是同质的,在现实生活中这种理想情况是不容易达到的,而基于大数据的总体统计恰好能够弥补样本统计的这一不足之处。

数据挖掘(Data Mining

又称数据采矿,是数据库知识发现中的一个步骤,一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。涉及机器学习、人工智能、模式识别、数据可视化等模块,也属于数据处理的范畴。因此,统计学应该对其进行充分的利用,将统计学原理应用到数据挖掘的技术中。

当今大数据时代,统计学也应与计算机紧密结合,以数据挖掘为契机,进一步延伸和完善统计学科体系,培养具有现代统计技术、数据挖掘技术与计算机技术的复合人才。同时,统计学不仅要注重与其它学科的结合,更需要注重自身学科的提高,在原理、技术、方法等方面认真钻研,与时俱进,谋求创新与突破。

 4.统计学作用扩大

传统统计由于成本、观念等问题的影响,主要用于行业和部门的统计,为其制定、完善政策服务。

在大数据时代,统计学不仅可以在统计领域得到更为快速的发展,更可以将统计原理与方法应用到其他学科,如金融、医学、计算机等,使统计学发挥更大的价值。

以数据分析为例,我们应该看到,计算机同数学一样,都可以作为统计分析的工具。数学可以为统计学提供更坚固的理论基础,计算机则可以使得统计分析更加方便快捷,并能够解决复杂的数据处理问题。

当今社会是一个信息社会,由于计算机和网络的普及,使得信息传递的质量都发生了根本性变革。离开了计算机,统计学的发展也会停滞不前,因此,统计工作者需掌握的不再局限于传统统计学,也应扩展知识结构,掌握必要的计算机知识,如数据库、数据结构、统计软件、算法设计、程序编码等等。如此一来,无疑会大大丰富统计学发展的内涵,更大地发挥统计学的作用。

5.统计学专业就业需求提升

大数据对统计专业学生的就业起到了相当大的改善作用。当今社会,无数的行业,包括政府、企业、个人都希望能从大数据这座金矿中挖掘出金子,但只懂得行业知识对于数据挖掘来说是远远不够的,还需要与专业的数据分析技能相结合。在大数据时代,统计工作者和数据分析师利用自己的专业优势,将各种不同类型的数据转换为有价值的信息,对行业的发展起到了促进作用,并可以提高各行业专家的思维水平及其工作效率。在未来,统计工作者和数据分析师的作用不容小觑,他们的地位也必定会得到大幅度提高。

众所周知,我国统计工作领域的三大巨头是政府统计、部门统计、民间统计

传统意义上,政府与各个部门是统计学的学生就业的首选。然而,随着大数据时代的来临,越来越多的毕业生选择发展空间更为广阔的民间统计。

民间统计是相对于政府统计来说的,涉及范围十分广泛,如通过收集市场调研的数据,对其进行分析,帮助公司高层做出更理智的决策;再如通过对病人的数据进行处理分析,帮助医院找到更为合理的治疗手段等。包括各类统计咨询公司、统计调查公司、统计研究院等,介于市场和企业、行业之间,通过民间统计,企业可以做出更为理智的决策,市场可以得到更好地发展。

民间统计形式灵活,涉及范围广,已经有越来越多的企业、医院等机构看重其作用,民间统计的发展前景十分广阔。不难想象,随着大数据时代的来临,统计学作用的提高,民间统计必会成为统计专业选择就业的主要渠道之一。

本文资料来源于《大数据时代对传统统计学变革的思考》,《统计研究》2016年第2期。作者:朱建平、张悦涵

厦门大学数据挖掘研究中心

链接:

大数据时代对传统统计学变革的思考之——大数据时代下,传统统计学有哪些变革?

http://mp.weixin.qq.com/s?__biz=MzA3ODgxNjE1MQ==&mid=403051301&idx=1&sn=0c1c1d6561ce91d3ac2b85acec070297&scene=0#wechat_redirect