大数据与统计学理论的发展研究

2017-05-01 管理员

项目名称:大数据与统计学理论的发展研究

立项时间-结项时间:2013-2017

立项来源:国家社科基金重大项目

(1)项目背景

大数据时代是建立在互联网、物联网等现代网络渠道中广泛大量数据资源收集基础上的数据存储、价值提炼、智能处理和展示的信息时代。一方面,大数据通常是由来源、主体或格式不同的数据合并而成,例如来自不同地区的调查数据,来自不同市场的金融数据,来自不同实验室的基因数据等,具有高维度、噪声多等特点。另一方面,大数据引起的巨大计算量使得传统的数据挖掘算法已经无法有效地从这些大数据中挖掘出有价值的信息。

随着大数据时代的来临,统计学的发展进入了一个新的阶段。统计信息的获得不再局限于电话调查、问卷调查等高成本、低收益的方式,而是可以借助网络、移动通信等方式。同时,数据的质量也不再受到主观因素的限制。由于大数据的产生,使得统计学的定义、思维方式、作用都不同于传统统计。既给统计学科带来发展壮大机会的同时,也给统计学科带来重大的挑战。

(2)调研内容

本研究主要开展了以下五个方面的工作:第一,大数据下的统计理论体系研究,基于统计学的视角分别从大数据下的统计理论体系研究、大数据下的数据集综合分析、大数据下的高维变量选择方法、大数据下的统计并行计算方法等4个方面着重回顾和评述了相关研究,辨析了大数据的概念,澄清了大数据的认知误区;第二,大数据下的数据集整合分析研究,研究和梳理了惩罚整合分析方法的原理、算法和研究现状,提出了异构模型的整合分析、一种基于整合分析的正则化的标示选择和估计方法以及有针对性的整合分析方法,研究了整合分析和惩罚标记选择的异构模型和同构模型;第三,大数据下的高维变量选择方法研究,研究基于惩罚因子的高维变量选择方法,主要包括四个方面:一是基于组结构(group structure)的变量选择方法,二是基于网络结构(network structure)的变量选择方法,三是综合分析(integrative analysis)的组变量选择方法,四是基于惩罚函数建立模型;第四,大数据下的统计方法并行计算研究,充分利用MapReduce分布式集群强大的计算能力,对传统的数据挖掘算法MapReduce化,加速复杂的数据挖掘算法的性能,使其能够用来有效地分析大数据;第四,大数据下的统计方法应用研究——网络舆情分析,梳理了网络舆情分析的一般步骤,分别讨论了主题模型及其改进方法、关联分析及其扩展方法、基于词典、统计学以及深度学习的情感倾向分析方法在网络舆情分析中的应用,剖析了大数据舆情技术在三个领域内的应用。