[转载]我们为什么要研究“大数据”?

2012-12-29 中心编辑

作者:潘璠(国家统计局统计科学研究所所长)

两个多月前,联合国统计司张保罗司长在中国国家统计局做了一场有关大数据的报告。随后,笔者在《中国信息报》就此发表了一篇题为《面对大数据,要有大智慧——听张保罗司长讲那大数据的故事》的视点文章。此后不久,国家统计局成立了课题组,专门研究大数据现象及问题。笔者也置身其中。近两个月来,在其他各项工作依然繁忙的同时,我和我的一些同事们见缝插针,看了一些书籍,听了一些讲座,走访了一些单位,请教了一些专家,举办了一些座谈会,参加了一些培训班。虽然开卷有益、三人行必有我师,收获总是有的,但与我自己的期待,确实还有不小的距离。

我们为什么要关注大数据现象、研究大数据问题呢?或者换句话说,我们研究大数据问题,要从哪些方面入手呢?我以为应该有三个层次。其一,我们的工作生活中,或者说我们的整个社会,我们赖以存在的客观物质世界,现在存在着哪些大数据现象?其二,现代信息技术对大数据现象的处理能够达到什么程度和水平?也就是说,现在可以实现的各种技术手段可以对大数据进行什么样的处理?第三,纷繁的大数据现象以及可能做到的对大数据的技术处理,可能和可以对政府统计产生什么样的影响?而应对这些影响,政府统计工作应该做哪些调整和改进?

坦率地说,关于第一个层次,我们已经看了、听了很多很多。无论是谁,无论是写的还是说的,列举的现象确实很多很多。比如商场超市每一种商品的成交价格,比如电子商务、网上购物的每一笔交易记录;比如银行的每一个储户信息,比如储户们的每一笔存取款记录;比如在民航系统购票的每一个乘客信息,比如高速公路进出的每一部车辆情况;比如每一个病人在医院里的电子病历,比如医生为病人开出的每一份电子处方;比如一个常驻人口在一个城市内的走来走去,比如一个流动人口在不同省际间的来来往往……做为海量的、快速的、连续的、非结构化的网上数据,我们已经处在大数据无处不在、俯拾皆是的时代了。

至于第二个层次,看到的、听到的就比第一个层次要少得多了。虽然也有这样的说法,就是“不怕做不到,就怕想不到”,但想象毕竟要有物质作为基础。笔者在堵车时曾无数次想象,能不能把这些汽车设计和制造得既可以在地面上跑,也可以在空中飞,且可以自动躲避建筑物和其他的飞行器?显然,即使技术上可以达到,但成本昂贵得几乎不值得尝试。同样,在大数据技术的研发方面,一是做得到做不到?二是做得到值不值,有没有意义?假使我们可以掌握一个城市每一笔销售的每一件商品的价格,我们是否有必要将其带入一个复杂、庞大、几乎是天文数字的计算公式中去计算CPI呢?答案是否定的。张保罗司长告诉我们,新加坡政府统计部门可以拿到这些记录,然后,也还是要在此基础上进行抽样和推算。

最为关键的是第三个层次,就是政府统计如何应对的问题。对已经纳入政府统计的各项工作而言,无论是大数据应用还是其他的改革措施,都要考虑,一是是否能提高工作效率,二是是否能提高数据质量,三是是否能减轻被调查着的负担。只要符合这三条中的一条,就值得去努力和尝试。此外,还要考虑大数据洪流中有哪些有意义的信息,可以被纳入政府统计当中来。就政府统计已有的纳入制度的各项工作内容来看,看得最清楚的就是CPI的计算。其好处或许会在提高效率、质量和减轻负担方面兼而有之。但鉴于中国的CPI的价格,相当一部分还要取自没有纳入大数据洪流的集贸市场,所以不可能仅通过大数据处理毕其功于一役。至于其他的领域和新增的内容,恐怕还有待于观察和研究的深入。一位美籍华裔专家说,很多领域国外起步早,中国人跟在后面追。大数据问题,现在各国的水平都差不多。中国能不能也走在前列?要回答这个问题,也还需要不懈地努力。

(载于2012年11月27日)

来源:http://blog.sina.com.cn/s/blog_5427596d0102dzy6.html