中心“大数据系列丛书”之三:《文本挖掘技术及其应用》正式出版

2016-04-18 管理员

如何来认知这个世界?

互联网时代的到来,为人们认知世界带来了新的思路。

文字是记录信息的图像符,它是人们记录不可或缺的工具之一。人们常说“字如其人,人如其字”,我们做了大胆的假设:“如果收集到某个人的全部文字资料,基于大数定理对思想,就能刻画出这个人必然而非偶然的特征”。

将这假设横向延伸开来,对于某些社会问题的全数据集(数据、文字、音像等)都收集起来进行处理,通过文本挖掘,尽可能把客观存在的信息纳入社会经济统计分析中,我们相信必然可以很精准找到这个问题客观存在的规律,使得原先社会经济中很多定性分析转变为定量分析成为可能。

大数据系列丛书”

近年来,信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。2016年3月,李克强总理在政府工作报告中再次发声,强调“促进大数据、云计算、物联网广泛应用”,继续大力推动《促进大数据发展行动纲要》的落地和实施。当前,统计学、计算机科学和管理学等学科对于大数据的探索性分析和应用尚处在起步阶段,主要集中在基本描述性统计和构建相关大数据指数等方面,与产业界的实际需求和应用有着较大差距。

厦门大学管理学院MBA中心和数据挖掘研究中心为了能更好地将理论与实践相结合、研究与应用相融合,开拓大数据应用领域,共同规划了“大数据系列丛书”,由厦门大学出版社出版。

大数据系列丛书”

《大数据概论》

《Excel在大数据挖掘中的应用》

《文本挖掘技术及其应用》

《统计机器学习及其应用》

《商业数据挖掘技术及其应用》

《大数据可视化技术及其应用》

目前,由谢邦昌、朱建平、李毅著《文本挖掘技术及其应用》一书正式出版,本书主要框架是基于跨行业数据挖掘标准流程 (Cross-industry Standard Process for Data Mining,CRISP-DM)这一知识发现(Knowledge Discovery in Database,KDD)过程模型展开,其主要内容包括互联网数据(新浪微博,Facebook和Twitter)的收集、准备、建模、评估和实施,并利用R软件和Microsoft SQL Server软件在实务案例中进行文本挖掘。本书从实战案例来整合大量文本挖掘中各种碎片化经验,提供相关的程序代码和技术实践支持,让读者阅读之后就能亲自动手做,而且做出来就可以解决自己许多实际问题。

编写本书的一个期望是“抛砖引玉”,对于大数据的研究,不同学科也有类似研究领域,如自然语言处理,文献计量学等也有大量有关数据科学的研究成果。我们求知若渴,希望通过努力形成该研究领域的学科融合,开展大数据研究,拓展大数据应用。

厦门大学管理学院MBA中心

厦门大学数据挖掘研究中心