中心成员韩钧率队在SAS2011全美数据挖掘竞赛中夺魁

2011-11-08 中心编辑

2011年10月25日早8时30分,在全美最大的数据挖掘会议 SAS Analytics 2011主会场,SAS 2011 全美数据挖掘竞赛(SAS 2011 National Data Mining Shootout)的颁奖典礼揭开序幕。SAS公司高等教育咨询与全球认证部门总监(Director of Higher Education Consulting and Global Certification within the Education Division)杰瑞·奥格尔斯比博士(Jerry L. Oglesby)宣布,中佛州大学(University of Central Florida)代表队从参赛的近百只队伍中脱颖而出,获得了此次数据挖掘比赛的冠军。而中佛州大学代表队的领队,正是厦门大学统计系2009级毕业生韩钧。

SAS全美数据挖掘竞赛是一项由SAS公司发起,面向全美高校学生和教学科研人员的数据竞赛。该竞赛特别注重考察参赛者利用数据挖掘方法,解决实际问题的能力。今年的竞赛题目与公共健康有关,目的是分析风暴等天气现象对疾病的影响,并建立针对疾病传播的预测模型。官方数据集共有8个数据文件,超过95万条观测值。数据涵盖了852个地区,8个年龄组,23种疾病,12种天气条件,共4年的历史信息。

中佛州大学代表队全部由中佛州大学统计系的7名研究生组成。自四月份参赛以来,韩钧夜以继日地拼搏,带领参赛队员们探查、整合数据,并尝试数十种不同的建模方法。最终,他的团队创造性地使用非参数检验和时序关联分析来检验天气对疾病的影响,并用复合预测方法(Ensemble Model),得到稳定的外推预测模型,为赢得冠军打下了坚实的基础。

获奖之后,韩钧激动地说:“统计系的课程给了我非常系统严格的统计训练,统计系的老师们踏实勤勉的学术作风也深深地感动着我。我特别要感谢我的研究生导师陈建宝教授,3年来,他的悉心教导拓宽了我的学术视野,加深了我对各种统计方法的理解。我也要特别感谢厦门大学数据挖掘中心的谢邦昌教授和朱建平教授,数据挖掘中心的工作学习经历,使我积累了处理数据挖掘问题的丰富经验。如果没有在厦门大学统计系7年的学习、科研经历,我不可能带领我的团队获奖。”

谈到数据挖掘的学习和应用,韩钧深有感触地说:“想要在数据挖掘这一领域做出成绩,第一,需要有开阔的视野。因为这是一个发展很快的领域,其知识和技能涉及统计和计算机科学的多个领域;第二,要善于沟通,数据挖掘的目的是知识发现。知识发现的过程需要团队协作;第三,发现了知识之后,需要用有效的方法进行介绍、推广。就此来说,参加数据挖掘竞赛是一次非常可贵的、全方位的学习机会。”

图为 韩钧向SAS公司媒体资讯部门介绍竞赛问题及冠军代表队的解决方案

图为SAS 2011 National Data Mining Shootout 冠军颁奖礼(右起第四位为领队韩钧,右起第五位为指导教授Morgan Wang)