[转载]中国统计之网

2012-08-29 中心编辑

转自 统计之都 on by   原文地址:http://cos.name/2011/09/coauthorship-network-of-china-stat/

此拙作成文于几个月之前,与逸波兄的大作《社会网络分析:探索人人网好友推荐系统》属同期同类之作。由于当时担心会引起是非或争议,所以犹豫再三而没有发布。现在想来,我们还是应该开放一点、宽容一点,所以请大家不妨以“纯洁”的眼光看待这里研究的关系网络,并望各路高人:口中留情,手下留轻。 :)

本文使用的数据全部来自互联网公开数据,数据分析工具主要是R软件,其中的关系网络分析与作图主要使用tnet包和igraph包完成。

一、数据来源与处理

下面将要分析的数据是从中国知网抓取的中文统计核心期刊《中国统计》(2000.1 – 2010.11)、《统计研究》(2003.1 – 2011.1)以及《数理统计与管理》(2000.2 – 2011.2)十年左右的数据。原始数据都存储在Excel表格中,其格式如下:

表1中从第二行开始,每一行是一篇文章的记录,上述三大期刊分别有729、1897、1371条记录,一共3997条记录。

这里要研究的是合著关系网络,因此需要将表1中的第二列的作者数据提取出来。不难发现,表1中当一篇文章的作者多于一个的时候,是使用分号“;”隔 开的。我 们可以借助这个分隔符进行中分分词,这样就能将所有作者提取出来。在搜索每篇文章以提取作者的时候,顺便去掉了没有作者的文章(这种文章一般不是论文), 去掉了只有一个作者名但其字数大于4的文章(一般是以某个机构或小组署名的文章),以及去掉了英文名。于是得到了如下形式的每篇论文的作者列表(一共 3617篇文章,以前6篇文章为例):

经过拼音排序后没有去重的作者列表(一共6568位,以前20位为例):

不同作者发表论文的频次表(一共4293位不同的作者,以后50位为例):

二、基本统计与网络分析

 2.1 描述统计分析

表5是上述中文统计核心期刊的一些基本统计数据:

由表5可以看出,平均每位作者发表1~2篇论文,极个别人发表了33篇论文。而从图1中我们可以发现,在核心期刊发表1~3篇文章的人占了绝大多数,能发5篇以上的人就非常少了。

由表5和图2可以看出,一个人发文章或者两到三个人合写文章的情况比较常见,一篇文章的作者数超过4人的情况极少。值的注意的是,有一篇文章的作者数达到了18人,通过查找原始数据,发现它是一篇国际统计论坛的综述,其作者是该论坛主办单位的许多老师。

我们还能从表5和图3中发现,平均每位作者大约有1~2位合著者,“单干”的情况也较常见,为数不多的人会有10个以上的合著者。

通过这些图、表的简单展示和分析,我们对中国统计学界近10年的情况有了一些粗浅的了解。

 2.2 权的定义与合著关系网络的构建

下面我们来讨论中文统计核心期刊合著关系网络的构建问题。

合著关系网中的顶点是全部论文的所有作者。如果两位作者的名字同时出现在某一篇论文的署名当中,那么就在两者之间连接一条边,表示他(她)俩有过合著关系。如果一篇论文有n个作者,那么就产生了n(n – 1) / 2种两两合著关系。比如表1中的第2篇论文就可以建立3(3 – 1 ) / 2 = 3条边:周建章–余洁平,周建章–苏毓腾,余洁平–苏毓腾。注意,当两个特定的作者vw同时出现在多篇文章当中时(这是俩人合著关系强弱的某种体现),我们对vw不再重复连接,这样保证了网络是简单网络。

如果我们只关心作者两两间有没有合著过,而不关心合著关系的强弱,那么我们得到的网络就是一个无权网络。但是权重信息对于发现有效的社群结构可能是非常有用的。所以我们有必要将合著关系的强弱体现在边的权重上,从而构造一个加权图来更好地实施合著关系网的社群挖掘。

接下来的问题就是:怎么构造边的权重?

曾经有人利用两个作者合著的次数来定义权重。这种定义方式考虑了合著次数这个反映关系强弱的重要信息,但是它有不足之处:根据我们的常识,一篇两个 作者的论 文很可能比一篇6个作者的论文有更强的两两合著关系,因为作者之间的熟悉程度与时间投入一般会因为作者数目的增多而减弱。

我们综合考虑合著次数和单篇论文作者数目这两个因素来定义作者vw之间权重:

其中nk表示论文k的作者数目,当作者v在论文k中出现时,\delta_v^k等于1;否则为0。 公式中的分母nk – 1排除了只有1个作者的情况(即v不能等于w),因为这种情况对合著关系来说是没有意义的。

图4是该定义的一个示例,图中的作者vw一起发表过3篇论文,其中第一篇论文有4个作者,第二篇论文有2个作者,第三篇论文有3个作者,于是vw在3篇论文中的合著关系强度分别是1 / 3、1、1 / 2,所以vw总的合著关系强度是1 / 3 + 1 + 1 / 2 = 11 / 6。

我们计算出最大权重是8,最小权重是0.06,可见合著关系最强与最弱相差悬殊。而平均权重是0.65。

定义了顶点、边与权重,那么加权合著关系网络的构建也就完成了。我们构建的网络有4293个顶点,3827条边。而理论上最多有(42932 – 4293) / 2 = 9212778条边,可见这种合著关系网络是很稀疏的,其实稀疏性在社会关系网络中是很常见的。

2.3 聚类系数分析

聚类系数分为局部聚类系数和全局聚类系数,它们反映了网络中局部或者全局的群聚效应。

我们计算出合著关系网络的全局聚类系数是0.57,跟Newman文献中的7种合著关系网的聚类系数相比处于第2位(第1位是0.726,第3位是0.496)。可见从整体上来说,中国统计学界合著的群聚效应比较明显。

我们还发现,网络中有2396位(约占整个网络的56%)作者的局部聚类系数不存在,即他们的度为1,也就是说他们都只与1个人合写过文章。令人惊 讶的是, 有1359位(约占整个网络的32%)作者的局部聚类系数为最大值1,可见网络中存在相当多的“三角”合著关系。有151个人的局部聚类系数为最小值0, 也就是说与这些人合著过的作者之间并没有发生合著。

2.4 距离与中心性分析

2.4.1 距离与最短路径

两个顶点间的距离就是它们之间的最短路径的长度。现在我们考虑的是加权图,所以距离不再是边的条数之和了,而是边的权重的倒数之和。之所以取倒数,是因为权越大其倒数就越小,意味着关系就越近。

我们计算出最大加权距离为42,平均加权距离为16。这种距离虽然考虑了权重,但是不够直观。反而无权距离的实际意义更明显一些,无权距离减去1就 表示两个 人之间建立联系至少需要经过多少个人。我们算出来的无权距离最大值是18,平均值是6.8,后者表示在该合著网络中任意两位作者建立联系大约平均至少需要 经过5~6位作者,这与社会学中有名的“六度分离”理论比较吻合,表现出“小世界效应”,这也许反映了合著关系网络一定的社会性。

2.4.2  中心性

中心性是社会网络中的一个重要概念,它是度量网络中成员重要性的某种指标。常见的中心性包括:顶点的度、中间性、接近性等等。这些中心性指标从不同的角度反映了顶点的某种重要性。

顶点的度在无权网络中是与该顶点连接的边的条数。在加权网络中对应的概念是顶点的强度,即与该顶点连接的边的权重之和。有意思的是,在合著关系网中,顶点的强度其实是作者合写文章的数目:

我们的合著关系网中,顶点强度最大值是20,最小值是0,平均数是1.2,中位数是1。顶点的强度排名前10的作者如下表所示:

顶点的中间性是经过该顶点的最短路径的条数(给定顶点对之间若有多条最短路径,则不重复计算)。顶点的中间性反映了顶点起“桥梁”作用的大小。不过我们现在将最短路径替换为加权最短路径。顶点的中间性排名前10的作者如下表所示:

顶点的接近性是某顶点到所有其他顶点的平均最短路径长度的倒数:

其中| V |是网络中总的顶点数,gd(v, w)表示顶点vw的最短路径的长度。cnv的值越大表示顶点v与 网络中的其他成员越接近。我们的加权合著关系网络中顶点的接近性的最大值为110.9,最小值为0(这是孤立点),平均数为7.4,中位数为1.5。平均 数比中位数大很多,意味着接近性呈偏态分布,大多数人的接近性较低,少数人的接近性很高。顶点的接近性排名前10的作者如下表所示:

比较表6、表7和表8,我们会发现,在3张表中都出现过的人只有谢邦昌(台湾辅仁大学统计信息学系教授)、朱建平(厦门大学计划统计系主任)和曾五 一(厦门 大学经济学院副院长、中国统计学会副会长);出现过两次的只有缪柏其(中国科学技术大学前任统计与金融系主任)、金勇进(中国人民大学统计学院前任院 长)。数据表明,这些学者不但中心性高,而且发文数也高,而实际上他们也确实是中国统计界很有影响力的人物。尤其引人注目的是,谢邦昌教授的3种中心性都 排名第一,即他与别人合写的文章最多、“桥梁”作用最大、与同行最“接近”。需要说明的是,由于我们只选取了3个中文核心期刊10年左右的数据,还没有考 虑英文期刊,所以很可能会遗漏一些重要的学者以及与真实情形会有偏倚。

值得注意的是,表6中顶点的度的高低与发文数是正相关的,但其他表中 的中心性就不全是这样的了。有些中心性高的作者发文数并不多,比如李海涛(曾五一的博士研究生)和来升强(朱建平的博士研究生),还有李善同(国务院发展 研究中心发展战略和区域经济研究部研究员)。李海涛和来升强的导师都是中心性很高的人,所以可能对二者的中心性有很大的拉动作用;而李善同与表7中的袁卫 (中国人民大学前任统计系主任)和表6中的许宪春(国家统计局副局长)都合发过文章,她的中间性很可能因此提升,而且她对统计学与经济学的交叉研究起到了 较好的桥梁作用。

综上我们可以归纳一点:多发文章或者多与别人(特别是有影响力的人)合写文章,是在学术界中建立广泛联系并提升自身影响力的一种好方式。

 三、社群挖掘分析

3.1 合著关系网中的成分

前面我们对加权合著关系网络进行了探索性描述分析和传统社会网络分析,获得了对这个网络的一些基本的感觉与认识。下面我们尝试利用WCMN算法(加权CMN算法)对该合著关系网络的社群结构进行挖掘分析,以期得到有意义、有意思的学术社群结构。

我们对社群有一个基本假设,就是社群内部的每一对顶点之间至少存在一条内含的路径,也就是社群要有连通性。我们主要对非连通图的每一个连通成分进行单独分析,从而简化了在非连通图上挖掘社群的复杂性。一个连通成分就是一个局部最大的连通子图。

我们的合著关系网络有4293个顶点,3872条边。经检验,该网络不是连通的网络。这是很正常的,这么大的社会网络中任意两个成员之间都连通几乎是不可能的。但是我们的网络中存在1773个连通成分,具体情况下表所示:

从表9中我们可以看出,绝大多数连通成分包含的顶点数都只有区区的几个。唯有两个连通成分的规模明显大于其他连通成分:一个含有383个顶点,另一个含有156个顶点。

我们的第一大连通成分包含383个顶点,750条边,如图5所示。下文我们将以最大连通成分为例进行社群挖掘。在进行社群挖掘之前,我们从这些网络中几乎是看不出什么社群结构的。

3.2 模块性与最佳社群数

WCMN算法是一种直接对模块性Q值进行最优化以寻找最佳社群结构的凝聚算法,它朝着使Q值增大最快或减少最慢的方向将社群一步一步地融合。在这个过程当中会出现Q的峰值Qmax,如图7所示。我们认为Qmax对应的社群结构就是最佳社群结构, Qmax越大表明我们的算法效果越好。


上图是WCMN算法对最大连通成分进行社群挖掘的Q值变化图。因为有383个顶点,所以一共有382次融合。在第359次(即倒数第24次)融合的时候Q达到最大值0.87,所以最佳社群数目是24。这里的Qmax高达0.87,所以这个最大连通成分中可能存在明显的社群结构,同时也可能是WCMN算法效果良好的一个表现。

3.3 合著社群及其可视化

我们已经利用WCMN算法将最大连通成分的383位作者划分为24个合著社群,如表10所示,表中每位作者上方的数字是1~383中的某个编号,编 号大小与作者在我们所选的期刊中的发文数成正相关。通过2.4节的分析,我们知道这里编号较大的作者一般处于网络的中心位置或者桥梁位置,观察于网络的中 心位置或者桥梁位置,观察下文的图8发现确实如此。

为了更直观地了解这24个社群,我们将383位作者构成的网络进行可视化展示,如图8所示。图中一共有24种渐变的颜色,每种颜色代表一个合著社群,圆圈的大小与顶点的强度正相关,线条的粗细与边的权重正相关。

图8   WCMN算法社群挖掘效果可视化

分析表10和图8,可以发现我们挖掘出来的社群与实际情形比较吻合,这些社群里面蕴藏了很多有意思、有价值的信息:

  1. 反映了不同的学校或研究机构:中国人民大学统计学院(社群1),国家统计局(社群2),中国科学院数学与系统科学研究院(社群3),吉林大学(社 群6),山西财经大学统计学院(社群11),厦门大学经济学院计划统计系(社群14),中国科学技术大学统计与金融系(社群15),西南财经大学统计学院 (社群 16),东北财经大学统计系(社群17),暨南大学经济学院统计系(社群19、20),北京航空航天大学经济管理学院(社群21),北京大学光华管理学院 (社群22),清华大学房地产研究所(社群24)等。
  2. 反映了不同的研究方向或领域:国民经济核算与投入产出分析(社群2、23),国际竞争力(社群8),宏观经济统计(社群10、11、14、 17),金融统计(社群3、15、21),数量经济(社群6),质量管理(社群4、7),数据挖掘(社群9),风险管理与精算(社群12),数理统计(社 群13),抽样调查(社群18),社会经济调查(社群19),绿色核算(社群22),房地产经济 (社群24)等。
  3. 反映了不同机构、学者或领域之间的沟通与合作:国家统计局与高校的合作(社群2、4),台湾、人大、厦大、清华在数据 挖掘领域的合作(社群9),人大与天津财大在风向管理与精算方面的合作(社群12),不同单位在质量管理方面的合作(社群7),不同机构的数理统计学者的 合作(社群13),数学学院与商学院的合作(社群6),数学与金融的结合(社群3),抽样技术与数据挖掘的结合(社群9),房地产与统计的结合(社群 24),老师与学生的合作(社群8、15、18、19、20、23),学者与母校的合作(社群13、16)等。

以上结果很好地印证了前面的说法:高达0.87的Qmax值预示着这个网络中可能存在明显的社群结构。同时也有力表明:WCMN算法对这种加权合著关系网络具有良好的应用效果。

如果不考虑权重的话,那么WCMN算法就变成了CMN算法,这时候我们得到Qmax = 0.79,最佳社群数是20,不出所料两个数值都比前者的小。效果其实也还不错(如图9所示),只是没有WCMN算法挖掘得那么精细,毕竟它利用的信息少 一些,比如人大统计学院的国际竞争力、抽样技术、风向管理与精算三个研究方向就没有区分开;还有将谢邦昌老师归于人大统计学院这一群体似有不妥,而 WCMN算法是将谢老师与人大、厦大的某些数据挖掘方向的老师与学生整合为一类。

图9   CMN算法社群挖掘效果可视化