《社会网路分析方法与实践》是2013年机械工业出版社出版的图书,作者是MaksimTsvetovat、AlexanderKouznetsov。
基本介绍
- 书名:社会网路分析方法与实践
- 作者:MaksimTsvetovat,AlexanderKouznetsov
- 译者:王薇
- ISBN:9787111423416
- 页数:177
- 出版社:机械工业出版社
- 出版时间:2013-6-1
- 装帧:平装
- 开本:16开
- 纸张:胶版纸
- 丛书名:O'Reilly精品图书系列
内容简介
社会网路分析(SNA)是一门比Facebook和Twitter等社交网站早30年问世的学科。通过社会网路分析研究,你能够了解到识别社会化媒体、政治团体、企业、文化趋势及人际网路的模式所需的概念和技术。
《社会网路分析:方法与实践》是一本帮助你快速掌握社会网路分析技术要点、核心概念与典型算法示例的优秀着作。本书重点阐释了如何从庞大的社会网路分析学术积累中,挑选最精要的与实用的知识点,帮助你形成关于社会网路分析的知识谱系图。
通过《社会网路分析:方法与实践》,你还可以学习到如何使用Python语言和其他开源工具,如NetworkX、NumPy和matplotlib,以採集、分析并将社交网路数据可视化。本书将社会网路理论和实践完美结合,同时介绍了很多有价值的行业洞见和理念。
作者简介
MaksimTsvetova,t跨学科的科学家、软体工程师和爵士音乐家,社会网路分析领域专家,拥有丰富的数据分析、处理工作经验,专注于社会网路进化、信息和态度扩散、集体智慧型发生的计算机建模。他拥有卡内基·梅隆大学计算、组织和社会方向博士学位,目前在乔治蒂·梅森大学教授社会网路分析。他还是DeepMileNetworks公司联合创始人之一,该公司开展社交媒体影响图形化业务。
AlexanderKouznetsov,软体设计师和架构师,社会网路分析专家,拥有从数据仓库到信号处理的广泛技术背景。他为业界开发了大量的社会网路分析工具,从大规模数据採集到线上分析和演示工具。他在德克萨斯大学获得数学和计算科学学士学位。
《社会网路分析:方法与实践》是一本帮助你快速掌握社会网路分析技术要点、核心概念与典型算法示例的优秀着作。本书重点阐释了如何从庞大的社会网路分析学术积累中,挑选最精要的与实用的知识点,帮助你形成关于社会网路分析的知识谱系图。
通过《社会网路分析:方法与实践》,你还可以学习到如何使用Python语言和其他开源工具,如NetworkX、NumPy和matplotlib,以採集、分析并将社交网路数据可视化。本书将社会网路理论和实践完美结合,同时介绍了很多有价值的行业洞见和理念。
作者简介
MaksimTsvetova,t跨学科的科学家、软体工程师和爵士音乐家,社会网路分析领域专家,拥有丰富的数据分析、处理工作经验,专注于社会网路进化、信息和态度扩散、集体智慧型发生的计算机建模。他拥有卡内基·梅隆大学计算、组织和社会方向博士学位,目前在乔治蒂·梅森大学教授社会网路分析。他还是DeepMileNetworks公司联合创始人之一,该公司开展社交媒体影响图形化业务。
AlexanderKouznetsov,软体设计师和架构师,社会网路分析专家,拥有从数据仓库到信号处理的广泛技术背景。他为业界开发了大量的社会网路分析工具,从大规模数据採集到线上分析和演示工具。他在德克萨斯大学获得数学和计算科学学士学位。
目录
前言
第1章导论
分析关係,理解人与群体
从关係到网路——超乎所见
社会网路与连线分析
非正式网路的力量
恐怖分子与革命者:社会网路的力量
推特上的革命
从关係到网路——超乎所见
社会网路与连线分析
非正式网路的力量
恐怖分子与革命者:社会网路的力量
推特上的革命
第2章图论速览
什幺是图
图的遍历与距离
图的距离
为什幺重要
六度理论神话
小世界网路
图的遍历与距离
图的距离
为什幺重要
六度理论神话
小世界网路
第3章中心性、权力与瓶颈
样本数据
中心性
中心性测量不能告诉我们什幺
中心性
中心性测量不能告诉我们什幺
第4章派系、聚类和组元
组元和子图
子图——自我中心网
三元组
派系
分层聚类
三元组、网路密度和冲突
三元组
派系
分层聚类
三元组、网路密度和冲突
第5章二模网路
竞选资金是否影响选举
二模网路的理论
扩展多模网路
二模网路的理论
扩展多模网路
第6章信息扩散:像病毒一样传播开来
病毒视频剖析
信息如何影响网路
Python中的一个简单动态模型
网路和信息的共同演化
信息如何影响网路
Python中的一个简单动态模型
网路和信息的共同演化
第7章在现实世界中绘图
中等规模数据:传统SQL关係资料库
大数据:未来,从今天开始
小数据——平面档案表达
中等规模数据:资料库表达
使用二模数据工作
社会网路和大数据
运行大数据
附录A收集数据
附录B安装软体
查看全部
大数据:未来,从今天开始
小数据——平面档案表达
中等规模数据:资料库表达
使用二模数据工作
社会网路和大数据
运行大数据
附录A收集数据
附录B安装软体
查看全部
前言
前言
2011年,很多创业公司都在他们的商业计画中提到“social”这个词——虽然事实上并没有人知道如何分析和理解这能够决定公司成败的社交过程。如果你从事如下工作:社交媒体、社交CRM、社交行销、管理谘询等,你应该读一读这本书,它会告诉你社交系统是如何发展、演变以及运转的。
这本书的内容不仅仅适用于创业公司。实际上,整本书就是一门系统的课程,它囊括了几乎一个学期的理论知识和实际操作材料——阅读以后,你就会对于社会网路分析是“危险的”有足够的理解。如果你是这个研究领域的学生,我们强烈鼓励你去寻找并阅读脚注里提到的每一篇论文或每一本书。这样做会让你非常了解这个领域的经典文献,也可以让你自信地开展研究课题。
如果你有计算机技术背景,可以从这本书学到主要的社会学概念,并从中提取出可以用来编程的信息和分析数据;如果你有社会学或市场行销背景,你会发现一些熟悉的材料,与此同时也会学到用定量和定性的方法去了解社交背景下的人们。
阅读本书的前提
由于这本书的客群非常广泛,因此我们儘可能少地使用专业术语,同时为书中的专业术语做出解释。但是,本书会有大量的技术内容(这是O’Reilly出版图书的一项要求)。
我们希望你至少稍微熟悉Python,即,能自己写脚本、了解语言的基本控制结构和数据结构。如果你不了解技术内容,建议你可以使用Python的线上教程或者参考PaulBarry(O’Reilly出版)写的《HeadFirstPython》开始学习。
本书不会涉及从Twitter、Facebook以及其他数据来源收集数据的详细过程,O扲eilly出版的“AnimalGuide”系列的其他书籍已经提供了充分的资料,如KevinMakice写的《TwitterAPI:UpandRunning》以及MatthewRussell写的《MiningtheSocialWeb》。
精彩书摘
第1章
导论
“额?你是做什幺的?”
“我在研究社会网路分析。”
“喔,那就是说你在玩脸谱(Facebook),而且还能靠它赚钱?”
在社会网路分析研究者的生活中,经常会听到这样的对话。但是如果只是说:“没错,但并不仅仅是脸谱。”还是没有回答“做什幺”的问题。事实上,社会网路分析是一种特别通用的方法学,它的诞生至少比推特(Twitter)和脸谱早三十年。
简单来说,社会网路分析(SocialNetworkAnalysis,SNA)就是“通过图论研究人类关係的一门学问”。当然,这句解释还远远不够。
在某种程度上,社会网路分析与许多统计方法相似。经济学家广泛使用回归分析的事实并不意味着这项技术只局限于经济学研究。研究社交媒体是套用社会网路分析技术的一个很好方式,同样的道理,社会网路分析技术的套用也不局限于此——数据容易获得,研究机会众多且有价值。事实上,我敢打赌,在十位我尊敬的读者当中,就有九位是基于这个原因而翻开这本书。
十年前,社会网路分析领域还是科学的一潭死水。我们是同时被主流社会学和主流计算机科学拒之门外的异数,我们用奇怪的数学技术处理奇怪的数据类型,生成漂亮的但十分难懂的图片,以及只有在我们的小圈子里才说得通的结论。那时收集和获取社会网路数据很困难(参见附录A);这个领域的学生都是通过数据集的一个小的标準集来工作,很少冒险离开这个标準集去採集自己的数据。社交媒体的出现改变了所有这一切。每一天,推特产生的社会网路数据比十年前我们整个领域的数据还要多;每个社交媒体网站提供一个API以方便数据检索;世界上很多政府机构也开放数据由社会网路分析技术来处理。
本书将分析社交媒体数据,我们将收集来自推特(附录A)、脸谱以及LiveJournal的数据,学习识别线上社群,研究如何解析一段病毒视频和一次快闪(flashmob)。
除此以外,本书也会演示社会网路分析很多不同的套用方法。本书的研究对象是社交媒体,但也并不仅限于社交媒体。我们可以通过公司的投资网路及其董事会的共同人员研究公司之间的关係。也可以深入机构内部,去发现饮水机和小吃店附近的社交网路如何影响一家公司的执行力,以及对此不以为然的公司将如何自食其果。我们通过研究竞选资金,可以发现某个特别利益集团是如何控制整个竞选结果的。还可以研究恐怖主义分子、革命者以及激进分子的活动——从1998年的霍巴塔爆炸到“911”袭击再到最近的埃及革命。我们将把这些方向和趋势一一解剖开来,而这些往往是通过推特和脸谱实现的,虽然这些事件本质上也是线下的。
本书将告诉你网路数据无处不在——你只需要学习识别它、分析它。一旦你开始这样做了,就会出现新的灵感和想法。
分析关係,理解人与群体
社会网路分析(SNA)科学的核心概念是人与人之间的关係,这些关係定义了我们是谁,以及如何行事。我们的人格、教育、背景、种族、民族等所有的这一切都与我们的关係模式发生互动,并在关係中留下不可磨灭的印记。因此,通过对这些模式的观察和研究,我们就能够回答许多关于社会的问题。
什幺是关係?在人际关係中,它可以是友谊、影响、情感、信任,或者反过来,它也可以是不喜欢、冲突或许多其他东西。
二元与赋值关係
关係可以是二元的,也可以被赋值:“张三在推特上关注了李四”是一种二元关係,而“李四转发了张三的四条推文”则是赋值关係。在推特的世界里,很容易对这些关係进行量化,但是在“更无形”的社会生活中,如果想对一段人际关係的状况进行界定并量化,则非常困难。
沟通频率在表示人际关係的程度时十分有用。除了用作客观测量,科学家还发现它能够对情感内容以及人际影响做出準确反应。当然,有时可能并非如此(亲爱的读者,也许您现在的人际关係就是一个反例),但是在很多情况下,由于没有更好的数据,使用沟通频率来衡量人际关係往往是有效的。
对称与非对称关係
有些关係本质上是不对称的,这很容易判断。例如老师与学生或老闆与员工之间的关係,这样的角色设定了方向性,关係不是对称的。而推特和LiveJournal上的关注儘管从定义上来说有方向,但是还存在一种反关注的联繫,因此形成了对称关係。
有些关係是对称的。脸谱上的朋友以及职场社交网站LinkedIn上的联繫人都需要相互确认——即使在真实的人际关係中不对称,网站也是强制要求对称的。
在现实生活中,友谊与亲密关係是不对称的,虽然我们不希望这样。因此,我们才会在单相思、一厢情愿的友情以及受欢迎的妄想中挣扎。如果有很好的数据,我们可以使用社会网路分析研究这些现象——但是要想获得这些数据非常困难,而且也往往会受个体报告以及其他误差影响。
多模关係
最后,我们将提到,关係还会存在于不同类型的主体之间——公司僱佣员工、投资者购买公司的股票、人们占有信息与资源等。这些关係被称为双峰关係(bimodal)或二模关係(2-mode)——这些将在第5章进行讨论。
从关係到网路——超乎所见
如果一位传统的量化社会学家或计量经济学家拿到社会网路数据,他会按照以下方法处理:
我们可以从中了解什幺?有人口统计学数据吗?年龄、种族、宗教、收入、教育程度、地点等任何有可能被测量的定性或定量变数。
可以从网路数据中得到什幺量化指标?很有可能,这些指标会包括各种形式的中心性(参见第3章)。
哪些定性或定量的结果是可以测量的?也就是说,一个公民融入社会的能力、尝试非法药物的可能性等。
然后他将建立一个多变数回归模型,控制一些变数,并将其他一些变数与结果联繫起来。这是一个非常有效的方法——事实上,这个方法仍然在社会网路分析会议上占有一席之地。
这种方法传统套用之一是研究同质性(homophily,希腊文,意思是对相似者的喜爱),或者,宽泛地说,是研究“物以类聚、人以群分”。例如,有人提出年龄相近的人比年龄段不同的人更容易成为朋友,还有人说相同种族的人往往会聚在一起。儘管有些猜想听上去没有错,但是却无法解释一些现象,比如在某个高中班里,黑人学生之间社会群体内部动力的複杂性——他们在年龄、种族、经济状况、音乐偏好等方面可能都具有高度相似性,但是他们的情绪情感却各不相同。
无论如何,我们能做一些非常不同的事情,而且是更好的事情。
标準统计方法有一个假设即事件独立性假设,或者说泊松过程(Poissonprocess)。注1在泊松过程中,每个事件都被视为完全独立发生,与其他事件没有关係。因此,我们可以基于外部变数或特徵来计算事件机率,然后以此得出一个像样的现实模型。当然,事件并不总是独立的,在这种情况下,贝叶斯统计可以创建依赖关係链并计算巨观结果的机率。这些细节内容不在本书讨论的範围之内,但是可以通过很多资源找到。译注1
在社会网路中,我们仅凭直觉就知道并不存在独立事件。人们通过相互认识形成友谊与熟人关係,比如说,A认识B是因为A和B都认识C。即使是其他不同的群体之间,也会基于同质性而形成较远的关係链注2,相反的例子就更多了。
我们在做SNA的时候,抛开独立性假设,认为所有的关係都是潜在的相依关係。此时,传统的统计方法(如回归或马尔可夫模型)除了能解决一些琐碎问题,在数学上变得无计可施。不过也不必担心,我们会开发使用新方法,而且同样有效。在本书第6章的“信息如何影响网路”这一节,我们将在信息扩散的背景下讨论更多同质性问题。
社会网路与连线分析
社会网路分析的另一个表亲是连线分析(LinkAnalysis,LI)。你们当中有些人可能已经在商业情报或执法工作中用过,或是在电视上见过。《寻人密探组》(WithoutaTrace)在每一集中都使用连线分析;《数字》(Numbers)和《法律与秩序》(LawandOrder)这两部电视剧则有时会用到。译注2
连线分析在很多方面都与社会网路分析相似——它们都使用节点(node)和边(edge)来描述关係(见图1-1),也都是通过分析整个网路而不是单个事件来推导谁在网路中更为重要。译注3
图1-1:连线分析图
不过,连线分析允许不同的节点和边在同一个网路中混合出现。例如,A付给B300美元是为了给C买药。在这个例子中,粗体字是节点或行动者,斜体字则是边或动作。从严格的定量意义上来说,不同的人对给钱、买药的理解可能是有差异的,因此连线分析取决于人们对语言的理解,纯粹从形式上来说,它是定性的。
大多数连线分析的软体工具,包括Analyst抯Notebook以及Palantir在内译注4,都可以用来收集定性数据并进行定性决策,它们功能强大而且广泛使用于各个领域。但是,因为根据不同含义的节点和边混合(例如,钱和电话)得出的结果在数学上是无效的,所以套用量化指标(如程度中心性)有风险。遗憾的是,如果你在使用连线分析软体,那幺将无法阻止软体对这些指标进行计算。
解决这一问题的方法是使用多模网路(multimodenetwork),我们将在第5章讨论,它能更準确地表达混杂不同含义的节点与边。
非正式网路的力量
让我们从一个小故事开始讨论社会网路分析。
ACME谘询是一个历史悠久的审计公司,它成立于20世纪60年代,曾作为家族企业存在了25年。该公司缓慢而有序地发展了很多年,一直是公司所有者的骄傲。ACME的主要业务是会计和审计——为一些精选的、可信的客户服务。20世纪90年代中期,在资讯时代的诱惑下,ACME增设IT部门,构建起一个“21世纪的公司”所需的所有基础设施——虽然它的核心业务依然是老式的,用勤奋工作的方式来处理文书和数字。
可惜一切好事都有尽头,企业主在邻近退休的时候,决定搬到佛罗里达州的博卡拉顿市,开始钓鱼新事业,扮演起全职祖父的角色来。他不想出售公司,于是外聘一位CEO代为管理,公司仍然归家族所有。
图1-2中的组织结构图呈现的是这位CEO(Conrad)眼中的公司。审计和IT是公司的两大部门,大约各有100名员工(此图已经大大简化了)。另外还有一个“秘书处”——他们唯一的职责就是处理公司客户堆积如山的文书。从某种程度上说,这完全是一个“狂人”的世界——有些年龄较长的审计员仍然称呼秘书为“小姐”,儘管有的秘书已经50多岁了。部门之间为了资源和需求口角不断,解决这些问题也需要花费很长时间、开无数次会议,从而牺牲了工作效率。
这种生意方式可与刚从名牌商学院毕业的CEOConrad不相符。他想打造一个现代的、以客户为导向、快速反应的组织。他上任不久,便对ACME进行了公司重组。每一个客户对应一个“业务经理”,由一个跨职能的团队进行支持,负责从安装伺服器到报税的所有工作。原来的秘书处解散,分配到每个客户区。从图1-3中可以看到新的组织结构。
从表面上看,这个变化是好的。项目团队终于开始了解他们的客户;财务和IT人员意识到他们并非来自两个不同的星球,终于开始对话,常规问题在几个小时之内便可解决,而不是像以前需要耗费几个星期。客户也很满意。但是表象之下,麻烦正在形成。
2011年,很多创业公司都在他们的商业计画中提到“social”这个词——虽然事实上并没有人知道如何分析和理解这能够决定公司成败的社交过程。如果你从事如下工作:社交媒体、社交CRM、社交行销、管理谘询等,你应该读一读这本书,它会告诉你社交系统是如何发展、演变以及运转的。
这本书的内容不仅仅适用于创业公司。实际上,整本书就是一门系统的课程,它囊括了几乎一个学期的理论知识和实际操作材料——阅读以后,你就会对于社会网路分析是“危险的”有足够的理解。如果你是这个研究领域的学生,我们强烈鼓励你去寻找并阅读脚注里提到的每一篇论文或每一本书。这样做会让你非常了解这个领域的经典文献,也可以让你自信地开展研究课题。
如果你有计算机技术背景,可以从这本书学到主要的社会学概念,并从中提取出可以用来编程的信息和分析数据;如果你有社会学或市场行销背景,你会发现一些熟悉的材料,与此同时也会学到用定量和定性的方法去了解社交背景下的人们。
阅读本书的前提
由于这本书的客群非常广泛,因此我们儘可能少地使用专业术语,同时为书中的专业术语做出解释。但是,本书会有大量的技术内容(这是O’Reilly出版图书的一项要求)。
我们希望你至少稍微熟悉Python,即,能自己写脚本、了解语言的基本控制结构和数据结构。如果你不了解技术内容,建议你可以使用Python的线上教程或者参考PaulBarry(O’Reilly出版)写的《HeadFirstPython》开始学习。
本书不会涉及从Twitter、Facebook以及其他数据来源收集数据的详细过程,O扲eilly出版的“AnimalGuide”系列的其他书籍已经提供了充分的资料,如KevinMakice写的《TwitterAPI:UpandRunning》以及MatthewRussell写的《MiningtheSocialWeb》。
精彩书摘
第1章
导论
“额?你是做什幺的?”
“我在研究社会网路分析。”
“喔,那就是说你在玩脸谱(Facebook),而且还能靠它赚钱?”
在社会网路分析研究者的生活中,经常会听到这样的对话。但是如果只是说:“没错,但并不仅仅是脸谱。”还是没有回答“做什幺”的问题。事实上,社会网路分析是一种特别通用的方法学,它的诞生至少比推特(Twitter)和脸谱早三十年。
简单来说,社会网路分析(SocialNetworkAnalysis,SNA)就是“通过图论研究人类关係的一门学问”。当然,这句解释还远远不够。
在某种程度上,社会网路分析与许多统计方法相似。经济学家广泛使用回归分析的事实并不意味着这项技术只局限于经济学研究。研究社交媒体是套用社会网路分析技术的一个很好方式,同样的道理,社会网路分析技术的套用也不局限于此——数据容易获得,研究机会众多且有价值。事实上,我敢打赌,在十位我尊敬的读者当中,就有九位是基于这个原因而翻开这本书。
十年前,社会网路分析领域还是科学的一潭死水。我们是同时被主流社会学和主流计算机科学拒之门外的异数,我们用奇怪的数学技术处理奇怪的数据类型,生成漂亮的但十分难懂的图片,以及只有在我们的小圈子里才说得通的结论。那时收集和获取社会网路数据很困难(参见附录A);这个领域的学生都是通过数据集的一个小的标準集来工作,很少冒险离开这个标準集去採集自己的数据。社交媒体的出现改变了所有这一切。每一天,推特产生的社会网路数据比十年前我们整个领域的数据还要多;每个社交媒体网站提供一个API以方便数据检索;世界上很多政府机构也开放数据由社会网路分析技术来处理。
本书将分析社交媒体数据,我们将收集来自推特(附录A)、脸谱以及LiveJournal的数据,学习识别线上社群,研究如何解析一段病毒视频和一次快闪(flashmob)。
除此以外,本书也会演示社会网路分析很多不同的套用方法。本书的研究对象是社交媒体,但也并不仅限于社交媒体。我们可以通过公司的投资网路及其董事会的共同人员研究公司之间的关係。也可以深入机构内部,去发现饮水机和小吃店附近的社交网路如何影响一家公司的执行力,以及对此不以为然的公司将如何自食其果。我们通过研究竞选资金,可以发现某个特别利益集团是如何控制整个竞选结果的。还可以研究恐怖主义分子、革命者以及激进分子的活动——从1998年的霍巴塔爆炸到“911”袭击再到最近的埃及革命。我们将把这些方向和趋势一一解剖开来,而这些往往是通过推特和脸谱实现的,虽然这些事件本质上也是线下的。
本书将告诉你网路数据无处不在——你只需要学习识别它、分析它。一旦你开始这样做了,就会出现新的灵感和想法。
分析关係,理解人与群体
社会网路分析(SNA)科学的核心概念是人与人之间的关係,这些关係定义了我们是谁,以及如何行事。我们的人格、教育、背景、种族、民族等所有的这一切都与我们的关係模式发生互动,并在关係中留下不可磨灭的印记。因此,通过对这些模式的观察和研究,我们就能够回答许多关于社会的问题。
什幺是关係?在人际关係中,它可以是友谊、影响、情感、信任,或者反过来,它也可以是不喜欢、冲突或许多其他东西。
二元与赋值关係
关係可以是二元的,也可以被赋值:“张三在推特上关注了李四”是一种二元关係,而“李四转发了张三的四条推文”则是赋值关係。在推特的世界里,很容易对这些关係进行量化,但是在“更无形”的社会生活中,如果想对一段人际关係的状况进行界定并量化,则非常困难。
沟通频率在表示人际关係的程度时十分有用。除了用作客观测量,科学家还发现它能够对情感内容以及人际影响做出準确反应。当然,有时可能并非如此(亲爱的读者,也许您现在的人际关係就是一个反例),但是在很多情况下,由于没有更好的数据,使用沟通频率来衡量人际关係往往是有效的。
对称与非对称关係
有些关係本质上是不对称的,这很容易判断。例如老师与学生或老闆与员工之间的关係,这样的角色设定了方向性,关係不是对称的。而推特和LiveJournal上的关注儘管从定义上来说有方向,但是还存在一种反关注的联繫,因此形成了对称关係。
有些关係是对称的。脸谱上的朋友以及职场社交网站LinkedIn上的联繫人都需要相互确认——即使在真实的人际关係中不对称,网站也是强制要求对称的。
在现实生活中,友谊与亲密关係是不对称的,虽然我们不希望这样。因此,我们才会在单相思、一厢情愿的友情以及受欢迎的妄想中挣扎。如果有很好的数据,我们可以使用社会网路分析研究这些现象——但是要想获得这些数据非常困难,而且也往往会受个体报告以及其他误差影响。
多模关係
最后,我们将提到,关係还会存在于不同类型的主体之间——公司僱佣员工、投资者购买公司的股票、人们占有信息与资源等。这些关係被称为双峰关係(bimodal)或二模关係(2-mode)——这些将在第5章进行讨论。
从关係到网路——超乎所见
如果一位传统的量化社会学家或计量经济学家拿到社会网路数据,他会按照以下方法处理:
我们可以从中了解什幺?有人口统计学数据吗?年龄、种族、宗教、收入、教育程度、地点等任何有可能被测量的定性或定量变数。
可以从网路数据中得到什幺量化指标?很有可能,这些指标会包括各种形式的中心性(参见第3章)。
哪些定性或定量的结果是可以测量的?也就是说,一个公民融入社会的能力、尝试非法药物的可能性等。
然后他将建立一个多变数回归模型,控制一些变数,并将其他一些变数与结果联繫起来。这是一个非常有效的方法——事实上,这个方法仍然在社会网路分析会议上占有一席之地。
这种方法传统套用之一是研究同质性(homophily,希腊文,意思是对相似者的喜爱),或者,宽泛地说,是研究“物以类聚、人以群分”。例如,有人提出年龄相近的人比年龄段不同的人更容易成为朋友,还有人说相同种族的人往往会聚在一起。儘管有些猜想听上去没有错,但是却无法解释一些现象,比如在某个高中班里,黑人学生之间社会群体内部动力的複杂性——他们在年龄、种族、经济状况、音乐偏好等方面可能都具有高度相似性,但是他们的情绪情感却各不相同。
无论如何,我们能做一些非常不同的事情,而且是更好的事情。
标準统计方法有一个假设即事件独立性假设,或者说泊松过程(Poissonprocess)。注1在泊松过程中,每个事件都被视为完全独立发生,与其他事件没有关係。因此,我们可以基于外部变数或特徵来计算事件机率,然后以此得出一个像样的现实模型。当然,事件并不总是独立的,在这种情况下,贝叶斯统计可以创建依赖关係链并计算巨观结果的机率。这些细节内容不在本书讨论的範围之内,但是可以通过很多资源找到。译注1
在社会网路中,我们仅凭直觉就知道并不存在独立事件。人们通过相互认识形成友谊与熟人关係,比如说,A认识B是因为A和B都认识C。即使是其他不同的群体之间,也会基于同质性而形成较远的关係链注2,相反的例子就更多了。
我们在做SNA的时候,抛开独立性假设,认为所有的关係都是潜在的相依关係。此时,传统的统计方法(如回归或马尔可夫模型)除了能解决一些琐碎问题,在数学上变得无计可施。不过也不必担心,我们会开发使用新方法,而且同样有效。在本书第6章的“信息如何影响网路”这一节,我们将在信息扩散的背景下讨论更多同质性问题。
社会网路与连线分析
社会网路分析的另一个表亲是连线分析(LinkAnalysis,LI)。你们当中有些人可能已经在商业情报或执法工作中用过,或是在电视上见过。《寻人密探组》(WithoutaTrace)在每一集中都使用连线分析;《数字》(Numbers)和《法律与秩序》(LawandOrder)这两部电视剧则有时会用到。译注2
连线分析在很多方面都与社会网路分析相似——它们都使用节点(node)和边(edge)来描述关係(见图1-1),也都是通过分析整个网路而不是单个事件来推导谁在网路中更为重要。译注3
图1-1:连线分析图
不过,连线分析允许不同的节点和边在同一个网路中混合出现。例如,A付给B300美元是为了给C买药。在这个例子中,粗体字是节点或行动者,斜体字则是边或动作。从严格的定量意义上来说,不同的人对给钱、买药的理解可能是有差异的,因此连线分析取决于人们对语言的理解,纯粹从形式上来说,它是定性的。
大多数连线分析的软体工具,包括Analyst抯Notebook以及Palantir在内译注4,都可以用来收集定性数据并进行定性决策,它们功能强大而且广泛使用于各个领域。但是,因为根据不同含义的节点和边混合(例如,钱和电话)得出的结果在数学上是无效的,所以套用量化指标(如程度中心性)有风险。遗憾的是,如果你在使用连线分析软体,那幺将无法阻止软体对这些指标进行计算。
解决这一问题的方法是使用多模网路(multimodenetwork),我们将在第5章讨论,它能更準确地表达混杂不同含义的节点与边。
非正式网路的力量
让我们从一个小故事开始讨论社会网路分析。
ACME谘询是一个历史悠久的审计公司,它成立于20世纪60年代,曾作为家族企业存在了25年。该公司缓慢而有序地发展了很多年,一直是公司所有者的骄傲。ACME的主要业务是会计和审计——为一些精选的、可信的客户服务。20世纪90年代中期,在资讯时代的诱惑下,ACME增设IT部门,构建起一个“21世纪的公司”所需的所有基础设施——虽然它的核心业务依然是老式的,用勤奋工作的方式来处理文书和数字。
可惜一切好事都有尽头,企业主在邻近退休的时候,决定搬到佛罗里达州的博卡拉顿市,开始钓鱼新事业,扮演起全职祖父的角色来。他不想出售公司,于是外聘一位CEO代为管理,公司仍然归家族所有。
图1-2中的组织结构图呈现的是这位CEO(Conrad)眼中的公司。审计和IT是公司的两大部门,大约各有100名员工(此图已经大大简化了)。另外还有一个“秘书处”——他们唯一的职责就是处理公司客户堆积如山的文书。从某种程度上说,这完全是一个“狂人”的世界——有些年龄较长的审计员仍然称呼秘书为“小姐”,儘管有的秘书已经50多岁了。部门之间为了资源和需求口角不断,解决这些问题也需要花费很长时间、开无数次会议,从而牺牲了工作效率。
这种生意方式可与刚从名牌商学院毕业的CEOConrad不相符。他想打造一个现代的、以客户为导向、快速反应的组织。他上任不久,便对ACME进行了公司重组。每一个客户对应一个“业务经理”,由一个跨职能的团队进行支持,负责从安装伺服器到报税的所有工作。原来的秘书处解散,分配到每个客户区。从图1-3中可以看到新的组织结构。
从表面上看,这个变化是好的。项目团队终于开始了解他们的客户;财务和IT人员意识到他们并非来自两个不同的星球,终于开始对话,常规问题在几个小时之内便可解决,而不是像以前需要耗费几个星期。客户也很满意。但是表象之下,麻烦正在形成。