我国社交媒体信息收集的实现方式

作者：浏览数：次关键词：社交收集方式我国媒体

摘要：本文在阐述社交媒体信息收集的必要性和国外现状的基础上，分析了我国社交媒体信息收集面临的困境，提出档案部门作为主要责任者，应尽快开展社交媒体信息收集工作，并进一步探讨我国社交媒体信息收集的实现方式。

关键词：社交媒体; 信息;收集

随着互联网和个人终端（如PC端和手机端）的飞速发展和普及，人们的社会活动越来越多地在网络上进行，网络信息资源因而越来越丰富，但在网络资源快速增长的同时，其消失速度亦十分惊人。为此，继1996年澳大利亚、加拿大、瑞典等国家的图书馆和因特网档案馆开始收集网络信息资源之后，许多国家级图书馆及其他机构也纷纷展开对网络资源的收集工作。与此同时，作为网络资源重要形式之一的社交媒体信息也引起了一些国家的重视，英美等国纷纷开展社交媒体信息的收集工作。我国虽然从2002年也开始了网页信息的收集，但是，对社交媒体信息的收集还没有足够重视，社交媒体信息收集工作也尚未展开。

一、社交媒体信息收集的必要性

Web2.0时代，网络信息资源增长迅速，但其消失的速度相较于其它类型的信息也十分惊人。Internet Archive的创始人Brewster Kahle估计网页信息在75天后就会消失，美国信息基础架构和保存项目（NDIIPP）报告中指出，网络信息平均寿命为44天。社交媒体信息作为网络信息的一种，也具有网络信息消失速度快的特点。我国社交媒体平台上每天都有几亿条动态更新，记录着社会生活的方方面面。其中，相当一部分具有学术、科研、文化价值的社交媒体信息随时都可能消失，而具有时政价值的信息如果当时没有得到妥善保存一般都难以找回，澳大利亚2000年悉尼奥运会网络信息的佚失便是例证。笔者认为，对于珍贵的社交媒体信息应该尽早收集归档，以免造成社会记忆的缺失。

1.社交媒体信息的档案价值

判断社交媒体信息是否有必要收集，首先要判断社交媒体信息是具有档案价值，而从定义角度来判断求证是最根本的方法。我国档案行业标准将档案定义为“国家机构，社会组织或个人在社会活动中直接形成的有价值的各种形式的历史记录”，这一定义分别明确了档案的形成者、形成过程、价值属性、档案形式这几个要素。

第一，从档案形成者来看，档案形成者一般是国家机构、社会组织和个人，而社交媒体平台上的所有信息发布者均属于这一范围;第二，从形成过程看，档案必须是在社会活动中直接形成的历史记录，必须具有原始记录性。可以发现，社交媒体中很多信息都是由政府、企业和个人账号直接发布，表达各自的观点看法。如2015年8月12日天津爆炸事故、“7·23”甬温线特大铁路交通事故中均有社交媒体用户发布了关于事故的照片和文字，这些数据由用户自己生成，具有档案最本质的属性——原始记录性。第三，从价值属性来看，社交媒体信息中的官方政府信息和非官方社会信息各有其价值。社交媒体平台上政府账号发布的信息，是该单位宣传工作的窗口，可以更快速地发布信息并且与民众互动，是该单位工作情况的反映，是值得保留的原始历史记录;而美国Twitter存档白皮书则称，收集保存Twitter所有信息包括非官方政府信息“将能使未来的研究人员更全面地了解今天的文化规范、交流用语、流行动态、热点事件、立法过程、原创作品、教育情况等等。”最后，档案的形式是多种多样的。从载体来看，从最早的甲骨、金石、缣帛、简册、纸质发展到今天的磁帶、光碟和网络载体等，并不因形式的变化而否定其为档案的现实，在发达国家都展开了大规模网页存档工作的今天，载体同为网络形式的社交媒体信息也应作为档案收集存档。

2.社交媒体信息的特有优越性

虽然档案是人类在社会活动中形成的历史记录，但是由于历史上各种条件的限制，许多事件或留有空白，或无法得知详细情形。而社交媒体则极大地完善了这一点，具有传统档案所没有的优越性，即对突发事件的直接记录和对历史资料的充实丰富。

首先，历史上，对于一些始料未及的突发事件，往往没有第一手资料，即使后来有对亲历者的访问，也存在着遗漏和偏差的可能，而社交媒体平台给事件亲历者提供了第一时间发布事件经过的可能。譬如在“7·23”甬温线特大铁路交通事故和“8·12”天津爆炸事故中，事故幸存者和围观群众将事故经过的图片和文字传上社交媒体平台，成为再现历史真实面貌的宝贵文献。其次，通过社交平台，档案部门可以通过与民众互动的方式，获得普通人视角出发的鲜活、真实的历史资料，以填补历史的空白或丰富现有历史资料。加拿大哈利法克斯省档案馆就利用Twitter征集哈利法克斯大爆炸事件相关故事，并将生成的微博收集归档，使档案馆的馆藏得以丰富。这一方式同样适用于我国，保存于南京市档案馆的南京大屠杀档案，同样可以通过与市民互动的方式，鼓励民众积极讲述历史，以丰富和完善南京大屠杀专题档案，进一步增强档案的权威性和可信度。

二、国外社交媒体信息收集的现状

以英美两国为代表，国外社交媒体信息收集工作已率先展开。早在2006年，英国国家档案馆就开始进行社交媒体信息收集工作，其内容涉及近些年的重大事件，形式多样，收集方式日趋完善。社交媒体信息资源的收集使英国政府部门得以使用数字工具与公众进行沟通。2010年，美国国会图书馆（Library of Congress，简称LC）启动了Twitter存档项目（The Twitter Archive），并于2013年1月发布了题为《Update on the Twitter Archive at the Library of Congress》的Twitter存档白皮书（简称白皮书），开始大量收集平凡的有关于人们朋友、家庭、工作和饮食生活的tweets。

1. 社交媒体信息收集的时代背景

首先，国家战略导向推动了英美社交媒体信息收集工作。英国国家档案馆对于网络资源收集的战略目标是：收集实体形式和数字形式的公共记录，以及确保能为子孙后代保存并提供实体形式和数字形式的公共记录的利用。21世纪以来，英国国家机构越来越多地利用社交媒体平台发布政府信息并与民众互动，为了全面、妥善地保存政府部门以及重大事件的公共记录，英国国家档案馆也开始将社交媒体信息纳入收集范围。美国网络信息资源战略则以收集、保存和提供当前和未来的重要数字资源特别是仅存在数字形式的信息为目标，在这样的战略导向下，LC在收集归档有关政府信息和重大事件的网站资源后，开始认识到社交媒体信息中民众生产的信息同样具有很高的研究价值和历史意义。

其次，已有网页存档技术提供了有力支持。英国从2001年开始选择网页进行归档，此后开启了网页存档项目（UK Web Archiving，简称UK WA），该项目旨在明确网络归档的采集策略，并在英国网络归档联合会（UK Web Archiving Consortium，简称UKWAC）框架下进行网页的采集和保存工作。美国国会图书馆自2000年以来，一直对有关政府信息和政策事件的网络资源进行收集，其中包含了数以万计的网站。在致力于网络资源收集这一目标的推动下，LC将用于捕捉和访问这些资源的标准和工具都已开发起来。由此可见，在对社交媒体信息收集之前，英美都已展开了网页存档，且积累了一定的技术和专业知识，为社交媒体信息收集工作提供了基础。

2. 社交媒体信息收集范围各有侧重

英国社交媒体信息收集侧重于政府信息的保存。就Twitter档案部分而言，英国档案馆对于档案收集范围做了明确规定：英国政府部门账号和伦敦奥运会官方账号发出的Twitter以及这些Twitter中提到的网页;被舍弃的Twitter内容主要为政府部门转发的推特，由政府部门发布的Twitter但其中包含非政府部门Twitter内容的不在归档范围中的。此外，Twitter内容中的链接内容也不属于收集范围。同样，在社交媒体平台Youtube上，视频形式的社交媒体信息的收集来源是2007年以来43个政府部门开通的Youtube 账号以及2012年伦敦奥运会和残奥会的相关视频。总体来看，英国社交媒体信息收集主要是以政府工作为中心的，囊括了法律、教育、军事、健康、经济等全方位的政府事务和一些政府参与其中的社会重大事件如伦敦奥运会和苏格兰公投。

美国Twitter存档项目中收集对象为2006年3月至2010年4月所有公开的tweets。私人账户信息和删除的tweets以及图片和网站的链接信息不在收集范围之中。LC发表的声明中表示，项目收集的资源中除了Twitter联合创始人杰克· 多尔西的第一条tweet、奥巴马总统赢得竞选的tweet、某位在埃及被捕后因其学术探讨使用Twitter引发一系列事件而被释放的摄影记者的两组tweets以及社会名人与重大事件的内容之外，更将收集的重点放在了大量平凡的有关于人们朋友、家庭、工作和饮食生活的tweets上。雖然美国国会图书馆所收集的Twitter档案暂不对外开放，但根据其收录2006年至今所有Tweets的做法来看，涉及的人物上至奥巴马、杰克多尔西等政商名流，下至美国普通百姓;其中既有美国大选、企业营销等政治经济内容，也有普通人的生活百态;所涉内容十分庞杂。也正是因其内容的庞杂，也加大了整理归档的难度，从2010年获得Twitters授权直至2013年初，LC都没有着手分类或过滤这些多达133TB的Twitter内容。

3.社交媒体信息收集类型多样

社交媒体信息的收集，从内容来看，涵盖极为广泛，包含了政治、经济、文化、生活等诸多方面的信息。从信息的产生来看，美国Twitter收集归档项目中既有政府账号发布的信息，又有普通民众、企业社会团体等个人和非政府机构发布的信息;而英国网页归档项目中社交媒体部分只收集了政府产生的信息。从信息的表现形式来看，社交媒体信息可以分为文字信息和多媒体信息（如音视频信息）。英国的社交媒体信息收集就包含了从Youtube社交媒体平台收集的视频档案信息;自2014年Twitter宣布将开发允许发布音乐的新功能以来，美国LC收藏资源中可以预见也将包含音频档案信息。

4.社交媒体信息收集影响非凡。英美两国开展社交媒体信息收集工作以来，成效显著，影响深广。从美国国会图书馆发布Twitter归档的消息起，这一项目便成为了Twitter上的热门消息。除此之外，根据Go.USA.gov政府网站报道，美国国会图书馆因这一项目的缘故，博客网页点击量超过了41000，是其他政府URL点击量的五倍多，网络流量大到LC博客服务器暂时崩溃。同时，媒体如《纽约时报》、ABC新闻、法新社、PC杂志、《洛杉矶时报》、《今日美国》、《商业周刊》等对这一项目进行了报道。威斯康辛大学、康涅狄格昆尼皮亚克大学、密苏里大学、纽约巴鲁克学院、乔治亚州立大学和塔夫茨大学等众多大学都对这一项目给予了一定程度的关注。英国政府网页档案项目也被认为是英国数字化保存非常重要的项目。该项目的主持机构英国网络资源归档协会（UKWAC）已与国际档案组织（IIPC）发展为成功的合作伙伴关系。

三、我国社交媒体信息收集的困境

2002年以来，我国开展网页信息收集保存工作的主要有北京大学网络实验室主持的中国Web信息博物馆和国家图书馆主持的Web Information Collection Preservation（简称WICP）项目，工作开展至今已取得了一定成果。然而，作为重要的网络信息资源，社交媒体信息的收集工作还面临诸多困境，至今尚未开展。

1.主体不明

对于网页信息应该由哪个机构负责哪个部门领导监管的问题，我国并未在制度层面予以明确。现有的网页信息收集保存工作虽然由北京大学和国家图书馆主持，但这只是微观层面的管理。宏观的制度层面并未解决，即明确由哪个部门来作为网页信息收集归档的主体，哪些部门提供协同和支持尚不明确。同样的，对于社交媒体信息的收集保存工作，非常重要的一点就是要首先从制度层面明确其责任主体。对于网络信息收集保存的主体，国内外学者众说纷纭：有认为要以网络信息生产者或网络信息所在网络平台来作为主体;也有认为要以图书馆或档案馆来作为主体以实现长期保存的任务。如果不能首先在制度上明确责任主体，设计一个全面完善的责任体系，难免会出现各自为政，收集信息内容重合、类型单一、偏重政府网页内容等一系列问题。

2. 权责不清

我国已出台的《知识产权法》承认数字文献的知识产权，这也就意味着网络上的任何信息都同传统出版物一样受知识产权法的保护。因而，无论是我国已经开展的网页信息收集保存，还是还未开展的社交媒体信息收集，都要征得信息生产者和网络平台的同意。然而，由于网络信息浩如烟海，数量庞大，不可能逐一征得同意，这就要求国家首先在制度层面建立和完善数字呈缴制度，明确权责，促使个人、组织或机构主动呈缴网络信息。而我国现在虽然已对网页内容进行了收集保存，但制度修改和完善并没有完全跟上，信息收集主体的权限与责任尚未厘清，必然为社交媒体信息收集埋下隐患。

3. 范围未定

在我国已经开展的网页信息收集存档工作中，将网页信息收集范围主要集中在中文Web空间，其中中国信息博物馆主要收藏中文静态网页。但是这一收集范围也存在问题：中文Web空间的界定不清，即究竟应该以网页使用语言、网页信息生产者身份，还是域名或者服务器物理地址来区分。目前对于社交媒体信息收集范围仍未明确，如果进行社交媒体信息收集，则需要综合考量责任主体、项目目标等多种因素，尽量明确收集范围，避免范围上的过于宽泛或过于狭窄。

4. 人才匮乏

从2003年开始，由我国国家圖书馆发起的WICP网页收集项目现在处于停滞状态，除了资金和技术上的难以为继，更多反映的是项目人才的缺乏。同样，对于社交媒体信息收集工作的顺利开展而言，相关专业技术人才起了至关重要的作用。以从事信息收集保管的档案人员为例，我国目前现有专职档案人员约9万人，虽然一直处于增长态势，但是其增长速度远远小于我国信息资源增长速度，两者增长曲线之间的“剪刀差”越来越大;另外，档案人员中高素质人才极度缺乏，尤其是具备信息技术的档案专业人才匮乏。据统计，现有档案人员中从未接受过专业档案培训的比例高达40%。可以想见，如果开展社交媒体信息收集工作，也会同样面临人才匮乏的窘境。

四、社交媒体信息收集的实现方式

1. 完善法律制度

社交媒体信息收集工作涉及信息用户发布内容的知识产权、采集权与公布权等法律权限，社交媒体信息收集工作需要相关法律法规来保驾护航，而我国现有的法律体系在这一方面还是空白。针对这一问题，我国政府部门要积极促进立法，效法西方国家建立数字资源呈缴制度，同时，也要完善现有法律体系内知识产权法有关内容，赋予档案部门合法权利，使社交媒体信息能得以及时地大量收集，并由档案部门对社交媒体信息加以整理加工，以便日后的检索利用。另外，在现阶段虽然没有正式的法律方法可以解决版权问题，但是档案部门工作人员仍然可以通过与版权者协商解决的方法，来获得版权许可。

2.明确权责主体

从国际互联网联盟的调研结果来看，目前从事网络信息资源收集存档工作的主要是国家图书馆，虽然国际通行做法是由图书馆管理，但这不意味着档案部门应该置身事外，相反，档案部门应该是社交媒体信息收集归档的主要责任者。一是因为性质上社交媒体信息属于档案资源，而档案部门具有负责接收、征集并保管所属范围内的各门类档案及有关资料，维护档案的完整与安全的职能;二是因为档案部门管理组织体系较为健全成熟，各级各地档案部门开展社交媒体收集归档工作时可以依照原有的规章流程进行操作，不必另立规章条例而显得更为方便;三是社交媒体信息所载荷的数字遗产属于文化遗产的一部分，而档案部门又肩负着文化遗产保存、传承的职能。

3.划定合理范围

从英美两国社交媒体信息收集来看，英国只将范围确定在政府部门社交媒体账号所发布的信息，主要采用广泛收集和专题收集两种方法收集社交媒体信息。而美国Twitter项目则将2006年至2010年间所有公开Twitter作为收集范围，所采取的主要方法是广泛收集法。我国开展社交媒体信息收集工作虽然是大势所趋，但也要注意不可盲目照搬。鉴于我国社交媒体信息信息量巨大且良莠不齐的现实，若采用广泛收集法必然会加大收集工作操作难度，并且无法保证收集内容的真伪和价值。加之国外档案馆如英国国家档案馆一般将其工作重点放在政务信息上，我国可以依循国外档案馆的工作经验，在社交媒体信息收集工作的初期，可以将收集范围重点集中在政府社交媒体信息上，同时对社会重大事件给予关注。社交媒体信息在收集方法的选择上也可以借鉴我国网页信息收集的现有方法，采用复合收集策略，即对政府社交媒体信息的广泛收集，对社会重大事件进行专题收集。以避免收集信息不全面或者缺乏重点的问题。

4. 开展多方合作

由于社交媒体信息存储于社交媒体平台，信息创建者小到个人用户大到国家机构、社会组织，同时，社交媒体信息的收集也与一般的网页收集有所区别，所以，要实现长期有序地对社交媒体信息进行收集仅仅依靠档案部门自身的人力物力是完全不够的，这就需要档案部门与社交媒体平台以及网络信息保存机构开展多方合作。英国国家档案馆在收集社交媒体信息的过程中，分别与Twitter和Youtube合作，收集了属于归档范围的、政府社交媒体账号内的信息;而美国国会图书馆除了与Twitter合作以外，还与数据公司Gnip、网络信息保存团队IA及美国学术界展开合作以解决资源获取和技术支持等方面的问题。我国可以借鉴英美两国的合作模式，积极与国内的社交媒体平台合作，并且签订资源获取合作协议;同时档案部门也可以和我国专业网络归档机构如中国信息博物馆合作，以更好地了解先进技术并将之运用于社交媒体信息收集工作。另外，档案部门还可以与我国学术界合作，在都柏林元数据的基础上，针对社交媒体信息制定合适的个性化的元数据规则，在收集社交媒体信息内容的同时，对每一天社交媒体信息的元数据如：日期和时间、地理数据、账户创建日期等加以规范化收集，使之后的编目、检索更为便利。

5.加大人才培养

信息收集人才的培养是我国社交媒体信息收集工作顺利开展的重中之重。社交媒体信息收集工作要求工作人员不仅要有档案管理的专业知识，还应具备一定的计算机与网络信息技术，了解数字环境下信息工作包括档案工作的流程，有能力从事社交媒体信息收集捕获、筛选鉴定、组织检索和存储等一系列工作。因此，一方面可以通过培训、进修等各种方式进一步提高档案工作人员素质，提升信息技术水平;另一方面，也可以针对信息管理与信息技术人才，加强档案管理知识的培训，实现社交媒体信息收集人员在档案工作经验与计算机技能两方面的结合。

五、结语

综上，社交媒体信息的价值已经越来越为人们所认识，英美两国有关部门已经率先行动起来，对那些具有保存价值的社交媒体展开了收集工作，其收集战略、收集范围、收集内容和资源类型值得我国借鉴吸收。我国虽还未展开社交媒体收集工作，但应意识到许多具有重大价值的社交媒体信息亟待收集归档。我国档案部门应将自己作为推进这项事业的主要责任人，积极促进立法完善，开展多方合作，加紧理论研究，提高人员素质，为未来社交媒体信息收集工作的开展奠定基础。

参考文献：

[1]Brewster Kahle.Archiving the Internet.

[2]National Digtal Information Infrastructure and Preservation.

[3]LC_twitterarchive_report_2013jan[EB/OL].

[4]万凯莉.美国Twitter存档项目对我国社交媒体信息归档的启示.[J].浙江档案，2014，（6）：8-11

[5]梁皆璇.英国政府网页档案项目及启示.[J].北京档案，2014，（12）：38-40

[6]New Media Atwitter Over Tweet Archive[EB/OL]. [2016/4/23].

[7]The Library of Congress in the News （May 2010） - Library of Congress InformationBulletin[EB/OL].[2016/4/23].

[8]UKWAC—Building the UK’s first web archive[EB/OL].[2016/4/23] .

[9]杨道玲.中文web资源保存现状与思考.[J].大学图书馆学报.2006.（4）：56-60

[10]傅华.在数字繁荣的背后——我国档案工作人员的状况分析.[J].浙江档案.2007.（1）：10-13

[11]周毅.网络信息存档——档案部门的责任与策略.[J].档案学研究.2010.（1）：70-73

作者简介：刘英捷，女，中国科学院文献情报中心16级硕士生;王芹，女，苏州大学社会学院档案系副教授，硕士生导师。