认为信息分析方法可以用于社会科学研究,具有客观、系统和定量的特点。内容分析作为一种典型的信息分析方法展示了这些特点。但它也具有抽样过程的人为性、手工标引的低效率、人工作业的低信度问题。网络时代出现的文本挖掘方法能够处理海量文献、处理非结构化数据,其研究品质远远高于手工信息分析方法。
指出作为处理海量数据的有效工具,文本挖掘技术近年来在人文社科领域得到广泛重视。概述文本挖掘的相关技术和研究现状,介绍信息抽取、文本分类、文本聚类、关联规则与模式发现等常用的文本挖掘方法在人文社科研究中的具体应用,以拓展文本挖掘的应用领域,并为人文社科研究的方法创新提供新的思路。
调研文本挖掘在人文社会科学领域的应用现况,介绍国际上文本挖掘在这些领域应用的成功案例与经验,展现目前文本挖掘在人文社科领域的最新研究进展,给国内相关研究的开展提供一定的启示。
指出依据传统信息源对学科热点进行分析研究存在时间上严重滞后的缺点,提出基于微博的学科热点发现、跟踪和分析机制,论证其可行性并给出实现方法和步骤。以基于新浪微博的“数据挖掘”领域学科热点的研究作为实例,将微博结果同传统研究结果进行对比,表明该方法同传统热点分析结论有重合部分,但又可以反映出传统方法所无法反映出的最新热点。
以Web2.0技术产生的微内容杂乱无序、难以利用的问题为出发点,应用信息组织理论和序化思想,研究如何对微内容进行汇总、序化加工,形成有序的、易于理解与利用的综合信息,包括:设计对微内容加工的方法,构建Web2.0信息加工框架,为Web2.0网站建设及改进提供依据,并探索微内容信息利用的方式。
为研究信息在微博中的传播特征,对新浪微博数据进行实证分析。利用复杂网络理论方法,对构建的微博信息传播网络,进行基于度、路径统计指标的分析,发现该网络具有集群性、小世界、高度中心化等特征。这些特征表明,信息在微博网络中的传播效率比其他在线社会网络更高;网络中介数中心点对信息传播效率的贡献显著,但网络并不脆弱;节点在信息传播中的作用差异很大,易于形成意见领袖。按行业属性对网络进行群落划分后,发现各群落在微博中表现出的信息传播特性与在现实社会中相似。