描述一种基于改进TFIDF特征词加权算法的科技文献聚类方法:首先提取科技文献的特征词;然后根据特征词的词频、所在位置和词性为特征词加权,建立科技文献的向量空间模型;接着使用基于密度的聚类算法对科技文献向量空间模型数据进行聚类分析;最后使用主成分分析法对科技文献聚类的结果进行标识,利用Fmeasure方法对聚类结果进行评价。实验表明,用提出的科技文献聚类方法能够从所检索的科技文献中发现热点研究领域,并能识别具有学科融合性质的研究方向。
针对面向结构特性的科技文献分类问题,通过关联规则的分类方法将科技文献划分为不同的类型:综述型、理论型和应用型。首先对科技文献数据分词等进行预处理;然后通过PredictiveApriori关联算法挖掘关于类别特征项的频繁项集,构造科技文献分类的分类器;接着对分类科技文献进行分类规则匹配,判定所属类别;最后通过实验对分类性能进行评估,并通过对比证明了本方法的有效性。
传统的专家识别系统大多采用一组带权重的关键词来表征专家的专长,然而这种基于关键词的专长描述不足以概括专家的研究主题。提出基于领域本体概念的专长表示方法,通过构建相应的领域本体来描述领域核心概念和概念间关系,利用谷歌距离来计算关键词到本体概念的语义相似度,完成关键词到概念的映射,从而得到基于本体概念的专长表示。
以F1000数据库中生物信息学和免疫学近2 000篇文献为样本,多角度探讨WoS与Scopus数据库的优劣,其中包括两个数据库中被引频次的相关性、与F1000因子的相关性、主要评价指标数值及排序的相关性、历年被引累积量与被引总量相关性、多维空间感知图下的指标间相关性。结论指出:虽然各项指标源于WoS与Scopus不同的数据库,但是就被引频次及与F1000因子关系而言,两库具有较好的一致性;两库的主要评价指标,无论是数值抑或是排序,均体现出高度相关。上述结果可为科研评价中两个数据库的替代性和选择性提供借鉴,同时为定位在开源Scopus系统的利用提供有力依据。
基于文本挖掘的形态分析方法是在传统方法基础上融入文本挖掘的手段,是国内外学者对形态分析方法的一次有益的探索与改进。改进后的方法减轻对领域专家的依赖,并且增加分析过程中客观数据的支持,提高方法的效率和科学性。基于文本挖掘的形态分析方法包括形态结构定义、特征词选择、形态表示、形态分析等4个关键问题,这4个问题解决方案的优化对整个方法的分析效率和质量的提高有关键作用。
对中国学术数字信息资源市场中数据库服务商的垄断行为进行博弈分析,并对市场监管部门及不同规模服务商提出发展建议。通过模型分析发现:由于不同信息资源需求的不均匀性,买断少量高需求资源可以提升企业效益,不过垄断进行到一定程度就会停止,且先行动者获益更明显;规模小的服务商有更大动力买断数字信息资源,规模大的服务商的报复行动对规模小的服务商的效益影响不大,所以规模小的服务商具有很大的意愿买断信息资源;允许各服务商保有一定量独占资源,鼓励深度挖掘及提供个性化服务是形成市场良性竞争的有效途径。
危机情境反映企业受危机冲击的状况,对危机情境信息的分析是企业危机处理的前提,危机情境中的信息失真导致危机决策的偏差,使企业不能有效处理危机。系统分析危机情境中不全面型、增加型、错误型、丢失型和模糊型等5种信息失真表现形式,并从情境客体、认知主体、信息传递与吸收等角度探讨其失真的内在机理。