[目的/意义]机构名称的数目多且较为繁杂,机构名称归一化可将同一机构的规范名称以及不同时段、不同表达形式的非规范名称汇集在一起,提高查询检索的查全率和查准率;有利于建立与其他系统之间的互操作,实现资源的共享。[方法/过程]在分析机构名称字符串的特点和基于K-means算法的基础上,利用编辑距离算法实现一级机构名称的初步聚类,然后利用初步聚类结果并基于TF-IDF算法计算机构名称各词项的权值,从而基于K-means算法将机构名称围绕聚类中心抱团聚簇,并对每一个簇的机构名称赋予唯一标识符。[结果/结论]该方法可实现同一机构实体不同形式的规范名称的归一,提高机构名称聚类的准确率,但对K取值、距离测度方法的选取仍有待优化。
[Purpose/significance] Institution names are numerous and complicated. The normalization of institution names brings the authoritative name and the informal ones(both at different times and in different ways of expression) of the same institution together,enhancing comprehensiveness and accuracy of searches,promoting interoperability with other systems, and thus realizing resource sharing.[Method/process] Based on the analysis of institution names' characteristic and K-means algorithm, this paper utilizes the edit distance similarity algorithm to achieve name normalization of institution names. Then uses TF-IDF to calculate the weight of each item, around the cluster center to normalize institution name based on K-means algorithm and gives the unique identifier to every cluster.[Result/conclusion] It achieves name normalization of the same institution name in different forms. And it improves the precision of institution name cluster, but the choice of K value and distance measurement method still needs to be optimized.
[1] VIAF[EB/OL].[2017-03-06]. http://www.oclc.org/en/viaf.html.
[2] LEAF-linking and exploring authority files[EB/OL].[2018-03-27].http://www.dlib.org/dlib/september01/09inbrief.html.
[3] 中文名称规范联合数据库检索系统[EB/OL].[2017-12-01] http://cnass.cccna.org/jsp/index.jsp.
[4] 中国科学院机构名称规范库[EB/OL].[2017-03-08]. http://irsr.llas.ac.cn/institution/.
[5] 张小衡, 王玲玲. 中文机构名称的识别与分析[J]. 中文信息学报, 1997, 11(4):21-32.
[6] 沈嘉懿, 李芳, 徐飞玉,等. 中文组织机构名称与简称的识别[J]. 中文信息学报, 2007, 21(6):17-21.
[7] 陈霄, 刘慧, 陈玉泉. 基于支持向量机方法的中文组织机构名的识别[J]. 计算机应用研究, 2008, 25(2):362-364.
[8] 俞鸿魁, 张华平, 刘群,等. 基于层叠隐马尔可夫模型的中文命名实体识别[J]. 通信学报, 2006, 27(2):87-94.
[9] 叶琳莉, 黄日茂. 结合决策树方法的中文机构名称识别[J]. 福建电脑, 2007(12):184-184.
[10] 尹继豪, 樊孝忠, 赵攀超,等. 基于组块分析技术的中文机构名称识别[J]. 哈尔滨工程大学学报, 2006, 27(S1):466-470.
[11] JIANG Y, ZHENGH T, WANG X, et al. Affiliation disambiguation for constructing semantic digital libraries[J]. Journal of the American Society for Information Science &Technology, 2011, 62(6):1029-1041.
[12] 杨奕虹, 李雅萍, 张立丽,等. 机构多层级词表的编制及在文献计量评价与科研绩效管理中的应用[J]. 数字图书馆论坛, 2013(6):57-63.
[13] 孙海霞, 李军莲, 吴英杰. 基于K-means的机构归一化研究[J]. 医学信息学杂志, 2013, 34(7):41-44.
[14] 贤信. 机构规范文档结构及构建方式研究[D]. 北京:中国科学技术信息研究所, 2015.
[15] DONOHUE J C. Understanding scientific literatures:abibliometricapproach[M]. Cambridge:The MIT Press, 1973:49-50.
[16] 章成志. 基于多层特征的字符串相似度计算模型[J]. 情报学报, 2005, 24(6):696-701.
[17] LEVENSHTEIN V I. Binary codes capable of correcting deletions, insertions and reversals[J]. Soviet physics doklady, 1966, 10(1):707-710.
[18] 吴军. 数学之美[M]. 北京:人民邮电出版社, 2014.
[19] 李飞, 薛彬, 黄亚楼. 初始中心优化的K-Means聚类算法[J]. 计算机科学, 2002, 29(7):94-96.
[20] 何晓群. 多元统计分析[M]. 北京:中国人民大学出版社, 2012.