Please wait a minute...
Advanced Search
数据分析与知识发现  2022, Vol. 6 Issue (11): 139-153     https://doi.org/10.11925/infotech.2096-3467.2022.0183
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
数字人文视域下中国行政区划地名演化知识库构建及分析研究*
李晓敏,王昊(),李跃艳,赵萌
南京大学信息管理学院 南京 210023
江苏省数据工程与知识服务重点实验室 南京 210093
Constructing Knowledge Base for Chinese Geographical Name
Li Xiaomin,Wang Hao(),Li Yueyan,Zhao Meng
School of Information Management, Nanjing University, Nanjing 210023, China
Jiangsu Key Laboratory of Data Engineering and Knowledge Service (Nanjing University),Nanjing 210093, China
全文: PDF (2868 KB)   HTML ( 11
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 利用关联数据技术对地名沿革的演变过程进行研究,更好地发挥地名的文化传承作用。【方法】 构建中国地名演化知识库CGNE_Onto,制定演变类型强弱标志词识别历史沿革数据中的演变类型句,再利用BERT-BiLSTM-CRF深度学习模型识别演变类型句中的时间和地名实体,将识别出的时间和地名实体作为本体中的类构建本体知识库,同时从直接路径关系和间接路径关系角度对构建好的行政区划地名演化本体知识库进行可视化展示。并对各朝代不同演变类型的数量以及形成原因进行统计分析。【结果】 实验结果表明,所提模型能够多角度、直观地展示地名演变情况,为地名数据的分析挖掘提供了一种新的思路。【局限】 数据集规模较小,造成演变特征词也有一定的局限。【结论】 构建的地名演化知识库能够直观、清晰地展现地名从古至今的演变情况,以及各朝代演变类型的情况。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李晓敏
王昊
李跃艳
赵萌
关键词 数字人文本体知识库地名演变模式匹配实体识别    
Abstract

[Objective] This paper uses linked data technology to study the evolution of geographical names in China, aiming to more effectively conduct digital humanity research. [Methods] First, we constructed the knowledge base CGNE_Onto for the evolution of Chinese geographical names. Then, we formulated the strong and weak marker words to identify evolution type sentences from the historical data. Third, we utilized the BERT-BiLSTM-CRF model to identify the time and place name entities from the evolution type sentences. Fourth, we used the newly generated entities as classes to build the ontology knowledge base, which was visualized from the perspective of direct and indirect path relationship. Finally, we analyzed the numbers and reasons of different evolution types in each dynasty. [Results] The proposed model intuitively demonstrated the evolution of geographical names, and provided some new directions for the analysis of geographical names data. [Limitations] The experimental data set needs to be expanded to improve the quality of evolution feature words. [Conclusions] The knowledge base for place names clearly shows their historical evolutions, as well as the evolution types in different dynasties.

Key wordsDigital Humanity    Ontology Knowledge Base    Place Name Evolution    Pattern Matching    Entity Recognition
收稿日期: 2022-03-06      出版日期: 2023-01-13
ZTFLH:  TP393  
基金资助:* 国家自然科学基金面上项目(72074108);中央高校基本科研业务费项目(010814370113)
通讯作者: 王昊     E-mail: ywhaowang@nju.edu.cn
引用本文:   
李晓敏,王昊,李跃艳,赵萌. 数字人文视域下中国行政区划地名演化知识库构建及分析研究*[J]. 数据分析与知识发现, 2022, 6(11): 139-153.
Li Xiaomin,Wang Hao,Li Yueyan,Zhao Meng. Constructing Knowledge Base for Chinese Geographical Name. Data Analysis and Knowledge Discovery, 2022, 6(11): 139-153.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2022.0183      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2022/V6/I11/139
Fig. 1  地名演化知识库构建模型
地名 编号 历史沿革
杭州
1
杭州乌龟洞遗址古人类化石的发现证实5万年前就有古人类在杭州这片土地上生活,萧山跨湖桥遗址的发掘证实了早在8 000年前就有现代人类在此繁衍生息,距今5 000年前的余杭良渚文化被誉为“文明的曙光”。
114 2021年9月,根据第七次全国人口普查,杭州被列为特大城市。
上城区 115 上城区自宋至清,分属钱塘、仁和县管辖,民初属杭县管辖。
127 撤销杭州市上城区、江干区,设立新的杭州市上城区。
拱墅区 128 拱墅区因境内有拱宸桥、湖墅而得名。
139 2021年4月,撤销下城区和拱墅区,设立新的拱墅区,以原下城区、拱墅区的行政区域为新的拱墅区的行政区域。
利辛县 13103 先秦时期,分属胡子国、州来国地、后属楚地。
13122 2019年4月29日,安徽省人民政府批准利辛县退出贫困县序列。
Table 1  历史沿革数据
编号 演变类型 编号 演变类型
C1 新增 C7 政区合并
C2 改名 C8 治所迁移
C3 撤销 C9 行政等级改变
C4 政区缩小 C10 隶属改变
C5 政区扩大 C11 位置迁移
C6 政区分割
Table 2  演变类型
编号 数量 标志词(部分)
强标志词 弱标
志词
强标志词 弱标志词
C1 18 23 始建、始设、新建、设县、
建县、建…州、置…郡、设…州
分置、析置、析…置、分…置、分…设、划…设
C2 41 27 易名、复名、复县、复原名、恢复…旧称、废…为、升(降)…为 改设、改为、复改、改…为、撤…设、改置、设立
C3 14 6 撤销、撤消、裁撤、废除、废…县(郡、州)、移去 并入、复入、省…入、并…入、并…于
C4 5 43 析出、分出、划建、缩小、分析 划归、划入、改隶、析置、改置、划给、划属、于…置
C5 9 16 辖县增、扩展、扩及、增领、增辖、增臵 划给、划回、并入、复入、划入、划归、重归
C6 5 19 一分为二、分设、析为、拆分、分为 复置、复立、分置、划分、析…置、析…立、析…为
C7 5 2 合并、复并、合为、并置、组建 裁…设、撤…设
C8 20 0 迁治、迁至、县治迁、移治、迁回、移驻 NULL
C9 24 21 升(降)…为、升(降)为、升级、擢升、废…为、罢…为、改升 改置、改称、改为、撤…设、撤…建、撤…立、改名

C10

88

18
隶属、直属、分属、辖地、辖区、省辖、市辖、属…郡、归…郡、隶…郡、为…治、辖…县 划归、复为、改为、划入、划回、重归、划属、改隶、改属
Table 3  演变类型识别标志词
编号 定义
1 现代地名(CurrentName) 被研究演化的地名
2 演变地名(ChangedName) 发生某一演变类型后的地名
3 演变前身(Predecessor) 当前地名演变前一状态的地名
4 演变类型(Type) 演变类型名称
5 时间
(Time)
当前时间
(EmperorYear)
演变类型句中识别出的年号帝号时间
公元纪年
(Erayear)
年号或帝号对应的公元纪年时间
6 变更(Evolution) 原始地名发生的变化
Table 4  核心概念类的定义
编号 对象属性 定义域 值域 定义
1 hasOccured CurrentName Evolution 某一原始地名发生的演变
2 hasChanged Evolution ChangedName 某一原始地名演化的结果
3 hasType Evolution Type 某一原始地名发生的演变类型
4 thePrevious Evolution Predecessor 当前演变状态地名的上一状态地名
5 hasTime Evolution EmperorYear 某一原始地名发生演变的时间
6 equals EmperorYear Erayear 演变发生的年号帝号时间对应的公元纪年
Table 5  核心概念类间的关系定义
地名 演变类型 演变类型句
杭州 C1 秦统一六国后,在灵隐山麓设县治,称钱唐,属会稽郡
C2 新莽时一度改钱唐为泉亭县
民国16年(1927)废道制,析出杭县城区设杭州市,直属浙江省
C3 中华民国元年(1912年),废杭州府,合并钱塘、仁和两县为杭县,仍为省会所在地
民国16年(1927)废道制,析出杭县城区设杭州市,直属浙江省
C10 杭州夏商周属“扬州之域”
民国16年(1927)废道制,析出杭县城区设杭州市,直属浙江省
上城区 C1 NULL
C2 改原第一区为上城区,第二区为中城区,第四区为江干区
C3 NULL
C10 上城区自宋至清,分属钱塘、仁和县管辖,民初属杭县管辖
民国十六年(公元1927年)置杭州市,上城区域分属城区、江干区
此后城区行政区域多次变化,直至杭州解放前夕,上城区分属第一区、第二区和第四区(即原江干区),建区公所
利辛县 C1 同年10月31日国务院全体会议第148次会议通过,决定设立利辛县
C2 NULL
C3 NULL
C10 先秦时期,分属胡子国、州来国地、后属楚地
2000年,成立亳州地级市,利辛划归亳州市管辖
Table 6  演变类型句
实体 准确率/% 召回率/% F值/%
时间 92.64 94.52 93.57
地名 90.50 94.67 92.54
Table 7  模型训练结果
类别 序号 文本与识别结果 正确识别项 未正确识别项
全部正确
识别
1 民国元年(1912年),废府设县,绍兴县直属省 时间:民国元年 1912年
地点:绍兴县
NULL
2 天授二年(公元691年),分武康东境17乡置武源县,县治设下兰山南,为德清建县之始 时间:天授二年 公元691年
地点:武康 武源县 下兰山 德清
NULL

3
至正十八年(1358年)朱元璋攻取婺州路,改宁越府,至正二十年改金华府 时间:至正十八年 1358年 至正二十年
地点:婺州路 宁越府 金华府
NULL
4 雍正六年(公元1728年),设玉环厅为温州分府,政务直隶省 时间:雍正六年 公元1728年
地点:玉环厅 温州分府
NULL
5 民国37年(1948),温溪、石染、西岙3乡划给青田县 时间:民国37年 1948
地点:温溪 石染 西岙 青田县
NULL
未全部
正确识别
1 28年至民国36年属浙江省第十行政督察区 地点:浙江省 第十行政督察区 28年至民国36年识别为28年至和民国36年
2 1949年10月,置嵊泗县,属由大陆流亡本县枸杞岛的江苏省政府管辖 时间:1949年10月
地点:嵊泗县 江苏省
枸杞岛识别为枸杞
3 1959年2月,组建江北城市人民公社(与街道办事处一套班子、两块牌子) 时间:1959年2月 未识别出江北城市人民公社
4 1992年4月1日,建德撤县置市,市治新安江镇(今新安江街道) 时间:1992年4月1日
地点:建德 新安江街道
新安江镇识别为安江镇
5 南宋景定三年(1262年)迁县治于西墅保锦山下 时间:南宋景定三年 1262年
地点:西墅
未识别出保锦山
Table 8  实体识别结果分析(部分)
Fig.2  OWL编码示例
Fig.3  “变更103”查询结果
Fig.4  “隋开皇九年”查询结果
Fig.5  金华市隶属改变查询结果
Fig.6  义乌市沿革情况
Fig.7  “唐乾元元年”演变情况
Fig.8  改名演变情况
编号 朝代 区间 编号 朝代 区间
1 夏朝 约公元前2070年-约前1600年 11 南北朝 公元420年-公元589年
2 商朝 约公元前1600年-前1046年 12 隋朝 公元581年-公元618年
3 周朝 公元前1046年-前256年 13 唐朝 公元618年-公元907年
4 秦朝 公元前221年-前206年 14 五代十国 公元907年-公元960年
5 西汉 公元前202年-公元8年 15 两宋 公元960年-公元1279年
6 新朝 公元8年-公元23年 16 元朝 公元1271年-公元1368年
7 玄汉 公元23年-公元25年 17 明朝 公元1368年-公元1644年
8 东汉 公元25年-公元220年 18 清朝 公元1636年-公元1912年
9 三国 公元220年-公元280年 19 中华民国 公元1912年-公元1949年
10 晋朝 公元265年-公元420年 20 中华人民共和国 公元1949年-至今
Table 9  中国朝代及其区间(① https://baike.baidu.com/item/中国历史.)

朝代


演变类型
C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 总计
夏朝 0 0 0 0 0 0 0 0 0 3 3
商朝 0 0 0 0 0 0 0 0 0 0 0
周朝 0 0 0 0 0 0 0 0 0 81 81
秦朝 10 0 0 0 0 0 0 1 0 52 63
西汉 0 0 0 0 0 0 0 0 0 48 48
新朝 0 7 1 0 0 0 0 0 0 2 10
玄汉 0 0 0 0 0 0 0 0 0 0 0
东汉 10 8 0 3 0 0 0 3 0 37 61
三国 10 3 0 4 0 0 0 1 0 31 49
晋朝 7 7 0 2 0 0 0 2 0 22 40
南北朝 1 6 0 2 0 0 0 0 3 11 23
隋朝 2 13 12 2 6 0 0 2 8 52 97
唐朝 18 44 7 23 5 9 0 11 20 109 246
五代十国 4 15 0 0 0 0 0 2 0 14 35
两宋 3 22 0 0 4 0 0 0 8 49 86
元朝 0 32 0 0 0 0 0 0 27 48 107
明朝 9 17 0 11 3 2 0 1 2 32 77
清朝 1 8 1 4 0 0 0 0 0 39 53
中华民国 7 21 9 9 4 2 0 2 10 222 268
中华人民共和国 21 93 33 147 171 42 27 27 67 236 864
总计 103 296 63 207 193 55 27 52 145 1 088 2 229
Table 10  各朝代演变类型数量(浙江)
[1] 中华人民共和国民政部. 民政部关于进一步加强地名文化遗产保护工作的通知[EB/OL].[2021-12-12]. https://www.cpll.cn/law9322.shtml.
[1] (Ministry of Civil Affairs of the People’s Republic of China. Notice of the Ministry of Civil Affairs on Further Strengthening the Protection of Geographical Names and Cultural Heritage[EB/OL].[2021-12-12]. https://www.cpll.cn/law9322.shtml.)
[2] 李娜, 包平. 面向数字人文的馆藏方志古籍地名自动识别模型构建[J]. 图书馆, 2018(5):67-73.
[2] (Li Na, Bao Ping. Establishment of Automatic Recognition Model of Location Names in Collection of Ancient Local Chronicles Oriented to Digital Humanities[J]. Library, 2018(5):67-73.)
[3] 王东波, 高瑞卿, 沈思, 等. 面向先秦典籍的历史事件基本实体构件自动识别研究[J]. 国家图书馆学刊, 2018, 27(1):65-77.
[3] (Wang Dongbo, Gao Ruiqing, Shen Si, et al. Research on Automatic Recognition of Basic Entity Component of Historic Events for Pre-Qin Classics[J]. Journal of the National Library of China, 2018, 27(1):65-77.)
[4] 李玉超. 新闻事件地名实体识别和地图链接技术研究[D]. 成都: 电子科技大学, 2020.
[4] (Li Yuchao. Research on the Identification of Geographical Names of News Events and the Technology of MAP Linking[D]. Chengdu: University of Electronic Science and Technology of China, 2020.)
[5] 魏勇, 李鸿飞, 胡丹露, 等. 一种基于复合特征的中文地名识别方法[J]. 武汉大学学报·信息科学版, 2018, 43(1): 17-23.
[5] (Wei Yong, Li Hongfei, Hu Danlu, et al. A Method of Chinese Place Name Recognition Based on Composite Features[J]. Geomatics and Information Science of Wuhan University, 2018, 43(1): 17-23.)
[6] 沈思, 朱丹浩. 基于深度学习的中文地名识别研究[J]. 北京理工大学学报, 2017, 37(11): 1150-1155.
[6] (Shen Si, Zhu Danhao. Chinese Place Name Recognition Based on Deep Learning[J]. Transactions of Beijing Institute of Technology, 2017, 37(11): 1150-1155.)
[7] 林泽斐, 孟雪梅. 基于关联数据的地方文献地名规范控制[J]. 图书馆杂志, 2017, 36(10): 55-62.
[7] (Lin Zefei, Meng Xuemei. The Toponym Authority Control of Local Literature Base on Linked Data[J]. Library Journal, 2017, 36(10): 55-62.)
[8] 王卉. 近代广东海关档案中的拼音名词规范控制研究——以粤海关为中心[J]. 档案学研究, 2020(4):87-96.
[8] (Wang Hui. Research on the Authority Control of Proper Nouns of China’s Maritime Customs Archives in Canton (Yuehaiguan) ——Based on Personal Names, Place Names, and Corporate Names[J]. Archives Science Study, 2020(4): 87-96.)
[9] 夏翠娟. 中国历史地理数据在图书馆数字人文项目中的开放应用研究[J]. 中国图书馆学报, 2017, 43(2):40-53.
[9] (Xia Cuijuan. The Opening and Application of Chinese Historical Geography Data in Digital Humanities Projects of Libraries[J]. Journal of Library Science in China, 2017, 43(2): 40-53.)
[10] 程宁. 古籍专名数据库的构建与统计分析[J]. 文教资料, 2019(35): 52-56.
[10] (Cheng Ning. Construction and Statistical Analysis of Database of Proper Names of Ancient Books[J]. Data of Culture and Education, 2019(35): 52-56.)
[11] 达日玛. 清代蒙古盟旗地名数据库的构建[D]. 呼和浩特: 内蒙古大学, 2019.
[11] (Da Rima. Construction of the Geographic Name Database of Mongolian League Banner in Qing Dynasty[D]. Hohhot: Inner Mongolia University, 2019.)
[12] Santosh T Y S S, Sanyal D K, Bhowmick P K, et al. Gazetteer-Guided Keyphrase Generation from Research Papers[A]//Advances in Knowledge Discovery and Data Mining[M]. Springer, 2021: 655-667.
[13] Goldberg D W, Wilson J P, Knoblock C A. Extracting Geographic Features from the Internet to Automatically Build Detailed Regional Gazetteers[J]. International Journal of Geographical Information Science, 2009, 23(1): 93-128.
doi: 10.1080/13658810802577262
[14] 于靖. 城市历史地名时空数据模型研究——以六朝建康为例[D]. 南京: 南京大学, 2015.
[14] (Yu Jing. Research on Spatial-Temporal Data Modeling of Urban Historical Place Name——Taking Jian Kang in Six Dynasties as an Example[D]. Nanjing: Nanjing University, 2015.)
[15] 陈健, 李宏伟, 张斌, 等. 基于地名本体的地名演变分析[J]. 测绘科学技术学报, 2011, 28(6): 446-449.
[15] (Chen Jian, Li Hongwei, Zhang Bin, et al. Toponym Evolvement Analysis Based on the Toponym Ontology[J]. Journal of Geomatics Science and Technology, 2011, 28(6): 446-449.)
[16] 陈玉冰. 行政区划地名知识图谱的构建方法研究[D]. 合肥: 合肥工业大学, 2020.
[16] (Chen Yubing. Research on the Construction Method of Knowledge Graph for Administrative Geographical Names[D]. Hefei: Hefei University of Technology, 2020.)
[17] Yang L P, Lin G F, Chen A L, et al. A Spatio-Temporal Data Model for Administrative Division Place Names: A Case Study of Xiamen[C]/ Proceedings of the 6th International Symposium on Digital Earth: Models, Algorithms, and Virtual Reality. 2010: 73-82.
[18] 杜萍, 姚瑶, 许鹏. 地名时空信息的本体表达[J]. 兰州交通大学学报, 2016, 35(6): 137-140.
[18] (Du Ping, Xu Peng. Expression of Spatio-Temporal Information of Place Names in Ontology[J]. Journal of Lanzhou Jiaotong University, 2016, 35(6): 137-140.)
[19] 胡颖. 家谱GIS中古今地名的时空关系研究[D]. 南京: 南京师范大学, 2008.
[19] (Hu Ying. Spatio-Temporal Relationships among Chinese Ancient and Modern Placenames Oriented to Genealogy GIS[D]. Nanjing: Nanjing Normal University, 2008.)
[20] Devlin J, Chang M W, Lee K, et al. BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding[OL]. arXiv Preprint, arXiv: 1810.04805.
[21] 唐晓波, 肖璐. 基于词汇同现的多用户兴趣本体构建研究[J]. 情报理论与实践, 2012, 35(5): 99-102.
[21] (Tang Xiaobo, Xiao Lu. Research on the Construction of the Multi-user Interest Ontology Based on Word Co-occurrence[J]. Information Studies: Theory & Application, 2012, 35(5): 99-102.)
[1] 赵蕊洁, 佟昕瑀, 刘小桦, 路永和. 基于神经网络的医药科技论文实体识别与标注研究*[J]. 数据分析与知识发现, 2022, 6(9): 100-112.
[2] 高劲松, 张强, 李帅珂, 孙艳玲, 周树斌. 数字人文视域下诗人的时空情感轨迹研究——以李白为例*[J]. 数据分析与知识发现, 2022, 6(9): 27-39.
[3] 胡吉明, 钱玮, 文鹏, 吕晓光. 基于结构功能和实体识别的文本语义表示——以病历领域为例*[J]. 数据分析与知识发现, 2022, 6(8): 110-121.
[4] 张云秋, 汪洋, 李博诚. 基于RoBERTa-wwm动态融合模型的中文电子病历命名实体识别*[J]. 数据分析与知识发现, 2022, 6(2/3): 242-250.
[5] 范涛, 王昊, 李跃艳, 邓三鸿. 基于多模态融合的非遗图片分类研究*[J]. 数据分析与知识发现, 2022, 6(2/3): 329-337.
[6] 周泽聿, 王昊, 张小琴, 范涛, 任秋彤. 基于Xception-TD的中华传统刺绣分类模型构建*[J]. 数据分析与知识发现, 2022, 6(2/3): 338-347.
[7] 余传明, 林虹君, 张贞港. 基于多任务深度学习的实体和事件联合抽取模型*[J]. 数据分析与知识发现, 2022, 6(2/3): 117-128.
[8] 张芳丛, 秦秋莉, 姜勇, 庄润涛. 基于RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别研究[J]. 数据分析与知识发现, 2022, 6(2/3): 251-262.
[9] 刘兴丽, 范俊杰, 马海群. 面向小样本命名实体识别的数据增强算法改进策略研究*[J]. 数据分析与知识发现, 2022, 6(10): 128-141.
[10] 盛羽, 胡慧荣, 王聪聪, 杨晟艺. 医学影像诊断报告的结构化研究*[J]. 数据分析与知识发现, 2022, 6(10): 46-56.
[11] 沈科杰, 黄焕婷, 化柏林. 基于公开履历数据的人物知识图谱构建*[J]. 数据分析与知识发现, 2021, 5(7): 81-90.
[12] 董美,常志军,张润杰. 一种面向科技文献元数据增量数据规范的多模式匹配算法*[J]. 数据分析与知识发现, 2021, 5(6): 135-144.
[13] 张琪,江川,纪有书,冯敏萱,李斌,许超,刘浏. 面向多领域先秦典籍的分词词性一体化自动标注模型构建*[J]. 数据分析与知识发现, 2021, 5(3): 2-11.
[14] 王倩,王东波,李斌,许超. 面向海量典籍文本的深度学习自动断句与标点平台构建研究*[J]. 数据分析与知识发现, 2021, 5(3): 25-34.
[15] 纪有书, 王东波, 黄水清. 基于词对齐的古汉语同义词自动抽取研究*——以前四史典籍为例[J]. 数据分析与知识发现, 2021, 5(11): 135-144.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn