Please wait a minute...
Data Analysis and Knowledge Discovery  2022, Vol. 6 Issue (11): 139-153    DOI: 10.11925/infotech.2096-3467.2022.0183
Current Issue | Archive | Adv Search |
Constructing Knowledge Base for Chinese Geographical Name
Li Xiaomin,Wang Hao(),Li Yueyan,Zhao Meng
School of Information Management, Nanjing University, Nanjing 210023, China
Jiangsu Key Laboratory of Data Engineering and Knowledge Service (Nanjing University),Nanjing 210093, China
Download: PDF (2868 KB)   HTML ( 11
Export: BibTeX | EndNote (RIS)      
Abstract  

[Objective] This paper uses linked data technology to study the evolution of geographical names in China, aiming to more effectively conduct digital humanity research. [Methods] First, we constructed the knowledge base CGNE_Onto for the evolution of Chinese geographical names. Then, we formulated the strong and weak marker words to identify evolution type sentences from the historical data. Third, we utilized the BERT-BiLSTM-CRF model to identify the time and place name entities from the evolution type sentences. Fourth, we used the newly generated entities as classes to build the ontology knowledge base, which was visualized from the perspective of direct and indirect path relationship. Finally, we analyzed the numbers and reasons of different evolution types in each dynasty. [Results] The proposed model intuitively demonstrated the evolution of geographical names, and provided some new directions for the analysis of geographical names data. [Limitations] The experimental data set needs to be expanded to improve the quality of evolution feature words. [Conclusions] The knowledge base for place names clearly shows their historical evolutions, as well as the evolution types in different dynasties.

Key wordsDigital Humanity      Ontology Knowledge Base      Place Name Evolution      Pattern Matching      Entity Recognition     
Received: 06 March 2022      Published: 13 January 2023
ZTFLH:  TP393  
Fund:National Natural Science Foundation of China(72074108);Fundamental Research Funds for the Central Universities(010814370113)
Corresponding Authors: Wang Hao     E-mail: ywhaowang@nju.edu.cn

Cite this article:

Li Xiaomin,Wang Hao,Li Yueyan,Zhao Meng. Constructing Knowledge Base for Chinese Geographical Name. Data Analysis and Knowledge Discovery, 2022, 6(11): 139-153.

URL:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/10.11925/infotech.2096-3467.2022.0183     OR     https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/Y2022/V6/I11/139

The Construction Model of the Knowledge Base for the Evolution of Geographical Names
地名 编号 历史沿革
杭州
1
杭州乌龟洞遗址古人类化石的发现证实5万年前就有古人类在杭州这片土地上生活,萧山跨湖桥遗址的发掘证实了早在8 000年前就有现代人类在此繁衍生息,距今5 000年前的余杭良渚文化被誉为“文明的曙光”。
114 2021年9月,根据第七次全国人口普查,杭州被列为特大城市。
上城区 115 上城区自宋至清,分属钱塘、仁和县管辖,民初属杭县管辖。
127 撤销杭州市上城区、江干区,设立新的杭州市上城区。
拱墅区 128 拱墅区因境内有拱宸桥、湖墅而得名。
139 2021年4月,撤销下城区和拱墅区,设立新的拱墅区,以原下城区、拱墅区的行政区域为新的拱墅区的行政区域。
利辛县 13103 先秦时期,分属胡子国、州来国地、后属楚地。
13122 2019年4月29日,安徽省人民政府批准利辛县退出贫困县序列。
Historical Evolution Data
编号 演变类型 编号 演变类型
C1 新增 C7 政区合并
C2 改名 C8 治所迁移
C3 撤销 C9 行政等级改变
C4 政区缩小 C10 隶属改变
C5 政区扩大 C11 位置迁移
C6 政区分割
Evolution Types
编号 数量 标志词(部分)
强标志词 弱标
志词
强标志词 弱标志词
C1 18 23 始建、始设、新建、设县、
建县、建…州、置…郡、设…州
分置、析置、析…置、分…置、分…设、划…设
C2 41 27 易名、复名、复县、复原名、恢复…旧称、废…为、升(降)…为 改设、改为、复改、改…为、撤…设、改置、设立
C3 14 6 撤销、撤消、裁撤、废除、废…县(郡、州)、移去 并入、复入、省…入、并…入、并…于
C4 5 43 析出、分出、划建、缩小、分析 划归、划入、改隶、析置、改置、划给、划属、于…置
C5 9 16 辖县增、扩展、扩及、增领、增辖、增臵 划给、划回、并入、复入、划入、划归、重归
C6 5 19 一分为二、分设、析为、拆分、分为 复置、复立、分置、划分、析…置、析…立、析…为
C7 5 2 合并、复并、合为、并置、组建 裁…设、撤…设
C8 20 0 迁治、迁至、县治迁、移治、迁回、移驻 NULL
C9 24 21 升(降)…为、升(降)为、升级、擢升、废…为、罢…为、改升 改置、改称、改为、撤…设、撤…建、撤…立、改名

C10

88

18
隶属、直属、分属、辖地、辖区、省辖、市辖、属…郡、归…郡、隶…郡、为…治、辖…县 划归、复为、改为、划入、划回、重归、划属、改隶、改属
Evolution Type Identification Marker Words
编号 定义
1 现代地名(CurrentName) 被研究演化的地名
2 演变地名(ChangedName) 发生某一演变类型后的地名
3 演变前身(Predecessor) 当前地名演变前一状态的地名
4 演变类型(Type) 演变类型名称
5 时间
(Time)
当前时间
(EmperorYear)
演变类型句中识别出的年号帝号时间
公元纪年
(Erayear)
年号或帝号对应的公元纪年时间
6 变更(Evolution) 原始地名发生的变化
Definitions of Core Concept Classes
编号 对象属性 定义域 值域 定义
1 hasOccured CurrentName Evolution 某一原始地名发生的演变
2 hasChanged Evolution ChangedName 某一原始地名演化的结果
3 hasType Evolution Type 某一原始地名发生的演变类型
4 thePrevious Evolution Predecessor 当前演变状态地名的上一状态地名
5 hasTime Evolution EmperorYear 某一原始地名发生演变的时间
6 equals EmperorYear Erayear 演变发生的年号帝号时间对应的公元纪年
Definitions of Relationships Between Core Concept Classes
地名 演变类型 演变类型句
杭州 C1 秦统一六国后,在灵隐山麓设县治,称钱唐,属会稽郡
C2 新莽时一度改钱唐为泉亭县
民国16年(1927)废道制,析出杭县城区设杭州市,直属浙江省
C3 中华民国元年(1912年),废杭州府,合并钱塘、仁和两县为杭县,仍为省会所在地
民国16年(1927)废道制,析出杭县城区设杭州市,直属浙江省
C10 杭州夏商周属“扬州之域”
民国16年(1927)废道制,析出杭县城区设杭州市,直属浙江省
上城区 C1 NULL
C2 改原第一区为上城区,第二区为中城区,第四区为江干区
C3 NULL
C10 上城区自宋至清,分属钱塘、仁和县管辖,民初属杭县管辖
民国十六年(公元1927年)置杭州市,上城区域分属城区、江干区
此后城区行政区域多次变化,直至杭州解放前夕,上城区分属第一区、第二区和第四区(即原江干区),建区公所
利辛县 C1 同年10月31日国务院全体会议第148次会议通过,决定设立利辛县
C2 NULL
C3 NULL
C10 先秦时期,分属胡子国、州来国地、后属楚地
2000年,成立亳州地级市,利辛划归亳州市管辖
Evolution Type Sentences
实体 准确率/% 召回率/% F值/%
时间 92.64 94.52 93.57
地名 90.50 94.67 92.54
Model Training Results
类别 序号 文本与识别结果 正确识别项 未正确识别项
全部正确
识别
1 民国元年(1912年),废府设县,绍兴县直属省 时间:民国元年 1912年
地点:绍兴县
NULL
2 天授二年(公元691年),分武康东境17乡置武源县,县治设下兰山南,为德清建县之始 时间:天授二年 公元691年
地点:武康 武源县 下兰山 德清
NULL

3
至正十八年(1358年)朱元璋攻取婺州路,改宁越府,至正二十年改金华府 时间:至正十八年 1358年 至正二十年
地点:婺州路 宁越府 金华府
NULL
4 雍正六年(公元1728年),设玉环厅为温州分府,政务直隶省 时间:雍正六年 公元1728年
地点:玉环厅 温州分府
NULL
5 民国37年(1948),温溪、石染、西岙3乡划给青田县 时间:民国37年 1948
地点:温溪 石染 西岙 青田县
NULL
未全部
正确识别
1 28年至民国36年属浙江省第十行政督察区 地点:浙江省 第十行政督察区 28年至民国36年识别为28年至和民国36年
2 1949年10月,置嵊泗县,属由大陆流亡本县枸杞岛的江苏省政府管辖 时间:1949年10月
地点:嵊泗县 江苏省
枸杞岛识别为枸杞
3 1959年2月,组建江北城市人民公社(与街道办事处一套班子、两块牌子) 时间:1959年2月 未识别出江北城市人民公社
4 1992年4月1日,建德撤县置市,市治新安江镇(今新安江街道) 时间:1992年4月1日
地点:建德 新安江街道
新安江镇识别为安江镇
5 南宋景定三年(1262年)迁县治于西墅保锦山下 时间:南宋景定三年 1262年
地点:西墅
未识别出保锦山
Analysis of Entity Recognition Results (Part)
OWL Coding Example
The Query Results of “Biangeng103”
The Query Results of “Suikaihuang Jiunian”
Jinhua City’s Affiliation Change Query Results
The Evolution of Yiwu City
Evolution in the “Tang Qianyuanyuannian”
The Evolution of the Name Change
编号 朝代 区间 编号 朝代 区间
1 夏朝 约公元前2070年-约前1600年 11 南北朝 公元420年-公元589年
2 商朝 约公元前1600年-前1046年 12 隋朝 公元581年-公元618年
3 周朝 公元前1046年-前256年 13 唐朝 公元618年-公元907年
4 秦朝 公元前221年-前206年 14 五代十国 公元907年-公元960年
5 西汉 公元前202年-公元8年 15 两宋 公元960年-公元1279年
6 新朝 公元8年-公元23年 16 元朝 公元1271年-公元1368年
7 玄汉 公元23年-公元25年 17 明朝 公元1368年-公元1644年
8 东汉 公元25年-公元220年 18 清朝 公元1636年-公元1912年
9 三国 公元220年-公元280年 19 中华民国 公元1912年-公元1949年
10 晋朝 公元265年-公元420年 20 中华人民共和国 公元1949年-至今
Chinese Dynasties and Their Intervals

朝代


演变类型
C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 总计
夏朝 0 0 0 0 0 0 0 0 0 3 3
商朝 0 0 0 0 0 0 0 0 0 0 0
周朝 0 0 0 0 0 0 0 0 0 81 81
秦朝 10 0 0 0 0 0 0 1 0 52 63
西汉 0 0 0 0 0 0 0 0 0 48 48
新朝 0 7 1 0 0 0 0 0 0 2 10
玄汉 0 0 0 0 0 0 0 0 0 0 0
东汉 10 8 0 3 0 0 0 3 0 37 61
三国 10 3 0 4 0 0 0 1 0 31 49
晋朝 7 7 0 2 0 0 0 2 0 22 40
南北朝 1 6 0 2 0 0 0 0 3 11 23
隋朝 2 13 12 2 6 0 0 2 8 52 97
唐朝 18 44 7 23 5 9 0 11 20 109 246
五代十国 4 15 0 0 0 0 0 2 0 14 35
两宋 3 22 0 0 4 0 0 0 8 49 86
元朝 0 32 0 0 0 0 0 0 27 48 107
明朝 9 17 0 11 3 2 0 1 2 32 77
清朝 1 8 1 4 0 0 0 0 0 39 53
中华民国 7 21 9 9 4 2 0 2 10 222 268
中华人民共和国 21 93 33 147 171 42 27 27 67 236 864
总计 103 296 63 207 193 55 27 52 145 1 088 2 229
The Number of Evolution Types in Zhejiang Province in Each Dynasty
[1] 中华人民共和国民政部. 民政部关于进一步加强地名文化遗产保护工作的通知[EB/OL].[2021-12-12]. https://www.cpll.cn/law9322.shtml.
[1] (Ministry of Civil Affairs of the People’s Republic of China. Notice of the Ministry of Civil Affairs on Further Strengthening the Protection of Geographical Names and Cultural Heritage[EB/OL].[2021-12-12]. https://www.cpll.cn/law9322.shtml.)
[2] 李娜, 包平. 面向数字人文的馆藏方志古籍地名自动识别模型构建[J]. 图书馆, 2018(5):67-73.
[2] (Li Na, Bao Ping. Establishment of Automatic Recognition Model of Location Names in Collection of Ancient Local Chronicles Oriented to Digital Humanities[J]. Library, 2018(5):67-73.)
[3] 王东波, 高瑞卿, 沈思, 等. 面向先秦典籍的历史事件基本实体构件自动识别研究[J]. 国家图书馆学刊, 2018, 27(1):65-77.
[3] (Wang Dongbo, Gao Ruiqing, Shen Si, et al. Research on Automatic Recognition of Basic Entity Component of Historic Events for Pre-Qin Classics[J]. Journal of the National Library of China, 2018, 27(1):65-77.)
[4] 李玉超. 新闻事件地名实体识别和地图链接技术研究[D]. 成都: 电子科技大学, 2020.
[4] (Li Yuchao. Research on the Identification of Geographical Names of News Events and the Technology of MAP Linking[D]. Chengdu: University of Electronic Science and Technology of China, 2020.)
[5] 魏勇, 李鸿飞, 胡丹露, 等. 一种基于复合特征的中文地名识别方法[J]. 武汉大学学报·信息科学版, 2018, 43(1): 17-23.
[5] (Wei Yong, Li Hongfei, Hu Danlu, et al. A Method of Chinese Place Name Recognition Based on Composite Features[J]. Geomatics and Information Science of Wuhan University, 2018, 43(1): 17-23.)
[6] 沈思, 朱丹浩. 基于深度学习的中文地名识别研究[J]. 北京理工大学学报, 2017, 37(11): 1150-1155.
[6] (Shen Si, Zhu Danhao. Chinese Place Name Recognition Based on Deep Learning[J]. Transactions of Beijing Institute of Technology, 2017, 37(11): 1150-1155.)
[7] 林泽斐, 孟雪梅. 基于关联数据的地方文献地名规范控制[J]. 图书馆杂志, 2017, 36(10): 55-62.
[7] (Lin Zefei, Meng Xuemei. The Toponym Authority Control of Local Literature Base on Linked Data[J]. Library Journal, 2017, 36(10): 55-62.)
[8] 王卉. 近代广东海关档案中的拼音名词规范控制研究——以粤海关为中心[J]. 档案学研究, 2020(4):87-96.
[8] (Wang Hui. Research on the Authority Control of Proper Nouns of China’s Maritime Customs Archives in Canton (Yuehaiguan) ——Based on Personal Names, Place Names, and Corporate Names[J]. Archives Science Study, 2020(4): 87-96.)
[9] 夏翠娟. 中国历史地理数据在图书馆数字人文项目中的开放应用研究[J]. 中国图书馆学报, 2017, 43(2):40-53.
[9] (Xia Cuijuan. The Opening and Application of Chinese Historical Geography Data in Digital Humanities Projects of Libraries[J]. Journal of Library Science in China, 2017, 43(2): 40-53.)
[10] 程宁. 古籍专名数据库的构建与统计分析[J]. 文教资料, 2019(35): 52-56.
[10] (Cheng Ning. Construction and Statistical Analysis of Database of Proper Names of Ancient Books[J]. Data of Culture and Education, 2019(35): 52-56.)
[11] 达日玛. 清代蒙古盟旗地名数据库的构建[D]. 呼和浩特: 内蒙古大学, 2019.
[11] (Da Rima. Construction of the Geographic Name Database of Mongolian League Banner in Qing Dynasty[D]. Hohhot: Inner Mongolia University, 2019.)
[12] Santosh T Y S S, Sanyal D K, Bhowmick P K, et al. Gazetteer-Guided Keyphrase Generation from Research Papers[A]//Advances in Knowledge Discovery and Data Mining[M]. Springer, 2021: 655-667.
[13] Goldberg D W, Wilson J P, Knoblock C A. Extracting Geographic Features from the Internet to Automatically Build Detailed Regional Gazetteers[J]. International Journal of Geographical Information Science, 2009, 23(1): 93-128.
doi: 10.1080/13658810802577262
[14] 于靖. 城市历史地名时空数据模型研究——以六朝建康为例[D]. 南京: 南京大学, 2015.
[14] (Yu Jing. Research on Spatial-Temporal Data Modeling of Urban Historical Place Name——Taking Jian Kang in Six Dynasties as an Example[D]. Nanjing: Nanjing University, 2015.)
[15] 陈健, 李宏伟, 张斌, 等. 基于地名本体的地名演变分析[J]. 测绘科学技术学报, 2011, 28(6): 446-449.
[15] (Chen Jian, Li Hongwei, Zhang Bin, et al. Toponym Evolvement Analysis Based on the Toponym Ontology[J]. Journal of Geomatics Science and Technology, 2011, 28(6): 446-449.)
[16] 陈玉冰. 行政区划地名知识图谱的构建方法研究[D]. 合肥: 合肥工业大学, 2020.
[16] (Chen Yubing. Research on the Construction Method of Knowledge Graph for Administrative Geographical Names[D]. Hefei: Hefei University of Technology, 2020.)
[17] Yang L P, Lin G F, Chen A L, et al. A Spatio-Temporal Data Model for Administrative Division Place Names: A Case Study of Xiamen[C]/ Proceedings of the 6th International Symposium on Digital Earth: Models, Algorithms, and Virtual Reality. 2010: 73-82.
[18] 杜萍, 姚瑶, 许鹏. 地名时空信息的本体表达[J]. 兰州交通大学学报, 2016, 35(6): 137-140.
[18] (Du Ping, Xu Peng. Expression of Spatio-Temporal Information of Place Names in Ontology[J]. Journal of Lanzhou Jiaotong University, 2016, 35(6): 137-140.)
[19] 胡颖. 家谱GIS中古今地名的时空关系研究[D]. 南京: 南京师范大学, 2008.
[19] (Hu Ying. Spatio-Temporal Relationships among Chinese Ancient and Modern Placenames Oriented to Genealogy GIS[D]. Nanjing: Nanjing Normal University, 2008.)
[20] Devlin J, Chang M W, Lee K, et al. BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding[OL]. arXiv Preprint, arXiv: 1810.04805.
[21] 唐晓波, 肖璐. 基于词汇同现的多用户兴趣本体构建研究[J]. 情报理论与实践, 2012, 35(5): 99-102.
[21] (Tang Xiaobo, Xiao Lu. Research on the Construction of the Multi-user Interest Ontology Based on Word Co-occurrence[J]. Information Studies: Theory & Application, 2012, 35(5): 99-102.)
[1] Zhao Ruijie, Tong Xinyu, Liu Xiaohua, Lu Yonghe. Entity Recognition and Labeling for Medical Literature Based on Neural Network[J]. 数据分析与知识发现, 2022, 6(9): 100-112.
[2] Hu Jiming, Qian Wei, Wen Peng, Lv Xiaoguang. Text Semantic Representation with Structure-Function and Entity Recognition: Case Study of Medical Records[J]. 数据分析与知识发现, 2022, 6(8): 110-121.
[3] Zhang Yunqiu, Wang Yang, Li Bocheng. Identifying Named Entities of Chinese Electronic Medical Records Based on RoBERTa-wwm Dynamic Fusion Model[J]. 数据分析与知识发现, 2022, 6(2/3): 242-250.
[4] Yu Chuanming, Lin Hongjun, Zhang Zhengang. Joint Extraction Model for Entities and Events with Multi-task Deep Learning[J]. 数据分析与知识发现, 2022, 6(2/3): 117-128.
[5] Zhang Fangcong, Qin Qiuli, Jiang Yong, Zhuang Runtao. Named Entity Recognition for Chinese EMR with RoBERTa-WWM-BiLSTM-CRF[J]. 数据分析与知识发现, 2022, 6(2/3): 251-262.
[6] Liu Xingli, Fan Junjie, Ma Haiqun. Improvement of Data Augment Algorithm for Named Entity Recognition with Small Samples[J]. 数据分析与知识发现, 2022, 6(10): 128-141.
[7] Sheng Yu, Hu Huirong, Wang Congcong, Yang Shengyi. Analyzing Structures of Medical Imaging Diagnosis Reports[J]. 数据分析与知识发现, 2022, 6(10): 46-56.
[8] Xu Chenfei, Ye Haiying, Bao Ping. Automatic Recognition of Produce Entities from Local Chronicles with Deep Learning[J]. 数据分析与知识发现, 2020, 4(8): 86-97.
[9] Gao Yuan,Shi Yuanlei,Zhang Lei,Cao Tianyi,Feng Jun. Reconstructing Tour Routes Based on Travel Notes[J]. 数据分析与知识发现, 2020, 4(2/3): 165-172.
[10] Ma Jianxia,Yuan Hui,Jiang Xiang. Extracting Name Entities from Ecological Restoration Literature with Bi-LSTM+CRF[J]. 数据分析与知识发现, 2020, 4(2/3): 78-88.
[11] Liu Liu,Qin Tianyun,Wang Dongbo. Automatic Extraction of Traditional Music Terms of Intangible Cultural Heritage[J]. 数据分析与知识发现, 2020, 4(12): 68-75.
[12] Liu Jingru,Song Yang,Jia Rui,Zhang Yipeng,Luo Yong,Ma Jingdong. A BiLSTM-CRF Model for Protected Health Information in Chinese[J]. 数据分析与知识发现, 2020, 4(10): 124-133.
[13] Han Huang,Hongyu Wang,Xiaoguang Wang. Automatic Recognizing Legal Terminologies with Active Learning and Conditional Random Field Model[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[14] Meishan Chen,Chenxi Xia. Identifying Entities of Online Questions from Cancer Patients Based on Transfer Learning[J]. 数据分析与知识发现, 2019, 3(12): 61-69.
[15] Lianjie Xiao,Tao Meng,Wei Wang,Zhixiang Wu. Entity Recognition of Intelligence Method Based on Deep Learning: Taking Area of Security Intelligence for Example[J]. 数据分析与知识发现, 2019, 3(10): 20-28.
  Copyright © 2016 Data Analysis and Knowledge Discovery   Tel/Fax:(010)82626611-6626,82624938   E-mail:jishu@mail.las.ac.cn