Please wait a minute...
Advanced Search
数据分析与知识发现  2023, Vol. 7 Issue (10): 144-155     https://doi.org/10.11925/infotech.2096-3467.2022.1262
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
面向手语语言学的中国手语词汇多模态语料库构建研究*
张艳琼1,2,3(),朱兆松1,2,赵晓驰2
1南京特殊教育师范学院数学与信息科学学院 南京 210038
2南京特殊教育师范学院中国盲文手语研究院 南京 210038
3江苏省数据工程与知识服务重点实验室 南京 210023
Constructing Multimodal Corpus of Chinese Vocabulary for Sign Language Linguistics
Zhang Yanqiong1,2,3(),Zhu Zhaosong1,2,Zhao Xiaochi2
1School of Mathematics and Information Science, Nanjing Normal University of Special Education, Nanjing 210038, China
2Braille and Sign Language Research Center, Nanjing Normal University of Special Education, Nanjing 210038, China
3Jiangsu Provincial Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China
全文: PDF (3640 KB)   HTML ( 8
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】通过提取和组织蕴含在多模态手语资源中的知识,创建适用于手语语言研究的手语多模态语料库,满足公众从繁杂的多模态数据中获取所需手语语言知识的迫切要求。【应用背景】 针对手语信息化程度低、资源组织无序、手语知识难以利用等问题,构建适用于手语语言知识挖掘的多模态语料库。【方法】构建手语词汇多模态特征标注体系,制定手语词汇特征编码方案,实施多层次标注,并建立手语词汇图数据模型,利用图数据库Neo4j进行存储和可视化呈现。【结果】手语词汇数据来自国家手语词汇语料库,目前已完成10 000余手语词汇多模态标注,实现构建多模态语料库的全部过程。【结论】本文多模态语料库增加手形、动作、表情、姿态等多模态知识检索,能极大地提升手语语料的使用价值。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张艳琼
朱兆松
赵晓驰
关键词 中国手语词汇语料库知识组织多模态    
Abstract

[Objective] This paper extracts and organizes knowledge from multimodal sign language resources and constructs a corpus for related research. It meets the public’s urgent demands to obtain sign language knowledge. [Context] The new multimodal corpus is suitable for mining sign language knowledge, which addresses low information levels, disordered resource organization, and difficult utilization of sign language knowledge. [Methods] Firstly, we constructed the multi-modal feature annotation system for sign language vocabulary. Secondly, we formulated the feature coding scheme of the vocabulary and implemented multi-level annotation. Finally, we established the graph model for sign language vocabulary and the Neo4j database to store and visualize. [Results] The vocabulary data are from the national sign language vocabulary corpus. Over 10 000 sign language vocabulary multimodal annotation has been completed, and we realized the whole process of constructing a multimodal corpus. [Conclusions] The new corpus increases knowledge retrieval of hand shape, movement, expression, and posture, which greatly improves the usability of the sign language corpus.

Key wordsChinese Sign Language    Vocabulary    Corpus    Knowledge Organization    Multimodal
收稿日期: 2022-11-27      出版日期: 2023-03-30
ZTFLH:  TP391  
  G250  
基金资助:*国家社会科学基金项目(20BTQ065)
通讯作者: 张艳琼,ORCID:0000-0003-4372-1003,E-mail: zhangyanqiong@njts.edu.cn。   
引用本文:   
张艳琼, 朱兆松, 赵晓驰. 面向手语语言学的中国手语词汇多模态语料库构建研究*[J]. 数据分析与知识发现, 2023, 7(10): 144-155.
Zhang Yanqiong, Zhu Zhaosong, Zhao Xiaochi. Constructing Multimodal Corpus of Chinese Vocabulary for Sign Language Linguistics. Data Analysis and Knowledge Discovery, 2023, 7(10): 144-155.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2022.1262      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2023/V7/I10/144
Fig.1  中国手语词汇多模态语料库构建框架
Fig.2  香港手语词汇音韵特征描述方案[26]
Fig.3  手语词汇多模态特征表示模型
Fig.4  手语多模态特征标注内容
Fig.5  手语类型
Fig.6  位置编码
Fig.7  手语词“画家”打法与多模态信息标注(手势打法描述摘自国家通用手语词典APP)
实体1 关系类型 实体2
手语词 手势分割 基本手势
基本手势 主手手形 手形
辅手手形
手形改变
主手选部 手的选部
辅手选部
主手方向 方向
辅手方向
方向改变
发音位置 位置
位置改变
非手控特征 非手控信息
路径运动 路径动作
局部运动 局部动作
路径动作 时序关系 路径动作
局部动作
Table 1  手语词汇多模态语料库中主要的实体与实体关系
Fig.8  手语标注示例
Fig.9  手语词“教师”打法(摘自国家通用手语词典APP)
Fig.10  基于Neo4j的手语词汇标注信息可视化示例
Fig.11  查询手形 (编号DEZ101)示例
Fig.12  实体关系示例
[1] 向安玲, 高爽, 彭影彤, 等. 知识重组与场景再构:面向数字资源管理的元宇宙[J]. 图书情报知识, 2022, 39(1): 30-38.
[1] (Xiang Anling, Gao Shuang, Peng Yingtong, et al. Knowledge Reorganization and Scene Reconstruction: A Metaverse for Digital Resources Management[J]. Documentation, Information & Knowledge, 2022, 39(1): 30-38.)
[2] 张浩宇, 王天保, 李孟择, 等. 视觉语言多模态预训练综述[J]. 中国图象图形学报, 2022, 27(9): 2652-2682.
[2] (Zhang Haoyu, Wang Tianbao, Li Mengze, et al. Comprehensive Review of Visual-Language-Oriented Multimodal Pre-Training Methods[J]. Journal of Image and Graphics, 2022, 27(9): 2652-2682.)
[3] 姚登峰. 手语计算概论[M]. 北京: 科学出版社, 2022.
[3] (Yao Dengfeng. A Guide to Sign Language Computing[M]. Beijing: Science Press, 2022.)
[4] 邱云峰, 姚登峰, 李荣, 等. 中国手语语言学概论[M]. 北京: 中国国际广播出版社, 2018.
[4] (Qiu Yunfeng, Yao Dengfeng, Li Rong, et al. Introduction to Chinese Sign Language Linguistics[M]. Beijing: China International Broadcasting Press, 2018.)
[5] 中国残疾人联合会. 《第二期国家手语和盲文规范化行动计划(2021-2025年)》[EB/OL](2021-11-29)[2022-11-26].https://www.cdpf.org.cn//zwgk/zcwj/wjfb/fe1a8761eb2d40bc9467179bdac0b551.htm.
[5] (China Disabled Persons’ Federation. Second Phase National Action Plan for Standardization of Sign Language and Braille (2021-2025)[EB/OL](2021-11-29)[2022-11-26]. https://www.cdpf.org.cn//zwgk/zcwj/wjfb/fe1a8761eb2d40bc9467179bdac0b551.htm.)
[6] 赵晓驰, 任媛媛, 丁勇. 国家手语词汇语料库的建设与使用[J]. 中国特殊教育, 2017(1): 43-47.
[6] (Zhao Xiaochi, Ren Yuanyuan, Ding Yong. On the Construction and Application of China’s Sign Language Vocabulary Corpus[J]. Chinese Journal of Special Education, 2017(1): 43-47.)
[7] 张帜. Neo4j权威指南[M]. 北京: 清华大学出版社, 2017.
[7] (Zhang Zhi. Neo4j Authoritative Guide[M]. Beijing: Tsinghua University Press, 2017.)
[8] Lucas C, Bayley R. Variation in ASL: The Role of Grammatical Function[J]. Sign Language Studies, 2005, 6(1): 38-75.
doi: 10.1353/sls.2006.0005
[9] Johnston T A, Schembri A. Australian Sign Language (Auslan): An Introduction to Sign Language Linguistics[M]. Cambridge, UK: Cambridge University Press, 2007.
[10] Auslan Signbank[DB/OL]. [2022-11-26]. http://www.auslan.org.au/.
[11] Caselli N K, Sehyr Z S, Cohen-Goldberg A M, et al. ASL-LEX: A Lexical Database of American Sign Language[J]. Behavior Research Methods, 2017, 49(2): 784-801.
doi: 10.3758/s13428-016-0742-0 pmid: 27193158
[12] Sehyr Z S, Caselli N, Cohen-Goldberg A M, et al. The ASL-LEX 2.0 Project: A Database of Lexical and Phonological Properties for 2,723 Signs in American Sign Language[J]. The Journal of Deaf Studies and Deaf Education, 2021, 26(2): 263-277.
doi: 10.1093/deafed/enaa038
[13] Fenlon J, Cormier K, Rentelis R, et al.BSL Signbank: A Lexical Database of British Sign Language[DB/OL]. [2022-11-26]. http://bslsignbank.ucl.ac.uk.
[14] Schembri A, Fenlon J, Rentelis R, et al. British Sign Language Corpus Project: A Corpus of Digital Video Data and Annotations of British Sign Language[DB/OL]. [2022-11-26]. http://www.bslcorpusproject.org.
[15] Fenlon J, Cormier K, Schembri A. Building BSL SignBank: The Lemma Dilemma Revisited[J]. International Journal of Lexicography, 2015, 28(2): 169-206.
doi: 10.1093/ijl/ecv008
[16] NGT Corpus[DB/OL]. [2022-11-26]. http://www.ru.nl/corpusngt/.
[17] 全国哲学社会科学工作办公室. 基于汉语和部分少数民族语言的手语语料库建设研究[R/OL]. [2022-11-26]. http://www.nopss.gov.cn/GB/352519/355466/.
[17] (National Office for Philosophy and Social Sciences. Sign Language Corpus Research Based on Chinese and Some Minority Languages[R/OL]. [2022-11-26]. http://www.nopss.gov.cn/GB/352519/355466/.)
[18] 陈晓燕. 中国电视手语传译中的非手部策略——基于中国手语嘴部动作的研究[D]. 厦门: 厦门大学, 2014.
[18] (Chen Xiaoyan. Strategies of Nonmanuals in Sign Language Interpreting on Chinese TV[D]. Xiamen: Xiamen University, 2014.)
[19] 吴蕊珠, 李晗静, 吕会华, 等. 面向ELAN软件的手语汉语平行语料库构建[J]. 中文信息学报, 2019, 33(2): 43-50.
[19] (Wu Ruizhu, Li Hanjing, Lv Huihua, et al. Construction of Parallel Corpus of Chinese and Sign Language for ELAN[J]. Journal of Chinese Information Processing, 2019, 33(2): 43-50.)
[20] 黄晓晓. 基于情景语料库的自然手语构词研究[D]. 南京: 南京师范大学, 2012.
[20] (Huang Xiaoxiao. Study of Natural Sign Language Word Formation Based on Situational Corpus[D]. Nanjing: Nanjing Normal University, 2012.)
[21] 周闯. 基于中文分词的聋校小学记事文手语语料库构建研究[D]. 武汉: 华中师范大学, 2019.
[21] (Zhou Chuang. Research on the Construction of Deaf Primary School Text Corpus Based on Chinese Word Segmentation Technology[D]. Wuhan: Central China Normal University, 2019.)
[22] Stokoe W C. Sign Language Structure[M]. Buffalo: University of Buffalo Press, 1960.
[23] Liddell S K, Johnson R E. American Sign Language: The Phonological Base[J]. Sign Language Studies, 1989, 64(1): 195-277.
[24] Sandler W. Phonological Representation of the Sign: Linearity and Nonlinearity in American Sign Language[M]. Dordrecht, Holland: Foris Publications, 1989.
[25] Brentari D. A Prosodic Model of Sign Language Phonology[M]. Cambridge, Mass: MIT Press, 1998.
[26] Tang G. Hong Kong Sign Language: A Trilingual Dictionary with Linguistic Descriptions[M].The Chinese University Press, 2007.
[27] Battison R M, Baird E. Lexical Borrowing in American Sign Language[OL]. [2022-01-01] https://api.semanticscholar.org/CorpusID:60545823.
[28] 张吉生, 伍艳红. 上海手语的底层手型与特征赋值[J]. 当代语言学, 2018, 20(4): 572-586.
[28] (Zhang Jisheng, Wu Yanhong. The Underlying Handshapes and Their Feature Specification of Shanghai Sign Language[J]. Contemporary Linguistics, 2018, 20(4): 572-586.)
[29] 骆维维. 《中国手语》手形研究[D]. 北京: 北京师范大学, 2008.
[29] (Luo Weiwei. Study on the Handshape of Chinese Sign Language[D]. Beijing: Beijing Normal University, 2008.)
[30] 衣玉敏. 上海手语的语音调查报告[D]. 上海: 复旦大学, 2008.
[30] (Yi Yumin. The Survey of the Phonology of Shanghai Sign Language[D]. Shanghai: Fudan University, 2008.)
[31] ELAN (Version 6.2)[DB/OL]. [2022-01-24]. https://archive.mpi.nl/tla/elan.
[1] 刘洋, 丁星辰, 马莉莉, 王淳洋, 朱立芳. 基于多维度图卷积网络的旅游评论有用性识别*[J]. 数据分析与知识发现, 2023, 7(8): 95-104.
[2] 赵萌, 王昊, 李晓敏. 中国民歌多情感识别及情感变化规律分析研究*[J]. 数据分析与知识发现, 2023, 7(7): 111-124.
[3] 刘洋, 张雯, 胡毅, 毛进, 黄菲. 基于多模态深度学习的酒店股票预测*[J]. 数据分析与知识发现, 2023, 7(5): 21-32.
[4] 张昱, 张海军, 刘雅情, 梁科晋, 王月阳. 基于双向掩码注意力机制的多模态情感分析*[J]. 数据分析与知识发现, 2023, 7(4): 46-55.
[5] 潘华莉, 谢珺, 高婧, 续欣莹, 王长征. 融合多模态特征的深度强化学习推荐模型*[J]. 数据分析与知识发现, 2023, 7(4): 114-128.
[6] 赵朝阳, 朱贵波, 王金桥. ChatGPT给语言大模型带来的启示和多模态大模型新的发展思路*[J]. 数据分析与知识发现, 2023, 7(3): 26-35.
[7] 王昊, 龚丽娟, 周泽聿, 范涛, 王永生. 融合语义增强的社交媒体虚假信息检测方法研究*[J]. 数据分析与知识发现, 2023, 7(2): 48-60.
[8] 吴思思, 马静. 基于感知融合的多任务多模态情感分析模型*[J]. 数据分析与知识发现, 2023, 7(10): 74-84.
[9] 余本功, 季晓晗. 基于ADGCN-MFM的多模态讽刺检测研究*[J]. 数据分析与知识发现, 2023, 7(10): 85-94.
[10] 陈圆圆, 马静. 基于SC-Attention机制的多模态讽刺检测研究*[J]. 数据分析与知识发现, 2022, 6(9): 40-51.
[11] 施运梅, 袁博, 张乐, 吕学强. IMTS:融合图像与文本语义的虚假评论检测方法*[J]. 数据分析与知识发现, 2022, 6(8): 84-96.
[12] 范涛, 王昊, 李跃艳, 邓三鸿. 基于多模态融合的非遗图片分类研究*[J]. 数据分析与知识发现, 2022, 6(2/3): 329-337.
[13] 傅柱, 丁玮珂, 关鹏, 丁绪辉. 基于知识元的外文专利文献知识描述框架*[J]. 数据分析与知识发现, 2022, 6(2/3): 263-273.
[14] 李纲, 张霁, 毛进. 面向突发事件画像的社交媒体图像分类研究*[J]. 数据分析与知识发现, 2022, 6(2/3): 67-79.
[15] 张永伟,刘婷,刘畅,吴冰欣,俞敬松. 融合句法信息的文本语料库检索方法研究*[J]. 数据分析与知识发现, 2022, 6(11): 25-37.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn