移动搜索研究的知识图谱分析
王继民, 李雷明子, 王明星
北京大学信息管理系 北京 100871
摘要
关键词: 移动搜索; 知识图谱; 文献计量; 科研合作
中图分类号:TP393
Wang Jimin, Lilei Mingzi, Wang Mingxing
Department of Information Management, Peking University, Beijing 100871, China
Abstract

Based on research papers indexed by Web of Science, EI and CNKI on mobile search, this paper firstly extracts the high-frequency keywords and authors, then analyzes the research focus, sub-fields and the outstanding research teams in China and abroad using the methods of statistical analysis, bibliometrics, social network analysis etc. The further knowledge mapping results shows that studies of mobile search in China and abroad start almost simultaneously. Studies abroad are deeper, contain more sub-fields and more productive research groups, while studies in China still mainly focus on the conceptual introduction, and few research teams is stable and outstanding.

Keyword: Mobile search; Knowledge mapping; Bibliometric; Research cooperation
引言

移动搜索是指在移动通信网络中,用户利用各种移动终端、通过多种接入方式(SMS、WAP、IVR等)查找Web或WAP站点上网页内容的一种信息搜索方式,是移动互联网的重要组成部分。近几年,移动搜索在国内外都呈现出强劲的发展势头[ 1, 2],成为移动运营商、手机终端厂商、互联网信息内容服务提供商和相关领域科研人员持续关注的热点,研究内容涉及多个领域如移动通讯、信息检索、自然语言处理、人工智能、人机交互等[ 3, 4]。本文利用科学知识图谱方法,对国内外移动搜索领域的研究热点、子领域、科研团队等进行全面的概括和分析。研究工作的意义在于:移动搜索是一个新兴的、多学科渗透的交叉研究领域,整体性的文献计量和知识图谱分析不仅可以使研究者对该领域有宏观把握,还可以帮助该领域专家及时借鉴相关研究成果、了解相邻子领域的动态[ 5];对比国内外不同的研究热点和子领域,有助于发现我国该领域研究的优势和劣势,进而寻找新的研究切入点;对研究团队的识别有利于学者之间的科研合作和学科之间的知识流动。

1 数据分析方法与工具

科学知识图谱(Knowledge Mapping)是以共现分析、词频分析、引文分析等文献计量方法为基础,以图像、图形的形式展现科学领域的发展历程、研究现状及热点前沿,并揭示科学知识之间的联系与知识发展规律的方法和工具。近年来,知识图谱广泛应用于各个学科的知识发现,并取得诸多的研究成果[ 5, 6, 7, 8]

本文主要使用的软件工具有:

(1)Pajek:是进行大型复杂网络的分析软件,可以进行上万个节点的可视化网络的绘制[ 9]。本文将基于社会网络分析方法,利用该软件进行关键词共现网络和作者合著网络的绘制。

(2)EndNote:是一款文献下载、管理软件,可以支持主流数据库(如SCI、EI、ABI等)文献题录信息的下载、格式转换、保存和导出等。

2 数据获取与预处理
2.1 国外文献的获取与预处理

对于国外的研究文献,选取了Web of Science(包含SCI、SSCI、A&HCI)和EI(The Engineering Index)作为文献来源数据库。由于“移动搜索”是一个新兴的研究领域,"mobile search*"、"wireless search"等少数几个专指词并不能完全覆盖领域内所有文献。为提高查全率,采用了引文珠形增长型的检索策略。该检索策略是从已知的少数几个专指词开始检索,得到若干篇文献,人工审阅这些文献,从中选出新的相关检索词,补充到检索式中,将这些词加入到检索式之后,就能查出其他新的命中结果。不断重复进行上述过程,直到找不到其他适合包含于检索式的附加词为止[ 10]。依据该检索策略,本文最终检索式为:主题="mobile search*" OR "mobile Web search" OR "mobile visual search" OR "mobile media search" OR "mobile landmark search" OR "mobile social search" OR "mobile ringtone search" OR "mobile internet search" OR "mobile image retrieval" OR "mobile information retrieval" OR "wireless search" OR "wireless Web search" OR "wireless information retrieval" OR "cell phone search" OR "cell phone information retrieval"。打开词形还原,选择所有年份。经过检索,Web of Science反馈172篇,EI反馈281篇(检索时间点为2012年8月23日)。通过EndNote软件分别下载题录信息,所选取的字段包括题名、作者姓名、作者机构、发表时间、发表期刊、关键词、摘要等。

数据预处理工作主要包括:

(1)主题筛选:由于移动互联网和移动搜索是在2004年才逐步形成相对独立的研究领域,故将在此之前发表的论文予以剔除;

(2)论文去重:由于部分论文同时被Web of Science和EI收录,通过对比题目、作者、发表时间等字段,剔除重复的题录信息;

(3)格式统一:为了方便关键词和合作团队分析,进行大小写转换、同义词替换、作者映射等处理;

(4)将作者机构中包含China的54条题录剔除。至此共获得符合“移动搜索”主题的规范文献题录信息250条。

2.2 国内文献的获取与预处理

对于国内的研究文献,选取收录中文文献较为全面、比较有代表性的中国知网(CNKI)为来源数据库,同时将国内作者在Web of Science和EI中发表的54篇文献计入国内研究文献。在对CNKI检索时,检索式为:主题=“移动搜索 OR 无线搜索 OR 手机搜索”;检索时间点为2012年8月23日。检索结果显示有相关文献726篇。需要说明两点:由于研究术语的非统一性,在检索式编写中,本文特别注意相似概念的全面覆盖;考虑报纸文献的内容和期刊文献学术程度差异较大,且关键词、作者和摘要的著录并不全面,故在数据获取时,去掉了来自“中国重要报纸全文数据库”的文献,对CNKI检索获得题录307条,加上Web of Science和EI中收录的54条,共计361条题录。

3 基本统计结果

统计国内外移动搜索领域论文的年代分布,结果如表1所示:

表1 国内外移动搜索领域历年文献数量

(1)移动搜索领域发表论文的数量整体上呈增长趋势。其中,文献数在2007年出现了较大幅度的增长,原因可能是2007年全球3G已经呈现快速增长的趋势,3G用户在欧美的普及率接近了10%,尤其是美国的移动运营商大力推广无线互联网的增值业务[ 11],这些都为移动互联网发展奠定了基础。

(2)国内在移动搜索领域的研究和国外几乎同时起步。

(3)2008年后,国内外关于该领域的研究成果趋于稳定。2011年,国外研究成果呈较快增长态势,可能与全球智能手机的普及以及移动互联网技术的迅猛发展有较大关系。国内研究成果也有所增长,但是增长幅度不大。

4 基于关键词共现的知识图谱分析

4.1 关键词词频统计情况

(1)国外文献关键词词频统计。提取国外文献所有关键词,统计词频并排序,结果如表2所示:

表2 国外移动搜索领域文献关键词的词频统计

表2显示移动设备、手机、移动通信系统、GSM、无线网络、信号处理、互联网、万维网、搜索引擎等为移动搜索领域的热点研究内容,这表明与传统PC搜索相比,移动搜索的特征主要体现在设备和通信方式上。在技术层面上,很多学者关注搜索技术的实现,如算法、移动计算、查询语言、语音识别、计算复杂度、本体、元数据、信号处理等。在应用层面上,学者更加关注用户需求的体察,如用户界面、人机交互、信息服务、基于地理位置的服务、行为研究等。此外,知识管理、信息管理、市场营销与移动搜索的结合也引起了研究人员的关注。

(2)国内文献关键词词频统计。提取国内文献所有关键词,为便于统计,将国内学者在Web of Science和EI中发表文献的关键词进行翻译,统计词频并排序,结果如表3所示:

表3 国内移动搜索领域文献关键词的词频统计

表3显示手机、移动设备、移动互联网、WAP、无线互联网、移动通信系统、互联网、搜索、信息检索等为移动搜索领域的热点研究内容,表明国内研究热点主要体现在设备和移动互联网上。在技术层面上,很多学者关注移动代理技术,如遗传算法、Aglet、移动代理、移动Agent、J2ME等。在应用层面上,学者比较关注数据挖掘、相关反馈等移动搜索的基础应用。

(3)对比分析。仅从关键词词频来看:国内外在热点研究内容上基本相同,与传统PC搜索相比,既有移动搜索特有的内容,也有共同关注的内容,并突出了搜索的移动性特征。在技术层面上,国外更为关注移动搜索技术的实现,研究比较全面、具体、深入;国内则停留在“移动代理”上,对具体的实现技术研究还不够。在应用层面上,国外比较关注如何提高人机交互水平和提供更多的服务,国内的研究比较笼统。另外国外在移动搜索领域引入了知识管理、信息管理、市场营销等概念。

4.2 关键词共现分析

共现分析方法最早是由法国国家科学研究中心的文献计量学家们于20世纪80年代提出来的。两个或者多个关键词在同一篇文章中同时出现称为关键词共现。通过描述关键词与关键词之间的关联与结合,可以揭示学术领域研究内容的内在相关性和学科领域的微观结构[ 12, 13]。通过对关键词共现情况的分析,从而归纳出该学科或领域的研究热点。

(1)国外文献关键词共现分析。基于关键词共现分析的方法,利用软件分析工具Pajek,同时结合Java编程,实现“国外移动搜索领域关键词共现网络”的绘制。在关键词共现网络中,点代表某关键词,点与点之间的边则代表两个关键词在同一篇文献中出现。按照文献[7]中的方法,构建关键词共现网络,简化后的网络结构如图1所示:

图1 国外移动搜索领域关键词共现网络

图1中,节点圆圈的面积大小表示节点的度值,节点之间的边粗细程度表示共现次数。国外文献关键词共现网络由6个部分构成,即A-F对应的子网络,不同子网络代表不同的研究热点。

①子网络A:研究人员对构建移动搜索服务的系统、移动信息资源的组织和如何提高用户体验等方面予以关注。

②子网络B:研究人员对图像的移动搜索进行研究。

③子网络C:针对无线网络的特点,研究人员开发了软件,以实现基于移动搜索的各项服务。

④子网络D:针对如何使具有照相功能的移动设备如照相手机、平板电脑等产生的图像与现实进行匹配,从而实现可视化搜索的问题,研究人员对增强现实、虚拟现实进行了关注。

⑤子网络E:本体和语义网。

⑥子网络F:语音识别和信号处理,主要用于实现移动设备的语音搜索功能。

(2)国内文献关键词共现分析。采用同样的方法绘制国内移动搜索关键词共现网络,如图2所示:

图2 国内移动搜索领域关键词共现网络

图2显示国内文献关键词共现网络由6个部分构成,即A-F对应的子网络,不同子网络代表不同的研究热点。

①子网络A:国内研究人员关注构建移动搜索系统的各个环节,另外还有学者对移动搜索的商业行为进行了关注。

②子网络B:国内研究人员针对手机POI搜索的优化和提高用户体验给予了关注。

③子网络C:根据移动搜索的特点,研究人员对信息资源的组织方法进行了研究。

④子网络D:研究人员对移动搜索的基础技术——移动代理予以了关注。

⑤子网络E:移动搜索的具体算法。

⑥子网络F:数据挖掘和聚类分析。

(3)对比分析。仅从关键词共现来看,国外的研究范围更加广泛,从搜索技术到用户行为,从市场格局到运营模式。相对而言,国内的研究整体水平不高,现有的研究大多还停留在移动搜索概念的引入阶段、基础理论和技术,或者比较宏观的用户和市场描述,对具体的移动搜索技术改进、用户行为和市场运营探究较少。

5 基于作者合著的知识图谱分析

科研合作是科学共同体中普遍存在并日渐加强的一种互动方式。在每个科学研究领域都存在一定数量的科研小团体,他们在各自的领域进行有推进的钻研,同时通过彼此合作进行知识的分享和传递;科研合作网络也是描述科研人员人际关系的网络,通过直观的网络呈现,可以帮助科研人员对领域内的科研合作及其分布有一个概括而清晰的认识,进而找到合作伙伴或发现研究前沿[ 5]

5.1 国外文献作者合著分析

基于社会网络分析方法,利用Pajek并结合Java编程,实现“国外移动搜索领域科研合作网络”的绘制。在科研合作网络中,点代表某个具体的科研实体如作者、机构、国家等,而两个点之间的边则代表他们进行了共同的科研活动如发表论文、出版专著、发明专利等。按照文献[7]中的方法,以作者为顶点,以作者之间合写论文为边构建作者合著关系网络,简化后的网络结构如图3所示。

图3中,每个节点代表一个作者,节点的度值越大,表现为节点圆圈的面积越大;节点之间的边表示两个作者进行了论文的合著,合著次数越多,边的权值越大,线条越粗。图3显示国外移动搜索引擎研究领域已经出现了一批突出的、合作关系密切的研究合作团

图3 国外移动搜索领域主要研究团体

体,即A-F对应的子网络,每个研究团体都有一些相对核心的学者,如S.S.Tsai, B.Girod, K.Chruch, C.Feijoo, O.Bouidghaghen,P. Ehien, S.Baluja等人有较高的度值,分别是各自研究团队的核心和桥梁。

为深入了解这几个核心研究团队的信息,笔者查阅了题录信息和相关论文的具体内容,如作者所在机构、主要研究方向等,汇总结果如表4所示:

表4 国外移动搜索领域几个核心研究团体概况

表4简要地概括了几个科研团队的主要研究方向,并显示了科研合作团队的成员主要来自高校计算机学院、IT公司、电信公司以及高校和公司开展合作研究的团队,多数科研团队的研究兴趣涉及人机交互、数据挖掘、自然语言处理、人工智能等研究内容。

5.2 国内文献作者合著分析

采用5.1节的方法绘制国内移动搜索研究领域的主要科研团队,结果如图4所示。

图4显示国内移动搜索研究领域初步形成了一批

图4 国内移动搜索领域主要研究团体

合作关系密切的研究合作团体,即A-F对应的子网络。每个研究团体都有一些相对核心的学者,如Yao H,Gao W,王雪,王知津,Wang J,Zheng J F,方金云等人有较高的度值,分别是各自研究团队的核心和桥梁。

汇总这几个核心研究团队所在的机构、主要研究方向等,结果如表5所示:

表5 国内移动搜索领域几个核心研究团体概况

整体来看,在该领域国内的核心科研团队还不多,各团队的发文数量为2-5篇不等。个人独著论文占多数,中文文献研究也不够深入。表5显示,国内科研合作团队成员主要来自高校计算机学院和科研院所,公司与公司以及院校和公司间合作较少。

5.3 对比分析

从作者合著情况来看,国外已经形成几个比较稳定且高产的作者团队,他们来自各个搜索引擎公司、电信公司以及高校计算机、人机交互和图书情报实验室,他们的代表性文献被广泛引用;而国内比较核心的科研团队还比较少,目前主要是来自高校的经济管理和计算机专业,还有少部分学者来自图书情报领域。

6 结语

移动搜索是基于移动互联网的一种新的搜索模式,其用户行为、产业链构成都与传统PC搜索存在一定的差异。国内外研究人员从2004年开始对移动搜索的研究持续增强和深化,从移动搜索的基本概念到实现技术,从构建移动搜索系统到用户行为研究,从搜索的算法到基于移动搜索展开的各项服务,部分技术已经成熟并实现运营,从理论走向应用。但是也应当看到,国内对移动搜索的研究还不够全面和深入,成熟高产的科研合作团队较少。

参考文献
[1] Google, I. O. M. The Mobile Moment: Understand ing Smartphone Users [EB/OL]. [2011-10-10]. http://www.google.com/think/insights. [本文引用:1]
[2] 易观智库产业数据库. 2011年第4季度中国无线搜索市场季度监测[EB/OL]. [2011-10-10]. http://www.enfodesk.com/.(EnfodeskIndustrialDatabase.The4thQuarterof2011,China’sWirelessSearchMarketQuarterlyMonitoring[EB/OL]. [2011-10-10]. http://www.enfodesk.com/ [本文引用:1]
[3] Kim Y J, Jeon S J, Kim M J. User Needs of Mobile Phone Wireless Search: Focusing on Search Result Pages[J]. Human Centered Design, 2009, 5619: 446-451. [本文引用:1]
[4] Bouidghaghen O, Tamine L, Boughanem M. A Diary Study-based Evaluation Framework for Mobile Information Retrieval[J]. Information Retrieval Technology, 2010, 6458: 389-398. [本文引用:1]
[5] 李雷明子. 基于日志分析的移动搜索用户行为研究[D]. 北京: 北京大学, 2012.
(Lilei Mingzi. A Study of Mobile Search Behavior Based on Log Analysis[D]. Beijing: Peking University, 2012. ) [本文引用:3] [CJCR: 0.54]
[6] 张鹏. 我国图书情报研究的知识图谱分析[D]. 北京: 北京大学, 2010.
(Zhang Peng. Knowledge Mapping Analysis of Library and Information Science Research in China[D]. Beijing: Peking University, 2010. ) [本文引用:1] [CJCR: 0.54]
[7] 王继民, 李雷明子, 张鹏. 搜索引擎日志挖掘领域的论文合著网络分析[J]. 现代图书情报技术, 2011(4): 58-63.
(Wang Jimin, Lilei Mingzi, Zhang Peng. Co-authorship Network Analysis in the Research Field of Search Engine’s Log Mining[J]. New Technology of Library and Information Service, 2011(4): 58-63. ) [本文引用:1] [CJCR: 1.073]
[8] 刘则渊, 陈悦, 侯海燕, . 科学知识图谱: 方法与应用[M]. 北京: 人民出版社, 2008.
(Liu Zeyuan, Chen Yue, Hou Haiyan, et al. Mapping Knowledge Domains: Methods and Application[M]. Beijing: People’s Publishing House, 2008. ) [本文引用:1]
[9] Nooy W D, Mrvar A, Batagelj V. Exploratory Social Network Analysis with Pajek[M]. Cambridge: Cambridge University Press, 2005. [本文引用:1]
[10] 赖茂生, 赵丹群, 韩圣龙, . 计算机情报检索[M]. 北京: 北京大学出版社, 2012.
(Lai Maosheng, Zhao Danqun, Han Shenglong, et al. Computer Information Retrieval[M]. Beijing: Peking University Press, 2012. ) [本文引用:1]
[11] 向文杰. 移动互联网发展的回顾与展望[J]. 电信技术, 2009, 67(1): 66-69.
(Xiang Wenjie. Retrospect and Prospect of the Development of Mobile Internet[J]. Telecommunications Technology, 2009, 67(1): 66-69. ) [本文引用:1] [CJCR: 0.2477]
[12] 刘则渊, 王贤文, 陈超美. 科学知识图谱方法及其在科技情报中的应用[J]. 数字图书馆论坛, 2009 (10): 14-34.
(Liu Zeyuan, Wang Xianwen, Chen Chaomei. Scientific Knowledge Mapping and Its Application in Scientific and Technological Information Field[J]. Digital Library Forum, 2009 (10): 14-34. ) [本文引用:1] [CJCR: 0.5836]
[13] 陈悦, 宋刚, 郑刚, . 中国创新管理研究的知识结构分析[J]. 科研管理, 2011, 32(2): 10-19.
(Chen Yue, Song Gang, Zheng Gang, et al. Intellectual Structure Analysis of Chinese Innovation Management Research[J]. Science Research Management, 2011, 32(2): 10-19. )
[14 ] 姜春林, 杜维滨, 李江波. 经济学研究热点领域知识图谱: 共词分析视角[J]. 情报杂志, 2008, 27(9): 78-80.
(Jiang Chunlin, Du Weibin, Li Jiangbo. Economy Papers Map of Co- occurrence Analysis Based on CSSCI[J]. Journal of Intelligence, 2008, 27(9): 78-80. ) [本文引用:1] [CJCR: 1.457]
[15] 曹玲, 杨静, 夏严. 国内竞争情报领域研究论文的共词聚类分析[J]. 情报科学, 2010(6): 923-925.
(Cao Ling, Yang Jing, Xia Yan. Co-word Clustered Analysis of Competitive Intelligence Dissertations in China[J]. Information Science, 2010(6): 923-925. )
(作者E-mail: wjm@pku. edu. cn) [本文引用:1] [CJCR: 1.112]