面向智能应用的领域本体构建研究*——以反电话诈骗领域为例
武汉大学信息管理学院 武汉 430072
Constructing Domain Ontology for Intelligent Applications: Case Study of Anti Tele-Fraud
School of Information Management, Wuhan University, Wuhan 430072, China
通讯作者: 洪亮, ORCID: 0000-0002-1466-9843, E-mail:hong@whu.edu.cn。
收稿日期: 2018-11-14 修回日期: 2018-12-13 网络出版日期: 2019-07-25
基金资助: |
|
Received: 2018-11-14 Revised: 2018-12-13 Online: 2019-07-25
【目的】发挥智能应用对本体构建的驱动作用, 增强本体对领域知识的表示能力以及对智能应用的支撑能力。【方法】提出一种面向智能应用的领域本体构建方法, 即应用驱动循环法, 以智能应用需求为核心进行跨领域知识的融合建模, 采用“需求+构建+评估”循环式结构, 使得智能应用需求在本体构建的全过程中可发挥引领性作用。以反电话诈骗领域为例, 在智能反诈需求驱动下构建反诈领域本体, 并支持相应的智能应用。【结果】评估实验结果表明, 依据本文方法构建的反诈领域本体能够表示广泛庞杂的跨领域知识, 并在理解诈骗通话语义的基础上有效支持智能反诈应用。【局限】智能应用需求的分析与评估需要进一步量化。【结论】本文方法解决了领域本体构建不足以支持智能应用的问题, 为领域本体构建研究以及反诈方法研究提供参考依据。
关键词:
[Objective] This paper tries to build domain ontology for intelligent applications, aiming to enhance the capability of domain knowledge representing and application development. [Methods] We proposed the application-driven circulation method to model cross-domain knowledge based on the demands of intelligent applications. It has the structure of “requirement + construction + evaluation”, so that requirements play leading role in ontology construction. We took the field of anti telephone fraud as an example, and constructed the anti-fraud ontology of the intelligent requirements. [Results] Our anti-fraud domain ontology represented a wide range of cross-domain knowledge and effectively supported intelligent anti-fraud applications, which were based on the semantics of fraudulent calls. [Limitations] More research is needed to examine the requirements of intelligent applications. [Conclusions] The proposed method promotes more research in domain ontology construction and anti-fraud methods.
Keywords:
本文引用格式
邓诗琦, 洪亮.
Deng Shiqi.
1 引言
随着人工智能热潮的复兴, 各种领域应用的智能化进程加快。智能应用的实现基础是全面而准确地表示领域知识及其关联, 以便机器处理和理解领域知识, 同时从知识关联中发现规律、把握态势, 并动态响应需求的变化。本体是共享概念模型明确的形式化的规范说明[1], 其表示能力强、机器可理解且支持推理, 能够为智能应用的实现提供良好的概念基础, 在知识工程、人工智能等热门领域得到广泛研究。然而, 现有的本体构建方法普遍存在需求分析不足、关系类型单一、评估作用弱化等问题, 所构建的本体难以满足智能应用需求, 因而如何增强智能应用对本体构建的驱动作用, 以及本体对智能应用的支撑能力, 是领域本体构建与智能应用领域的重要研究课题。因此, 本文提出一种面向智能应用的领域本体构建方法(命名为“应用驱动循环法”), 应用驱动下采用“需求+构建+评估”循环式结构, 强调本体全生命周期内智能应用需求与跨领域本体构建的相互作用, 解决现有方法不足以支持智能应用的问题。
反电话诈骗(简称“反诈”)是一个现有方法难以支撑智能应用需求的典型领域。电话诈骗是一项社会危害巨大且高发的犯罪行为, 诈骗分子电话冒充他人恶意骗取财产, 影响社会安定, 且随着对新技术的应用, 电话诈骗日益呈现出多变性、对抗性等特点。然而, 现有的反诈方法大多仅建模单一的诈骗通话行为特征, 鲜有深入分析通话内容, 无法准确表示并利用诈骗手段、团伙画像等语义信息进行更有效的诈骗识别与态势分析。因而如何在理解诈骗通话语义的基础上, 对反诈相关的多领域知识及其复杂关联进行全局建模, 是提高诈骗电话识别效率、支持诈骗全局态势分析与知识推理, 从而实现智能反诈的重要基础。因此, 本文将应用驱动循环法引入反诈领域, 构建并应用反诈领域本体来支撑智能反诈的实现, 进一步验证应用驱动循环法对智能应用领域知识表示的适用性。
2 相关研究
2.1 领域本体构建
根据本体所涉及学科领域的不同研究粒度, 领域本体研究主要分为适于所有学科领域的顶层本体、表达某一学科领域共有特征的领域上层本体、面向细分 领域中具体需求与应用目标的领域应用本体三方面[2]。本文研究属于领域应用本体范畴, 尤其关注本体对跨学科数据资源的表示以及对智能应用的支撑问题。
经典的本体构建方法包括骨架法、七步法和循环获取法。骨架法[3]定义了一个本体构建的总体框架, 依据本体评价结果判断是否再次进行本体分析与表示, 但缺少具体的本体构建过程。七步法[4]细化了构建本体的具体步骤并附有可行的操作说明, 包括: 确定本体的专业领域和范畴、考查复用现有本体的可能性、列出本体中重要术语、定义类及其等级体系、定义类的属性、定义属性的分面、创建实例, 但缺少本体评估以及基于此的本体优化。循环获取法[5]采用循环式开发结构, 分为选择数据源、概念学习、领域聚焦、关系学习、本体评估5部分, 评估可指导概念与关系的学习, 有利于不断改进和扩展本体, 但由于各环节没有详尽的操作说明, 方法可操作性较弱。现有关于领域应用本体的研究主要从如下两个角度展开。
(1) 针对具体问题的领域本体构建方法优化研究。Doran等[6]为解决本体复用问题, 根据是否复用以及复用资源类型, 设计多个本体构建场景, 支持不同本体开发过程, 但未对各场景下详细的构建步骤进行区别。付苓[7]为支持大数据中有效信息的获取, 提出一种融合多源大数据的本体构建方法, 考虑数据来源的多样性并进行均一化处理, 指出从应用角度方面实现领域本体构建是亟待解决的问题。于娟等[8]为挖掘本体中的概念联系, 将本体推理融入构建过程以扩展本体, 利用Jena实现人物关系本体推理, 检测新增人物关系的一致性。本体评估以及基于评估结果的本体优化已经成为本体构建方法中重要的一环, 徐雷[9]综述了常用的评估方法, 其中, 黄金标准法参照领域内比较成熟的本体, 应用驱动法在应用环境下对各本体的表现进行测评, 多标准法基于一组多维评估指标, 其指标一般可分为结构、功能、可用性三大维度。
(2) 结合实际应用需求的领域本体构建与应用研究。以反诈相关的电信诈骗、金融诈骗、信息安全等领域为例, 杨晶等[10]基于本体建立一个电信诈骗分析框架, 将诈骗活动实施分为信息窃取、骗术隐蔽、手段实施、洗钱取款4个要素, 分别按照“对象-过程-结果”的结构进行分解, 但该本体的概念粒度太粗, 缺少语义关系, 只适用于对诈骗环节进行简单分类。Carvalho等[11]基于本体识别入侵银行系统的恶意软件; Tang等[12]构建医疗保险领域本体以支持保险欺诈检测。司成等[13]提取网络安全态势要素, 展示网络环境、漏洞、攻击、安全事件间的关联, 并通过态势场景分析进行本体验证; Yao等[14]梳理信息安全相关数据, 从中抽取概念及其关系, 利用本体进行组织以构建信息安全知识库。
综上, 现有领域本体研究提供了一系列领域应用本体构建的框架与步骤, 其中融合多源数据、结合本体推理、多维本体评估等都能够提升本体的领域适用性。然而, 现有研究忽略了智能应用对本体构建的驱动作用, 以及本体对智能应用的支撑能力, 难以保证所构建本体满足最终的应用需求。在专业范畴和领域资源的界定过程中对需求分析较为简化, 不能全面表示智能应用的丰富内涵。侧重于概念选取及其体系的建立, 多以概念的层次结构为主线组织领域知识, 非分类关系数量少且作用弱, 所构建本体能较好地反映静态的知识体系但难以描述复杂的知识关联, 而智能应用的实现更需要从关联知识中发现规律、把握态势, 仅依靠层次关系是难以实现的。此外, 本体评估未能准确衡量本体与智能应用需求的契合度, 无法动态更新体系结构以响应应用需求的变化。因此, 本文兼采现有研究的优点, 提出一种面向智能应用的领域本体构建方法, 将智能应用需求贯穿于本体构建的全生命周期, 缓解现有方法不足以支持智能应用的问题。
2.2 反诈方法研究
电话诈骗具有集团专业化、技术含量高、模式更新快等特点, 传统基于黑名单或简单业务规则进行拦截与过滤的方法逐渐失效[15]。在此背景下, 智能反诈的应用需求日益凸显, 即要求在理解诈骗通话语义的基础上提高诈骗电话识别效率, 并对诈骗全局态势进行分析与知识推理, 支持智能反诈决策。反诈相关研究与实践正逐步利用人工智能技术和大数据资源, 探索出一些更加灵活有效的智能反诈方案。
电话诈骗检测方法大体分为基于信令和基于通话内容两类[16]。基于信令的反诈方法可分析诈骗通话的行为特征, 并且由于信令采集系统日益完善, 信令等呼叫详细记录(Call Detail Records, CDR)数据利用方便, 通信运营商均从CDR数据中总结诈骗方的呼叫行为特征并进行向量建模, 再应用分类、决策树等算法对电话号码进行分析拦截[15-19]。王志刚等[18]构建的分析模型除号码与行为特征、活跃特征等常见维度外, 还包括号码社交网络、行为事件流等角度。腾讯于2016年发布的鹰眼智能反电话诈骗盒子[19]是业界典型的基于“大数据+机器学习”的反诈应用, 从CDR数据中训练出50多种诈骗话单模型以实时检测用户异常通话行为。但基于信令的反诈方法并没有利用诈骗通话内容这一蕴含更多语义关联的资源, 从而难以全面表示与识别诈骗手段, 难以从通话语义角度把握全局态势, 不能满足智能反诈需求。
基于通话内容的反诈方法可分析诈骗通话的内容特征, 从通话文本中挖掘具体的诈骗流程、团伙画像等语义信息, 有助于把握电话诈骗事件的核心手段, 从而开展更高效、更精准的诈骗检测。由于实时通话内容分析涉及用户隐私, 需要大面积改造通信网络, 现阶段基于通话内容的诈骗检测较难在通信领域推 广[16], 但电话语音识别等内容分析技术已在反诈领域有所研究。马博[20]建立诈骗语音波形模型并搭建基于语音内容分析的反诈系统, 结合大量敏感词库将疑似诈骗电话与已有黑名单匹配, 因而在通话语义方面仍然依赖人工构建的静态词库。上海欣方智能系统有限公司通过语音识别出通话关键词, 按照已有诈骗样本实现对可疑号码的归类及拦截[21], 但同样未考虑诈骗通话内容的语义关联。
综上, 目前较实用的反诈方案主要基于信令数据, 所构建的反诈模型仅考虑通话行为特征, 工程难度较低, 但在一定程度上限制了反诈思路。本文通过离线分析通话内容, 挖掘出更多诈骗语义信息, 结合通话行为和通话内容全面建模诈骗手段, 从而支撑智能反诈应用的实现, 同时避免实时分析的技术难题。此外, 反诈是一个具有复杂知识关联的交叉领域, 现有反诈模型均未考虑综合利用电信、金融、法律、欺诈探测、政府管理等多领域数据, 因此本文认为面向反诈智能应用构建反诈领域本体, 能够提供更丰富的反诈全局知识视图, 是一条新的智能反诈的可行路径。
3 面向智能应用的领域本体构建方法
为解决现有本体构建方法忽略智能应用的问题, 本文提出一种面向智能应用的领域本体构建方法, 即应用驱动循环法, 采用“需求+构建+评估”循环式结构, 使得智能应用需求在本体构建的全过程中发挥引领性作用。先分析智能应用对本体构建的要求, 再进行具体建模并突出多类型关系的定义, 最后从体系结构与应用功能两方面进行评估, 尤其衡量领域本体对智能应用的支持程度, 若评估结果不在阈值内则启动循环, 或分析应用需求的动态变化, 或修正类及其关系。应用驱动循环法构建领域本体的过程如图1所示, 具体步骤说明如下, 其中步骤①-步骤②为需求分析部分, 步骤③-步骤④为本体构建部分, 步骤④-步骤⑤为本体评估部分。
图1
①分析智能应用实现所涉及的多个交叉领域, 获取相关多源数据, 进行处理与融合。
②明确智能应用需求的具体内涵, 分析具体应用在本体层的实现路径, 包括在应用功能、体系结构、推理性能等多维度上对本体的具体要求。
③基于智能应用对领域本体的多维要求, 从多源数据中抽取并描述本体内涵: 定义本体中类及其层次关系; 定义属性及其限制; 定义多类型关系及其约束; 创建实例; 进行形式化编码。围绕“类-属性-关系”的核心本体结构, 具体构建步骤突出多类型关系的构建以便表示复杂的知识关联, 聚焦于智能应用在本体层的实现。
④结合智能应用的逻辑需求自定义推理规则, 基于领域本体进行知识推理, 以补全领域本体中缺失的属性、关系等信息, 完善本体的逻辑结构。
⑤综合运用多维量化指标评估本体的体系结构, 评估结果进一步引导本体进行优化迭代以满足智能应用需求, 形成领域本体构建的完整循环, 若在指定阈值内则继续, 否则退回步骤③。
⑥评估本体对智能应用需求的支持程度, 判断智能应用需求是否发生变化, 有变化则退回步骤②, 重新分析领域需求内涵, 无变化则评估本体与应用需求的契合程度, 若在指定阈值内则输出最优的领域本体, 否则循环进行步骤③-步骤⑥, 直到所构建的本体能够满足应用需求。
应用驱动循环法具有两个特点。
(1) 采用循环式开发结构, 智能应用需求贯穿于本体构建的全生命周期, 前期分析智能应用需求, 指导本体中类及其关系的定义, 后期评估本体对智能应用需求的支持程度, 并能响应应用需求的变化, 驱动本体不断迭代优化, 最终所构建的本体更容易满足应用需求;
(2) 适用于跨领域本体的构建, 为智能应用的实现提供充分的知识关联, 多源异构数据的梳理与融合、突出多类型关系的构建、基于应用逻辑的自定义推理规则等均打破领域限制, 以智能应用需求为核心而非以概念层次结构为主线组织领域知识。
4 反诈领域需求分析
4.1 数据特点分析
表1 反诈领域重要概念定义
专业概念 | 概念定义 |
---|---|
诈骗事件 | 电话诈骗事件的简称, 包含行为人、通话行为与内容、诈骗流程、时空特征等, 反诈本体对事件各部分进行 建模。 |
诈骗场景 | 诈骗分子用于诈骗的背景信息, 如冒充公检法类型的电话诈骗场景为公检法, 是区分诈骗事件类型的主要依据。 |
诈骗流程 | 诈骗分子实施诈骗的过程, 由具有时序性的各步骤组成, 是诈骗手段的集中体现、诈骗事件分析的核心。 |
反向数据 | 电话诈骗事件及其通话数据, 诈骗分子在通话时提供的信息, 如电话、身份、操作等用于诈骗的虚假信息。 |
正向数据 | 诈骗场景相关的各领域的正确规范信息, 如公检法机构的正常电话、地点、权限等数据。 |
反向数据是判断诈骗电话的核心依据, 从中可分析电话诈骗的手段与流程。
(1) 诈骗事件数据: 主要来源于网络上的诈骗新闻, 包括案发时间、案发地点、诈骗过程、涉案金额等细节;
(2) 诈骗通话数据: 全国近5年已确定是诈骗的通话数据, 分为CDR数据、语音文本数据两类, 记录双方的通话行为和通话内容, 对反诈起到关键作用, 其中, CDR数据包括主被叫号码、主被叫信令IP地址、通话时长、主被叫省/地区名称等字段, 语音文本数据是使用语音识别技术解析后的文本数据, 记录了电话诈骗实施的全过程。
但是, 反向数据是滞后的历史记录, 仅据此进行反诈不免受诈骗分子牵制, 对此本文依据典型的诈骗场景找到相关正向数据, 利用正反向不一致性验证, 主动发现业务权限漏洞, 提高诈骗电话识别准确率。正向数据主要来源于政策公函、官方网站等对相关机构与平台业务的规定。据电话邦与可信号码中心的联合报告[23], 2017年的21.62万起涉嫌诈骗电话中, 冒充金融机构(占比29%)、电商平台(占比14%)、公检法(占比13%)、电信运营商(占比11%)的诈骗场景累积占比超过67%。因此, 本文聚焦于这4类诈骗场景, 可根据诈骗场景类型的变化进行拓展。
4.2 应用需求分析
支持智能反诈是反诈领域知识表示的核心应用需求, 即要求在理解诈骗通话语义的基础上提高诈骗电话识别效率, 同时对诈骗全局态势进行分析与知识推理, 支持智能反诈决策。利用反诈领域本体所展现的知识关联和全局视图, 可将智能反诈需求细化为三个具体的应用目标。
(1) 基于语义理解的诈骗电话识别: 理解诈骗通话文本并建模其诈骗流程, 疑似诈骗流程可与已知诈骗流程进行相似度计算, 还可与正常业务权限进行不一致性检验, 以双重途径判断任意单通电话的诈骗概率和诈骗手段。这要求针对诈骗事件、诈骗场景相关的业务权限进行正反向数据建模, 实现两者在语义上的关联比对, 建模重点是抽取并表示诈骗流程, 从而理解诈骗通话语义。
(2) 基于全局视图的诈骗态势分析: 是对诈骗识别结果的综合利用, 分析诈骗事件在地域、时间、手段、诈骗团伙、受害人群等方面的多维特征及其关联、演化, 支持上层反诈决策。这一应用目标的关键是对诈骗团伙进行画像, 从中可关联起诈骗事件的各个特征, 还可通过疑似诈骗电话中诈骗团伙归属, 进一步支持诈骗电话语义识别。
(3) 基于本体推理的诈骗信息补全: 是对诈骗识别与态势分析的辅助, 根据自定义规则从反诈领域本体中推理出新的隐含知识, 完善本体中的逻辑关联, 为诈骗识别提供更完整的信息, 为态势分析提供更全面的知识视图。这一应用目标的实现需要基于反诈业务逻辑定义推理规则, 利用本体推理机自动发现隐含信息。
通过对智能反诈需求的解析, 反诈领域本体构建将从4个方面展开, 分别针对反向诈骗事件、正向业务权限、诈骗团伙画像、反诈推理规则, 对应支撑具体应用目标。此外要求反诈领域本体的体系结构能够容纳范围广泛的跨领域知识, 并表示复杂的知识关联以提高推理性能, 因而重点关注如何根据应用目标自定义并利用多种类型的关系。
5 反诈领域本体构建
5.1 反向诈骗事件建模
反向建模是反诈建模方案的主体, 旨在分析并表示电话诈骗手段与流程, 据此可比对可疑通话文本与已知诈骗通话的相似度, 从而识别诈骗电话。本文结合社会工程学理论从真实诈骗文本中归纳出通用的诈骗流程, 以本体形式加以规范, 使其融入反诈模型, 为基于语义理解的诈骗识别打下基础。反向建模的主体为“诈骗人”、“受骗人”、“诈骗流程”三个类; “通话”关系用于关联两类参与者。
通用的“三步式”诈骗流程具体如下。
(1) 取得对方信任, 诈骗分子会冒充某个身份;
(2) 诱导对方落入预先设计的诈骗陷阱, 一般会说明事由并要求进行指定操作, 这涉及诈骗分子所冒充对象的权限;
(3) 诈骗分子骗取钱款、完成诈骗的关键, 哄骗对方直接转账到指定账户或骗取到银行卡号及其密码等信息。
参照以上通用诈骗模式, 将“诈骗流程”类拆解为“冒充身份”、“诱导过程”、“骗取钱款”三个子类, 其间是“下一步为”关系, “诱导过程”分出“诈骗事由”、“诈骗权限”两个三级类。特别地, “诈骗流程”有单一场景型和复合场景型之分: 前者指一个诈骗流程仅发生在一个设定的场景中, 后者设计转接到其他指定号码的操作, 跳转到另一个诈骗流程。因此在诈骗人之间定义了一个“转接”关系, 来表示复合场景下多个诈骗分子之间的配合与关联, 这对后续诈骗团伙的识别与画像十分关键。最终, 反向数据部分的本体模型如图2所示。
图2
5.2 正向业务权限建模
正向建模是本文首创的反诈建模新角度, 旨在分析并表示诈骗场景相关业务主体及其权限。电话诈骗利用业务主体的虚假信息, 有违正常规范的业务权限, 提前明确业务权限正常规范的内涵和容易被利用的环节, 使得反诈方案更具主动性和前瞻性, 同时, 正反向比对可辅助诈骗识别。据此, 设计“场景主体”和“业务权限”两个类, 两类之间存在“拥有权限为”关系。
“场景主体”类是电话诈骗场景所对应的业务主体, 通过“对应主体为”关联到“诈骗流程”中第一步“冒充身份”, 现分为5个常见子类, 但可依据实际诈骗场景进行扩展。“业务权限”类代表场景主体正常的业务内容和相关规范, 具有权限的类别、内容、依据、准备材料、时间和途径限定等属性, 这些属性经常被诈骗分子用来设计诈骗流程, 可与“诈骗流程”中提及的类似部分进行语义比对。最终, 正向数据部分的本体模型如图3所示。
图3
诈骗电话识别需要反向诈骗事件与正向业务权限紧密关联, 先从诈骗通话文本中抽取“诈骗流程”, 利用“对应关系为”将流程中“冒充身份”关联到“行使主体”, 判断疑似诈骗通话的场景归属, 然后利用诈骗流程中富含的语义信息进行正反向双重语义比对, 与已确定是诈骗的典型流程的相似度即诈骗概率, 与所属场景下的正常业务权限在语义上的差异可辅助判断。
5.3 诈骗团伙画像建模
诈骗团伙是一种具有同类诈骗模式、内部分工合作的犯罪组织形式[16], 识别与监控诈骗团伙的关键是准确而全面地构建诈骗团伙画像。为此, 设计“诈骗团伙”类, 从诈骗通话内容中分析并建模细粒度的诈骗手段, 结合“号码特征”和“手段特征”两大属性群刻画诈骗团伙的通信方式和通话内容, 由此可知该类是由“诈骗人”、“电话号码”和“诈骗流程”三个类的属性、关系等内涵进行聚类并填充而来, 集中体现诈骗事件的多维特征。
(1) 号码特征建模: “号码特征”属性群汇总了“电话号码”类所具有的属性。除了三种基本属性“号段”、“号源”、“运营商”外, “诈骗团伙”还有三类特殊的号码属性, 用以识别诈骗团伙、辅助反诈:
①号码行为特征, 如“呼入呼出比”等, 描述诈骗团伙的历史呼叫行为;
②号码活跃特征, 如“日呼叫次数”等, 描述诈骗号码状态;
③号码社交网络, 如“关联号码”等, 梳理诈骗号码社交网络。
(2) 手段特征建模: “手段特征”属性群可理解为归属于某个“诈骗团伙”的各个“诈骗人”所通用且惯用的“诈骗流程”, 对应细分出5个属性, 分别按频次高低列举出特定诈骗团伙的仿冒身份、诱导事由、利用权限、是否转接及转接范围、骗取钱款方式。最终, 诈骗团伙画像的本体模型如图4所示。
图4
本文所构建的反诈领域本体详见支撑数据, 仅展示详细讲解过的重点部分, 实际本体规模更大, 总计得到一级类8个, 二级类15个, 三级类38个, 属性253个, 关系113个。上述三部分建模都依据应用驱动循环法所定义的5个具体构建步骤, 但为聚焦于智能应用在本体层的实现, 上文主要展示类及其间多类型关系的定义, 以便表示复杂的知识关联。
5.4 反诈推理规则定义
基于本体推理出的隐含信息可为诈骗电话识别与态势分析提供更全面的信息。本文基于反诈领域本体设计推理规则并表示为谓词逻辑形式, 借助Jena推理引擎[24]结合领域本体和推理规则进行知识推理。以下述三条规则为例说明本体推理在诈骗流程、地点信息、诈骗团伙等信息补全方面的作用。具体推理结果见对本体功能的评估。
(1) 诈骗步骤传递规则: 依据诈骗步骤在通话文本中出现的先后顺序, 将分散的诈骗步骤关联成完整流程, 全面展示诈骗经过, 以便进行诈骗识别中的语义比对。如果诈骗流程中步骤a的下一步是b, b的下一步是c, 则c也是a的下一步。
[rule1: (?a pf#下一步为 ?b), (?b pf#下一步为 ?c)→(?a pf#下一步为 ?c)]
其中, pf表示本体命名空间http://AntiPhoneFraud. owl。
(2) 地点归属判断规则: 地点信息可通过各类与“地理位置”类之间的关系进行迁移与共享, 补全全局视图中缺失的空间信息, 辅助地点不一致性检验。如果a工作在单位b, 且已知单位b位于c, 则a的工作地点为c。
[rule2: (?a pf#工作单位为 ?b), (?b pf#位于 ?c)"→(?a pf#工作在 ?c)]
(3) 诈骗团伙扩展规则: 利用诈骗分子之间的通话关联, 如“转接”关系, 扩展诈骗团伙范围, 支持诈骗团伙识别。如果诈骗人a在通话中提到需要转接到b, 且已知a是诈骗团伙c中一员, 则诈骗人b也归属于诈骗团伙c。
[rule3: (?a pf#转接 ?b),(?a pf#归属团伙为 ?c)→(?b pf#归属团伙为 ?c)]
6 反诈领域本体评估
6.1 本体结构评估
(1) 评估方法与指标
表2 OntoQA模式组指标含义[26]
评估指标 | 计算公式 | 含义 |
---|---|---|
关系 丰富度 | $RR=(\left| P \right|)/(\left| SC \right|+\left| P \right|)$ (1) | 反映关系的多样性, 以及各类关系在本体中的分布情况; 拥有除继承关系外更多其他关系的本体, 往往比仅有继承关系的能表达出更丰富的信息。 |
其中, $\left| SC \right|$继承关系数量; $\left| P \right|$为除继承关系外的其他关系数量 | ||
属性 丰富度 | $AR=(\left| att \right|)/(\left| C \right|)$ (2) | 类的属性多少关系到类的相关信息能否被充分表示, 一般而言, 属性越多的本体内涵越丰富, 本体质量越高。 |
其中, $\left| att \right|$为所有类的属性总量; $\left| C \right|$为类的总量 | ||
继承关系 丰富度 | $I{{R}_{C}}=({{\mathop{\sum }^{}}_{{{C}_{i}}\in C}}|{{H}^{C}}({{C}_{1}},{{C}_{i}})|)/(\left| C \right|)$ (3) | 描述本体中不同层次继承关系的数量, 刻画本体的体系结构形态: 继承层次多但各类子类少的本体为垂直型, 反之为水平型。 |
其中, $|{{H}^{C}}({{C}_{1}},{{C}_{i}})|)$为每个类${{C}_{i}}$的子类${{C}_{1}}$的数量; $\left| C \right|$为类的总量 |
(2) 评估结果分析
通过对本体类及其属性、关系数量的统计, 反诈领域本体与电信诈骗本体、信息安全本体的各项指标值如表3所示。
表3 反诈领域本体与相关本体的评估指标对比
计算指标 | 反诈领域 本体 | 电信诈骗 本体 | 信息安全 本体 |
---|---|---|---|
继承关系 | 27 | 53 | 1 468 |
除继承关系外的其他关系 | 106 | 未知 | 57 |
关系丰富度 | 0.797 | 未知 | 0.037 |
类的总量 | 61 | 54 | 525 |
所有类的属性总量 | 253 | 未知 | 564 |
属性丰富度 | 4.148 | 未知 | 1.074 |
所有类的子类总量 | 114 | 139 | 未知 |
继承关系丰富度 | 1.869 | 2.574 | 未知 |
①电信诈骗本体的类间关系主要为继承关系, 其他关系多为“attribute-of”, 类型少且具体数量未知; 信息安全本体中继承关系数量多, 说明该本体的概念体系庞大, 但其他关系占比仅0.037; 而反诈领域本体根据领域实际自定义了更多类型的其他关系, 其关系丰富度0.797接近于1, 表明反诈领域本体具有更丰富的类间关系, 有助于通过知识关联进行诈骗识别;
②信息安全本体中类和属性均比反诈领域本体丰富, 这与领域范围的大小相关, 信息安全涉及的知识概念明显多于反诈领域; 但是反诈领域本体的属性丰富度为4.148, 近乎是信息安全本体的4倍, 说明反诈领域本体内涵更丰富, 对领域知识的表示更全面;
③反诈领域本体的继承丰富度小于电信诈骗本体, 其结构形态的横向性更明显, 表示范围广泛的一般性知识, 这与反诈领域知识庞杂的特点相一致。经过两次退回本体构建步骤的迭代, 反诈领域本体的结构评估结果满足指定阈值, 可继续进行功能评估。
6.2 本体功能评估
(1) 诈骗电话识别评估
判断智能反诈的应用需求没有发生变化, 不用退回到需求分析步骤, 通过分析本体中一个诈骗电话实例, 评估本体对智能反诈需求的满足程度。其中, 基于本体推理补全诈骗信息是对诈骗识别与态势分析的辅助, 所定义的推理规则正好对应诈骗电话语义识别、诈骗全局态势分析, 因而, 将推理结果分析融入到相应的应用功能评估中。
本文选取的实例为“高雄诈骗团伙”, 诈骗人的通话文本如图5(a)所示, 诈骗过程为: 冒充警察的诈骗人(从另一通话文本中已知其属于高雄诈骗团伙, 标记为“高雄一号”)以对方涉嫌洗钱为名, 获取身份证和银行账户信息, 转接到冒充银行工作人员的诈骗同伙(标记为“高雄二号”), 声称已经冻结对方账户, 要求尽快转账到安全账户。
图5
诈骗电话识别关键在于抽取诈骗流程。依据本体中定义的“诈骗流程”类及其子类, 识别出“冒充-诱导-诈骗”三步式诈骗流程, 如图5(b)所示, 判断其为“公安局+银行”的复合场景型诈骗。因案例中两个号码均已改号, 传统的仅依据电话信息识别诈骗的方法失效, 但基于反诈领域本体可以进行正反向语义比对, 计算该诈骗流程与已确定是诈骗的典型流程的相似度, 并且判断通话内容是否有违场景相关的正常业务权限, 从而有效地识别该诈骗电话。
为进行权限比对, 需要找出“高雄二号”在表明身份后所实施的诈骗步骤, 在推理程序中定义查询语句“SELECT ?x WHERE {pf:警察 pf:下一步?x}”, 匹配并调用诈骗步骤传递规则(rule1), 查询到三个后续诈骗步骤: 已知的“接通知、涉嫌洗钱”这一事由和推理出的“冻结账户”、“转账到安全账户”这两个行为, 将分散的诈骗步骤关联为完整流程。然而现实中银行无权要求公民转账到所谓“安全账户”, 可知该通电话有很大的诈骗嫌疑。
(2) 诈骗态势分析评估
“高雄诈骗团伙”相关诈骗电话实例所涉及的本体类及其关系如图6所示, 其中红色标识的关系是通过推理补全的隐含信息, 可从本体层与实例层的对照中直观地看出。除上述诈骗流程传递外, 推理部分还涉及诈骗团伙扩展和地点归属判断。
图6
为完善诈骗团伙画像, 需要找出高雄诈骗团伙的所有成员, 定义查询语句“SELECT ?x WHERE {?x pf:归属团伙为 pf:高雄诈骗团伙}”, 调用诈骗团伙扩展规则(rule2), 利用诈骗分子之间的“转接”关系, 查询出两个属于“高雄诈骗团伙”的诈骗人: 已知的“高雄一号”和推理出的“高雄二号”, 从而建立起两者的诈骗号码社交网络, 扩展该诈骗团伙的成员范围。
为进行诈骗地点分布统计, 需要找出所有自称在武汉工作的诈骗分子, 定义查询语句“SELECT ?x WHERE {?x pf:工作在 pf:武汉}”, 调用地点归属判断规则(rule3), 已知工作单位“洪山区公安局”、“中国银行洪山区支行”位于“武汉”, 因而查询结果包含两名诈骗人。若诈骗人的电话号码归属地不为武汉, 则不能通过不一致性检验, 由此得到更多诈骗识别的辅助信息。
基于反诈领域本体可推理并补全本体中缺失信息, 在此基础上进行多维统计分析, 发现并展示诈骗事件在时空分布、手段模式、诈骗团伙、受害人群等多维度上的特征及其关联、演化, 为智能反诈提供决策支持。经过三次退回本体构建步骤的迭代, 反诈领域本体的功能评估结果符合要求, 其知识逻辑能够支持诈骗电话识别、诈骗态势分析、本体推理活动等核心功能, 因而输出最终的反诈领域本体。实验证明, 依据应用驱动循环法所构建的领域本体更容易满足应用需求, 充分发挥了智能应用对本体构建的驱动作用, 以及本体对智能应用的支撑能力。
7 结语
本文所提出的应用驱动循环法是一种新的面向智能应用的领域本体构建方法, 采用“需求+构建+评估”循环式结构, 智能应用需求贯穿于本体构建的全生命周期, 以解决现有本体构建方法不足以支持智能应用的问题。在本方法中, 应用需求分析驱动本体构建, 评估结果引导本体优化迭代, 并能响应应用需求的变化, 形成领域本体构建的完整循环, 最终所构建的本体更容易满足应用需求。本文基于应用驱动循环法构建反诈领域本体, 能够表示广泛庞杂的跨领域知识, 有效支持智能反诈目标, 验证了该方法适用于智能应用领域的知识表示。未来研究工作旨在进一步优化该方法, 如引入自动抽取领域概念的方法、对智能应用需求的分析与评估进行量化, 提高本体构建的效率; 还可进一步完善反诈领域本体, 细化诈骗流程等类目、丰富本体推理规则, 增强该本体的表达性, 同时为应用驱动循环法的改善提供更多思路。
支撑数据
支撑数据由作者自存储, E-mail: hong@whu.edu.cn。
[1] 邓诗琦, 洪亮. AntiPhoneFraud.owl. 反诈领域本体OWL文件.
利益冲突声明
所有作者声明不存在利益冲突关系。
作者贡献声明
洪亮: 提出研究思路, 论文最终版本修订;
邓诗琦: 模型构建, 进行实验, 论文撰写。
参考文献
A Translation Approach to Portable Ontology Specifications
[J].
BioTop and ChemTop: Top-Domain Ontologies for Biology and Chemistry
[C]//
Ontologies: Principles, Methods and Applications
[J].
Ontology Development 101: A Guide to Creating Your First Ontology[R]
Ontology Learning for the Semantic Web
[J].
Ontology Module Extraction for Ontology Reuse: An Ontology Engineering Perspective
[C]//
大数据环境下领域本体构建框架研究
[J].
Research on Construction Framework of Domain Ontology for Big Data
[J].
基于本体的人物关系一致性检测方法研究
[J].
Consistency Detection of Interpersonal Relationship: An Ontology-based Method
[J].
本体评估研究进展
[J].
Research Advances in Ontology Evaluation
[J].
基于本体的电信诈骗分析知识库模型
[J].
Telecommunications Fraud Case Analysis Knowledge Base Model Based on Ontology
[J].
Applying Semantic Technologies to Fight Online Banking Fraud
[C]//
An Inference Model of Medical Insurance Fraud Detection: Based on Ontology and SWRL
[J].
基于本体的网络安全态势要素知识库模型研究
[J].
Research on Network Security Situational Elements Knowledge Base Model Based on Ontology
[J].
A Semantic Knowledge Base Construction Method for Information Security
[C]//
大数据技术在防诈骗系统应用及运营实践
[J].
Application and Operation Practice of Big Data Technology in Anti-fraud System
[J].
电话诈骗防治技术解决方案与运维对策研究
[J].
Research of Technology Solutions and Operation Countermeasures to Telephone Fraud Prevention and Control
[J].
基于信令的电话诈骗行为检测及防范研究
[J].
Study on Detection and Prevention of Telephone Fraud Based on Signaling
[J].
基于大数据的电信诈骗治理技术研究
[J].
Research on Anti Telecommunications Fraud Technology Based on Big Data
[J].
腾讯安全“守护者计划”.鹰眼智能反电话诈骗盒子
[EB/OL]. [
Tencent Security “Guardian Program”. Hawkeye Intelligent Anti-Phone Fraud Box
[EB/OL]. [
对可疑号码进行诈骗样本甄别归类及拦截的方法及系统:中国, CN201611052505.8
[P].
Method and System for Screening and Intercepting Suspicious Numbers for Fraud Samples: China, CN201611052505.8
[P].
国家互联网应急中心
[EB/OL]. [
National Internet Emergency Center
[EB/OL]. [
2017 年度骚扰、诈骗电话形势分析报告
[EB/OL]. [2018-04-05]. .
Harassment, Fraud Telephone Situation Analysis Report in 2017
[EB/OL]. [ 2018-04-05]. .)
ONTOMETRIC: A Method to Choose the Appropriate Ontology
[J].
OntoQA: Metric-Based Ontology Quality Analysis
[C]//
/
〈 |
|
〉 |
