构建行业通用、开源共享的审计大数据分析模型体系
https://sjj.tongliao.gov.cn/sjj/jsgc/2019-01/28/content_5daf0d9086964bb190b22b48ab170329.shtml
发布日期:2019-01-28 信息来源: 阅读量:91
构建行业通用、开源共享的审计
大数据分析模型体系
大数据审计云平台、审计大数据标准体系两个要素是实现审计大数据分析的基础设施,审计大数据分析模型要素是发现审计线索、解决审计问题的直接生产工具,审计大数据发挥价值的关键节点就在于模型构建的科学性,其直接影响审计大数据分析的效果。科学审计模型的构建是一项科研性很强的工作,要基于对审计业务的全面深入认识和对计算机实现算法的深刻理解,且只有二者有机结合、高度统一才能研究构建出真正解决实际问题的审计大数据分析模型。
一、审计大数据分析模型分类
(一)基于审计专家经验的查询类大数据分析模型。
此类审计大数据分析模型依赖于审计实践中形成和积累并已被证明有效的审计专家经验,是基于已知先验知识构建的大数据分析模型。基于对审计业务中实体间相互关系的全面清晰描述,将审计专家经验应用于审计大数据分析,形成SQL语句等计算机执行语言构成的查询类大数据审计分析模型。通过查询类大数据审计分析模型实现审计专家经验的知识化、模型化,让审计专家经验以知识的形式得以固化和传播,以模型的形式得以快速推广和应用,产生实际的审计生产力。
(二)基于机器学习的数据挖掘类大数据分析模型。
国家审计行业现在已经拥有一定规模的大数据资源,要让审计数据资源真正成为数据宝藏、切实发挥审计功能,就要对数据中蕴藏的价值进行深度挖掘分析,让审计大数据说话,需要运用机器学习算法构建审计大数据挖掘模型。和基于审计专家经验的查询类大数据分析模型不同,基于机器学习的数据挖掘类大数据分析模型发现的是事先没有已知先验经验的审计知识和规律,是机器学习算法通过对大数据中隐藏知识的挖掘,来发现审计线索和分析解决审计问题。
二、审计大数据分析模型的构建
(一)基于审计专家经验的查询类大数据分析模型构建。
一是对全国现有的基于审计专家经验的查询类大数据分析模型进行分类、改进和完善。按行业对现有的审计大数据分析模型进行分类整理。2004年至2012年,审计署连续开展了七届计算机审计专家经验和计算机审计方法征集工作,共征集评选出3683篇计算机审计专家经验和计算机审计方法。2013年和2015年,审计署审计科研所开展了两次全国审计机关技术处创新情况专题调研活动,分别出版了《审计技术创新发展报告及案例选编2013》《审计技术创新发展报告及案例选编2015》两本书,各发布了155篇和119篇审计技术创新案例。上述计算机审计专家经验、计算机审计方法和审计技术创新案例都是多年来全国审计机关宝贵审计经验的积累和总结,可以对其进行更新和完善,构建种类比较齐全的基于审计专家经验的查询类大数据分析模型库。
二是目前可在审计专网建立审计大数据分析模型众创和共享平台,集全国审计人员智慧不断添加新的大数据分析模型。审计大数据模型建设要实现高效、高质量的发展,应该采用全国审计行业众创模式。在保证信息安全的前提下,全国审计人员在统一平台上,针对相同或相近的审计问题交流经验、共同开发、开源共享代码,充分发挥全国审计人员的积极性和创造性,推动构建具有时代性、实用性的审计大数据分析模型。
(二)基于机器学习的数据挖掘类大数据分析模型构建。
一是以科研攻关的形式逐一攻克基于机器学习的数据挖掘类大数据分析模型构建难点。构建数据挖掘类大数据分析模型的入门门槛相对较高,需要对深度学习、支持向量机、人工神经网络、决策树、贝叶斯、最小二乘等算法的数学机理透彻理解,实现计算机语言的熟练运用,进而才能实现对审计大数据的分类、关联规则、聚类、时间序列等数据挖掘分析。这类数据分析工作本质上是一项科研创新工作,对数据的要求、人员素质的要求和科学组织管理的要求都较高,需要以科研课题、科研攻关的形式逐一明确问题,逐一立项,进行专项科研攻关解决。
二是需要梳理和归纳可以通过数据挖掘模型解决的审计问题,构建人工智能审计问题库。目前的机器学习算法适合于解决分类、关联规则、聚类、时间序列等问题,并不是所有的审计问题都可以使用机器学习工具分析,因此需要将基于机器学习的数据挖掘类和基于审计专家经验的查询类二者结合,共同构成审计大数据分析模型体系。正是因为基于机器学习的数据挖掘类大数据分析模型有其特定的应用场景,需要系统地梳理审计业务问题,分门别类地构建出可以用机器学习工具挖掘分析的人工智能审计问题库。
三是需要在深刻洞悉审计问题和深入理解与审计问题相匹配的机器学习算法的基础上,进行大量数据分析实验,构建基于机器学习的数据挖掘类大数据分析模型。这项科研工作需要审计专家和大数据分析专家深度融合,才能将两个领域的知识有机结合起来,研究出切实解决实际问题、高效准确的大数据分析模型,为实现智能化审计添砖加瓦。
三、审计大数据模型分析结果的可视化
审计大数据模型分析结果的展现直接关系到数据分析结果对用户的友好性,甚至还会进一步影响到审计数据分析的准确性和深入性。数据可视化是一种通过将数据编码为可视对象,并组成图形来传递数据信息的技术,是利用人眼的感知能力对数据进行交互的可视化表达,以增强数据认知的技术,目的是以清晰且高效的方式将信息传递给用户。可视化技术可以灵活组合多个维度的数据,全面描述数据场景,并做出多个维度相结合的数据分析;可以用模式化图形实现更快的数据阅读和理解速度;可以用文字和表格等形式,帮助数据分析人员更高效地理解审计大数据模型分析的结果。
从产品底层架构来看,数据可视化工具可以分为有整体数据建模过程、能够提供数据分析服务的平台类工具,以及直接对审计大数据进行分析和处理的插件类工具。选择可视化工具时,应该根据需求场景和工具的特点做出恰当的选择,优化审计大数据可视化效果。可视化工具简介见表1。
表1 可视化工具简介
平台/工具
|
使用方法 |
适应范围
|
产品架构
|
服务目标
|
商业/开源
|
d3.js
|
开发
|
泛用
|
插件
|
统计图形
|
开源
|
Tableau
|
工具
|
泛用
|
插件-平台介于之间
|
信息主体
|
商业
|
Excel
|
工具
|
泛用
|
插件
|
统计图形
|
商业
|
Adobe Illustrator
|
工具
|
泛用
|
插件
|
统计图形(用于图形细节化处理)
|
商业
|
processing
|
开发
|
泛用
|
插件
|
统计图形
|
开源
|
R& ggplot2
|
开发
|
泛用
|
插件
|
统计图形
|
开源
|
Rapheal
|
开发
|
泛用
|
插件
|
统计图形
|
开源
|
Gephi
|
工具
|
专用(关联性分析) |
插件
|
统计图形
|
开源
|
eCharts
|
开发
|
泛用
|
插件
|
统计图形
|
开源
|
FusionCharts
|
开发
|
泛用
|
插件
|
统计图形
|
商业
|
HighCharts
|
开发
|
泛用
|
插件
|
统计图形
|
商业
|
jFreeChart
|
开发
|
泛用
|
插件
|
统计图形
|
开源
|
Simga.js
|
开发
|
专用(关联性分析) |
插件
|
统计图形
|
开源
|
Cognos
|
工具
|
泛用
|
平台
|
信息主体
|
商业
|
SAS
|
开发
|
专用(商业及管理分析领域) |
平台
|
信息主体
|
商业
|
SPSS
|
工具
|
专用(科学化计算) |
插件
|
统计图形
|
商业
|
three.js
|
开发
|
专用(3D绘图)
|
插件
|
统计图形
|
开源
|
四、审计大数据模型构建实践经验总结
(一)成都市审计局大数据模型建设经验。
成都市审计局通过整合现有的计算机审计分析方法,以大数据处理技术为手段,创新推出了一套大数据审计模型,让复杂的审计问题模型化,便于审计人员学习掌握和运用操作。在此基础上,进一步推出了自动化的、形象的、可视化的数据分析功能,让审计人员能够直观地接受和使用大数据开展分析工作,提高审计发现疑点线索的能力。
成都市审计局通过搜索引擎式查询技术实现审计大数据分析低门槛化。除了将成型的各行业数据分析方法固化形成模型外,还将各区县的审计模型添加到平台中,形成一套不断扩大的审计方法模型体系。目前已建立了部门大数据审计模型方法体系、企业大数据审计模型方法体系、专项资金大数据审计模型方法体系、自然资源资产大数据审计模型方法体系和区(市)县大数据审计模型方法体系。如温江区审计局开发了工程苗木及建材价格信息审计模块,崇州市审计局开发了工程造价审计模块,郫都区审计局开发了拆迁资金大数据审计模块等。
(二)杭州市审计局大数据模型建设经验。
杭州市审计局大数据模型建设分为以下三类:一是基础查询模型。目前,杭州智慧审计系统共构建了公安户籍信息查询、财政供养人员查询、工商登记信息查询、社保信息查询等21个审计基础查询模型,这些审计基础查询采用固定输入输出格式的方式,操作简单,可实现单类审计信息的精确查询。
二是主题查询模型。审计主题库是指与特定审计视角相关的审计数据的集合。杭州智慧审计一期系统构建了法人、自然人和资金三个审计主题库,以企业法人、自然人和资金三个审计视角为数据维度,把杭州审计数据中心与其相关的审计数据归集在一起,形成审计数据集合。主题查询模型以固定格式向审计人员展示审计数据中心内与查询对象相关的所有数据,并提供数据关联查询入口,便于审计人员全面了解相关内容。
三是行业分析模型。杭州智慧审计一期系统围绕财政审计、部门预算执行审计、社保审计和国土审计等4个重点审计行业构建了20个常用审计分析模型,对财政审计、社保审计、部门预算执行审计等重点审计行业的历年审计方法进行分类汇总,提炼适用于同类审计事项的多个审计方法间的共同点,构建常用审计模型,实现同类审计问题的模式化分析。在常用审计分析模型上引入“表内列间计算”和“数据穿透”来实现对某一类问题“灵活”分析,增加常用审计模型的适用范围。
参考文献:
1.官思发,孟玺,李宗洁,刘扬. 大数据分析研究现状、问题与对策. 情报杂志,2015 年第5 期.
2.田雨,孙宇,于辰. 大数据环境下审计分析研究. 中国管理信息化,2017年第13期.
3.吴睿智,马致远,罗光春,刘贵松,秦科. 大数据融合、分析与价值. 信息通信技术,2016年第6期.
4.陆红. 房价大数据分析模型构建方法. 教育教学论坛,2017年第17期.
5.章玉英. 基于Hadoop架构云平台的动态行为信任评估方法. 信息通信,2018年第2期.
6.周宝建. 基于云计算的个人信用数据分析模型的仿真研究. 科技通报,2016年第3期.
7.刘自力,范军丽,陈文伟,吴润泽. 面向多源异构信息的频繁项集挖掘算法. 计算机技术与发展,2017年第6期.
8.田宇驰,胡亮. 基于SVM的一种医疗数据分析模型. 东北师大学报(自然科学版),2015年第1期.
作者:审计署审计科研所 隋学深
审计署审计科研所 黄 丰