基于数据质量评估的信息系统审计方法
陈 伟,姜玉泉
南京审计学院 信息管理系,江苏 南京,210029
chenweich@nau.edu.cn
摘要:信息系统审计是目前信息管理领域研究的一个热点。本文简要分析了信息系统审计的主要内容,以及常见的信息系统审计方法。在此基础上,提出了基于数据质量评估的信息系统审计方法,该方法通过评估被审计单位信息系统中电子数据的数据质量,来间接评价被审计单位信息系统的应用控制状况,从而达到信息系统审计的目的。本文的工作为开展信息系统审计提供了新的研究思路。 关键词:信息系统审计,数据质量,审计方法
为了确定信息系统能否适当地维护数据完整、提供相关和可靠的信息,一些信息系统审计方法被设计出来,常见的这类方法分析如下[2] 。
(1) 平行模拟
平行模拟(Parallel Simulation)是指针对某一应用程序,审计人员用一个独立的程序去模拟该程序的部分功能,在输入数据的同时进行并行处理,其结果和该应用程序处理的结果进行比较以验证其功能正确性的方法。其原理如图1所示。
正常输入 被检测系统被模拟的程序正常输出1 引 言
随着信息技术在各行各业的普及,信息资源像其它有价值的资源一样,对其单位来说是非常重要的。为了确保信息资源能有效地为其单位服务,信息系统审计逐渐引起企业界、学术界以及政府管理部门的关注。信息系统审计(Information System Audit,ISA)一般理解为对计算机信息系统的审计,信息系统审计的国际权威组织——国际信息系统审计和控制协会给信息系统审计作了如下定义[1] :信息系统审计是收集和评估证据,以确定信息系统与相关资源能否适当地保护资产、维护数据完整、提供相关和可靠的信息、有效完成组织目标、高效率地利用资源并且存在有效的内部控制,以确保满足业务、运作和控制目标,在发生非期望事件的情况下,能够及时地阻止、检测或更正的过程。
信息系统审计所包含的范围很广,目前信息系统审计研究与应用的主要内容包括:信息系统开发与维护审计、信息系统安全审计、信息系统应用控制审计(如输入控制审计、处理控制审计和输出控制审计)、业务持续,灾难恢复等。
根据以上信息系统审计的定义,确定信息系统能否适当地维护数据完整、提供相关和可靠的信息是信息系统审计的一个重要方面。为了达到这一目的,本文中,作者提出了一种基于数据质量评估的信息系统审计方法。
比较平行模拟程序模拟输出图1 平行模拟原理
2 常见的信息系统审计方法
平行模拟法的优点是一旦取得了模拟程序,可以随时对被审系统进行抽查,也可以用模拟系统重新处理全部的真实业务数据,进行比较全面的审查。与抽查相比,可以进行更彻底的测试。其主要缺点是模拟系统的开发通常需要花费较长的时间,开发或购买费用都较高;另外,如果被审计的系统更新,则模拟系统亦要随之更新,相应要增加费用。
(2)测试数据
测试数据技术(Test Data)是指采用审计人员准备好的输入数据来检测应用系统,通过将处理的结果与应有的正确结果进行比较,从而检测应用系统的逻辑问题和控制问题的一种方法。测试数据法的优点是适用范围广,应用简单易行,对审计人员的计算机技术水平要求不高。因此,它被广泛应用于各种系统的测试和验收。其主要的缺点是可能不能发现程序中所有的错弊。
(3)集成测试技术
集成测试技术(Integrated Test Facility,ITF)是通过在正常的应用系统中创建一个虚拟的部分或分支,从而提供一个内置的测试工具。它一般用来审计复杂的应用系统,其原理如图2所示。该技术是在系统正常处理过程中进行测试的,因此可直
基金项目:国家自然科学基金项目(70701018),中国博士后科学基金项目(20060390281)。 作者简介:陈伟(1976-), 男, 博士, 博士后, 副教授, 主要研究方向为审计信息化。
接测试到被审计系统在真实业务处理时的功能是否正确有效。然而,整体检测法也有弊端。因为测试是在系统真实业务处理过程中进行的,如果未能及时、恰当的处理虚拟的测试数据,这些虚拟的测试数据可能会对被审计单位真实的业务和汇总的信息造成破坏或影响。
正常输入ITF输入 被检测系统
正常数据
ITF模块
ITF数据
正常报告ITF报告图2 集成测试技术原理
(4)程序编码审查 程序编码审查(Program Code Review)是对应用系统的编码进行详细审查的一种技术,它一般不被算作真正的计算机辅助审计技术。通过审查程序编码,审计人员可以识别出程序中的错误代码、未被授权的代码、无效的代码、效率低的代码以及不标准的代码。这种技术的优点是审计人员审查的是程序本身,因此能发现程序中存在的任何错弊问题。其缺点是对审计人员的计算机水平要求高,比较费事费时,而且要确认被审计的源程序的确是真实运行系统的源程序。
(5)程序代码比较
程序代码比较(Program Code Comparison)是指审计人员对程序的两个版本进行比较。审计人员使用这种技术的目的主要有:第一、检查被审计单位所给的被审计系统和被审计单位所使用的系统是否是同一软件;第二、检查和前一个版本相比,程序代码是否发生了变化,如果发生了变化,是否有程序变更管理程序。
(6)跟踪
审计人员采用跟踪(Tracing)技术可以分析一个程序的每一步,从而能发现每一行代码对被处理数据或程序本身的影响。
(7)快照
快照(Snapshot)是一种充许审计人员在一个程序或一个系统中在指定的点冻结一个程序,使审计人员能够观察特定点数据的技术。快照技术具有快速、易用的特点,对于识别业务处理中潜在的数学计算错误是非常有用的。缺点是功能有限,不具有通用性。
文献[3]调查分析了审计人员对审计技术的熟
悉情况及其使用情况,并分析了相应的原因。调查表明:尽管有很多可用的审计技术,但被审计人员广泛使用的却只是少数。另外,大部分审计人员对这些常见的审计技术比较熟悉,但少数人员却对最常见的审计技术(如ITF)不熟悉。由此可见,研究一些对审计人员的技术水平要求低、可操作性好的审计技术对审计人员来说是非常重要的。
3 数据质量概念、分类及评估指标[4]
3.1 数据质量的概念及分类
数据质量问题并不仅仅是指数据错误。文献[5]把数据质量定义为数据的一致性(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)这4个指标在信息系统中得到满足的程度。信息系统中可能存在的数据质量问题有很多种,总结起来主要有以下几种:
(1)重复的数据
重复的数据是指在一个数据源中有指现实世界同一个实体的重复信息,或在多个数据源中有指现实世界同一个实体的重复信息。
(2)不完整的数据 由于录入错误等原因,字段值或记录未被记入数据库,造成信息系统数据源中应该有的字段或记录缺失。
(3)不正确的数据
由于录入错误,数据源中的数据未及时更新,或不正确的计算等,导致数据源中数据过时,或者一些数据与现实实体中字段的值不相符。
(4)无法理解的数据值
无法理解的数据值是指由于某些原因,导致数据源中的一些数据难以解释或无法解释,如伪值、多用途域、古怪的格式、密码数据等。
(5)不一致的数据
数据不一致包括了多种问题,比如,由不同数据源来的数据很容易发生不一致;同一数据源的数据也会因位置、单位以及时间不同产生不一致。
在以上这些问题中,前三种问题在数据源中出现的最多。根据数据质量问题产生的原因,数据质量问题可分成单数据源问题和多数据源问题两个方面,其分类如图3所示。
3.2 数据质量的评估指标
根据上述分析,信息系统中可能存在一些数据质量问题,一般说来,评估数据质量最主要的几个指标是:
(1)准确性(Accuracy):准确性是指数据源中实际数据值与假定正确数据值的一致程度;
(2)完整性(Completeness):完整性是指数据源中需要数值的字段中无值缺失的程度;
(3)一致性(Consistency):一致性是指数据源中数据对一组约束的满足程度;
(4)唯一性(Uniqueness):唯一性是指数据源中记录以及编码是否唯一;
(5)适时性(Timeliness):适时性是指在所要求的或指定的时间提供一个或多个数据项的程度;
(6)有效性(Validity):有效性是指维护的数据足够严格以满足分类准则的接受要求。
模式级问题唯一值 缺乏完整性约参照完整性 单束、差的模式.. 数设计.据 源拼写错误问 题实例级问题重复的数据数据输入错误数 冲突的数据据质 ...量 问命名冲突题 模式级问题 异构的数据模结构冲突 多型和模式设计.. 数.据 源实例级问题不一致的汇总 问题不一致的时间选择 冲突和不一致的数据.. .图3 数据质量问题的分类
被审计的 信息系统 数据采集 数据质量检测数据质量检 测方法库 数据质量评估数据质量评估指标
审计结论图4 基于数据质量评估的信息系统审计方法原理
3 基于数据质量评估的信息系统审计方法
3.1 原理
根据数据质量的评估指标,通过对被审计信息系统中的电子数据的质量进行评估,可以确定信息系统能否适当地维护数据完整、提供相关和可靠的信息,其原理如图4所示。其过程说明如下:
首先,采集被审计信息系统中的部分数据,然后,对影响被审计信息系统中数据质量的主要问题,如重复数据,不完整数据以及错误数据等进行检测;然后,根据检测结果和审计数据质量的评估指标,来评估被审计数据的数据质量;最后,根据评估结果,给出审计结论,确定信息系统能否适当地维护数据完整、提供相关和可靠的信息。
3.2 数据质量的检测方法
由图4可以看出,审计数据质量的检测是一个关键步骤。对于审计数据质量的检测,除了可采用手工方法进行检测外,还可以通过定义质量检测方法库来实现,如图4所示。质量检测方法库中主要检测方法的原理说明如下:
(1)重复数据检测
对于完全重复记录,可以采用审计软件如IDEA[6] 等进行检测;对于相似重复记录,采用“记录排序记录相似性检测”的方法来检测,其原理为:为了能查找到数据源中所有的重复记录,必须比较每一个可能的记录对,如此以来,检测相似重复记录是一个很昂贵的操作。当采集的电子数据的量很大时,这会导致是一个无效和不可行的方案。为了减少记录之间的比较次数,提高检测效率,常用的方法是仅比较相互距离在一定范围的记录,即先对数据表中的记录排序,然后对邻近记录进行比较。通过以上过程,可以检测出被审计数据源中的重复记录。
(2)不完整数据检测[7]
检测不完整数据的算法比较简单,假设一条记录可表示成:
R{a1,a2,,an} 其中,a1,a2,,an表示记录R的n个属性,Ri(aj)表示记录Ri第j个属性aj的值,aj(default)表示记录第j个属性aj的缺省值,T为数据表中记录的总数。不完整数据检测算法的伪码可描述如下: ( 1)FOR i1 TO T; (2)FOR j1 TO n; 1)IF Ri(aj) is NULL Or Ri(aj)= Ri(aj(default)) Then 把该记录标识为不完整数据; 2)END IF; (3)END; ( 4)END;
(3)错误数据检测 对于错误数据的检测,主要采用基于业务规则的检测方法,即在检测错误数据时,根据对具体业务的分析,在规则库中定义相应的业务规则,然后,法实现起来较为容易,有时可以采用一些数据质量检测软件来完成,具有一定的通用性,因此,本文所提出的基于数据质量评估的信息系统审计方法可操作性好。
执行错误数据检测,判定每条记录是否符合所定义的业务规则。如果记录不符合所定义的业务规则,则该记录含有错误数据。对于错误数据的检测,也可以通过采用相关算法查找被审计数据中的异常数据,进而发现错误数据这一过程来完成。
3.3 数据质量评估的方法
通过检测,可以计算出被审计数据中重复数据、不完整数据以及错误数据的比率,从而可以对数据质量进行评估。评估方法如下[8] :
假设D为重复数据的比率,I为不完整数据的比率,W为错误数据的比率,则审计数据质量的评估指标Q可定义为:
QK1(1D)K2(1I)K3(1W)其中,K1,K2,K3表示相应的权重,且:
K1,+K2+K3=1根据Q的值,可判断被审计数据的数据质量。假设QQL为审计数据质量的阈值,如果:
QL 则表示数据质量较差,从而表明该被审计信息系统应用控制不完善,不能维护数据完整、提供相关和可靠的信息。
4 结论
根据信息系统审计的定义,确定信息系统能否适当地维护数据完整、提供相关和可靠的信息是信息系统审计的一个重要方面,本文提出了一种基于数据质量评估的信息系统审计方法。相对于其它方法,该方法具有以下特点:
(1)可操作性好
不同于平行模拟等方法,由于数据质量检测方
(2)对被审计单位的信息系统影响小 不同于集成测试等方法,由于本文所提的方法仅对从被审计信息系统中采集来的数据进行分析,因此,对被审计单位的信息系统影响小。
(3)对审计人员的技术水平要求低 不同于程序代码比较等方法,由于本文所提的方法可通过一定的软件来实现,具有一定的通用性,在使用时不依赖于具体的被审计对象,因此,也不需要审计人员具有较高的技术水平和业务知识。
参考文献
[1] 国际信息系统审计和控制协会:http://www.isaca.org
[2]
陈伟,张金城,Qiu Robin. 计算机辅助审计技术(CAATs)研究综述. 计算机科学, 2007,34(10): 290-294
[3] Linda M L. Audit technology and the use of computer assisted audit techniques [J]. Journal of Information Systems, 1990, 4 (2): 60-68
[4] 陈伟,张金城. 计算机辅助审计原理与应用. 北京: 清华大学出版社, 2008
[5]
Aebi D, Perrochon L. Towards improving data quality [A]. In: Sarda, N L, eds. Proceedings of the International Conference on Information Systems and Management of Data[C]. Delhi, 1993:273 ~ 281
[6]
Weidenmier M L, Herron T L. Selecting an audit software package for classroom use[J]. Journal of Information Systems, 2004, 18(1): 95-110
[7] 陈伟,丁秋林.数据清理中不完整数据的清理方法[J].微型机与应用,2005,24(2): 44-45,55 [8]
陈伟,刘思峰,Qiu Robin. 审计数据质量评估方法研究. 计算机工程与应用, 2008, 44(3): 20-23
因篇幅问题不能全部显示,请点此查看更多更全内容