孤立点分析在税务审计上的发展运用

孤立分析税务审计上的发展运用 开题报告 /html/lunwenzhidao/kaitibaogao/。

引言  审计作为一种独立性的经济监督活动,对被审计单位相关经济活动具有特有的制约和促进作用。审计的职能就是通过对数据的检查,监察财务收支的真实、合法性,总结效益情况,同时发现和揭示重大问题或风险隐患。近年来,随着经济建设的不断发展,税务审计的任务也越来越重,在日积月累的数据量的不断增加下,使用原有的审计也难以满足实际要求。随着审计技术运用的不断深入,内部审计人员感觉可发现的审计线索少了,问题越来越隐蔽。而以往的分析技术倾向于发现个案的存在,但对审计对象的整体风险情况无法进行全面的把握。  对审计部门困扰的主要有以下问题,一是由于各单位业务逐步出现了高度电子化,数据海量化,关注广泛化,产品衍生化,环境多样化的情况,让审计效率明显降低。二是审计在其执行过程中,所用的工具和程序都是基于事先的审计假设,而审计假设则是由审计人员通过以往的正常情况或者发展趋势进行人工分析得出判断和说明,但是由于个人的经验和知识是有限的,随着时间的发展,业务流程的更新,产品和技术的产生,造成了模型相对滞后,对面新的情况和海量数据着手困难[1]。针对这些问题,人们逐步开始利用数据挖掘技术进行解决。本文主要描述基于数据挖掘的孤立分析税务审计方向上的发展与运用。

代写论文   1 数据挖掘技术  数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它可以进行历史数据的查询和遍历,发现数据仓库中对象演变特征或对本文由收集整理象发展趋势,也能找出过去数据潜在的关系,从而进行信息的挖掘,还可以根据过去的数据对未来进行预测和分类。  数据挖掘与传统的数据分析的本质区别就是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。  数据挖掘现阶段在税务审计中主要应用了聚类技术、分类与预测技术、关联技术孤立点发现技术等等[2]。  2 孤立点的定义与产生  2.1 孤立点的定义  孤立分析数据挖掘中的一个重要研究方向。利用数据挖掘技术可以在海量数据处理过程中获得一般模型,但这些数据并不是全部适用于这个一般模型,比如一些特殊值。这些不符合一般数据模型的数据数据处理的目的来说可能就是数据整体的孤立数据、异常数据、偏差数据或者噪声数据。它们也有它们的共同特性,就是与海量数据中的其他数据有着明显的不一致,这些数据,我们统称为孤立点。  一般的孤立分析数据挖掘中存在两个基本任务:一是在给定的数据集合中定义什么样的数据可以被认为不一致的;二是找到一个有效的方法来挖掘这样的孤立点[3]。 总结大全 /html/zongjie/   2.2 孤立点的产生  孤立点的产生原因是多方面的,简单来说,可以归纳为以下几个方面:  一是人为操作错误所致。譬如,因为数据库没有年龄约束限制,在输入年龄时发生了数字录入错误,把21岁录入成211岁就属于人为操作错误。  二是人为欺诈行为所致。为了某种目的而直接对数据进行违背事实的更改或者添加,造成数据值与实际情况有很大区别。个别单位虚报的统计数据就属于此类。  三是由于仪器或者设备出错导致。在数据采集过程中测量仪器或者设备难免不会受到外界的影响而使得采集到的数据出现错误。  四是数据系统的变化或者故障。数据系统在运行或者搬迁的时候,可能因为个别不可预料的操作对其中的数据造成影响。比如数据库的搬迁,恢复时出现小范围报错的情况。  五是数据发生自然偏差导致。事物是不断发展和变化的,在这个过程中是符合自然规律的,而这些变化和发展也会对其中的数据产生影响。比如同一个公司里职员升职为经理后工资就会高出不少,但这些变化却是合理的存在从上面的原因来看,孤立点不论是怎么产生的,都并不是毫无意义的异常数据。这些孤立数据对总结海量数据得出一般模型不会产生积极作用,但从这些估计点进行分析却能够获取到有价值的信息。作为税务审计人员,就应该特别重视孤立数据,从中深究出审计线索。 简历大全 /html/jianli/   3 孤立点在税务审计上的运用  因为税务审计业务的性质,决定了在税务审计中运用数据挖掘技术来对海量数据孤立进行分析能够取得比较好的审计线索,从而达到审计的目的。在税务审计工作中,通过基于数据挖掘的孤立分析来查找审计线索特征主要分为以下三个步骤。  3.1 寻找孤立点的数据准备  数据的准备可以分为三个主要步骤:一是数据选取,二是数据预处理,三是数据变换。  数据选出主要是为了确定目标任务的操作对象,它是根据用户的需要从原始数据库抽取出来的一部分表和字段。所以在数据选取之前先要对具体的审计事项进行分析,综合数据字典和数据说明文档对数据的含义和业务流程等方面的情况进行分析,对数据的产生有个全面的了解。  数据预处理是一个相当耗费时间的过程,它包括数据噪声的消除、缺值数据的推导与计算、重复记录的处理、数据类型的转换等等。比如在处理空值噪声时一般可以采取如下几个方法:一是均值法,即用数据库中该属性已知的属性填充,具体为当前点k(k可自定义)个不为空的数据点的平均值来替换。二是平滑法,假设当前数据点是噪声数据或者空值,则取出当前点a个(a可自定义)不为空的数据点的加权平均值来替换。三是预测法,采取回归、拟合、插值、归纳等方法,推断空值噪声数据属性最可能的取值。四是统计频率法,此法既适用离散数据,也可用于经过离散化的连续数据数据缺损处理,假如数据库中的属性存在有噪声数据或者空值,属性a的值域为{,,,},P()表示值在该系统中出现的频率。可以用最大出现频率的值max{P()}进行填充[4]。

0 次访问