掃碼下載APP
及時接收最新考試資訊及
備考信息
隨著信息技術的發展和普及,審計工作已經離不開計算機審計。電子數據審計作為計算機審計的一個重要組成部分,其有關理論、技術、方法得到了廣泛地研究、推廣和應用,在審計實務中發揮了越來越重要的作用。
眾所周知,電子數據審計的基本步驟包括數據提取、數據清洗、數據轉換、數據分析等四個基本步驟。其中數據清洗是轉換和分析的基礎,一定程度上決定著計算機審計的最終質量,數據清洗在電子數據采集中具有重要作用。因此,本文在闡述了數據清洗原理的基礎上,提出電子數據采集中常見問題的數據清洗方法。
一、數據清洗原理
數據清洗(data cleaning),簡單地講,就是從數據源中清除錯誤和不一致,即利用有關技術如數理統計、數據挖掘或預定義的清洗規則等,從數據中檢測和消除錯誤數據、不完整數據和重復數據等,從而提高數據的質量。業務知識與清洗規則的制定在相當程度上取決于審計人員的經驗積累與綜合判斷能力。因此,審計人員應按以下標準評價審計數據的質量。
(一)準確性:數據值與假定正確的值的一致程度。
(二)完整性:需要值的屬性中無值缺失的程度。
(三)一致性:數據對一組約束的滿足程度。
(四)惟一性:數據記錄(及碼值)的惟一性。
(五)效性:維護的數據足夠嚴格以滿足分類準則的接受要求。
二、數據清洗的必要性
從被審計單位采集到的審計數據千差萬別,為了能更好的服務于審計分析和審計查證的需要,必須對采集的電子數據進行全面的清洗。
(一)被審計單位信息系統的多樣性帶來了數據不一致性。開展計算機審計必然面臨各式各樣的迥然相異的被審計單位信息系統。被審計單位信息系統的差異,必然給審計工作帶來數據的不一致性問題。主要有以下表現形式:
1.同一字段在不同的應用中具有不同的數據類型。如字段“借貸方標志”在A應用中的類型為“字符型”,取值為“Credit/Debit”,在B應用中的類型為“數值型”,取值為“0/1”,在C應用中類型又為“布爾型”,取值為“True/False”。
2.同一字段在不同的應用中具有不同的名字。如A應用中的字段“Balance”在B應用中名稱稱為“Bal”,在C應用中又變成了“Currbal”。
3.同名字段,不同含義。如字段“月折舊額”在A應用中表示用直線折舊法提取的月折舊額,在B應用中表示用加速折舊法提取的月折舊額,等等。
4.同一信息,在不同的應用中有不同的格式。如字段“日期”在A應用中的格式為“YYYY-MM—DD”,在B應用中格式為“MM/DD/YY”,在C應用中格式為“DDMMYY”。
5.同一信息,在不同的應用中有不同的表達方式。如對于借貸方發生額的記錄,在A應用中設計為 “借方發生額”與“貸方發生額” 兩個字段,在B應用中設計為 “借貸方標志”與“借貸方發生額”兩個字段。 對于這些不一致的數據,必須進行轉換后才能供審計軟件分析之用。數據的不一致性是多種多樣的,對每種情況都必須專門處理。
(二)被審計系統的安全性措施給審計工作帶來障礙。基于安全性考慮,被審計單位的系統一般都采取一定的加密措施,有系統級的加密措施和數據級的加密措施。特別對具有一定含義的數據庫的表與字段的名稱,一般都要進行映射或轉換。例如,將表命名為T1,T2…; 將字段命名為F1,F2 …。對于這樣的數據,不進行含義的對照與清洗就不明白表或字段的經濟含義,審計人員是無法處理的,各種各樣的加密措施不勝枚舉,這些都給計算機審計帶來了障礙,也給數據清洗帶來挑戰。
(三)審計目的的不同決定了審計數據的范圍和要求不同。被審計單位的信息系統規模不一,數據量相差懸殊。審計人員不可能也沒有必要將被審計單位的所有數據都采集過來。審計工作有自己的目的和要求,需要處理的往往是某一時段或某一方面發生的數據。這樣就要求審計人員選取一定范圍的、滿足一定要求的審計數據。例如,在關稅審計業務中,關心的只是與稅收征管有關的報關單、加工貿易、減免稅、貨運艙單、稅單等相關數據庫的數據,而對于操作員授權管理等系統控制數據庫,在不對系統進行評價時,可以不采集。同時,審計目的不同,對原始數據的要求也不同。在對銀行貸款利率執行情況檢查時,需要帶有計息標志和利率信息的每一筆貸款的明細數據,如果這樣的信息分布在被審計系統的若干張表中,換句話說,如果被審計單位不能提供完全滿足審計要求的數據,就有必要對采集到的數據進行清洗轉換。
(四)數據清洗是數據分析、處理的前提。計算機軟件設計一般都是基于一定的數據結構,專用的審計軟件更是如此。在輸入數據不滿足軟件處理的需求時,必須對它進行清洗,對于一些通用的審計軟件,對輸入數據的適應性相對強一些,但這并不意味著它可以處理不經清洗的任意數據,審計軟件中有很多特定的分析方法和專用工具,這些方法和專用工具往往要求一定的數據結構。例如,在計算機固定資產折舊時,就需要用到“資產原值”、“月折舊率”、“入賬日期”等信息,如果這些信息不能完全滿足,就無法計算。
三、數據清洗的主要步驟
(一)定義和確定錯誤的類型。
1.數據分析。數據分析是數據清洗的前提與基礎,通過詳盡的數據分析來檢測數據中的錯誤或不一致情況,除了手動檢查數據或者數據樣本之外,還可以使用分析程序來獲得關于數據屬性的元數據,從而發現數據集中存在的質量問題。
2.定義清洗轉換規則。根據上一步進行數據分析得到的結果來定義清洗轉換規則與工作流。根據數據源的個數,數據源中不一致數據和“臟數據”多少的程度,需要執行大量的數據轉換和清洗步驟。要盡可能的為模式相關的數據清洗和轉換指定一種查詢和匹配語言,從而使轉換代碼的自動生成變成可能。
(二)搜尋并識別錯誤的實例。
1.自動檢測屬性錯誤。檢測數據集中的屬性錯誤,需要花費大量的人力、物力和時間,而且這個過程本身很容易出錯,所以需要利用高的方法自動檢測數據集中的屬性錯誤,方法主要有:基于統計的方法、聚類方法、關聯規則的方法。
2.檢測重復記錄的算法。消除重復記錄可以針對兩個數據集或者一個合并后的數據集,首先需要檢測出標識同一個現實實體的重復記錄,即匹配過程。檢測重復記錄的算法主要有:基本的字段匹配算法,遞歸的字段匹配算法,Smith—Waterman算法,Cosine相似度函數。
(三)糾正所發現的錯誤。在數據源上執行預先定義好的并且已經得到驗證的清洗轉換規則和工作流。當直接在源數據上進行清洗時,需要備份源數據,以防需要撤銷上一次或幾次的清洗操作。清洗時根據“臟數據”存在形式的不同,執行一系列的轉換步驟來解決模式層和實例層的數據質量問題。為處理單數據源問題并且為其與其他數據源的合并做好準備,一般在各個數據源上應該分別進行幾種類型的轉換,主要包括:
1.從自由格式的屬性字段中抽取值(屬性分離)。自由格式的屬性一般包含著很多的信息,而這些信息有時候需要細化成多個屬性,從而進一步支持后面重復記錄的清洗。
2. 確認和改正。這一步驟處理輸入和拼寫錯誤,并盡可能地使其自動化。基于字典查詢的拼寫檢查對于發現拼寫錯誤是很有用的。
3. 標準化。為了使記錄實例匹配和合并變得更方便,應該把屬性值轉換成一個一致和統一的格式。
(四)數據回流。當數據被清洗后,干凈的數據應該替換數據源中原來的“臟數據”。這樣可以提高原系統的數據質量,還可避免將來再次抽取數據后進行重復的清洗工作。
四、數據清洗的主要方法
(一)空缺值的清洗。
對于空缺值的清洗可以采取忽略元組,人工填寫空缺值,使用一個全局變量填充空缺值,使用屬性的平均值、中問值、最大值、最小值或更為復雜的概率統計函數值來填充空缺值。
(二)噪聲數據的清洗。
分箱(Binning),通過考察屬性值的周圍值來平滑屬性的值。屬性值被分布到一些等深或等寬的“箱”中,用箱中屬性值的平均值或中值來替換“箱”中的屬性值;計算機和人工檢查相結合,計算機檢測可疑數據,然后對它們進行人工判斷;使用簡單規則庫檢測和修正錯誤;使用不同屬性間的約束檢測和修正錯誤;使用外部數據源檢測和修正錯誤。
(三)不一致數據的清洗。
對于有些事務,所記錄的數據可能存在不一致。有些數據不一致,可以使用其他材料人工加以更正。例如,數據輸入時的錯誤可以使用紙上的記錄加以更正。知識工程工具也可以用來檢測違反限制的數據。例如,知道屬性間的函數依賴,可以查找違反函數依賴的值。此外,數據集成也可能產生數據不一致。
(四)重復數據的清洗。
目前消除重復記錄的基本思想是“排序和合并”,先將數據庫中的記錄排序,然后通過比較鄰近記錄是否相似來檢測記錄是否重復。消除重復記錄的算法主要有:優先隊列算法,近鄰排序算法(Sorted—Neighborhood Method),多趟近鄰排序(Multi—Pass Sorted—Neighborhood)。
下一篇:年度審計項目計劃的制定
Copyright © 2000 - m.electedteal.com All Rights Reserved. 北京正保會計科技有限公司 版權所有
京B2-20200959 京ICP備20012371號-7 出版物經營許可證 京公網安備 11010802044457號
套餐D大額券
¥
去使用 主站蜘蛛池模板: 国产精品久久久免费视频 | 午夜在线一区 | www.888www看片| 好吊色综合高清 | 成人免费观看视频 | 在线观看欧美一区 | 国产理论在线观看 | 国产精品一区二区三区不卡 | 一级香蕉视频 | 色婷婷国产 | 国产欧美在线 | 久久久久久亚洲精品 | 亚洲优女在线 | 美女av一区二区 | 国产精品亚洲一区 | 亚洲精品久久久久久一区二区 | 欧日韩一区二区三区 | 91视频在线国产 | 久久成人在线视频 | 国产精品一区二区免费 | 精品视频首页 | 黄色录像a级| 成人黄色电影在线观看 | 久99久视频| 一区二区三区在线视频播放 | 午夜精品久久 | www.久久.com | 国产精品久久久久久久久免费 | 日韩电影一区二区三区 | 婷婷综合| 久久久久成人免费 | 亚洲人一区二区 | 日韩一二三区视频 | 国产成人免费在线 | 国产一区导航 | 国产一级久久 | 欧美一区二区在线播放 | 黄网视频在线观看 | 中文字幕亚洲成人 | 久久久精 | 精品二区|