摘要:大数据审计利用大数据技术,对海量经济社会运行数据进行深入挖掘与分析,能够提升审计发现问题、评价判断、宏观分析的能力。然而,审计大数据仍面临完整性、抗伪造性问题和隐私泄露的风险。本文以隐私计算技术为线索,研究基于审计大数据脱敏与完整性校验方案,基于“密态”计算的审计大数据分析架构,基于联邦学习架构的审计大数据分析,基于可信执行环境的审计大数据分析架构,构建隐私计算赋能大数据审计分析机制。
关键词:大数据审计;隐私计算;数据脱敏;“密态”计算;联邦学习;可信执行环境
随着云计算、人工智能、无线通信、物联网等信息技术的飞速发展,大数据已经成为各行业的重要生产要素。在审计领域,大数据的应用为审计工作带来了革命性的变革。目前,对大数据审计的研究主要集中在三个方面:一是大数据审计的理论框架构建,包括审计目标、审计内容、审计方法等方面的研究;二是大数据审计的技术实现,如数据采集、存储、处理和分析等关键技术的研究;三是大数据审计的应用实践,如在不同行业、不同领域的审计研究。在理论框架方面,学者们提出了多种大数据审计的模型和方法,如基于云的大数据审计平台、基于机器学习的审计数据分析模型等。在技术实现方面,随着大数据技术的不断发展,数据采集、存储和处理的速度和质量得到了显著提升,为大数据审计提供了有力的技术支撑。在应用实践方面,大数据审计已经在社保、金融、农业、税务、海关等领域得到了广泛应用,并取得了显著成效。
尽管大数据审计在理论和实践方面都取得了显著进展,但仍存在一些问题和挑战。一方面,由于各种因素导致被审计单位提供的数据不完整,甚至数据被恶意篡改等,审计数据的完整性、准确性难以保证。另一方面,用于审计的数据通常包含大量隐私数据和保密数据,数据在审计流转过程中容易导致数据被非法获取,审计数据存在隐私泄露的风险。因此,如何确保数据在审计过程中的完整性和隐私性是大数据审计的关键。
隐私计算作为一种新兴的技术,以其独特的优势为大数据审计提供了新的解决方案。隐私计算技术通过密码算法、安全协议、联邦学习等技术,实现了数据在审计全流程中的隐私保护和安全共享,包括原始数据安全和隐私保护、计算过程中的数据安全和隐私保护以及计算结果的安全和隐私保护。
审计大数据的数据脱敏与完整性校验
由于审计大数据通常包含大量的敏感信息,如个人隐私数据、企业业务数据以及安全级别很高的核心数据,如果不经过脱敏处理,可能会面临泄露的风险,给个人和企业带来严重损失。数据脱敏技术可以实现对敏感数据的变形,使其在不违反系统规则的条件下,对真实数据进行改造并提供测试使用,从而保护敏感隐私数据的可靠性。此外,随着大数据技术的不断发展,审计大数据的应用场景也越来越广泛。在数据采集、传输、交换和共享的过程中,如果没有有效的数据脱敏措施,可能会导致数据泄露和滥用的问题。审计大数据的数据脱敏是一个复杂且重要的过程,其主要目的是在保护敏感信息的同时,确保数据的安全性和可用性。因此,数据脱敏将成为未来审计大数据处理中不可或缺的一环。
如图1所示,为了确保审计大数据在不影响审计质量的前提下保护数据隐私,可首先对原始数据进行数据脱敏。数据脱敏是对数据中的敏感信息进行变形处理,使得脱敏后的数据在保持原有数据结构和特性的同时,不再包含敏感信息。在大数据审计中,数据脱敏主要包括四个步骤:首先,敏感信息识别。需要对数据进行仔细分析,识别出其中的敏感信息,包括个人身份信息、公司财务数据、业务秘密等。其次,制定脱敏策略。根据敏感信息的类型和级别,制定相应的脱敏策略。如对于身份证号、手机号等个人信息,可以采用基于加密算法的可恢复脱敏;对于财务数据,可以采用聚合、抽样或加密等方法进行处理。再次,实施脱敏操作。利用专业的数据脱敏工具或算法,对审计大数据中的敏感信息进行脱敏处理。这一过程需要确保脱敏后的数据在保持原有特性的同时,不再包含敏感信息。最后,验证脱敏效果。脱敏完成后,需要对脱敏后的数据进行验证,确保其不再包含敏感信息,并且能够满足审计工作的需求。为了避免被审计单位利用原始数据脱敏实施恶意数据篡改,可采用哈希算法对脱敏后的数据生成数字摘要用于脱敏数据的完整性校验,再用数字签名对脱敏数据签名用于确保脱敏的数据来自于有效的被审计单位。
图1. 审计大数据的数据脱敏与完整性校验示意图
基于“密态”计算的审计大数据分析
“密态”计算是一种保护隐私数据的计算技术,可在不暴露原始数据的情况下进行数据处理和分析。在审计大数据分析中,直接使用原始数据进行分析可能会带来隐私泄露的风险,但这类数据往往又是大数据审计中很重要的数据源。而基于“密态”计算的审计大数据分析,通过对数据进行加密或其他形式的隐私保护处理,确保了数据在传输、存储和处理过程中的安全性。
以同态加密为例,同态加密是一种特殊的加密方式,其基本原理是可以在密文状态下进行运算并得到与明文状态下相同的结果。一个加法同态加密方案包括一个加密算法ENC和一个解密算法DEC,对任意两个信息M1和M2,即:ENC(M1+M2)=ENC(M1)+ ENC(M2)。
如图2所示,当需要计算被审计单位的某类数据之和的时候,可以先对所有数据进行同态加密,然后把密文反馈给审计部门,审计部门计算所有密文之和,再通过解密算法解密,获得原始数据的总和。因此,该方法能够在不暴露原始数据的情况下,对数据进行计算和分析。
图2. 基于“密态”计算的审计大数据分析示意图
虽然“密态”计算在审计大数据分析中具有显著优势,但也存在一些挑战。“密态”计算会增加计算复杂性和开销,需权衡隐私保护与计算效率之间的关系;需确保“密态”计算技术的正确性和安全性,以防止潜在的安全漏洞和攻击。例如,同态加密算法的计算复杂度较高,将影响到数据处理的效率。此外,同态加密的安全性也取决于密钥的管理和使用,因此需要采取有效的密钥管理措施来确保安全。随着技术的不断发展和完善,“密态”计算在审计大数据分析领域的应用将会更加广泛和深入。
基于联邦学习架构的审计大数据分析
联邦学习是一种新兴的机器学习技术,它允许多个参与方在本地训练模型,并通过加密和安全的通信协议进行模型参数的交换和聚合,从而在无需交互原始数据的情况下实现协同学习和推理。基于联邦学习的大数据审计是一种创新的审计方法,它结合了联邦学习的隐私保护特性和大数据审计的复杂分析能力,在保护数据隐私的同时,提高审计效率和准确性。
基于联邦学习审计大数据分析的应用场景包括三个方面:一是跨部门、跨机构的协同审计。在涉及多个部门或机构审计中,联邦学习可以实现数据的隐私保护和协同审计。各部门或机构可在本地训练模型,并通过联邦学习框架进行模型参数的交换和聚合,从而共同构建出一个全局模型用于审计分析。二是敏感数据审计。对于涉及个人隐私或商业机密的敏感数据,联邦学习可以在保护数据隐私的同时进行审计。参与方可在数据源处对敏感数据进行处理和分析,仅将模型的参数或梯度信息进行共享,从而避免原始数据的泄露。三是实时经济责任监控。联邦学习还可以应用于实时经济责任监控场景。通过构建分布式的联邦学习系统,各部门或机构可以实时地将本地数据用于模型更新,并将更新后的模型参数共享给其他参与方,实现经济责任履行的实时监控和预警。
图3. 基于联邦学习架构的审计大数据分析示意图
基于联邦学习的审计大数据分析的优势包括三个方面。一是数据隐私保护。联邦学习通过无需交互原始数据的方式实现协同审计,有效保护了数据的隐私性和安全性,降低了数据泄露和隐私侵犯的风险。二是提高审计效率。联邦学习允许参与方在本地进行模型训练,并通过高效的通信协议进行模型参数的交换和聚合,提高了审计的效率和速度。三是拓展审计范围。通过联邦学习,不同部门或机构可以共享模型参数而无需共享原始数据,从而拓展了审计的范围和深度,提高了审计的准确性和可靠性。
如图3所示,联邦学习允许分散的各参与方在不向其他参与者披露隐私数据的前提下,协作进行机器学习的模型训练。在大数据审计的情境中,这意味着各个审计数据源可以在本地进行模型训练,而无需将数据集中到一个中央位置。这大大增强了数据的安全性,并降低了数据泄露的风险。结合联邦学习,大数据审计可以在保持数据分散和隐私的同时,实现跨数据源的分析和模型训练,从而发现更加全面和准确的审计结果。此外,联邦学习还可以解决大数据审计中的一些问题,如数据不平衡和特征重叠。由于不同数据源可能存在数据分布不均或特征相似的情况,通过联邦学习,可以更有效地整合和利用这些数据,提高审计模型的泛化能力和准确性。
然而,基于联邦学习的大数据审计也面临一些挑战,如模型训练的通信开销、数据质量和一致性问题等。如参与方之间的数据分布可能不均衡,导致模型训练的偏差;通信开销可能较大,影响审计的实时性;以及模型的安全性和稳定性等问题。为了克服这些挑战,可以采取以下优化策略:一是设计适用于非平衡数据的联邦学习算法,以减少数据分布不均衡对模型训练的影响;二是优化通信协议和模型更新策略,减少通信开销,提高审计的实时性和效率;三是加强模型的安全性和稳定性研究,采用加密技术和差分隐私等机制来保护模型参数的安全,同时确保模型的稳定性和泛化能力。
基于可信执行环境的审计大数据分析
图4. 基于可信执行环境的审计大数据分析示意图
可信执行环境(TEE,Trusted Execute Environment)是一种特殊的软硬件组合,其核心特征是提供了一个隔离且安全的执行环境,确保其中的代码和资源不会受到外部恶意软件的干扰或窃取。可信执行环境可用于保证计算过程和数据的安全性和隐私性。基于可信执行环境的审计大数据分析,可以确保数据在处理过程中不会被非法访问、篡改或泄露,从而保障数据的完整性和真实性。
如图4所示,在基于可信执行环境的审计大数据分析中,审计数据首先会被加密传输到TEE中,利用TEE的安全隔离特性,确保数据在处理过程中不会被非法访问或篡改。同时,大数据分析算法和工具也可以在TEE中运行,对审计数据进行深入的分析和挖掘。计算和分析结果会被加密传输到审计部门。与传统的审计大数据分析相比,基于可信执行环境的方法具有三个方面的优势:一是数据安全性高。由于数据和分析过程都在TEE中进行,外部攻击者很难获取或篡改数据,从而大大提高了数据的安全性。二是分析准确性高。TEE提供了稳定的执行环境,可对原始数据精准分析,减少了外部干扰对分析结果的影响,使得分析结果更加准确可靠。三是灵活性好。TEE可以支持多种大数据分析工具和算法,使得审计人员可以根据实际需求选择合适的方法进行分析。
然而,基于可信执行环境的审计大数据分析也面临一些挑战:如何确保TEE本身的安全性和可靠性,以及如何高效地处理大规模数据等。因此,需要综合考虑这些因素,制定合适的技术方案和操作规范。总之,基于可信执行环境的审计大数据分析是一种具有很高应用潜力的方法,它可以在保证数据安全性的同时,提高审计分析的准确性和效率。
大数据审计中的隐私计算方案对比分析
本文提出了隐私计算赋能大数据审计分析机制,通过深入研究隐私计算的核心技术,包括数据脱敏、“密态”计算、联邦学习和可信执行环境,构建了一个完整的隐私保护的大数据审计分析框架。然而,该机制仍需要进一步完善和优化。笔者从安全性、计算精度、通用性和性能四个方面总结了大数据审计中的隐私计算各技术的优缺点,如表1所示。虽然数据脱敏技术对敏感内容进行了屏蔽,其通用性和性能都比较高,但仍然面临泄露风险,数据脱敏操作也将导致计算精度受损。“密态计算”具有较强的安全性,且计算是无损的、通用的,但该方案的性能较差。联邦学习适用于基于机器学习的大数据审计,其性能适中,但该方案在学习过程中存在数据泄露风险,且计算是有损的。可执行环境的计算是无损且通用的,计算效率较高,但其安全性依赖于软硬件环境。未来,我们将继续深入研究隐私计算和大数据审计的相关技术,以推动其在审计各领域的应用和发展。(四川省审计厅 王晓勤)
表1 隐私计算方案对比表
参考文献:
[1]欧雨晴.2024.从传统审计到大数据审计:转型策略与路径探讨[J].现代审计与会计(02):4-6.
[2]顾洪菲.2015.大数据环境下审计数据分析技术方法初探[J]. 中国管理信息化18(03):45-47.
[3]蔡妮,刘畅.2017.浅谈大数据信息技术在公共投资审计中的应用现状[J].中小企业管理与科技(上旬刊)(05):129-130.
[4]刘国城,王会金.2017.大数据审计平台构建研究[J].审计研究(06):36-41.
[5]牛艳芳,薛岩,邓雪梅等.2018.审计大数据关联的网络分析平台构建及应用研究[J].审计研究(05):35-42.
[6]魏祥健.2019.大数据环境下的持续审计探析[J].财会月刊(07):88-93.
[7]徐超.2020.大数据背景下审计数据采集技术与方法的研究——以互联网金融企业专项审计为例[J].会计之友(19):114-119.
[8]李洋.2020.大数据技术在审计中的应用研究[D].电子科技大学.
[9]杨琳.2022.基于大数据的审计风险评估研究[J]. 自动化技术与应用 41(06):180-183.
[10]重庆市两江新区审计局课题组.2023.基于大数据思维的新型审计取证模式研究[J]. 审计月刊,(11):13-16.