Description
AI-Enhanced arXiv Daily 2025-06-26
今日总计: 381 篇论文
目录
- cs.CR (24 篇)
- cs.AI (23 篇)
- cs.LG (75 篇)
- cs.MA (2 篇)
- cs.RO (28 篇)
- cs.CV (48 篇)
- cs.HC (11 篇)
- cs.SE (9 篇)
- cs.SI (1 篇)
- cs.NI (5 篇)
- cs.IT (4 篇)
- cs.DC (5 篇)
- cs.CY (5 篇)
- cs.CE (3 篇)
- eess.SY (8 篇)
- eess.SP (18 篇)
- eess.IV (10 篇)
- eess.AS (6 篇)
- cs.CL (33 篇)
- cs.DS (4 篇)
- cs.GR (4 篇)
- cs.IR (5 篇)
- cs.NE (2 篇)
- math.NA (11 篇)
- cs.SD (1 篇)
- physics.app-ph (1 篇)
- math.OC (5 篇)
- math.NT (1 篇)
- stat.ML (8 篇)
- cs.GT (1 篇)
- cs.OS (2 篇)
- physics.plasm-ph (1 篇)
- math.PR (1 篇)
- physics.flu-dyn (1 篇)
- q-bio.BM (2 篇)
- physics.comp-ph (1 篇)
- physics.med-ph (2 篇)
- physics.chem-ph (1 篇)
- quant-ph (2 篇)
- q-bio.NC (1 篇)
- q-fin.ST (1 篇)
- q-bio.QM (1 篇)
- physics.optics (1 篇)
- cs.DB (1 篇)
- hep-ph (1 篇)
- physics.geo-ph (1 篇)
cs.CR
[8] Secure Energy Transactions Using Blockchain Leveraging AI for Fraud Detection and Energy Market Stability
使用区块链结合AI进行欺诈检测和能源市场稳定性的安全能源交易
Md Asif Ul Hoq Khan, MD Zahedul Islam, Istiaq Ahmed, Md Masud Karim Rabbi, Farhana Rahman Anonna, MD Abdul Fahim Zeeshan, Mehedi Hasan Ridoy, Bivash Ranjan Chowdhury, Md Nazmul Shakir Rabbi, GM Alamin Sadnan | Category: cs.CR, cs.AI, cs.LG
Keywords: 区块链, 人工智能, 能源交易, 欺诈检测, 去中心化电网
Comment:
TL;DR: 本研究旨在开发一个安全的去中心化能源交易系统,通过结合区块链和AI来检测欺诈并提高市场稳定性。
AI_Comments: 该论文创新性地结合了区块链的去中心化和安全性与AI的智能分析能力,以解决能源交易中的欺诈和市场稳定性问题。其使用大规模模拟数据集进行系统开发和验证,显示了对实际应用场景的关注。这种跨领域的技术融合对于未来去中心化能源市场的安全和效率具有重要意义。
Details
Motivation: 去中心化电网和P2P交易带来了能源交易安全和真实性方面的新挑战,因此需要一个安全、智能、高效的能源交易系统。
Method: 本研究结合了区块链和人工智能(AI)技术,构建了一个包含区块链层和AI层的系统架构。AI层使用高性能分类机器学习模型来识别能源交易欺诈。研究使用了超过120万条匿名化模拟P2P能源交易记录的数据集,该数据集模拟了基于区块链的美国微电网。
Result: Not mentioned in abstract
Conclusion: Not mentioned in abstract
ai_Abstract: 本研究针对美国去中心化能源市场中能源交易的安全性和真实性挑战,提出并开发了一个安全、智能、高效的能源交易系统。该系统创新性地结合了区块链技术和人工智能,旨在解决分布式能源市场中的安全、欺诈检测和市场稳定性问题。系统架构包含区块链层和AI层,其中AI层利用高性能机器学习模型处理来自模拟P2P能源交换网络的超过120万条匿名化交易数据,以识别欺诈行为并提升市场智能。
摘要翻译: 点对点交易和向去中心化电网的转变重塑了美国的能源市场。尽管如此,这些发展也带来了新的挑战,主要是在能源交易的安全性和真实性方面。本研究旨在为去中心化的美国能源市场开发和构建一个安全、智能、高效的能源交易系统。本研究以一种新颖的方式将区块链和人工智能(AI)的技术优势相互结合,以解决分布式能源市场中长期存在的挑战,特别是安全性、欺诈行为检测和市场可靠性方面的挑战。本研究的数据集包含超过120万条匿名化能源交易记录,这些记录来自一个模拟真实区块链美国微电网(包括LO3 Energy和Grid+ Labs测试的微电网)的点对点(P2P)能源交换网络。每条记录都包含交易标识符、时间戳、能源量(kWh)、交易类型(买/卖)、单价、产消者/消费者标识符(为保护隐私而哈希化)、智能电表读数、地理位置区域和结算确认状态等详细字段。该数据集还包括系统计算的交易率、能源生产变异性和历史定价模式等行为指标。所提出的系统架构涉及两层的集成,即区块链层和人工智能(AI)层,每一层在能源交易安全和市场情报改进中都发挥着独特但互补的功能。本研究中使用的机器学习模型是专门选择的,因为它们在分类任务中表现出已建立的高性能,特别是在去中心化市场中识别能源交易欺诈方面。
[23] An Attack Method for Medical Insurance Claim Fraud Detection based on Generative Adversarial Network
基于生成对抗网络的医疗保险索赔欺诈检测攻击方法
Yining Pang, Chenghan Li | Category: cs.CR, cs.AI
Keywords: 生成对抗网络, 保险欺诈检测, 对抗性攻击, 医疗保险, 鲁棒性
Comment: arXiv admin note: text overlap with arXiv:2405.12076 by other authors
TL;DR: 研究提出一种基于GAN的攻击方法,能以99%的成功率使欺诈性医疗保险索赔被误判为合法。
AI_Comments: 该研究创新性地将GAN应用于保险欺诈检测的对抗性攻击,揭示了现有AI欺诈检测系统的潜在漏洞。其重要性在于提醒业界需关注模型鲁棒性,并为开发更安全的防御机制提供了实验依据。此工作为未来对抗性机器学习在金融领域的防御研究提供了宝贵见解。
Details
Motivation: 尽管AI在欺诈检测中表现出色,但缺乏标准化防御机制使得现有系统易受新兴对抗性威胁的影响,这促使作者研究如何提高保险欺诈检测模型的鲁棒性。
Method: 本文提出了一种基于生成对抗网络(GAN)的方法,用于对欺诈检测系统进行对抗性攻击。攻击者无需了解训练数据或内部模型细节,通过微妙地修改真实的保险记录和索赔来生成对抗样本。
Result: 攻击者在不了解训练数据或内部模型细节的情况下,可以生成被分类为合法的欺诈案例,攻击成功率(ASR)达到99%。这显著增加了欺诈风险,可能绕过受损的检测系统。
Conclusion: 研究结果强调了迫切需要增强保险欺诈检测模型对抗对抗性操纵的鲁棒性,以确保不同保险系统的稳定性和可靠性。
ai_Abstract: 本文提出了一种基于生成对抗网络(GAN)的攻击方法,旨在评估现有医疗保险欺诈检测系统的脆弱性。研究发现,即使不了解模型的内部结构或训练数据,攻击者也能以高达99%的成功率生成能被误判为合法索赔的欺诈性案例。这表明当前基于AI的欺诈检测系统在对抗性攻击面前存在严重漏洞,凸显了提升模型鲁棒性的紧迫性。
摘要翻译: 保险欺诈检测代表了现代保险服务的一个关键进步,提供智能化和数字化监控以加强管理和预防欺诈。它对于确保保险系统的安全和效率至关重要。尽管人工智能和机器学习算法在检测欺诈性索赔方面表现出强大的性能,但缺乏标准化的防御机制使得现有系统容易受到新兴对抗性威胁的影响。在本文中,我们提出了一种基于生成对抗网络(GAN)的方法,对欺诈检测系统进行对抗性攻击。我们的结果表明,攻击者在不了解训练数据或内部模型细节的情况下,可以生成被分类为合法的欺诈案例,攻击成功率(ASR)达到99%。通过巧妙地修改真实的保险记录和索赔,对手可以显著增加欺诈风险,可能绕过受损的检测系统。这些发现强调了迫切需要增强保险欺诈检测模型对抗对抗性操纵的鲁棒性,从而确保不同保险系统的稳定性和可靠性。
[36] Towards Provable (In)Secure Model Weight Release Schemes
迈向可证明(不)安全的模型权重发布方案
Xing Yang, Bingtao Wang, Yuhao Wang, Zimo Ji, Terry Jingchen Zhang, Wenyuan Jiang | Category: cs.CR, cs.AI
Keywords: 模型权重发布, 安全定义, 漏洞分析, TaylorMLP, 机器学习安全
Comment: 8 pages, 2 figures
TL;DR: 本文形式化了模型权重发布方案的安全定义,分析了TaylorMLP,发现了漏洞,并倡导在机器学习安全领域进行严谨研究。
AI_Comments: 该论文的创新之处在于为模型权重发布方案形式化了安全定义,这对于开源AI模型的信任度至关重要。通过揭露TaylorMLP等知名方案中的漏洞,突显了超越非正式声明进行严格安全分析的必要性,从而强调了其重要性。它为未来安全机器学习的发展提供了基础框架。
Details
Motivation: 现有的安全权重发布方案声称能够实现开源模型分发并保护模型所有权,但它们缺乏严格的安全基础,仅提供非正式的安全保证。
Method: 作者受密码学既有工作的启发,通过引入几个具体的安全定义来形式化权重发布方案的安全性。随后,他们通过对一个著名的安全权重发布方案TaylorMLP进行案例研究,展示了这些定义的实用性。
Result: 他们的分析揭示了TaylorMLP中允许参数提取的漏洞,从而表明TaylorMLP未能实现其非正式的安全目标。
Conclusion: 这项工作旨在促进机器学习和安全社区交叉领域的严谨研究,并为未来权重发布方案的设计和评估提供蓝图。
ai_Abstract: 本文旨在解决当前安全模型权重发布方案缺乏严格安全基础的问题。受密码学启发,文章为这些方案形式化了安全定义。通过对著名方案TaylorMLP的案例研究,揭示了允许参数提取的漏洞,表明其未能达到非正式的安全目标。这项工作旨在推动机器学习与安全交叉领域的严谨研究,并为未来方案的设计和评估提供指导。
摘要翻译: 最近的安全权重发布方案声称能够实现开源模型分发,同时保护模型所有权并防止滥用。然而,这些方法缺乏严格的安全基础,仅提供非正式的安全保证。受密码学中既有工作的启发,我们通过引入几个具体的安全定义来形式化权重发布方案的安全性。然后,我们通过对TaylorMLP(一个著名的安全权重发布方案)的案例研究,展示了我们定义的实用性。我们的分析揭示了允许参数提取的漏洞,从而表明TaylorMLP未能实现其非正式的安全目标。我们希望这项工作能促进机器学习和安全社区交叉领域的严谨研究,并为未来权重发布方案的设计和评估提供蓝图。
[48] Robust Anomaly Detection in Network Traffic: Evaluating Machine Learning Models on CICIDS2017
网络流量中的鲁棒异常检测:评估CICIDS2017数据集上的机器学习模型
Zhaoyang Xu, Yunbo Liu | Category: cs.CR, cs.AI, cs.LG
Keywords: 异常检测, 机器学习, 入侵检测, CICIDS2017, OCSVM
Comment: submitted to IEEE CNS 2025
TL;DR: 研究比较了MLP、CNN、OCSVM和LOF在CICIDS2017数据集上对已知和未知攻击的检测能力,发现OCSVM在两种场景下表现最均衡和鲁棒。
AI_Comments: 该研究通过对多种机器学习模型在已知和未知攻击场景下的对比评估,为网络入侵检测系统(IDS)的模型选择提供了明确的实践指导。其创新点在于强调了模型在“泛化到以前未见威胁”能力上的差异,并指出OCSVM在鲁棒性方面的优势,这对于动态网络环境下的实际部署具有重要意义。
Details
Motivation: 构建有效且可泛化的安全解决方案,识别适用于入侵检测的机器学习范式至关重要。
Method: 研究在CICIDS2017数据集上,对四种代表性模型(MLP, 1D CNN, OCSVM, LOF)在两种场景下进行了受控比较:检测已知攻击类型和泛化到以前未见的威胁。
Result: 监督式MLP和CNN在已知攻击上达到近乎完美的准确率,但在新攻击上召回率大幅下降。无监督LOF在未知威胁上获得中等整体准确率和高召回率,但误报率较高。基于边界的OCSVM在精度和召回率之间达到最佳平衡,在两种场景下均表现出鲁棒检测能力。
Conclusion: 这些发现为在动态网络环境中选择IDS模型提供了实用指导。
ai_Abstract: 本研究在CICIDS2017数据集上比较了MLP、CNN、OCSVM和LOF四种机器学习模型在网络入侵检测中的性能,涵盖已知攻击检测和未知威胁泛化两种场景。结果显示,MLP和CNN在已知攻击上表现优异但在未知攻击上召回率低;LOF对未知威胁召回率高但误报率高;OCSVM则在两种场景下平衡了精度和召回率,表现出最佳鲁棒性。研究为IDS模型选择提供了实践指导。
摘要翻译: 识别适用于入侵检测的机器学习范式对于构建有效且可泛化的安全解决方案至关重要。在这项研究中,我们对四种代表性模型——多层感知器(MLP)、一维卷积神经网络(CNN)、单类支持向量机(OCSVM)和局部异常因子(LOF)——在CICIDS2017数据集上进行了受控比较,分为两种场景:检测已知攻击类型和泛化到以前未见的威胁。我们的结果表明,监督式MLP和CNN在熟悉攻击上实现了近乎完美的准确率,但在新型攻击上召回率急剧下降。无监督LOF在未知威胁上获得了中等的整体准确率和高召回率,但代价是误报率升高,而基于边界的OCSVM在精度和召回率之间达到了最佳平衡,在两种场景下都表现出鲁棒的检测能力。这些发现为在动态网络环境中选择IDS模型提供了实用指导。
[62] Blameless Users in a Clean Room: Defining Copyright Protection for Generative Models
洁净室中的无责用户:定义生成模型的版权保护
Aloni Cohen | Category: cs.CR, cs.CY, cs.LG
Keywords: 生成模型, 版权保护, 差分隐私, 洁净室复制保护, 近乎无访问性
Comment:
TL;DR: 本文重新审视了生成模型输出的版权保护问题,指出现有方法不足,并提出了“无责复制保护框架”和“洁净室复制保护”作为更坚实的解决方案,证明了差分隐私在该框架下的作用。
AI_Comments: 本文通过指出现有“近乎无访问性”(NAF)在版权保护方面的不足,提出了一个更严谨和全面的“无责复制保护框架”及“洁净室复制保护”概念,这在日益增长的生成式AI版权争议中具有重要意义。它不仅从技术上重新定义了“可证明版权保护 10000 ”,还尝试从法律角度提供了更坚实的基础,特别是在将差分隐私与版权保护联系起来方面,提供了新的理论支撑。
Details
Motivation: 探讨在何种条件下,生成模型的输出可以保证不侵犯其训练数据的版权,即“可证明的版权保护”问题。
Method: 重新审视了现有的“可证明版权保护”问题,证明了现有的近乎无访问性(NAF)不足以防止侵权。引入了“无责复制保护框架”,并具体化为“洁净室复制保护”。最后,通过证明当数据集是“黄金”时,差分隐私(DP)意味着洁净室复制保护,从而形式化了DP与版权之间的关系。
Result: 证明了近乎无访问性(NAF)不足以防止侵权,甚至可能导致逐字复制。提出了“无责复制保护框架”和“洁净室复制保护”作为定义有意义保障的新基础。形式化并证明了在“黄金”数据集条件下,差分隐私(DP)意味着洁净室复制保护。
Conclusion: 本文为可证明的版权保护建立了新的、在技术和法律上都更坚实的基础。
ai_Abstract: 本文深入探讨了生成模型输出的版权保护问题。作者首先指出现有“近乎无访问性”(NAF)不足以防止侵权,甚至可能导致逐字复制。为解决此问题,论文提出了“无责复制保护框架”,并引入了“洁净室复制保护”概念,使用户能通过特定行为控制复制风险。此外,研究还证明了在数据集满足“黄金”条件时,差分隐私(DP)能够实现洁净室复制保护,从而为生成模型提供更坚实、可证明的版权保障。
摘要翻译: 生成模型的输出在何种条件下可以保证不侵犯其训练数据的版权?这是Vyas、Kakade和Barak(ICML 2023)首次提出的“可证明版权保护”问题。他们定义了近乎无访问性(NAF)并提出其足以提供保护。本文重新审视了这个问题,并为可证明版权保护建立了新的基础——这些基础在技术和法律上都更加坚实。首先,我们表明仅凭NAF并不能防止侵权。事实上,NAF模型可能导致逐字复制,这是我们称之为“被污染”的版权保护的公然失败。然后,我们引入了我们的无责复制保护框架来定义有意义的保障,并以洁净室复制保护为例进行实例化。洁净室复制保护允许用户通过在反事实洁净室设置中以不太可能复制的方式行事来控制其复制风险。最后,我们通过证明当数据集是“黄金”(版权去重要求)时,差分隐私(DP)意味着洁净室复制保护,从而形式化了关于差分隐私和版权的常见直觉。
[83] Diffusion-based Task-oriented Semantic Communications with Model Inversion Attack
基于扩散的任务导向语义通信与模型反演攻击
Xuesong Wang, Mo Li, Xingyan Shi, Zhaoqian Liu, Shenghao Yang | Category: cs.CR, cs.IT, cs.LG, math.IT
Keywords: 语义通信, 扩散模型, 模型反演攻击, 任务导向, 隐私保护
Comment:
TL;DR: 本文提出了一种名为DiffSem的基于扩散的语义通信框架,旨在提高任务性能并抵御模型反演攻击,同时引入了新的度量标准来评估攻击效果,并在MNIST数据集上显示出显著的分类准确率提升。
AI_Comments: 该论文的创新点在于将扩散模型引入任务导向语义通信,以提高性能和鲁棒性,并有效应对模型反演攻击。更重要的是,作者提出了一个针对任务导向语义通信的全新评估指标,弥补了传统图像质量指标的不足,这对于未来该领域的研究具有重要指导意义。其提出的方法在保护隐私和提高通信效率方面具有潜在价值。
Details
Motivation: 任务导向语义通信在确保通信效率和任务性能的同时,面临着隐私保护的挑战,尤其是在模型反演攻击下,攻击者可能通过模型输出来重建输入数据。此外,传统的图像质量指标(如PSNR或SSIM)不足以评估任务导向语义通信中的攻击严重性,因为视觉差异不一定反映语义差异。
Method: 本文提出了一种名为DiffSem的基于扩散的语义通信框架。该框架通过扩散机制和自引用标签嵌入来优化语义信息重建,以显著提高任务性能。它还补偿信道噪声并采用语义信息失真,以确保系统在各种信噪比环境下的鲁棒性。此外,本文提出了一种新的度量标准,用于更好地量化攻击者估计的语义保真度。
Result: 在MNIST数据集上,DiffSem将分类准确率提高了10.03%,并在动态信道下保持了稳定的性能。实验结果还表明,传统的图像质量指标与任务相关语义信息的泄露之间存在显著偏差。
Conclusion: 本文提出的DiffSem框架有效提高了任务导向语义通信的性能和鲁棒性,并能有效抵御模型反演攻击。同时,新提出的语义保真度评估指标更准确地反映了任务相关信息的泄露程度,证明了传统指标的不足。
ai_Abstract: 本文针对6G网络中任务导向语义通信面临的模型反演攻击和传统评估指标不足的问题,提出了一种名为DiffSem的基于扩散的语义通信框架。DiffSem利用扩散机制和自引用标签嵌入来优化语义信息重建,提高任务性能,并通过处理信道噪声和语义信息失真来增强系统鲁棒性。为准确评估攻击效果,作者还提出了一种新的语义保真度度量。实验结果显示,DiffSem在MNIST数据集上将分类准确率提升了10.03%,并在动态信道下表现稳定,同时揭示了传统图像质量指标在评估语义信息泄露方面的局限性。
摘要翻译: 语义通信已成为6G网络中一种有前景的基于神经网络的系统设计。任务导向语义通信是一种新颖的范式,其核心目标是通过传输语义信息来高效完成特定任务,优化通信效率和任务性能。关键挑战在于在保持任务准确性的同时保护隐私,因为这种场景容易受到模型反演攻击。在此类攻击中,由于系统基于神经网络的特性,攻击者可以通过分析和处理模型输出来恢复甚至重建输入数据。此外,传统系统使用图像质量指标(如PSNR或SSIM)来评估攻击严重性,这对于任务导向语义通信可能不足,因为视觉差异不一定能确保语义差异。在本文中,我们提出了一种基于扩散的语义通信框架,名为DiffSem,它通过扩散机制和自引用标签嵌入来优化语义信息重建,从而显著提高任务性能。我们的模型还补偿信道噪声并采用语义信息失真,以确保系统在各种信噪比环境下的鲁棒性。为了评估攻击者的有效性,我们提出了一种新的度量标准,它能更好地量化攻击者估计的语义保真度。基于此标准的实验结果表明,在MNIST数据集上,DiffSem将分类准确率提高了10.03%,并在动态信道下保持了稳定的性能。我们的结果进一步证明,传统的图像质量指标与任务相关语义信息的泄露之间存在显著偏差。
[85] Quantum-Resistant Domain Name System: A Comprehensive System-Level Study
抗量子域名系统:一项全面的系统级研究
Juyoul Lee, Sanzida Hoque, Abdullah Aydeger, Engin Zeydan | Category: cs.CR, cs.NI, cs.PF
Keywords: 抗量子DNS, 后量子密码学, DNSSEC, TLS 1.3, 格基密码
Comment: Manuscript submitted to ACM, 29 pages, 8 Figures, 15 Tables
TL;DR: 本研究对DNS在后量子时代的安全性进行了全面的系统级研究,提出了PQC-DNS框架,并发现格基密码(如MLKEM和Falcon)在性能上优于哈希基密码(如SPHINCS+),为部署抗量子DNS提供了实用指导。
AI_Comments: 本文通过对现有DNS安全机制进行深入的系统级分析,并提出PQC-DNS框架,为应对量子计算对互联网核心基础设施带来的威胁提供了重要的实践性指导。其创新点在于结合了多种PQC算法,并在实际DNS组件中进行集成和性能评估,揭示了不同PQC原语对DNS性能的影响,对于未来抗量子DNS的部署具有重要的参考价值。
Details
Motivation: 域名系统(DNS)作为互联网基础设施的核心,其核心协议易受量子攻击。随着量子计算机的威胁日益逼真,确保后量子时代DNS的机密性、真实性和完整性变得至关重要。
Method: 本文对DNSSEC、DNS-over-TLS (DoT) 和 DNS-over-HTTPS (DoH) 三种广泛部署的机制进行了后量子DNS安全性的全面系统级研究。提出了PQC-DNS(后量子密码学DNS)统一框架,用于在传统、后量子和混合密码配置下评估DNS安全性。实现利用Open Quantum Safe (OQS) 库,并将格基和哈希基原语集成到BIND9和TLS 1.3堆栈中。形式化了性能和威胁模型,并分析了后量子密钥封装和数字签名对端到端DNS解析的影响。在容器化测试台上进行了实验。
Result: 实验结果表明,Module-Lattice-Based Key-Encapsulation Mechanism (MLKEM) 和 Falcon 等格基原语提供了实用的延迟和资源配置,而SPHINCS+等哈希基方案显著增加了消息大小和处理开销。研究还检查了降级风险、分片漏洞和拒绝服务放大攻击的安全性影响。
Conclusion: 研究结果为部署抗量子DNS提供了实用指导,并有助于更广泛地努力保护后量子未来互联网的核心协议。
ai_Abstract: 本文针对量子计算威胁下域名系统(DNS)的安全性问题,进行了一项全面的系统级研究。研究提出了PQC-DNS统一框架,用于评估DNSSEC、DoT和DoH在后量子环境下的表现。通过在BIND9和TLS 1.3中集成并测试格基和哈希基密码原语,实验结果表明格基方案如MLKEM和Falcon在性能上更优,而哈希基方案如SPHINCS+开销较大。研究还探讨了潜在的安全风险,并为部署抗量子DNS提供了实践性指导。
摘要翻译: 域名系统(DNS)在互联网基础设施中扮演着基础性角色,但其核心协议仍然容易受到量子对手的攻击。随着与密码学相关的量子计算机成为一个现实的威胁,在后量子时代确保DNS的机密性、真实性和完整性变得至关重要。在本文中,我们对三种广泛部署的机制:DNSSEC、DNS-over-TLS (DoT) 和 DNS-over-HTTPS (DoH) 的后量子DNS安全性进行了全面的系统级研究。我们提出了后量子密码学(PQC)-DNS,一个用于在传统、后量子和混合密码配置下对DNS安全性进行基准测试的统一框架。我们的实现利用了Open Quantum Safe (OQS) 库,并将格基和哈希基原语集成到BIND9和TLS 1.3堆栈中。我们形式化了性能和威胁模型,并分析了后量子密钥封装和数字签名对端到端DNS解析的影响。在容器化测试台上的实验结果表明,Module-Lattice-Based Key-Encapsulation Mechanism (MLKEM) 和 Falcon 等格基原语提供了实用的延迟和资源配置,而SPHINCS+等哈希基方案显著增加了消息大小和处理开销。我们还检查了安全影响,包括降级风险、分片漏洞和对拒绝服务放大攻击的脆弱性。我们的研究结果为部署抗量子DNS提供了实用指导,并有助于更广泛地努力保护后量子未来互联网的核心协议。
[86] RepuNet: A Reputation System for Mitigating Malicious Clients in DFL
RepuNet:一个用于减轻去中心化联邦学习中恶意客户端影响的声誉系统
Isaac Marroqui Penalva, Enrique Tomás Martínez Beltrán, Manuel Gil Pérez, Alberto Huertas Celdrán | Category: cs.CR, cs.AI, cs.DC, cs.LG, cs.PF
Keywords: 去中心化联邦学习, 声誉系统, 恶意客户端, 模型投毒, 安全性
Comment:
TL;DR: RepuNet是一个去中心化声誉系统,能有效检测并缓解去中心化联邦学习(DFL)中的恶意行为。
AI_Comments: RepuNet的创新之处在于其去中心化的声誉系统设计,避免了传统方案对额外基础设施的依赖。通过动态评估节点行为并调整其影响力,它提供了一种灵活且鲁棒的恶意行为缓解机制,对提升去中心化联邦学习的安全性具有重要意义。
Details
Motivation: 去中心化联邦学习(DFL)中,节点独立选择对等方进行模型聚合,引入了新的漏洞,恶意节点可能通过模型投毒、延迟攻击或网络泛洪等方式损害系统性能。现有解决方案通常依赖僵化的配置或额外基础设施(如区块链),导致计算开销、可扩展性问题或适应性有限,因此需要一种更灵活鲁棒的解决方案。
Method: 本文提出了RepuNet,一个去中心化声誉系统,旨在克服现有解决方案的局限性。RepuNet通过对DFL中的威胁进行分类,并利用模型相似性、参数变化、消息延迟和通信量等指标动态评估节点行为。节点的模型聚合影响力会根据其声誉得分进行调整。RepuNet被集成到Nebula DFL平台,并在MNIST和CIFAR-10数据集(非独立同分布)上,使用多达25个节点的联邦(完全连接和随机拓扑)进行了实验评估,测试了不同的攻击强度、频率和激活间隔。
Result: 实验结果表明,RepuNet能有效检测并缓解恶意行为。在MNIST场景中,F1分数超过95%;在CIFAR-10案例中,F1分数约为76%。
Conclusion: 这些结果突出了RepuNet在去中心化联邦学习环境中缓解恶意威胁的适应性、鲁棒性和实践潜力。
ai_Abstract: 本论文提出了RepuNet,一个针对去中心化联邦学习(DFL)的去中心化声誉系统,旨在解决恶意节点(如模型投毒、延迟攻击)带来的漏洞及现有方案的局限。RepuNet通过评估节点行为指标(如模型相似性、消息延迟)来动态调整其声誉,并据此调整其在模型聚合中的影响力。实验结果表明,RepuNet能有效检测并缓解恶意行为,在MNIST和CIFAR-10数据集上表现出高F1分数,证明了其在DFL环境中缓解威胁的适应性、鲁棒性和实用性。
摘要翻译: 去中心化联邦学习(DFL)使节点无需中心服务器即可协同训练模型,但由于每个节点独立选择对等方进行模型聚合,因此引入了新的漏洞。恶意节点可能利用这种自主性发送损坏的模型(模型投毒)、延迟模型提交(延迟攻击)或用过多消息淹没网络,从而对系统性能产生负面影响。现有解决方案通常依赖于僵化的配置或额外的基础设施(如区块链),导致计算开销、可扩展性问题或适应性有限。为了克服这些局限性,本文提出了RepuNet,一个去中心化声誉系统,它对DFL中的威胁进行分类,并使用模型相似性、参数变化、消息延迟和通信量等指标动态评估节点行为。节点的模型聚合影响力根据其声誉得分进行调整。RepuNet被集成到Nebula DFL平台,并在非独立同分布(non-IID)的MNIST和CIFAR-10数据集上进行了实验评估,使用了在完全连接和随机拓扑结构下多达25个节点的联邦。测试了不同的攻击强度、频率和激活间隔。结果表明,RepuNet有效检测并缓解了恶意行为,在MNIST场景中F1分数超过95%,在CIFAR-10案例中约为76%。这些结果突出了RepuNet在去中心化联邦学习环境中缓解威胁的适应性、鲁棒性和实践潜力。
[103] Retrieval-Confused Generation is a Good Defender for Privacy Violation Attack of Large Language Models
检索混淆生成是大型语言模型隐私侵犯攻击的良好防御者
Wanli Peng, Xin Chen, Hang Fu, XinYu He, Xue Yiming, Juan Wen | Category: cs.CR, cs.AI
Keywords: 大型语言模型, 隐私侵犯攻击, 检索混淆生成, 防御, 个人隐私
Comment:
TL;DR: 本文提出了一种基于检索混淆生成(RCG)的新型防御范式,以高效且隐蔽地防御大型语言模型(LLMs)的隐私侵犯攻击(PVA)。
AI_Comments: 本文提出了一种新颖且隐蔽的防御大型语言模型隐私侵犯攻击的方法。其创新点在于利用检索混淆生成,通过引入“扰动数据库”和“最不相关检索策略”来主动混淆攻击查询,而非简单地匿名化或拒绝。这种方法不仅提高了防御效率,还避免了防御机制的暴露,有望有效对抗PVA的演变,具有重要的实践意义。
Details
Motivation: 大型语言模型(LLMs)的快速发展带来了新的安全问题,特别是隐私侵犯攻击(PVA)会引发严重的个人隐私泄露。现有防御方法耗时且效果不佳,或容易暴露防御机制,促使PVA演变。
Method: 本文提出了一种基于检索混淆生成(RCG)的新型防御范式。首先,设计一个释义提示来诱导LLM重写攻击查询的“用户评论”,从而构建一个扰动数据库。然后,提出“最不相关检索策略”从扰动数据库中检索所需的用户数据。最后,用检索到的用户数据替换“数据评论”以形成一个防御查询,从而使LLM对攻击者返回错误的个人属性。
Result: 在两个数据集和八个流行的大型语言模型上进行了广泛的实验,全面评估了所提出的防御方法的可行性和优越性。
Conclusion: 所提出的检索混淆生成(RCG)防御方法能够使大型语言模型的隐私侵犯攻击(PVA)失败,通过向攻击者返回错误的个人属性来保护用户隐私。
ai_Abstract: 本文针对大型语言模型(LLMs)面临的隐私侵犯攻击(PVA)问题,提出了一种名为检索混淆生成(RCG)的新型防御范式。该方法通过设计释义提示来扰动用户评论并构建一个扰动数据库,接着采用最不相关检索策略从中检索数据,最终用检索到的错误数据替换原始数据,从而使LLM向攻击者返回错误的个人属性,导致攻击失败。实验证明了该方法的有效性和优越性。
摘要翻译: 大型语言模型(LLMs)的最新进展对我们的社会产生了深远影响,同时也引发了新的安全担忧。特别是,由于LLMs卓越的推理能力,由Staab等人揭示的隐私侵犯攻击(PVA)引入了严重的个人隐私问题。现有的防御方法主要利用LLMs匿名化输入查询,这需要耗时的推理时间,并且无法获得令人满意的防御性能。此外,直接拒绝PVA查询似乎是一种有效的防御方法,但这种防御方法一旦暴露,就会促进PVA的演变。在本文中,我们提出了一种基于LLMs检索混淆生成(RCG)的新型防御范式,该范式可以高效且隐蔽地防御PVA。我们首先设计一个释义提示来诱导LLM重写攻击查询的“用户评论”以构建一个扰动数据库。然后,我们提出了最不相关检索策略,从扰动数据库中检索所需的用户数据。最后,用检索到的用户数据替换“数据评论”以形成一个防御查询,从而导致向攻击者返回一些错误的个人属性,即攻击失败。在两个数据集和八个流行的大型语言模型上进行了广泛的实验,以全面评估所提出的防御方法的可行性和优越性。
[106] Can One Safety Loop Guard Them All? Agentic Guard Rails for Federated Computing
一个安全循环能否守护所有?联邦计算的代理式护栏
Narasimha Raghavan Veeraragavan, Jan Franz Nygård | Category: cs.CR, cs.DC, cs.LG
Keywords: 联邦计算, 安全护栏, 隐私保护, Agentic-AI, Guardian-FC
Comment: Accepted at ICML 2025 Workshop on Collaborative and Federated Agentic
Workflows (CFAgentic@ICML'25)
TL;DR: 提出Guardian-FC框架,一个统一的联邦计算安全护栏,可跨不同隐私机制(如FHE、MPC、DP)工作,通过解耦和Agentic-AI控制平面实现。
AI_Comments: Guardian-FC的创新之处在于其两层框架设计,特别是将安全护栏与底层隐私机制解耦,并通过一个后端中立的DSL和Agentic-AI控制平面实现统一的安全管理。这对于日益复杂的联邦学习生态系统具有重要意义,因为它提高了系统的灵活性、可审计性和可扩展性,能够适应多种隐私技术。
Details
Motivation: 在隐私保护联邦计算中,需要一个统一的框架来跨不同的隐私保护机制(如FHE、MPC、DP)强制执行安全策略。
Method: 本文提出了Guardian-FC,一个新颖的两层框架。它通过执行后端中立的领域特定语言(DSL)编写的插件,并利用可互换的执行提供商(EPs)来实现各种隐私后端,从而将安全护栏与隐私机制解耦。一个Agentic-AI控制平面通过有符号遥测和命令执行一个有限状态安全循环,以确保一致的风险管理和可审计性。
Result: 论文提供了定性场景以说明后端无关的安全性,并为验证提供了形式化模型基础。
Conclusion: 论文提出了一个研究议程,邀请社区推进自适应护栏调优、多后端组合、DSL规范开发、实现和编译器可扩展性以及人工覆盖可用性。
ai_Abstract: 该论文提出了Guardian-FC,一个用于隐私保护联邦计算的两层框架,旨在统一不同隐私机制(如FHE、MPC、DP)的安全强制执行。它通过解耦护栏与隐私机制,利用后端中立的DSL插件和可互换的执行提供商实现。一个Agentic-AI控制平面负责执行安全循环以确保风险管理和可审计性。该框架支持快速失败的作业准入和扩展性,并提供了形式化模型基础,同时提出了未来的研究方向。
摘要翻译: 我们提出了Guardian-FC,一个新颖的两层隐私保护联邦计算框架,它统一了跨不同隐私保护机制的安全强制执行,包括全同态加密(FHE)和多方计算(MPC)等密码学后端,以及差分隐私(DP)等统计技术。Guardian-FC通过执行插件(模块化计算单元)来解耦护栏与隐私机制,这些插件以一种为联邦计算工作流专门设计的、后端中立的领域特定语言(DSL)编写,并由可互换的执行提供商(EPs)实现各种隐私后端。一个Agentic-AI控制平面通过有符号遥测和命令执行一个有限状态安全循环,确保一致的风险管理和可审计性。以清单为中心的设计支持快速失败的作业准入和对新隐私后端的无缝扩展性。我们提出了定性场景,说明了后端无关的安全性,并为验证提供了形式化模型基础。最后,我们概述了一个研究议程,邀请社区推进自适应护栏调优、多后端组合、DSL规范开发、实现和编译器可扩展性以及人工覆盖可用性。
[123] Generative AI for Vulnerability Detection in 6G Wireless Networks: Advances, Case Study, and Future Directions
生成式人工智能在6G无线网络漏洞检测中的应用:进展、案例研究与未来方向
Shuo Yang, Xinran Zheng, Jinfeng Xu, Jinze Li, Danyang Song, Zheyu Chen, Edith C. H. Ngai | Category: cs.CR, cs.NI
Keywords: 生成式AI, 漏洞检测, 6G无线网络, LLM, 网络安全
Comment:
TL;DR: 本文探讨了生成式AI在6G无线网络漏洞检测中的应用,提出了一个三层框架,并通过LLM驱动的代码漏洞检测案例研究展示了其有效性。
AI_Comments: 本文创新性地将生成式AI引入6G无线网络的漏洞检测领域,提出了一个实用的三层框架,并结合具体案例展示了其潜力。其重要性在于为未来网络安全提供了新的视角和技术路径,尤其是在处理零日漏洞和动态网络环境方面。未来研究方向的提出也很有价值。
Details
Motivation: 6G无线网络、物联网和边缘计算的快速发展显著扩大了网络攻击面,需要更智能和适应性的漏洞检测机制。传统安全方法难以应对零日漏洞、对抗性威胁和高度动态网络环境中的上下文相关漏洞。
Method: 本文探讨了生成式AI在6G无线网络漏洞检测中的集成应用,重点关注代码审计、协议安全、云边防御和硬件保护。提出了一个三层框架,包括技术层、能力层和应用层,系统分析了VAEs、GANs、LLMs和GDMs在保护下一代无线生态系统中的作用。通过一个LLM驱动的代码漏洞检测案例研究展示了实际实现。
Result: 案例研究展示了LLM驱动的代码漏洞检测的有效性、性能和挑战。
Conclusion: 本文综合了当前进展和开放挑战,为研究人员和从业者提供了利用生成式AI在6G网络中构建弹性自适应安全解决方案的路线图。
ai_Abstract: 本文探讨了生成式AI在6G无线网络漏洞检测中的应用,以应对日益扩大的网络攻击面和传统方法的局限性。研究引入了一个三层框架,分析了VAEs、GANs、LLMs和GDMs等生成式模型在代码审计、协议安全、云边防御和硬件保护方面的作用。通过一个LLM驱动的代码漏洞检测案例研究,展示了其有效性和挑战。文章还提出了未来研究方向,旨在为6G网络构建弹性自适应安全解决方案提供指导。
摘要翻译: 6G无线网络、物联网和边缘计算的快速发展显著扩大了网络攻击面,需要更智能和适应性的漏洞检测机制。传统安全方法虽然是基础,但在高度动态的网络环境中,难以应对零日漏洞、对抗性威胁和上下文相关漏洞。生成式人工智能(GAI)作为一种变革性解决方案出现,它利用合成数据生成、多模态推理和自适应学习来增强安全框架。本文探讨了生成式AI驱动的漏洞检测在6G无线网络中的集成,重点关注代码审计、协议安全、云边防御和硬件保护。我们引入了一个由技术层、能力层和应用层组成的三层框架,系统分析了VAEs、GANs、LLMs和GDMs在保护下一代无线生态系统中的作用。为了展示实际应用,我们提出了一个LLM驱动的代码漏洞检测案例研究,强调了其有效性、性能和挑战。最后,我们概述了未来的研究方向,包括轻量级模型、高真实性数据生成、外部知识集成和隐私保护技术。通过综合当前进展和开放挑战,这项工作为研究人员和从业者提供了利用生成式AI在6G网络中构建弹性自适应安全解决方案的路线图。
[140] Anti-Phishing Training Does Not Work: A Large-Scale Empirical Assessment of Multi-Modal Training Grounded in the NIST Phish Scale
反网络钓鱼培训无效:基于NIST网络钓鱼量表的多模式培训大规模实证评估
Andrew T. Rozema, James C. Davis | Category: cs.CR, cs.HC
Keywords: 网络钓鱼, 培训, 有效性, NIST网络钓鱼量表, 网络安全
Comment: 13 pages, 5 apdx
TL;DR: 一项针对12,511人的大规模研究发现,尽管NIST网络钓鱼量表能预测用户行为,但基于讲座和互动形式的网络钓鱼培训对降低用户点击或报告钓鱼邮件的有效性没有显著影响,实际价值很小。
AI_Comments: 这项研究通过大规模实证数据,有力地挑战了当前广泛实施的网络钓鱼培训的有效性,其结论对于网络安全预算分配和政策制定具有重要指导意义。引入并验证NIST网络钓鱼量表是其方法学上的一个创新点。研究结果不仅揭示了培训的局限性,还倡导了更注重技术和流程的纵深防御策略,对过度依赖人类行为改变的网络安全思路提出了反思。
Details
Motivation: 网络钓鱼攻击是关键的网络安全威胁,常导致运营事故和数据泄露。尽管许多组织投入大量预算进行网络钓鱼意识培训,但其有效性存在争议。现有研究存在两大空白:缺乏经过验证的网络钓鱼诱饵难度衡量标准,以及缺乏对不同类型培训在真实商业环境中比较。本研究旨在填补这些空白。
Method: 本研究在美国一家金融科技公司进行了大规模研究(N=12,511),以评估网络钓鱼培训的有效性。采用双因素设计,比较了不同处理组(基于讲座、互动和对照组)对受试者对不同复杂程度网络钓鱼诱饵(使用NIST网络钓鱼量表)易感性的影响。
Result: NIST网络钓鱼量表成功预测了用户行为(简单邮件点击率为7.0%,困难邮件为15.0%,p < 0.001)。然而,培训对点击率(p = 0.450)或报告率(p = 0.417)没有显示出显著的主效应。效应量均低于0.01,表明所部署的网络钓鱼培训实际价值很小。
Conclusion: 本研究结果进一步证明网络钓鱼培训无效,强调了网络钓鱼纵深防御的重要性,以及通过改变流程和技术来减少对人类依赖的价值,并对法规要求所带来的培训成本提出质疑。
ai_Abstract: 本研究对12,511名员工进行了大规模实证评估,旨在探究不同类型的网络钓鱼培训在真实商业环境中的有效性,并验证NIST网络钓鱼量表。研究发现,NIST网络钓鱼量表能有效预测用户对网络钓鱼诱饵的易感性(复杂诱饵的点击率更高),但基于讲座和互动形式的培训对降低用户点击或报告钓鱼邮件的行为没有显著影响,且实际价值微乎其微。这表明当前的网络钓鱼培训是无效的,并强调了应转向纵深防御策略以及通过技术和流程改进来减少对人为因素依赖的重要性。
摘要翻译: 电子邮件形式的社会工程攻击,通常称为网络钓鱼,是关键的网络安全威胁。网络钓鱼攻击经常导致运营事故和数据泄露。因此,许多组织将网络安全预算的很大一部分用于网络钓鱼意识培训,部分原因是合规性要求。然而,这种培训的有效性仍然存在争议。培训(无)有效性的实证证据对于基于证据的网络安全投资和政策制定至关重要。尽管最近进行了测量研究,但文献中仍存在两个关键空白:(1) 我们缺乏经过验证的网络钓鱼诱饵难度衡量标准,以及 (2) 在真实商业环境中对不同类型培训的比较很少。为了填补这些空白,我们在一家美国金融科技公司进行了一项大规模研究(N = 12,511),评估了网络钓鱼的有效性。我们的双因素设计比较了处理(基于讲座、互动和对照组)对受试者对不同复杂程度的网络钓鱼诱饵(使用NIST网络钓鱼量表)易感性的影响。NIST网络钓鱼量表成功预测了行为(点击率:简单邮件为7.0%,困难邮件为15.0%,p < 0.001),但培训对点击率(p = 0.450)或报告率(p = 0.417)没有显示出显著的主效应。效应量均低于0.01,表明我们部署的任何网络钓鱼培训的实际价值都很小。我们的结果进一步证明网络钓鱼培训无效,强化了网络钓鱼纵深防御的重要性以及改变流程和技术以减少对人类依赖的价值,并对法规要求所带来的培训成本提出质疑。
[156] A Hybrid Intrusion Detection System with a New Approach to Protect the Cybersecurity of Cloud Computing
一种采用新方法保护云计算网络安全的混合入侵检测系统
Maryam Mahdi Al-Husseini | Category: cs.CR, cs.SY, eess.SY
Keywords: 混合入侵检测系统, 云计算, 网络安全, 能量谷优化器, 特征选择
Comment: 1. Acknowledgment for: Supervisor: Prof. Dr. Alireza Rouhi Advisor:
Prof. Dr. Einollah Pira 2. Thesis of MSc. degree for Azarbaijan Shahid Madani
University Faculty of Information Technology and Computer Engineering 3.
Number of pages: 103 4. Number of Figures: 66
TL;DR: 本文提出了一种基于能量谷优化器(EVO)和监督机器学习的混合入侵检测系统(HyIDS),用于提升云计算环境下的网络安全防御能力,并在多个数据集上取得了高准确率。
AI_Comments: 本文的创新点在于将能量谷优化器(EVO)引入到混合入侵检测系统(HyIDS)的特征选择过程中,从而提升了系统的性能。该研究对于增强云计算环境下的网络安全防御具有重要意义,特别是在处理复杂性和高维度数据方面。实验结果表明了其方法的有效性,但未提及计算开销或实时性方面的详细评估。
Details
Motivation: 云计算环境下的网络安全是主要挑战,随着智能设备在云计算环境中的广泛应用,安全威胁日益突出。入侵检测系统,特别是混合入侵检测系统,能有效缓解这些漏洞并提供更好的保护。
Method: 研究提出了一种混合入侵检测系统(HyIDS)。其创新点在于引入了一种新的混合入侵检测方法,该方法利用能量谷优化器(EVO)来选择最优特征集,然后使用监督机器学习模型进行分类。该方法在CIC_DDoS2019、CSE_CIC_DDoS2018和NSL-KDD数据集上进行了32次评估和测试,并与灰狼优化器(GWO)进行了比较。
Result: 在CIC_DDoS2019数据集上,D_TreeEVO模型的准确率达到99.13%,检测率达到98.941%。在CSE_CIC_DDoS2018数据集上,准确率达到99.78%。在NSL-KDD数据集上,准确率为99.50%,检测率为99.48%。在特征选择方面,EVO的表现优于GWO。
Conclusion: 研究结果表明,作为HyIDS性能的优化器,EVO能够产生更好的结果。
ai_Abstract: 本文针对云计算环境中的网络安全挑战,提出了一种名为HyIDS的混合入侵检测系统。该系统创新性地采用能量谷优化器(EVO)进行最优特征选择,并结合监督机器学习模型进行威胁分类。通过在CIC_DDoS2019、CSE_CIC_DDoS2018和NSL-KDD等多个数据集上的评估,HyIDS展示了高准确率和检测率,并证明EVO在特征选择方面优于传统优化器,显著提升了HyIDS的性能。
摘要翻译: 网络安全是云计算领域面临的首要挑战之一。最近,智能设备在提供基于互联网服务的云计算环境中的广泛应用已变得普遍。因此,考虑这些环境中的安全威胁至关重要。使用入侵检测系统可以减轻这些系统的漏洞。此外,与传统入侵检测系统相比,混合入侵检测系统可以提供更好的保护。这些系统管理与复杂性、维度和性能相关的问题。本研究旨在提出一种混合入侵检测系统(HyIDS),用于识别和缓解初始威胁。本研究的主要创新是为混合入侵检测系统(HyIDS)引入了一种新方法。为此,使用能量谷优化器(EVO)来选择最优特征集,然后使用监督机器学习模型进行分类。所提出的方法使用CIC_DDoS2019、CSE_CIC_DDoS2018和NSL-KDD数据集进行评估。为了评估和测试,所提出的系统总共运行了32次。所提出方法的结果与灰狼优化器(GWO)进行了比较。对于CIC_DDoS2019数据集,D_TreeEVO模型实现了99.13%的准确率和98.941%的检测率。此外,对于CSE_CIC_DDoS2018数据集,该结果达到了99.78%。与NSL-KDD相比,它具有99.50%的准确率和99.48%的检测率(DT)。在特征选择方面,EVO优于GWO。本研究的结果表明,EVO作为HyIDS性能的优化器,能够产生更好的结果。
[187] Attack Smarter: Attention-Driven Fine-Grained Webpage Fingerprinting Attacks
更智能的攻击:注意力驱动的细粒度网页指纹攻击
Yali Yuan, Weiyi Zou, Guang Cheng | Category: cs.CR, cs.LG
Keywords: 网页指纹识别, 注意力机制, 细粒度攻击, 流量分析, 用户匿名性
Comment:
TL;DR: 本文提出了一种名为ADWPF的注意力驱动细粒度网页指纹攻击,通过针对性增强和自注意力模块,有效解决了大规模多子页面和多标签浏览场景下网页指纹识别的挑战,并超越了现有技术水平。
AI_Comments: 该论文的创新点在于将注意力机制引入网页指纹识别攻击,特别是通过注意力裁剪和掩蔽进行有针对性的流量增强,以及利用自注意力和残差注意力来处理复杂的流量模式和多标签场景。这对于提升大规模和细粒度网页指纹识别的有效性具有重要意义,揭示了用户匿名性在更复杂浏览行为下的潜在风险。
Details
Motivation: 现有的网站指纹识别(WF)攻击主要局限于小规模场景,通常只能识别网站主页。然而,在实际应用中,用户经常快速访问多个子页面,且可能进行多标签浏览,这导致流量特征的类间差异减小、流量段重叠以及相似特征在不同位置出现,从而增加了分类难度。
Method: 本文提出了一种名为ADWPF的注意力驱动细粒度网页指纹(WPF)攻击。在训练阶段,ADWPF根据注意力图对流量的显著区域进行有针对性的增强,包括注意力裁剪和注意力掩蔽。然后,它从原始流量和增强流量中提取低维特征,并应用自注意力模块来捕获流量的全局上下文模式。最后,为了处理多标签场景,该方法采用残差注意力来生成在不同时间位置出现的网页的类别特定表示。
Result: 广泛的实验表明,所提出的方法在不同规模的数据集上始终优于最先进的基线方法。
Conclusion: 通过注意力驱动的细粒度网页指纹攻击(ADWPF),可以有效应对大规模多子页面和多标签浏览场景下的网页指纹识别挑战,并显著提升攻击性能。
ai_Abstract: 本文提出了一种名为ADWPF的注意力驱动细粒度网页指纹攻击,旨在解决现有网站指纹识别技术在处理大规模多子页面和多标签浏览场景时的局限性。通过引入基于注意力图的流量增强(包括裁剪和掩蔽)以及利用自注意力和残差注意力模块,ADWPF能够有效捕获复杂的流量模式并生成类别特定的网页表示。实验结果表明,ADWPF在不同规模数据集上的性能均超越了现有最先进的方法,显著提升了网页指纹识别的准确性和适用范围。
摘要翻译: 网站指纹识别(WF)攻击旨在通过分析流量模式来推断用户正在访问哪些网站,从而损害用户匿名性。尽管这项技术已被证明在受控实验环境中有效,但它在很大程度上仍局限于小规模场景,通常仅限于识别网站主页。然而,在实际设置中,用户经常快速连续访问多个子页面,通常在之前的内容完全加载之前。网页指纹识别(WPF)通过将同一站点的子页面建模为不同的类别,将WF框架推广到大规模环境。这些页面通常共享相似的页面元素,导致流量特征的类间差异较小。此外,我们考虑了多标签浏览场景,其中一个跟踪包含多个类别的网页。这导致流量段重叠,并且相似的特征可能出现在流量中的不同位置,从而增加了分类的难度。为了解决这些挑战,我们提出了一种注意力驱动的细粒度WPF攻击,名为ADWPF。具体来说,在训练阶段,我们根据注意力图对流量的显著区域应用有针对性的增强,包括注意力裁剪和注意力掩蔽。ADWPF然后从原始流量和增强流量中提取低维特征,并应用自注意力模块来捕获跟踪的全局上下文模式。最后,为了处理多标签场景,我们采用残差注意力来生成在不同时间位置出现的网页的类别特定表示。广泛的实验表明,所提出的方法在不同规模的数据集上始终优于最先进的基线方法。
[196] Secure Multi-Key Homomorphic Encryption with Application to Privacy-Preserving Federated Learning
安全多密钥同态加密及其在隐私保护联邦学习中的应用
Jiahui Wu, Tiecheng Sun, Fucai Luo, Haiyan Wang, Weizhe Zhang | Category: cs.CR
Keywords: 多密钥同态加密, 隐私保护联邦学习, 安全漏洞, 加密方案, 掩码机制
Comment:
TL;DR: 本文发现现有CDKS多密钥同态加密方案在隐私保护联邦学习中存在明文泄露漏洞,并提出了一种新的安全多密钥同态加密方案SMHE,通过引入掩码机制解决了该问题,实现了更高的安全性且开销适中。
AI_Comments: 该论文的关键创新在于识别并解决了现有CDKS多密钥同态加密方案中的一个严重安全漏洞,这对于隐私保护联邦学习等敏感应用至关重要。通过引入新颖的掩码机制,SMHE方案在不牺牲过多性能的情况下显著提升了安全性,这对于实际应用具有重要意义。该工作为多方安全计算领域提供了更可靠的加密工具。
Details
Motivation: 现有的CDKS多密钥同态加密方案在应用于多方安全计算任务(如隐私保护联邦学习)时,存在严重的安全性漏洞,可能无意中将一方的明文信息泄露给其他方。
Method: 本文提出了一种新的安全多密钥同态加密(SMHE)方案。该方案在多密钥BFV和CKKS框架中引入了一种新颖的掩码机制,以确保在整个计算过程中明文信息的保密性。此外,作者还实现了基于SMHE的隐私保护联邦学习应用。
Result: SMHE方案在隐私保护联邦学习应用中提供了显著增强的安全性,并且只带来了适度的同态评估开销。例如,基于多密钥CKKS的PPFL模型相比基于CDKS的PPFL模型,运行时和通信流量增加不到2倍。
Conclusion: 本文成功识别了CDKS多密钥同态加密方案在多方安全计算中的安全漏洞,并提出了一种名为SMHE的新方案,通过引入新颖的掩码机制有效解决了明文泄露问题,实现了在隐私保护联邦学习中更高的安全性且开销可接受。
ai_Abstract: 本文指出了现有CDKS多密钥同态加密方案在隐私保护联邦学习等应用中存在的明文泄露安全漏洞。为解决此问题,作者提出了一种新的安全多密钥同态加密(SMHE)方案,通过引入独特的掩码机制来确保计算过程中的明文机密性。实验证明,SMHE在提供显著安全性提升的同时,仅带来适度的性能开销,例如在PPFL应用中运行时和通信量增幅低于2倍。
摘要翻译: 多密钥同态加密(MKHE)由Lopez-Alt等人(STOC 2012)提出,允许直接对不同密钥加密的密文执行算术计算。Chen和Dai等人(CCS 2019)以及Kim和Song等人(CCS 2023)的后续工作通过提出多密钥BFV/CKKS变体(称为CDKS方案)扩展了这一概念。这些变体结合了渐近最优技术,以促进跨多个数据提供者的安全计算。在本文中,我们发现CDKS方案在应用于多方安全计算任务(如隐私保护联邦学习(PPFL))时存在一个关键的安全漏洞。特别是,我们表明CDKS可能会无意中将一方的明文信息泄露给其他方。为了缓解这个问题,我们提出了一种新方案SMHE(安全多密钥同态加密),它在多密钥BFV和CKKS框架中引入了一种新颖的掩码机制,以确保在整个计算过程中明文信息的保密性。我们使用SMHE实现了一个PPFL应用程序,并证明它提供了显著改进的安全性,而同态评估开销仅适度增加。例如,我们基于多密钥CKKS的PPFL模型与基于CDKS的PPFL模型相比,运行时和通信流量增加不到2倍。代码已公开在https://github.com/JiahuiWu2022/SMHE.git。
[205] Autonomous Cyber Resilience via a Co-Evolutionary Arms Race within a Fortified Digital Twin Sandbox
通过强化数字孪生沙箱中的协同进化军备竞赛实现自主网络弹性
Malikussaid, Sutiyo | Category: cs.CR, cs.LG, cs.SY, eess.SY
Keywords: 网络弹性, 数字孪生, 协同进化, 深度强化学习, 工业控制系统安全
Comment: 17 pages, 2 figures, 4 equations, 2 algorithms, 4 tables, to be
published in ISPACS Conference 2025, unabridged version
TL;DR: 本文提出了ARC框架,一种利用数字孪生沙箱中的协同进化军备竞赛实现关键基础设施自主网络弹性的方法,通过红蓝智能体相互对抗不断提升安全防御能力,并在实验中验证了其卓越性能。
AI_Comments: 本文创新性地提出了ARC框架,利用协同进化军备竞赛的理念,在数字孪生沙箱中实现了关键基础设施的自主网络弹性。通过红蓝智能体的对抗性学习,系统能够动态地识别并修复自身的脆弱性,这超越了传统的静态防御模式。其重要性在于为未来关键基础设施的安全提供了一种适应性强、能自我提升的解决方案,特别是解决了面对高级持续性威胁时的“信任三元组”挑战。结合可解释人工智能(XAI)也增强了操作员对系统的信任度。
Details
Motivation: IT和OT的融合导致超连接的ICS,使关键基础设施面临自适应、智能的新型对手,使得静态防御过时。现有安全范式未能解决“信任三元组”问题,即系统模型的保真度、同步数据的完整性以及分析引擎对抗复杂规避的弹性。
Method: 本文提出了ARC框架,通过在强化的数字孪生沙箱(F-SCDT)中建立持续的协同进化军备竞赛,实现自主、闭环的强化过程。一个DRL“红方智能体”被形式化并激励去自主发现隐蔽的、物理上可信的攻击路径以最大化过程中断并规避检测。同时,一个基于集成学习的“蓝方智能体”防御者通过对抗性训练持续强化,以应对其对手发现的不断演变的威胁。
Result: 在TEP和SWaT测试台上的实验验证表明,该框架具有卓越的性能。全面的消融研究以及ROC曲线和SHAP图等广泛可视化揭示,协同进化过程本身对检测新型攻击的性能提升负有显著责任。
Conclusion: ARC框架通过整合XAI以确保操作员信任并提出可扩展的F-ARC架构,不仅仅是一种改进,更是向未来关键基础设施动态、自我完善安全范式转变的必要方向。
ai_Abstract: 本文提出了ARC框架,旨在解决关键基础设施在IT/OT融合背景下,面对自适应智能对手时传统静态防御失效的问题。ARC通过在强化的数字孪生沙箱中模拟红方(攻击)和蓝方(防御)智能体的协同进化军备竞赛,使系统能够自主发现并修补漏洞。红方智能体利用深度强化学习发现隐蔽攻击路径,蓝方智能体通过对抗训练持续强化自身。实验证明,该框架在检测新型攻击方面表现卓越,尤其协同进化过程对性能提升至关重要。ARC被视为实现关键基础设施动态、自我完善安全的一种范式转变。
摘要翻译: IT和OT的融合创造了超连接的ICS,使关键基础设施面临一类新的自适应、智能的对手,这些对手使得静态防御过时。现有的安全范式往往未能解决一个基础的“信任三元组”问题,该三元组包括系统模型的保真度、同步数据的完整性以及分析引擎对抗复杂规避的弹性。本文引入了ARC框架,这是一种通过自主、闭环强化过程实现分析弹性的方法。ARC在F-SCDT的高保真沙箱中建立了一个持续的协同进化军备竞赛。一个DRL智能体,即“红方智能体”,被形式化并激励去自主发现隐蔽的、物理上可信的攻击路径,以最大化过程中断并规避检测。同时,一个基于集成学习的“蓝方智能体”防御者通过对抗性训练持续强化,以应对其对手发现的不断演变的威胁。这种协同进化的动态迫使两个智能体都变得越来越复杂,使系统能够自主探测并修补自身的漏洞。在TEP和SWaT测试台上的实验验证证明了该框架的卓越性能。一项全面的消融研究,由包括ROC曲线和SHAP图在内的广泛可视化支持,揭示了协同进化过程本身对检测新型攻击的性能显著提升负有责任。通过整合XAI以确保操作员信任并提出可扩展的F-ARC架构,这项工作将ARC不仅仅视为一种改进,更是未来关键基础设施动态、自我完善安全范式转变的必要方向。
[214] Evaluating Disassembly Errors With Only Binaries
仅使用二进制文件评估反汇编错误
Lambang Akbar Wijayadi, Yuancheng Jiang, Roland H. C. Yap, Zhenkai Liang, Zhuohao Liu | Category: cs.CR
Keywords: 反汇编错误, 二进制分析, TraceBin, 动态执行, 安全影响
Comment:
TL;DR: 本文提出TraceBin,一种仅使用二进制文件评估反汇编错误的新方法,无需源代码,对自动化安全任务至关重要。
AI_Comments: 这项工作的创新之处在于首次实现了仅使用二进制文件来评估反汇编错误,这解决了现有方法对源代码的依赖性,使其更适用于实际的二进制分析场景。其重要性在于,通过揭示流行反汇编器中的潜在错误及其对自动化安全任务的影响,TraceBin有助于提高二进制分析工具的可靠性和安全性。
Details
Motivation: 现有的反汇编错误评估方法依赖于源代码,这与实际二进制分析场景相悖。由于反汇编错误可能影响自动化安全任务,因此需要一种无需源代码的稳健评估方法。
Method: 本文提出了TraceBin,该方法利用动态执行来发现反汇编错误。TraceBin旨在解决在目标二进制文件上进行自动化安全任务时(如静态二进制插桩、二进制加固、自动化代码修复等)可能受反汇编错误影响的使用场景。
Result: TraceBin发现:(i) 即使没有源代码,其错误也与现有研究一致;(ii) 由于控制流导致的反汇编错误;(iii) 新的有趣错误;(iv) 非C/C++二进制文件中的错误;(v) 闭源二进制文件中的错误;(vi) 反汇编错误可能具有重大的安全隐患。实验结果表明TraceBin在现有流行的反汇编器中发现了大量错误。
Conclusion: TraceBin能够仅使用二进制文件在现有流行的反汇编器中发现大量错误,并且对依赖反汇编器的(闭源)二进制文件上的自动化安全任务有所帮助。
ai_Abstract: 该论文解决了现有反汇编错误评估方法依赖源代码的局限性,提出了TraceBin,这是一种创新的、仅依赖二进制文件的动态执行方法来发现反汇编错误。TraceBin在多种场景下成功识别出包括控制流错误、新颖错误以及在闭源和非C/C++二进制文件中的错误,并揭示了这些错误对自动化安全任务的重大影响。实验证明TraceBin能有效发现流行反汇编器中的大量错误,对于提升二进制安全任务的准确性至关重要。
摘要翻译: 反汇编器在二进制文件的分析和修改中至关重要。现有显示反汇编器错误的工作主要依赖于实际实现,没有具体的保证,并假设有源代码和编译器工具链来评估真实情况。然而,源代码的假设与典型的二进制场景相悖,因为在这些场景中通常只有二进制文件可用。在这项工作中,我们研究了一种假设最少且评估反汇编错误的方法,该方法不需要源代码。任何源代码都无法解决二进制反汇编的根本问题,并且在只有二进制文件存在时会失效。据我们所知,这是首次仅使用二进制文件评估反汇编错误的工作。我们提出了TraceBin,它使用动态执行来发现反汇编错误。TraceBin旨在解决反汇编用于目标二进制文件上自动化安全任务的使用场景,例如静态二进制插桩、二进制加固、自动化代码修复等,这些任务可能受到反汇编错误的影响。在目标二进制文件中发现反汇编错误有助于减少此类错误引起的问题。此外,我们不知道现有方法可以在只给定目标二进制文件的情况下评估错误,因为它们需要源代码。我们的评估显示TraceBin发现:(i) 即使没有源代码,其错误也与现有研究一致;(ii) 由于控制流导致的反汇编错误;(iii) 新的有趣错误;(iv) 非C/C++二进制文件中的错误;(v) 闭源二进制文件中的错误;(vi) 反汇编错误可能具有重大的安全隐患。总的来说,我们的实验结果表明TraceBin在现有流行的反汇编器中发现了许多错误。它还有助于依赖反汇编器的(闭源)二进制文件上的自动化安全任务。
[224] JsDeObsBench: Measuring and Benchmarking LLMs for JavaScript Deobfuscation
JsDeObsBench:衡量和评估大型语言模型在JavaScript去混淆方面的表现
Guoqiang Chen, Xin Jin, Zhiqiang Lin | Category: cs.CR
Keywords: JavaScript去混淆, 大型语言模型, 基准测试, 网络安全, 代码简化
Comment: Accepted by ACM CCS 2025
TL;DR: JsDeObsBench是一个新的基准测试,旨在系统评估大型语言模型(LLMs)在JavaScript去混淆方面的表现。研究发现LLMs在代码简化方面表现出色,但在语法准确性和执行可靠性方面仍面临挑战,并展示了其在恶意软件去混淆中的潜力。
AI_Comments: JsDeObsBench通过提供一个系统性的基准来填补了LLMs在JavaScript去混淆领域评估的空白,这具有重要的创新意义。该研究不仅量化了LLMs在该任务中的有效性,还明确指出了其在语法准确性和执行可靠性方面的局限性,为未来的研究指明了方向。其在恶意软件去混淆方面的应用潜力,也凸显了该研究在实际网络安全场景中的重要性。
Details
Motivation: JavaScript代码去混淆是网络安全中的一个重大挑战,因为混淆技术常用于隐藏恶意活动。尽管大型语言模型(LLMs)在自动化去混淆过程方面显示出前景,但目前缺乏一个系统性的基准来量化其有效性和局限性。
Method: 本研究提出了JsDeObsBench,一个专门用于严格评估LLMs在JS去混淆背景下有效性的基准测试。研究详细介绍了其基准测试方法,包括从基本变量重命名到复杂结构转换的各种混淆技术,并对GPT-4o、Mixtral、Llama和DeepSeek-Coder等前沿LLMs的熟练程度进行了广泛的实验分析,并进一步评估了JS恶意软件的去混淆。
Result: 实验分析揭示了LLMs在代码简化方面表现出色,尽管与基线方法相比,在保持语法准确性和执行可靠性方面仍面临挑战。研究还展示了LLMs在安全场景(如JS恶意软件去混淆)中的潜力。
Conclusion: 研究结果突出了大型语言模型在去混淆应用中的实用性,并指出了需要进一步改进的关键领域。
ai_Abstract: JsDeObsBench是一个新颖的基准测试,旨在系统评估大型语言模型(LLMs)在JavaScript去混淆方面的性能。该研究通过包含多种混淆技术的测试框架,对GPT-4o、Mixtral、Llama和DeepSeek-Coder等LLMs进行了广泛实验。结果表明,LLMs在代码简化方面表现出卓越能力,但仍需在语法准确性和执行可靠性上改进。研究还展示了LLMs在去混淆恶意JavaScript代码方面的潜力,强调了其在网络安全领域的应用前景和未来发展方向。
摘要翻译: JavaScript (JS) 代码去混淆在网络安全中提出了重大挑战,特别是当混淆技术常用于隐藏脚本中的恶意活动时。尽管大型语言模型(LLMs)最近在自动化去混淆过程方面显示出前景,改变了针对这些混淆威胁的检测和缓解策略,但目前显著缺乏一个系统性的基准来量化其有效性和局限性。为了弥补这一空白 629A 我们提出了 JsDeObsBench,一个专门设计的基准测试,旨在严格评估 LLMs 在 JS 去混淆背景下的有效性。我们详细介绍了我们的基准测试方法,其中包括从基本变量重命名到复杂结构转换的各种混淆技术,为评估 LLM 在真实场景中的性能提供了一个强大的框架。我们广泛的实验分析调查了尖端 LLMs(例如 GPT-4o、Mixtral、Llama 和 DeepSeek-Coder)的熟练程度,揭示了尽管在保持语法准确性和执行可靠性方面与基线方法相比存在挑战,但在代码简化方面表现出色。我们进一步评估了 JS 恶意软件的去混淆,以展示 LLMs 在安全场景中的潜力。研究结果突出了 LLMs 在去混淆应用中的实用性,并指出了需要进一步改进的关键领域。
[232] Measuring Modern Phishing Tactics: A Quantitative Study of Body Obfuscation Prevalence, Co-occurrence, and Filter Impact
测量现代网络钓鱼策略:一项关于邮件正文混淆普遍性、共现性和过滤影响的定量研究
Antony Dalmiere, Zheng Zhou, Guillaume Auriol, Vincent Nicomette, Pascal Marchand | Category: cs.CR
Keywords: 网络钓鱼, 邮件正文混淆, 定量研究, 反垃圾邮件, 规避策略
Comment:
TL;DR: 该研究定量分析了网络钓鱼邮件中正文混淆技术的普遍性、共现模式及其对反垃圾邮件分数的影响,发现某些技术组合能有效规避检测,强调了多模态防御的重要性。
AI_Comments: 这篇论文通过定量分析,弥补了现有研究在网络钓鱼邮件正文混淆技术组合及其对过滤器影响方面的空白。其创新之处在于提供了具体的数据,揭示了不同混淆技术的流行度、共现模式以及它们规避检测的能力。研究结果对于开发更有效的反钓鱼系统具有重要指导意义,特别是强调了多模态防御的必要性,以应对日益复杂的攻击手段。
Details
Motivation: 网络钓鱼攻击频繁使用邮件正文混淆技术来绕过检测过滤器,但关于这些技术如何组合以及它们对过滤器分数影响的定量见解仍然有限。
Method: 分析了386封经过验证的网络钓鱼邮件,量化了10种混淆技术,识别了显著的成对共现模式,并使用多元线性回归评估了它们与反垃圾邮件分数的关联。
Result: 文本图像 (47.0%)、Base64编码 (31.2%) 和无效HTML (28.8%) 普遍存在。回归分析 (R${}^2$=0.486, p<0.001) 显示,Base64编码和文本图像与显著的反垃圾邮件规避相关 (p<0.05),表明潜在的绕过能力,而无效HTML则与更高的分数相关。
Conclusion: 这些发现为复杂的规避策略建立了定量基线,强调了针对组合混淆策略采取多模态防御的必要性。
ai_Abstract: 本文对386封网络钓鱼邮件进行了定量研究,分析了邮件正文混淆技术的普遍性、共现模式及其对反垃圾邮件过滤器的影响。研究量化了十种技术,发现文本图像、Base64编码和无效HTML最为常见。结果表明,Base64编码和文本图像等技术组合能有效降低反垃圾邮件分数,而无效HTML则导致分数升高。这些发现为理解复杂的网络钓鱼规避策略提供了定量依据,并强调了开发多模态防御机制以应对组合混淆策略的重要性。
摘要翻译: 网络钓鱼攻击经常使用邮件正文混淆来绕过检测过滤器,但关于技术如何组合及其对过滤器分数影响的定量见解仍然有限。本文通过实证研究正文混淆技术的普遍性、共现模式以及与垃圾邮件分数的关联来弥补这一空白。通过分析386封经过验证的网络钓鱼邮件,我们量化了十种技术,识别出显著的成对共现,揭示了如图像中文本与多部分滥用相结合的战略性分层,并使用多元线性回归评估了与反垃圾邮件分数的关联。图像中文本 (47.0%)、Base64编码 (31.2%) 和无效HTML (28.8%) 普遍存在。回归分析 (R${}^2$=0.486, p<0.001) 表明,在此配置中,Base64编码和图像中文本与显著的反垃圾邮件规避相关 (p<0.05),这表明潜在的绕过能力,而无效HTML则与更高的分数相关。这些发现为复杂的规避策略建立了定量基线,强调了针对组合混淆策略采取多模态防御的必要性。
[239] Communication-Efficient Publication of Sparse Vectors under Differential Privacy
差分隐私下稀疏向量的通信高效发布
Quentin Hillebrand, Vorapong Suppakitpaisarn, Tetsuo Shibuya | Category: cs.CR
Keywords: 差分隐私, 稀疏向量, 通信效率, 矩阵发布, 随机响应
Comment:
TL;DR: 提出一种差分隐私算法,用于高效发布稀疏向量聚合的矩阵,显著降低了通信成本,甚至低于非隐私情况。
AI_Comments: 这篇论文的创新点在于提出了一个通信效率极高的差分隐私算法,解决了传统方法在大规模稀疏数据发布中的通信瓶颈。其通信成本甚至低于非隐私情况,并且隐私预算越低通信成本越低,这是一个非常重要的突破,对于实际应用具有显著价值。
Details
Motivation: 传统随机响应方法在差分隐私下发布稀疏向量聚合矩阵时通信成本过高,对于大规模数据不实用,需要$\Omega(n \times N)$的通信开销。
Method: 本文提出了一种新的差分隐私算法,用于发布由稀疏向量聚合而成的矩阵,旨在解决传统方法在通信成本上的高昂开销。
Result: 该算法将通信成本从$\Omega(n \times N)$显著降低到$O(\varepsilon m)$,甚至低于非隐私情况所需的$\Omega(m \log n)$。随着隐私预算的降低,通信成本进一步减少。理论上证明了该方法与随机响应的结果相同,并通过实验验证了其在准确性、通信效率和计算复杂度方面的有效性。
Conclusion: 该算法在差分隐私下实现了稀疏向量聚合矩阵的通信高效发布,解决了传统方法的通信开销问题,同时保持了准确性并优化了计算复杂度,提高了隐私保护的效率。
ai_Abstract: 本文提出了一种创新的差分隐私算法,旨在高效发布由稀疏向量聚合的矩阵,如社交网络、推荐系统和DNA数据中的矩阵。针对传统随机响应方法高昂的通信成本问题,该算法将通信开销从$\Omega(n \times N)$显著降低至$O(\varepsilon m)$,甚至优于非隐私情况。研究通过理论分析和实验验证,证明了该方法在保证与随机响应相同结果的前提下,在准确性、通信效率和计算复杂度方面均表现出色,实现了更好的隐私保护和更高的效率。
摘要翻译: 标题:差分隐私下稀疏向量的通信高效发布
摘要:在这项工作中,我们提出了一种差分隐私算法,用于发布由稀疏向量聚合而成的矩阵。这些矩阵包括社交网络邻接矩阵、推荐系统中的用户-项目交互矩阵以及DNA数据中的单核苷酸多态性(SNP)。传统上,向量集合中的差分隐私依赖于随机响应,但这种方法会产生高昂的通信成本。具体而言,对于一个具有N个用户、n列和m个非零元素的矩阵,传统方法需要$\Omega(n \times N)$的通信量,这使得它们在大规模数据中不切实际。我们的算法将此成本显著降低到$O(\varepsilon m)$,其中$\varepsilon$是隐私预算。值得注意的是,这甚至低于非隐私情况,非隐私情况需要$\Omega(m \log n)$的通信量。此外,随着隐私预算的降低,通信成本进一步减少,从而在提高效率的同时实现更好的隐私保护。我们从理论上证明了我们的方法产生的结果与随机响应的结果相同,并且实验评估证实了其在准确性、通信效率和计算复杂度方面的有效性。
[247] Don't Hash Me Like That: Exposing and Mitigating Hash-Induced Unfairness in Local Differential Privacy
别那样哈希我:揭示和缓解局部差分隐私中哈希引起的公平性问题
Berkay Kemal Balioglu, Alireza Khodaie, Mehmet Emre Gursoy | Category: cs.CR
Keywords: 局部差分隐私, 哈希函数, 不公平性, Fair-OLH, 隐私保护
Comment:
TL;DR: 本文揭示了局部差分隐私(LDP)协议中哈希函数可能导致的不公平性,并提出了一种名为Fair-OLH(F-OLH)的新方法来缓解这种问题,实验证明其有效性。
AI_Comments: 本文的创新之处在于首次揭示了局部差分隐私(LDP)中哈希函数可能导致的不公平性,这是一个此前未被关注的重要问题。通过量化哈希函数差异对攻击漏洞的影响,并提出Fair-OLH这一具有熵基公平性约束的解决方案,该研究为LDP协议的设计提供了新的视角和改进方向,对于提升LDP的实际应用公平性具有重要意义。
Details
Motivation: 在局部差分隐私(LDP)中,许多协议依赖哈希函数进行用户侧编码和扰动,但哈希函数选择的安全和隐私影响此前未被研究。本文旨在揭示哈希函数可能成为LDP协议中不公平性的来源,因为不同的哈希函数会导致用户在推断和投毒攻击中的漏洞存在显著差异。
Method: 本文首先揭示了哈希函数在局部差分隐私(LDP)协议中可能导致不公平性,表现为尽管用户在相同协议和隐私预算下操作,但哈希函数的差异会导致推断和投毒攻击的漏洞存在显著差异。为缓解这种哈希引起的不公平性,本文提出了Fair-OLH(F-OLH),它是OLH的一种变体,对哈希函数选择施加基于熵的公平性约束。
Result: 实验表明,Fair-OLH(F-OLH)在可接受的时间开销下有效缓解了哈希引起的不公平性。
Conclusion: 本文得出结论,哈希函数在局部差分隐私协议中可能导致不公平性,并且所提出的Fair-OLH方法能够有效地缓解这种由哈希引起的公平性问题。
ai_Abstract: 本文探讨了局部差分隐私(LDP)协议中哈希函数选择未被充分研究的安全和隐私影响。研究发现,哈希函数可能导致LDP协议中的不公平性,具体表现为不同哈希函数会导致用户在面对推断和投毒攻击时具有不同的脆弱性。为解决此问题,论文提出了一种新的方法Fair-OLH(F-OLH),它通过对哈希函数选择施加基于熵的公平性约束来缓解这种不公平性。实验结果验证了F-OLH在可接受的时间开销下有效缓解了哈希引起的不公平性。
摘要翻译: 局部差分隐私(LDP)已成为一种广泛接受的隐私保护数据收集框架。在LDP中,许多协议依赖哈希函数来实现用户侧编码和扰动。然而,哈希函数选择的安全和隐私影响此前尚未被研究。在本文中,我们揭示了哈希函数可能成为LDP协议中不公平性的来源。我们表明,尽管用户在相同的协议和隐私预算下操作,但哈希函数的差异可能导致推断和投毒攻击的漏洞存在显著差异。为了缓解哈希引起的不公平性,我们提出了Fair-OLH(F-OLH),它是OLH的一种变体,对哈希函数选择施加了基于熵的公平性约束。实验表明,F-OLH在可接受的时间开销下有效缓解了哈希引起的不公平性。
[255] SV-LLM: An Agentic Approach for SoC Security Verification using Large Language Models
SV-LLM:一种使用大型语言模型进行SoC安全验证的代理方法
Dipayan Saha, Shams Tarek, Hasan Al Shaikh, Khan Thamid Hasan, Pavan Sai Nalluri, Md. Ajoad Hasan, Nashmin Alam, Jingbo Zhou, Sujan Kumar Saha, Mark Tehranipoor, Farimah Farahmandi | Category: cs.CR, cs.AI, cs.MA
Keywords: SoC安全验证, 大型语言模型, 多智能体系统, SV-LLM, 硬件安全
Comment:
TL;DR: SV-LLM是一个多智能体系统,利用LLM自动化和增强SoC安全验证,通过集成专业代理和优化学习范式来提高效率和准确性。
AI_Comments: 该论文创新性地将多智能体系统与大型语言模型相结合,以解决传统SoC安全验证的痛点。其代理方法能够有效分解复杂任务,提高自动化程度和验证效率。该系统在硬件安全领域具有重要意义,有望推动设计周期早期风险识别和缓解。
Details
Motivation: 传统的SoC安全验证技术在自动化、可扩展性、全面性和适应性方面面临巨大挑战,无法跟上复杂SoC设计的安全需求。大型语言模型(LLMs)的出现为解决这些问题提供了新范式。
Method: 提出SV-LLM,一个新颖的多智能体辅助系统。该系统通过创建多智能体系统,其中专门的LLM协同工作。这些代理负责验证问答、安全资产识别、威胁建模、测试计划和属性生成、漏洞检测以及基于仿真的错误验证等任务。为了优化性能,代理利用不同的学习范式,如上下文学习、微调和检索增强生成(RAG)。
Result: 旨在减少人工干预,提高准确性,加速安全分析,支持在设计周期早期主动识别和缓解风险。通过说明性案例研究和实验展示了其在改变硬件安全实践方面的潜力、适用性和有效性。
Conclusion: SV-LLM通过其多智能体方法和LLM的集成,为SoC安全验证提供了一个创新且高效的解决方案,有望显著改善硬件安全实践。
ai_Abstract: SV-LLM是一个利用大型语言模型(LLMs)的多智能体系统,旨在自动化和增强片上系统(SoC)的安全验证。它通过集成专门的LLM代理来处理如威胁建模、漏洞检测等任务,并采用多种学习范式(如RAG)来优化性能,从而减少人工干预,提高验证效率和准确性,实现早期风险识别和缓解。
摘要翻译: 确保复杂片上系统(SoC)设计的安全性至关重要,然而,传统的验证技术由于在自动化、可扩展性、全面性和适应性方面面临巨大挑战,难以跟上进度。大型语言模型(LLM)的出现,凭借其在自然语言理解、代码生成和高级推理方面的卓越能力,为解决这些问题提供了新的范式。超越单一模型,代理方法允许创建多智能体系统,其中专门的LLM协同工作,更有效地解决复杂问题。认识到这一机遇,我们引入了SV-LLM,一个新颖的多智能体辅助系统,旨在自动化和增强SoC安全验证。通过集成用于验证问答、安全资产识别、威胁建模、测试计划和属性生成、漏洞检测以及基于仿真的错误验证等任务的专业代理,SV-LLM简化了工作流程。为了优化其在这些多样化任务中的性能,代理利用了不同的学习范式,例如上下文学习、微调和检索增强生成(RAG)。该系统旨在减少人工干预,提高准确性,加速安全分析,支持在设计周期早期主动识别和缓解风险。我们通过说明性案例研究和实验展示了其改变硬件安全实践的潜力、适用性和有效性。
[267] Vulnerability Disclosure through Adaptive Black-Box Adversarial Attacks on NIDS
通过对NIDS的自适应黑盒对抗性攻击进行漏洞披露
Sabrine Ennaji, Elhadj Benkhelifa, Luigi V. Mancini | Category: cs.CR, cs.AI
Keywords: 对抗性攻击, 黑盒, NIDS, 网络流量, 漏洞披露
Comment:
TL;DR: 本文提出了一种自适应黑盒对抗性攻击方法,用于网络入侵检测系统(NIDS),旨在通过最小化交互来规避检测,从而弥补现有方法的不足。
AI_Comments: 该论文解决了在网络流量等结构化数据上进行对抗性攻击的一个关键实践差距。其创新之处在于严格遵循黑盒约束和自适应特征选择策略,这使得攻击更加真实且计算效率更高。专注于NIDS对网络安全领域具有高度相关性。
Details
Motivation: 现有针对网络流量等结构化数据的对抗性攻击方法在理论与实践之间存在关键差距,难以处理相互依赖的特征,缺乏可重现性,且当前防御措施无法应对不断演进的攻击。
Method: 提出了一种新颖的黑盒对抗性攻击方法,该方法严格遵循黑盒约束,减少交互以避免检测,并采用基于变点检测和因果分析的自适应特征选择策略来识别并针对敏感特征进行扰动。该设计轻量化。
Result: 实验证明,该攻击在最小交互下能有效规避检测,增强了其在真实世界场景中的适应性和适用性。
Conclusion: 这项工作加深了对网络流量中对抗性攻击的理解,为开发强大的防御措施奠定了基础。
ai_Abstract: 本文提出了一种新颖、轻量级的黑盒对抗性攻击方法,用于网络入侵检测系统(NIDS),旨在克服现有方法的局限性,如对系统访问的假设和高交互需求。该方法采用基于变点检测和因果分析的自适应特征选择策略,以识别网络流量中易受攻击的敏感特征。实验证明,该方法能以最小的交互有效规避检测,展现出高度的适应性和在真实世界场景中的适用性,从而有助于加深对对抗性攻击的理解并促进鲁棒防御措施的开发。
摘要翻译: 对抗性攻击,即精心制作微小的输入以误导智能模型,已引起越来越多的关注。然而,理论进展与实际应用之间存在一个关键差距,特别是在网络流量等结构化数据中,相互依赖的特征使有效的对抗性操作复杂化。此外,当前方法的模糊性限制了可重现性并阻碍了该领域的进展。因此,现有防御措施往往无法应对不断演进的对抗性攻击。
本文提出了一种新颖的黑盒对抗性攻击方法,解决了这些局限性。与通常假设系统访问或依赖重复探测的先前工作不同,我们的方法严格遵守黑盒约束,减少交互以避免检测,并更好地反映真实世界场景。我们提出了一种使用变点检测和因果分析的自适应特征选择策略,以识别并针对敏感特征进行扰动。这种轻量级设计确保了低计算成本和高可部署性。我们的综合实验表明,该攻击在最小交互下规避检测的有效性,增强了其在真实世界场景中的适应性和适用性。通过加深对网络流量中对抗性攻击的理解,这项工作为开发强大的防御措施奠定了基础。
[273] On the Impact of Sybil-based Attacks on Mobile Crowdsensing for Transportation
基于Sybil攻击对交通移动众包影响的研究
Alexander Söderhäll, Zahra Alimadadi, Panos Papadimitratos | Category: cs.CR
Keywords: 移动众包, Sybil攻击, 交通, 导航, 模拟
Comment: 7 pages, 5 figures, 2 tables, TrustSense workshop of PerCom 2025
TL;DR: 研究了Sybil攻击对交通导航移动众包系统(N-MCS)的影响,发现此类攻击能显著增加用户出行时间,并分析了攻击成功的资源需求。
AI_Comments: 本文揭示了移动众包系统在交通领域面临的严重安全威胁,特别是Sybil攻击的潜在破坏力。其创新之处在于通过模拟实验量化了攻击对出行时间的影响,并指出了攻击成功与攻击位置和数据量之间的关系。这对于未来设计更鲁棒的众包导航系统具有重要指导意义。
Details
Motivation: 导航移动众包应用(N-MCS)在交通领域广泛应用,但它们容易受到恶意贡献者(Sybil)的攻击,这些攻击通过提交虚假数据来误报拥堵,从而导致N-MCS提供次优路线,增加出行时间并恶化交通流量。本研究旨在精确调查Sybil攻击对N-MCS的影响。
Method: 设计了一个基于车载模拟器SUMO的N-MCS系统,并在InTAS路网场景下进行实验。实验设计针对单个N-MCS用户和更大用户群体进行攻击,并基于图论选择攻击目标。
Result: 实验表明,成功攻击所需的资源取决于攻击位置(即周围路网和交通状况)以及Sybil贡献数据对目标道路的程度。研究证明,Sybil攻击可以改变N-MCS用户的路线,当Sybil用户占N-MCS用户总数的3%时,平均出行时间可增加20%。
Conclusion: Sybil攻击对交通领域的移动众包系统具有显著影响,能够有效改变用户路线并大幅增加出行时间,其影响程度与攻击的策略和资源投入有关。
ai_Abstract: 本研究深入探讨了Sybil攻击对交通导航移动众包系统(N-MCS)的负面影响。N-MCS通过用户共享位置和速度提供高效路线,但易受Sybil攻击者提交虚假拥堵数据,导致系统提供次优路线并恶化交通。研究团队设计了一个基于SUMO模拟器的N-MCS系统,并在InTAS路网中进行实验。结果显示,攻击的成功依赖于攻击位置和Sybil数据贡献量,且仅3% A92E 的Sybil用户即可使N-MCS用户的平均出行时间增加20%。这强调了N-MCS系统在面对此类恶意行为时的脆弱性。
摘要翻译: 移动众包(MCS)使用户能够通过个人移动设备(PMD)获取周围信息。用户使用其PMD传感器收集和贡献不同现象的数据,MCS系统处理这些数据以提取对终端用户有价值的信息。基于MCS的导航应用(N-MCS)在交通领域普遍且重要:用户在驾驶时分享他们的位置和速度,作为回报,可以找到到达目的地的有效路线。然而,N-MCS目前容易受到恶意贡献者(通常称为Sybil)的攻击:他们提交伪造数据,这些数据看似来自许多实际上不存在于目标道路上的设备,虚假报告拥堵,从而改变N-MCS推断的道路状态。攻击的效果是N-MCS向用户返回次优路线,导致迟到,并总体上恶化道路交通流量。我们正是调查了基于Sybil的攻击对N-MCS的影响:我们设计了一个N-MCS系统,该系统在车载模拟器SUMO之上提供高效路由,并使用InTAS路网作为我们的场景。我们设计了攻击单个N-MCS用户以及更大用户群体的实验,并根据图论论证选择攻击目标。我们的实验表明,成功攻击所需的资源取决于攻击位置(即周围路网和交通状况)以及Sybil贡献数据对目标道路的程度。我们证明,Sybil攻击可以改变N-MCS用户的路线,当Sybil用户占N-MCS用户总数的3%时,平均出行时间可增加20%。
cs.AI
[7] Prover Agent: An Agent-based Framework for Formal Mathematical Proofs
Prover Agent:一个用于形式化数学证明的基于代理的框架
Kaito Baba, Chaoran Liu, Shuhei Kurita, Akiyoshi Sannai | Category: cs.AI, cs.LG
Keywords: 自动化定理证明, 大型语言模型, 形式化证明, Lean, AI代理
Comment: 22 pages, 2 figures
TL;DR: Prover Agent是一个结合LLM和Lean的形式化定理证明AI代理,通过协调非形式化推理LLM、形式化证明模型和Lean反馈,并生成辅助引理,在MiniF2F基准测试中取得了86.1%的成功率,创下了使用小型语言模型的SOTA。
AI_Comments: Prover Agent的创新之处在于其将LLM的非形式化推理能力与Lean的形式化验证能力相结合,并通过生成辅助引理来指导证明过程,这显著提升了自动化定理证明的效率和成功率。其在MiniF2F基准测试上取得的SOTA成果,特别是以更低的样本预算,显示了其在资源效率方面的优势和重要性。
Details
Motivation: 该研究的动机是开发一种新型AI代理,用于自动化定理证明,以提高现有方法的效率和成功率,特别是在处理复杂数学证明时。
Method: Prover Agent通过整合大型语言模型(LLMs)与形式化证明助手Lean来实现自动化定理证明。它协调一个非形式化推理LLM、一个形式化证明模型以及来自Lean的反馈,同时生成辅助引理以帮助发现整体证明策略。
Result: Prover Agent在MiniF2F基准测试中取得了86.1%的成功率,这在使用小型语言模型(SLMs)的方法中达到了新的最先进水平(state-of-the-art),并且比之前的方法所需的样本预算低得多。论文还通过案例研究展示了生成引理如何有助于解决挑战性问题。
Conclusion: Prover Agent通过结合LLM和形式化证明助手Lean,并引入辅助引理生成机制,显著提升了自动化定理证明的性能,并在MiniF2F基准测试中取得了SOTA成果,证明了其在解决复杂数学证明方面的有效性。
ai_Abstract: Prover Agent是一个创新的AI代理,旨在自动化形式化数学证明。它将大型语言模型与Lean形式化证明助手相结合,通过协调非形式化推理LLM、形式化证明模型和Lean反馈,并生成辅助引理来发现证明策略。该系统在MiniF2F基准测试中达到了86.1%的成功率,超越了现有使用小型语言模型的方法,且样本需求更少。案例研究进一步证明了其在解决复杂问题中的有效性。
摘要翻译: 我们提出了Prover Agent,这是一种新颖的AI代理,用于自动化定理证明,它将大型语言模型(LLMs)与形式化证明助手Lean集成在一起。Prover Agent协调一个非形式化推理LLM、一个形式化证明模型以及来自Lean的反馈,同时生成辅助引理以帮助发现整体证明策略。它在MiniF2F基准测试中取得了86.1%的成功率,在使用小型语言模型(SLMs)的方法中建立了新的最先进水平,并且比之前的方法所需的样本预算低得多。我们还提供了案例研究,说明这些生成的引理如何有助于解决挑战性问题。
[22] Context Attribution with Multi-Armed Bandit Optimization
基于多臂老虎机优化的上下文归因
Deng Pan, Keerthiram Murugesan, Nuno Moniz, Nitesh Chawla | Category: cs.AI
Keywords: 上下文归因, 多臂老虎机, 大型语言模型, 汤普森采样, 可解释性
Comment:
TL;DR: 该论文提出了一种新的框架,将上下文归因建模为组合多臂老虎机(CMAB)问题,并使用组合汤普森采样(CTS)来高效识别大型语言模型(LLM)生成答案的贡献上下文片段。与传统方法相比,该方法显著提高了查询效率和归因准确性。
AI_Comments: 该论文创新性地将多臂老虎机优化应用于大型语言模型的上下文归因问题,通过将归因重构为CMAB问题并利用CTS,有效解决了传统扰动方法(如SHAP)计算成本高昂的限制。其自适应的探索与利用策略是关键优势,为构建更高效、可解释的生成式问答系统提供了有价值的解决方案。
Details
Motivation: 理解检索到的上下文的哪些部分对大型语言模型生成的答案有所贡献,对于构建可解释和可信赖的生成式问答系统至关重要。
Method: 该方法将上下文归因表述为组合多臂老虎机(CMAB)问题。每个上下文片段被视为一个老虎机臂,并采用组合汤普森采样(CTS)在有限的查询预算下高效探索指数级大的上下文子集空间。奖励函数基于归一化的令牌似然度定义,捕捉子集对原始模型响应的支持程度。与传统的基于扰动的归因方法不同,该方法通过利用片段相关性的后验估计,自适应地平衡探索和利用。
Result: 该方法在保持高归因保真度的同时,显著提高了查询效率。在各种数据集和大型语言模型上的大量实验表明,该方法以更少的模型查询实现了具有竞争力的归因质量。
Conclusion: 该论文提出的基于组合多臂老虎机和组合汤普森采样的上下文归因方法,能够高效且有效地识别LLM生成答案的贡献上下文片段,从而在减少查询次数的同时提高可解释性和可信度。
ai_Abstract: 本文提出一种新颖的框架,将大型语言模型(LLM)的上下文归因问题建模为组合多臂老虎机(CMAB)问题。通过将每个上下文片段视为一个老虎机臂,并利用组合汤普森采样(CTS)高效探索上下文子集,该方法定义了一个基于令牌似然度的奖励函数来评估子集支持度。与传统的扰动方法不同,该方法自适应地平衡探索与利用,显著提高了查询效率和归因保真度,并在实验中展现出以更少查询达到竞争性归因质量的能力。
摘要翻译: 理解检索到的上下文的哪些部分对大型语言模型生成的答案有所贡献,对于构建可解释和可信赖的生成式问答系统至关重要。我们提出了一种新颖的框架,将上下文归因表述为一个组合多臂老虎机(CMAB)问题。每个上下文片段被视为一个老虎机臂,我们采用组合汤普森采样(CTS)在有限的查询预算下高效探索指数级大的上下文子集空间。我们的方法定义了一个基于归一化令牌似然度的奖励函数,捕捉子集片段对原始模型响应的支持程度。与传统的基于扰动的归因方法(如SHAP)不同,后者均匀采样子集并产生高计算成本,我们的方法通过利用片段相关性的后验估计,自适应地平衡探索和利用。这显著提高了查询效率,同时保持了高归因保真度。在各种数据集和LLM上的大量实验表明,我们的方法以更少的模型查询实现了具有竞争力的归因质量。
[27] Achieving Trustworthy Real-Time Decision Support Systems with Low-Latency Interpretable AI Models
利用低延迟可解释AI模型实现可信实时决策支持系统
Zechun Deng, Ziwei Liu, Ziqian Bi, Junhao Song, Chia Xin Liang, Joe Yeong, Junfeng Hao | Category: cs.AI, cs.AR
Keywords: 实时决策支持, 低延迟AI, 可解释AI, 边缘-物联网, 大型语言模型
Comment:
TL;DR: 本文探讨了如何利用低延迟可解释AI模型,结合边缘-物联网技术和人机协作,构建可信的实时决策支持系统,并展望了未来发展。
AI_Comments: 该论文的创新点在于将低延迟可解释AI模型与实时决策支持系统相结合,并融入了边缘-物联网技术和人机协作的理念。它还特别关注了大型语言模型在资源受限环境下的应用,并探讨了DeLLMa等前沿技术对模型效率和可解释性的影响。重要性体现在为构建可信、高效的AI驱动决策系统提供了实践指导和未来方向。
Details
Motivation: 本研究旨在探索如何利用低延迟AI模型,结合最新的人工智能决策工具、边缘-物联网技术以及有效的人机协作方法,构建可信的实时决策支持系统,尤其是在资源受限的环境下。
Method: 本文通过详细的综述,审视了大型语言模型在决策支持中的应用、DeLLMa等技术进展、模型压缩方法以及边缘设备上的分析改进,并讨论了资源限制和对适应性框架的需求。
Result: 本文提供了关于开发策略和应用领域的实用视角,并指出了实现更高效、更灵活的AI支持系统的新机会。
Conclusion: 研究结论为该快速变化领域的未来突破奠定了基础,强调了人工智能如何重塑实时决策支持。
ai_Abstract: 本文综述了利用低延迟可解释AI模型构建可信实时决策支持系统的方法。研究整合了AI驱动决策工具、边缘-物联网技术和人机协作的最新进展,探讨了大型语言模型在资源受限环境下的决策辅助作用,并审视了包括DeLLMa、模型压缩和边缘分析改进等技术发展。文章提供了实用的开发策略和应用领域视角,旨在促进更高效、灵活的AI支持系统,并展望了AI在实时决策支持领域的未来潜力。
摘要翻译: 本文研究了利用低延迟人工智能模型实现实时决策支持系统,汇集了人工智能驱动决策工具、与边缘-物联网技术集成以及有效人机协作方法的最新进展。它探讨了大型语言模型如何协助决策,尤其是在资源有限的情况下。该研究还考察了DeLLMa等技术发展、模型压缩方法以及边缘设备分析改进的影响,同时解决了资源有限和对适应性框架需求等问题。通过详细的综述,本文提供了关于开发策略和应用领域的实用视角,为该领域做出了贡献,指出了实现更高效、更灵活的AI支持系统的机会。结论为这个快速变化的领域的未来突破奠定了基础,强调了人工智能如何重塑实时决策支持。
[35] QHackBench: Benchmarking Large Language Models for Quantum Code Generation Using PennyLane Hackathon Challenges
QHackBench:使用PennyLane黑客马拉松挑战赛对大型语言模型进行量子代码生成基准测试
Abdul Basit, Minghao Shao, Haider Asif, Nouhaila Innan, Muhammad Kashif, Alberto Marchisio, Muhammad Shafique | Category: cs.AI, cs.PL, cs.SE, 68T50, 81P68, 68T07, 68T20, I.2.7; I.2.2
Keywords: 大型语言模型, 量子代码生成, PennyLane, QHackBench, 基准测试
Comment: 8 pages, 6 figures, 3 tables, submitted to QAI 2025
TL;DR: 本文介绍了QHackBench,一个用于评估大型语言模型(LLMs)生成量子代码的基准,结果显示检索增强生成(RAG)模型与标准提示效果相似,且多智能体管道能提高执行成功率。
AI_Comments: 该研究的创新之处在于创建了一个基于真实世界挑战的量子代码生成LLM基准数据集(QHackBench),填补了该领域研究不足的空白。引入多智能体精炼管道以提高解决方案质量也是一个重要的贡献。数据集和评估框架的公开发布对促进未来AI辅助量子编程研究至关重要。
Details
Motivation: 大型语言模型(LLMs)在代码生成方面潜力巨大,但它们在量子计算代码生成领域的有效性尚未得到充分探索。本研究旨在通过基准测试来填补这一空白。
Method: 研究引入了QHackBench,一个来源于量子黑客马拉松(QHack)竞赛的新型基准数据集。通过普通提示(vanilla prompting)和检索增强生成(RAG)两种方式评估了模型的性能,并采用结构化评估框架来衡量功能正确性、语法有效性和执行成功率。此外,还引入了一个多智能体评估管道,用于迭代地改进不正确的解决方案。
Result: 结果表明,增强了PennyLane数据集的RAG增强模型与标准提示生成的结果大致相似,尤其是在复杂的量子算法中。此外,多智能体评估管道能够进一步提高执行成功率。
Conclusion: 本研究通过QHackBench对LLMs进行量子代码生成基准测试,表明RAG方法与标准提示表现相当,并且多智能体精炼管道能有效提升成功率,对AI辅助量子编程的进步做出了贡献。
ai_Abstract: 本文引入了QHackBench,一个来源于量子黑客马拉松(QHack)挑战的新型基准数据集,旨在评估大型语言模型(LLMs)在基于PennyLane的量子代码生成方面的能力。研究评估了LLM在普通提示和检索增强生成(RAG)下的性能,并从功能正确性、语法有效性和执行成功率等维度进行评估。结果显示,RAG增强模型,特别是在补充了增强的PennyLane数据集后,其表现与标准提示大致相似,尤其是在处理复杂量子算法时。此外,研究还提出了一个多智能体评估管道,能够迭代地优化不正确的解决方案,显著提高了执行成功率。为了促进后续研究,QHackBench数据集、评估框架和实验结果将公开发布。
摘要翻译: 大型语言模型(LLMs)的最新进展在代码生成方面展现出强大潜力,然而它们在量子计算中的有效性仍未被充分探索。本文使用来自量子黑客马拉松(QHack)的真实世界挑战,对基于PennyLane的量子代码生成LLMs进行了基准测试。我们引入了QHackBench,一个源自QHack竞赛的新型基准数据集,并评估了模型在普通提示(vanilla prompting)和检索增强生成(RAG)下的性能。我们结构化的评估框架在不同挑战难度下评估了功能正确性、语法有效性和执行成功率。结果表明,通过增强的PennyLane数据集补充的RAG增强模型,与标准提示生成的结果大致相似,尤其是在复杂的量子算法中。此外,我们引入了一个多智能体评估管道,该管道迭代地改进不正确的解决方案,进一步提高了执行成功率。为了促进进一步的研究,我们承诺公开QHackBench,以及我们的评估框架和实验结果,以实现AI辅助量子编程的持续进步。
[47] Accurate and Energy Efficient: Local Retrieval-Augmented Generation Models Outperform Commercial Large Language Models in Medical Tasks
准确且节能:本地检索增强生成模型在医疗任务中超越商业大型语言模型
Konstantinos Vrettos, Michail E. Klontzas | Category: cs.AI, cs.CL, I.2.7
Keywords: 检索增强生成, 医疗AI, 大型语言模型, 能源效率, 可持续AI
Comment: 18 pages, 3 Figures
TL;DR: 本地RAG模型在医疗任务中比商业LLM更准确、更节能,并且对环境影响更小。
AI_Comments: 这篇论文的创新点在于提出了一个可定制的本地RAG框架,并明确量化了其在医疗任务中相对于商业LLM在准确性和能耗方面的优势。它不仅解决了AI在医疗领域应用中的隐私和安全担忧,还积极响应了当前对AI环境影响的关注,与联合国可持续发展目标相契合,具有重要的实践意义和前瞻性。
Details
Motivation: 背景:人工智能在医疗领域的应用日益增长,但商业大型语言模型(LLMs)如ChatGPT和DeepSeek需要大量资源,且在医疗用途中引发患者隐私和安全问题。研究旨在开发更环保、更安全的医疗AI解决方案。
Method: 研究开发了一个可定制的医疗任务检索增强生成(RAG)框架,并监控其能耗和碳排放。该系统用于构建基于不同开源LLM(包括通用模型llama3.1:8b和特定医疗领域模型medgemma-4b-it)的RAG模型。将最佳RAG模型的性能和能耗与商业模型DeepSeekV3-R1和OpenAI的o4-mini模型进行比较,评估数据集为医疗问题。
Result: 定制RAG模型在准确性和能耗方面均优于商业模型。基于llama3.1:8B的RAG模型实现了最高准确率(58.5%),显著优于o4-mini和DeepSeekV3-R1等模型。llama3.1-RAG在所有模型中能耗和碳足迹最低,每千瓦时性能为0.52,总碳排放量为473克。与o4-mini相比,llama3.1-RAG每千瓦时准确率点数高出2.7倍,用电量减少172%,同时保持更高的准确率。
Conclusion: 本研究表明,可以利用本地LLM开发RAG模型,这些模型在医疗任务中表现优于商业在线LLM,同时对环境影响更小。该模块化框架促进了可持续AI发展,减少了用电量,并符合联合国可持续发展目标。
ai_Abstract: 本研究开发了一个可定制的检索增强生成(RAG)框架,用于医疗任务,旨在解决商业大型语言模型(LLMs)在医疗领域的高资源消耗和隐私问题。通过比较基于开源LLM(如llama3.1:8b)构建的本地RAG模型与商业LLM(如DeepSeekV3-R1和o4-mini),结果显示本地RAG模型在医疗任务的准确性和能耗方面均表现更优,特别是基于llama3.1:8B的模型,其准确率最高且碳足迹最低。研究强调本地RAG模型在医疗应用中的潜力,能够提供高性能的同时,促进更可持续的AI发展。
摘要翻译: 背景:人工智能(AI)在医疗保健领域日益普及,引发了对其环境和伦理影响日益增长的担忧。ChatGPT和DeepSeek等商业大型语言模型(LLMs)需要大量资源,而将这些系统用于医疗目的则引发了有关患者隐私和安全的关键问题。方法:我们开发了一个可定制的用于医疗任务的检索增强生成(RAG)框架,该框架监控其能源使用和二氧化碳排放。然后,该系统用于创建基于各种开源LLM的RAG。测试的模型包括通用模型如llama3.1:8b和特定医疗领域模型medgemma-4b-it。最佳RAG的性能和能耗与DeepSeekV3-R1和OpenAIs o4-mini模型进行了比较。评估使用了医疗问题数据集。结果:定制的RAG模型在准确性和能耗方面均优于商业模型。基于llama3.1:8B的RAG模型实现了最高准确率(58.5%),并且显著优于其他模型,包括o4-mini和DeepSeekV3-R1。llama3.1-RAG在所有模型中也表现出最低的能耗和二氧化碳足迹,每千瓦时性能为0.52,总二氧化碳排放量为473克。与o4-mini相比,llama3.1-RAG每千瓦时实现了2.7倍的准确率提升,用电量减少了172%,同时保持了更高的准确率。结论:我们的研究表明,可以利用本地LLM开发RAG模型,这些模型在医疗任务中表现优于商业在线LLM,同时对环境影响更小。我们的模块化框架促进了可持续AI发展,减少了用电量,并符合联合国可持续发展目标。
[82] Persona-Assigned Large Language Models Exhibit Human-Like Motivated Reasoning
人格化大型语言模型表现出类人动机性推理
Saloni Dash, Amélie Reymond, Emma S. Spiro, Aylin Caliskan | Category: cs.AI, cs.CL
Keywords: 动机性推理, 大型语言模型, 认知偏见, 人格, 去偏
Comment:
TL;DR: 分配了人格的大型语言模型表现出类似人类的动机性推理,导致它们偏向于与身份一致的结论,并且这种偏见难以消除。
AI_Comments: 这项研究具有创新性,因为它首次证明了人格化LLMs中存在类似人类的动机性推理。其重要性在于揭示了当前LLMs的一个显著局限性以及常见去偏技术的无效性,这对于LLMs在信息传播和公共讨论等敏感领域的部署具有关键影响,并可能加剧社会两极分化。
Details
Motivation: 人类推理容易受到动机(如身份保护)导致的偏见影响,这会损害理性决策和判断,并在集体层面加剧社会问题,如气候变化或疫苗安全辩论。先前的研究表明大型语言模型(LLMs)也容易受到类似人类的认知偏见影响,但LLMs在多大程度上选择性地朝向与身份一致的结论进行推理,仍未被充分探索。
Method: 研究通过为8个LLMs(包括开源和专有模型)分配8种人格(涵盖4种政治和社会人口属性)来调查是否会引发动机性推理。通过人类受试者研究中的两个推理任务——错误信息标题的真实性辨别和数字科学证据的评估——对这些模型进行了测试。
Result: 分配了人格的LLMs在真实性辨别方面表现出高达9%的下降。特别是政治人格,当科学证据(例如关于枪支管制)的真实情况与其所设定的政治身份一致时,它们正确评估该证据的可能性最高可提高90%。基于提示的去偏方法在缓解这些影响方面基本无效。
Conclusion: 本研究的实证结果首次表明,分配了人格的LLMs表现出类似人类的动机性推理,且难以通过常规的去偏提示来缓解。这引发了对LLMs和人类中身份一致性推理可能加剧的担忧。
ai_Abstract: 本文探讨了为大型语言模型(LLMs)分配人格是否会诱发类似人类的动机性推理。通过对8个LLMs分配8种不同人格,并在真实性辨别和科学证据评估两项任务上进行测试,研究发现,分配了人格的LLMs在真实性辨别上表现出下降,并且更倾向于使其推理与设定的身份保持一致,尤其是在政治身份方面。更重要的是,传统的基于提示的去偏方法在减轻这些偏见方面效果甚微。这表明LLMs能够表现出难以消除的动机性推理,对信息传播和社会讨论具有重要影响。
摘要翻译: 人类的推理容易受到潜在动机(如身份保护)导致的偏见影响,这会损害理性的决策和判断。这种在集体层面的动机性推理在辩论气候变化或疫苗安全等关键问题时可能对社会有害,并可能进一步加剧政治两极分化。先前的研究报告称,大型语言模型(LLMs)也容易受到类似人类的认知偏见影响,然而,LLMs在多大程度上选择性地朝向与身份一致的结论进行推理,在很大程度上仍未被探索。在这里,我们调查了为8个LLMs分配8种人格(涵盖4种政治和社会人口属性)是否会引发动机性推理。我们对8个LLMs(包括开源和专有模型)进行了测试,使用了人类受试者研究中的两个推理任务——错误信息标题的真实性辨别和数字科学证据的评估——我们发现,与没有人格的模型相比,分配了人格的LLMs在真实性辨别方面下降了高达9%。特别是政治人格,当真实情况与其所设定的政治身份一致时,它们正确评估枪支管制科学证据的可能性最高可提高90%。基于提示的去偏方法在缓解这些影响方面基本无效。总而言之,我们的实证结果首次表明,分配了人格的LLMs表现出类似人类的动机性推理,且难以通过常规的去偏提示来缓解——这引发了对LLMs和人类中身份一致性推理可能加剧的担忧。
[102] DiaLLMs: EHR Enhanced Clinical Conversational System for Clinical Test Recommendation and Diagnosis Prediction
DiaLLMs:EHR增强的临床对话系统,用于临床测试推荐和诊断预测
Weijieying Ren, Tianxiang Zhao, Lei Wang, Tianchun Wang, Vasant Honavar | Category: cs.AI
Keywords: 医学LLM, EHR, 临床对话系统, 诊断预测, 强化学习
Comment:
TL;DR: DiaLLM是一个结合EHR数据的医学LLM,用于临床测试推荐、结果解读和诊断预测,通过强化学习和采样策略实现,并在实验中表现优于基线。
AI_Comments: DiaLLM通过将EHR数据整合到医学LLM中,显著提高了模型在临床测试推荐、结果解读和诊断预测方面的能力,使其更符合实际医疗实践。其创新点在于结合了强化学习框架、CTR策略、拒绝采样以及定制奖励机制,有效处理了多任务和复杂数据。这对于提升医疗AI的实用性和准确性具有重要意义。
Details
Motivation: 现有医学大语言模型(LLMs)在医疗咨询方面取得了进展,但它们忽视了电子健康记录(EHR)的关键作用,并且主要侧重于诊断推荐,这限制了其临床适用性,与现实世界的医疗实践不符。
Method: 本文提出了DiaLLM,这是首个将异构EHR数据整合到临床对话中的医学LLM。它设计了临床测试参考(CTR)策略,将临床代码映射到描述并分类测试结果。DiaLLM采用强化学习框架进行证据获取和自动化诊断,并引入拒绝采样策略处理大动作空间。此外,还设计了确认奖励和类别敏感诊断奖励以指导准确诊断预测。
Result: 广泛的实验结果表明,DiaLLM在临床测试推荐和诊断预测方面优于现有基线模型。
Conclusion: Not mentioned in abstract.
ai_Abstract: DiaLLM是一个创新的医学大语言模型,它解决了现有医学LLMs忽视EHR数据和仅关注诊断推荐的局限性。DiaLLM通过整合异构EHR数据到临床对话中,实现了临床测试推荐、结果解读和诊断预测。该模型采用临床测试参考策略构建对话,并利用强化学习框架进行证据获取和诊断,同时引入拒绝采样策略和定制奖励机制来优化性能。实验证明DiaLLM在关键任务上超越了基线模型。
摘要翻译: 大型语言模型(LLMs)的最新进展在医疗咨询领域取得了显著进展。然而,现有医学LLMs忽视了电子健康记录(EHR)的关键作用,并且主要侧重于诊断推荐,这限制了它们的临床适用性。我们提出了DiaLLM,这是第一个将异构EHR数据整合到临床基础对话中的医学LLM,从而能够进行临床测试推荐、结果解读和诊断预测,以更好地与现实世界的医疗实践保持一致。为了从EHR构建临床基础对话,我们设计了一种临床测试参考(CTR)策略,该策略将每个临床代码映射到其相应的描述,并将测试结果分类为“正常”或“异常”。此外,DiaLLM采用强化学习框架进行证据获取和自动化诊断。为了处理大的动作空间,我们引入了一种拒绝采样策略,以减少冗余并提高探索效率。此外,还设计了确认奖励和类别敏感诊断奖励,以指导准确的诊断预测。广泛的实验结果表明,DiaLLM在临床测试推荐和诊断预测方面优于基线模型。
[121] AI Copilots for Reproducibility in Science: A Case Study
科学可重复性AI副驾驶:一个案例研究
Adrien Bibal, Steven N. Minton, Deborah Khider, Yolanda Gil | Category: cs.AI
Keywords: AI副驾驶, 科学可重复性, OpenPub, Jupyter Notebook, 开放科学
Comment:
TL;DR: OpenPub是一个AI平台,通过可重复性副驾驶工具,将研究论文的计算可重复性时间从30多小时大幅缩短到约1小时,同时识别可重复性障碍。
AI_Comments: 这篇论文提出了一种创新的AI辅助方法来解决科学可重复性这一核心挑战。OpenPub的可重复性副驾驶通过自动化Jupyter Notebook的生成和识别常见障碍,显著提高了重现效率,并降低了研究人员的负担。其模块化架构具有很强的扩展性,未来可应用于其他开放科学领域,潜力巨大。这项工作对于推动开放科学实践和提升科学研究的可靠性具有重要意义。
Details
Motivation: 开放科学旨在提高研究成果的透明度、可访问性和可重用性,但确保已发表研究的可独立重复性仍然是一个持续的挑战。
Method: 该论文介绍了OpenPub,一个由AI驱动的平台,通过一套模块化的副驾驶工具支持研究人员、审稿人和读者。文中特别介绍了“可重复性副驾驶”,它分析手稿、代码和补充材料,生成结构化的Jupyter Notebooks和建议,旨在促进计算或“机械”可重复性。研究人员使用已知可重复性基准的现有论文进行了可行性测试。
Result: 结果表明,OpenPub可以将重现时间从30多个小时大幅缩短到大约1小时,同时实现对图表、表格和结果的高覆盖率,适用于计算重现。该系统能系统地检测出可重复性障碍,包括缺失的超参数、未记录的预处理步骤以及不完整或无法访问的数据集。
Conclusion: 研究结果表明,AI驱动的工具可以显著减轻可重复性工作的负担,并有助于更透明、可验证的科学交流。模块化的副驾驶架构也为将AI辅助扩展到可重复性之外的其他开放科学目标奠定了基础。
ai_Abstract: 本文介绍了OpenPub,一个AI驱动的平台,旨在解决科学研究中可重复性面临的挑战。其核心是“可重复性副驾驶”,通过分析手稿、代码和补充材料,生成结构化的Jupyter Notebooks,以促进计算可重复性。可行性测试表明,OpenPub能将研究重现时间从30多小时缩短至约1小时,并能有效识别如缺失参数、未记录步骤和不完整数据集等可重复性障碍。这表明AI工具能显著减轻可重复性负担,提升科学交流的透明度和可验证性,并为未来AI在开放科学领域的应用奠定基础。
摘要翻译: 开放科学倡议旨在使研究成果更加透明、可访问和可重用,但确保已发表的研究能够独立重现仍然是一个持续的挑战。本文介绍了OpenPub,一个由人工智能驱动的平台,通过一套专注于关键开放科学任务的模块化副驾驶工具来支持研究人员、审稿人和读者。在这项工作中,我们提出了可重复性副驾驶,它分析手稿、代码和补充材料,以生成结构化的Jupyter Notebooks和旨在促进计算或“机械”可重复性的建议。我们使用先前研究过的具有已知可重复性基准的研究论文进行了可行性测试。结果表明,OpenPub可以显著减少重现时间——从30多个小时到大约1小时——同时实现对图表、表格和结果的高覆盖率,适用于计算重现。该系统系统地检测出可重复性障碍,包括缺失的超参数、未记录的预处理步骤以及不完整或无法访问的数据集。这些发现表明,人工智能驱动的工具可以有效地减轻可重复性工作的负担,并有助于更透明和可验证的科学交流。模块化的副驾驶架构也为将人工智能辅助扩展到可重复性之外的其他开放科学目标提供了基础。
[139] Language Modeling by Language Models
语言模型对语言模型建模
Junyan Cheng, Peter Clark, Kyle Richardson | Category: cs.AI, cs.CL, cs.MA
Keywords: 语言模型, 自主发现, 遗传编程, 神经架构搜索, 多智能体系统
Comment:
TL;DR: 本文提出了Genesys,一个基于LLM的多智能体系统,利用遗传编程和“规模阶梯”方法自主发现新颖的语言模型架构。该系统在设计生成方面显著优于现有方法,并发现了性能优于已知模型的架构。
AI_Comments: 该论文通过将LLMs应用于多智能体和遗传编程框架来自动化神经架构搜索,具有高度创新性。其“规模阶梯”方法和对抗性评审机制巧妙地平衡了计算预算。系统能够自主发现具有竞争力的架构,是迈向更高效、更少依赖人工的AI研究的重要一步。遗传编程相较于直接提示在效率上的显著优势是一个关键发现。
Details
Motivation: 本文的动机是利用大型语言模型(LLMs)来模拟和自动化发现新颖语言模型(LM)架构的过程,灵感来源于真实的科研实践。
Method: 本文提出了Genesys系统,一个多智能体LLM方法,模拟了从构思、文献检索(提案阶段)到设计实现(代码生成)、生成式预训练和下游评估(验证)的传统研究阶段。Genesys借鉴了缩放定律,采用“规模阶梯”方法,在逐渐增大的模型规模(14M至350M参数)和逐渐缩小的预算下(每个规模可训练的模型数量)提出、对抗性评审、实现和选择性验证新设计。为了提高发现效率和可分解性,Genesys使用了一种新颖的遗传编程骨干,实验证明其比常用的直接提示生成工作流具有经验优势(例如,成功设计生成率提高约86个百分点)。
Result: 实验涉及1,162个新发现的设计(其中1,062个通过预训练完全验证)。最佳设计与已知架构(如GPT2、Mamba2等)具有高度竞争力,在9个常见基准测试中有6个表现优异。遗传编程骨干在成功设计生成方面比直接提示生成提高了约86个百分点。研究结果还包括全面的系统级消融实验和形式化结果,为有效自主发现系统的设计提供了更广泛的见解。
Conclusion: 研究表明,利用LLMs和遗传编程的自主发现系统(如Genesys)能够有效找到具有竞争力的新颖语言模型架构,并为设计此类系统提供了宝贵的见解。
ai_Abstract: 本文介绍了Genesys,一个多智能体LLM系统,旨在自主发现新颖的语言模型架构。Genesys通过模拟从构思到评估的整个研究过程,并采用“规模阶梯”方法和创新的遗传编程骨干,显著提高了设计生成的效率。实验结果表明,该系统发现了超过一千个新设计,其中最佳架构在多个基准测试中表现出与现有模型(如GPT2和Mamba2)高度竞争的性能,为自主发现系统的设计提供了重要见解。
摘要翻译: 我们能否利用大型语言模型(LLM)来模拟发现新颖语言模型(LM)架构的过程?受真实研究的启发,我们提出了一种多智能体LLM方法,该方法模拟了传统的研究阶段,从构思和文献检索(提案阶段)到设计实现(代码生成)、生成式预训练和下游评估(验证)。Genesys系统借鉴了缩放定律的思想,采用“规模阶梯”方法;新的设计被提出、对抗性评审、实现,并在越来越大的模型规模(14M~350M参数)下进行选择性验证,同时预算逐渐收紧(每个规模我们可以训练的模型数量)。为了帮助实现高效和可分解的发现,Genesys使用了一种新颖的遗传编程骨干,我们证明其比常用的直接提示生成工作流具有经验优势(例如,成功设计生成率提高了约86个百分点,这是一个关键瓶颈)。我们报告了涉及1,162个新发现设计(1,062个通过预训练完全验证)的实验,并发现最佳设计与已知架构具有高度竞争力(例如,在9个常见基准测试中有6个优于GPT2、Mamba2等)。我们将这些结果与全面的系统级消融实验和形式化结果结合起来,这些结果为有效自主发现系统的设计提供了更广泛的见解。
[155] Enterprise Large Language Model Evaluation Benchmark
企业大型语言模型评估 8259 基准
Liya Wang, David Yi, Damien Jose, John Passarelli, James Gao, Jordan Leventis, Kang Li | Category: cs.AI
Keywords: 大型语言模型, 企业评估, 基准, Bloom分类法, 数据管道
Comment: Submitted to MLNLP 2025 at https://csity2025.org/mlnlp/index
TL;DR: 现有LLM基准不适用于企业场景,本文提出了一个基于Bloom分类法的14任务框架和可扩展的评估流程,构建了9700个样本的基准,发现开源模型在推理上可与专有模型媲美,但在判断任务上落后。
AI_Comments: 这项工作通过引入一个专门针对企业场景的LLM评估基准,填补了现有通用基准的空白。其创新之处在于结合了Bloom分类法构建多维度任务框架,并提出了利用LLM自身进行数据标注和评估的自动化流程,有效解决了大规模高质量企业数据获取的难题。研究结果揭示了开源和专有模型在不同企业任务中的性能差异,为企业选择和优化LLM提供了宝贵的实践指导,对推动LLM在企业领域的实际应用具有重要意义。
Details
Motivation: 现有的大型语言模型(LLMs)基准(如MMLU)不足以评估企业特定任务的复杂性,无法有效衡量LLM在企业环境中的生产力提升潜力。
Method: 提出了一个基于Bloom分类法的14任务框架,用于全面评估企业环境中的LLM能力。开发了一个可扩展的数据管道,结合了“LLM即标签器”、“LLM即评估器”和纠正性检索增强生成(CRAG),以应对噪声数据和昂贵标注的挑战。构建了一个包含9,700个样本的鲁棒基准。评估了六个领先的模型,包括开源模型(如DeepSeek R1)和专有模型。
Result: 开源模型(如DeepSeek R1)在推理任务上与专有模型不相上下。开源模型在基于判断的场景中表现落后,这可能归因于“过度思考”。基准揭示了关键的企业性能差距。提供了模型优化的可行见解。
Conclusion: 本工作为企业提供了量身定制的评估蓝图,并推动了LLM在实际企业部署中的进展。
ai_Abstract: 本文提出了一个针对企业级大型语言模型(LLM)的14任务评估框架和9700样本基准,旨在解决现有基准在评估企业特定复杂性方面的不足。该框架基于Bloom分类法,并采用“LLM即标签器”、“LLM即评估器”及CRAG的组合管道来克服数据噪声和标注成本问题。评估结果显示,开源模型在推理任务上与专有模型表现相当,但在判断任务上存在差距。这项工作为企业提供了定制化评估方案,有助于LLM的实际部署。
摘要翻译: 大型语言模型(LLMs)在提升AI驱动工具的生产力方面展现出前景,然而,现有基准如大规模多任务语言理解(MMLU)不足以评估企业特定任务的复杂性。我们提出了一个基于布鲁姆分类法的14任务框架,以全面评估LLM在企业环境中的能力。为了解决数据噪声和昂贵标注的挑战,我们开发了一个可扩展的管道,结合了“LLM即标签器”、“LLM即评估器”和纠正性检索增强生成(CRAG),从而构建了一个包含9,700个样本的鲁棒基准。对六个领先模型的评估显示,像DeepSeek R1这样的开源竞争者在推理任务上与专有模型不相上下,但在基于判断的场景中表现落后,这可能是由于“过度思考”所致。我们的基准揭示了关键的企业性能差距,并为模型优化提供了可行的见解。这项工作为企业提供了量身定制的评估蓝图,并推动了实际LLM部署的进展。
[169] Mobile-R1: Towards Interactive Reinforcement Learning for VLM-Based Mobile Agent via Task-Level Rewards
Mobile-R1:面向基于VLM的移动智能体的交互式强化学习,通过任务级奖励实现
Jihao Gu, Qihang Ai, Yingyao Wang, Pi Bu, Jingxuan Xing, Zekun Zhu, Wei Jiang, Ziming Wang, Yingxiu Zhao, Ming-Liang Zhang, Jun Song, Yuning Jiang, Bo Zheng | Category: cs.AI
Keywords: 移动智能体, 强化学习, 视觉语言模型, 任务级奖励, 交互式学习
Comment: 14 pages, 12 figures
TL;DR: Mobile-R1提出了一种通过交互式多轮强化学习和任务级奖励来提升基于视觉语言模型的移动智能体探索和纠错能力的方法,并发布了新的数据集和基准。
AI_Comments: 本文的创新点在于引入了交互式多轮强化学习和任务级奖励,以解决现有基于VLM的移动智能体在动态交互和探索能力上的不足。通过结合动作级和任务级奖励的训练框架,有望提升智能体的泛化能力和鲁棒性。同时,发布高质量的中文应用数据集和新的基准对于推动该领域的研究具有重要意义,尤其是在中文移动应用场景下的应用潜力巨大。
Details
Motivation: 现有基于视觉语言模型的移动智能体研究主要集中于离线强化学习训练或使用动作级奖励的在线优化,这限制了智能体与环境的动态交互,导致其容易陷入局部最优,削弱了探索和错误动作纠正能力。
Method: 本文提出Mobile-R1方法,采用交互式多轮强化学习和任务级奖励来解决现有挑战。其训练框架包含三个阶段:初始格式微调、通过动作级奖励的单步在线训练,以及基于多轮轨迹通过任务级奖励的在线训练。此外,研究团队收集了一个包含28个中文应用、24,521个高质量手动标注的数据集,并建立了一个包含500条轨迹的新基准。
Result: 该策略旨在增强Mobile-R1的探索和错误纠正能力,并带来了显著的性能提升。同时,研究团队收集了一个覆盖28个中文应用、包含24,521个高质量手动标注的数据集,并建立了一个包含500条轨迹的新基准。
Conclusion: Mobile-R1通过引入交互式多轮强化学习和任务级奖励,有效解决了现有基于VLM的移动智能体在动态交互和探索纠错方面的局限性,并实现了显著的性能提升。此外,该工作还通过发布数据集和基准,为该领域的研究提供了宝贵资源。
ai_Abstract: 本文针对现有基于VLM的移动智能体在动态交互和探索纠错方面的局限性,提出了Mobile-R1方法。该方法采用交互式多轮强化学习,并引入任务级奖励进行训练,其训练流程分为初始格式微调、动作级奖励单步在线训练和任务级奖励多轮在线训练三个阶段。研究表明,此策略显著提升了智能体的探索和纠错能力。此外,作者还构建了一个包含28个中文应用、24,521条高质量标注的新数据集,并设立了500条轨迹的基准,并将全部资源开源。
摘要翻译: 基于视觉语言模型的移动智能体不仅能够理解复杂的指令和移动截图,还能通过思考和推理来优化其动作输出,这得益于强化学习,例如群组相对策略优化(GRPO)。然而,现有研究主要集中于离线强化学习训练或使用动作级奖励的在线优化,这限制了智能体与环境的动态交互。这通常导致智能体陷入局部最优,从而削弱了它们的探索和错误动作纠正能力。为了解决这些挑战,我们引入了一种名为Mobile-R1的方法,该方法采用交互式多轮强化学习,并使用任务级奖励来训练移动智能体。我们的训练框架包括三个阶段:初始格式微调、通过动作级奖励的单步在线训练,随后是基于多轮轨迹通过任务级奖励的在线训练。该策略旨在增强Mobile-R1的探索和错误纠正能力,从而显著提高性能。此外,我们收集了一个覆盖28个中文应用、包含24,521个高质量手动标注的数据集,并建立了一个包含500条轨迹的新基准。我们将开源所有资源,包括数据集、基准、模型权重和代码:https://mobile-r1.github.io/Mobile-R1/。
[178] Tabular Feature Discovery With Reasoning Type Exploration
基于推理类型探索的表格特征发现
Sungwon Han, Sungkyu Park, Seungeon Lee | Category: cs.AI
Keywords: 表格数据, 特征工程, 大型语言模型, 推理类型, REFeat
Comment:
TL;DR: 本文提出REFeat,一种新颖的方法,通过利用多种推理类型来指导大型语言模型发现多样化且信息丰富的表格特征,实验证明其在预测准确性和特征多样性方面优于现有方法。
AI_Comments: 该论文通过引入“推理类型探索”的概念,有效解决了大型语言模型在特征工程中生成特征多样性不足和质量不高的问题,具有创新性。其方法REFeat通过结构化指导LLM,提升了特征的质量和模型的预测性能,为LLM在特征工程领域的应用开辟了新的方向。在实践中,这种方法有望显著减少人工特征工程的工作量。
Details
Motivation: 表格数据的特征工程是机器学习中一个关键但具有挑战性的步骤。现有基于大型语言模型(LLM)的特征生成方法通常产生过于简单或重复的特征,这部分是由于LLM选择转换时固有的偏差以及生成过程中缺乏结构化推理指导。
Method: 本文提出了一种新颖的方法REFeat,它通过利用多种推理类型来引导大型语言模型(LLM)发现多样化...[Issue body truncated]