Research

arXiv

分类

视频-文本检索，即基于文本查询检索视频或反之亦然的任务，对于视频理解以及多模态信息检索具有至关重要的意义。该领域近期的方法主要依赖视觉和文本特征，往往忽略音频，尽管音频有助于增强对视频内容的整体理解。此外，传统模型在引入音频时盲目地利用音频输入，而不考虑其是否有用，导致视频表征效果不佳。为解决这些局限性，我们提出了一种新颖的视频-文本检索框架——Audio-guided VIdeo representation learning with GATEd attention（简称AVIGATE），通过门控注意力机制有效利用音频线索，有选择性地过滤掉无信息量的音频信号。此外，我们还提出了自适应边界对比损失，以应对视频和文本之间固有的模糊正负关系，从而促进更好的视频-文本对齐学习。我们的大量实验表明，AVIGATE 在所有公开基准数据集上均达到了最先进的性能。

计算机视觉与模式识别

2025-04-03 发布

车辆间网络（IoV）可能面临复杂的网络安全攻击，这需要复杂的入侵检测系统，并要求快速开发和响应系统。本研究调查了GPU加速库（cuML）相较于传统CPU实现（scikit-learn）的性能优势，重点在于满足IoV威胁检测环境中机器学习模型的速度和效率需求。通过在三个不同的IoV安全数据集（OTIDS、GIDS、CICIoV2024）上采用四种机器学习方法（随机森林、KNN、逻辑回归、XGBoost），进行了全面评估。研究结果表明，GPU加速的实现显著提高了计算效率，训练时间最多缩短了159倍，预测速度提高了多达95倍，同时保持了检测准确性。这一显著的性能突破使研究人员和安全专家能够利用GPU加速创建更快、更有效的威胁检测系统，以满足当今联网车辆网络的实时安全需求。

机器学习

人工智能

密码学与安全

2025-04-03更新2025-04-02 发布

无电池物联网革命性地推动了可持续通信的发展，因为它依赖于收集的能量。然而，这种收集的能量受到不可预测环境条件的影响；因此，包括网络堆栈在内的设备操作必须能够抵御电源故障。通过监测储存在电容器中的收集能量来实现电源故障通知，从而提供一种解决方案。然而，为了利用这一电源故障通知并保证任务的向前进展，系统必须将任务分解为原子事务，并在能量耗尽之前可预测地完成这些事务。因此，静态程序代码分析必须确定所有事务的最坏情况下的能量消耗（WCEC）。对于具备Wi-Fi功能的设备，由于驱动程序通常是闭源的，静态分析需要代码及其语义，因此无法确定事务的WCEC界限。在这项工作中，我们将一个节能的网络堆栈与逆向工程的Wi-Fi驱动程序集成，以实现对物理传输和接收数据包的全栈WCEC分析。此外，我们扩展了一个静态最坏情况分析工具，加入了我们自己的Wi-Fi驱动程序的资源消耗模型。通过对基于RISC-V的ESP32-C3平台进行评估，我们的静态分析方法为完整的通信堆栈事务提供了最坏情况的界限，表明基于Wi-Fi的反应式间歇计算是可行的。

网络与互联网体系结构

2025-04-03更新2025-01-29 发布

现代数据集包含数十亿个样本，使得在全部可用数据上进行训练变得不可行。选择高质量的子集有助于降低训练成本并提升模型质量。次模性是一种离散凸性的类比，常用于解决此类子集选择问题。然而，现有的优化次模函数的算法是顺序执行的，并且现有的分布式方法需要至少一台中心机器将目标子集存储在DRAM中。在十亿量级的数据点规模下，即使子集也可能无法容纳单台机器，而顺序算法运行速度极慢。本文通过提出一种新型的分布式边界算法，放松了对中心机器存储目标子集的要求，并提供了可证明的近似保证。该算法通过迭代计算最小和最大效用值来选择高质量点并丢弃不重要的点。当边界计算未能找到完整子集时，我们采用多轮分区的分布式贪婪算法识别剩余的子集。我们讨论了如何在分布式数据处理框架中实现这些算法，并对不同配置进行了实证分析。我们在CIFAR-100和ImageNet数据集上找到了高质量的子集，与集中式方法相比，质量损失可以忽略不计，并且能够扩展到包含130亿个点的数据集。

2025-04-03更新2024-02-26 发布

作为5G大规模机器类型通信的增强版本，由于其在工业物联网和智能仪表方面的潜力，大规模通信已成为6G预期的六大应用场景之一。为了满足大规模通信以及下一代Wi-Fi对随机多址接入（RMA）的需求，介质访问控制吸引了相当多的关注。多址预约无疑在RMA中起着核心作用，因为它有望实现带宽高效的碰撞解决，例如IEEE 802.11中的分布式协调功能（DCF）。本文关注于在服务质量约束下最大化RMA预约协议的带宽效率。具体而言，我们提出了一种基于树分裂的预约方案，其中尝试概率通过部分可观测马尔可夫决策过程或强化学习（RL）进行动态优化。借助强化学习赋能的树分裂算法，可以确保在竞争周期开始时有挂起数据包的所有终端都能被调度，从而提供先到先服务。更重要的是，通过精心设计的编码和交互来交换分布式排序所需的信息，显著降低了由DCF通信复杂度决定的预约带宽。仿真结果表明，所提出的算法优于基于CSMA/CA的IEEE 802.11 DCF。

信息论

2025-04-03 发布

在之前的一篇文章中，我们讨论了《蒂迈欧篇》宇宙论中的一个悖论：即使整个宇宙完全充满了多面体，其中仍不存在虚空——这在数学上是不可能的（Brisson-Ofman 2025）。在本文中，我们将探讨另一个悖论。虽然第一个悖论已被广泛知晓，并且亚里士多德早已指出这一根本性的数学矛盾削弱了柏拉图的宇宙论，但这个新的悖论却几乎未被古代和现代的注释者注意到。考虑到关于《蒂迈欧篇》宇宙的大量研究成果，这一疏忽或许会让学者们感到惊讶，因为这些研究大多强调其与天文观测的差异或指出内部矛盾。与第一个悖论类似，这一悖论同样源于宇宙完全由多面体填充的前提。然而，在这种情况下，矛盾源于宇宙外部不存在虚空。在第一部分，我们证明宇宙的形状不可能是一个完美的数学球体：也就是说，其边界并非光滑，而是存在凸起和凹陷。接下来，我们从柏拉图文本中提出概念性论据，支持宇宙形状相对于完美数学球体的“缺陷”必要性。在第三部分，我们论证这样一个宇宙无法运动。最后，我们借鉴解决先前显而易见矛盾的方法，提出了对这一数学矛盾的解决方案：即蒂迈欧宇宙的独特特性，即它作为一个有生命的实体，其组成部分始终处于运动、变化、分解和重组的状态。尽管这个问题不依赖于《蒂迈欧篇》的各种解读流派，但它与柏拉图哲学中的一些重要问题相关。这些问题包括科学尤其是天文学中观察的重要性、可理解模型与其感官副本之间的关系、柏拉图宇宙论中神话与逻辑的结合方式，以及“隐喻”与“字面”解释之争。当然，所有这些问题超出了本文的范围，这里不予讨论。

数学史与概述

2025-04-03 发布

本文详细探讨了非对易几何启发的虫洞的拟正则模式（QNMs），重点研究标量、电磁以及矢量型引力扰动。通过采用谱方法，我们将扰动方程重新表述为紧致区域上的特征值问题，并利用切比雪夫多项式确保高精度和快速数值收敛。结果表明，不存在过阻尼模式，所有检测到的QNMs均表现出振荡行为。此外，对于较大的重新标度质量参数值，非对易虫洞的QNMs平滑过渡到经典史瓦西虫洞的QNMs，验证了谱方法的准确性。这项工作代表了对非对易几何启发的虫洞QNMs的首次全面探索，揭示了其稳定性和动力学特性。

广义相对论与量子宇宙学

2025-04-03 发布

在真实世界的应用场景中，机器人被期望能够协助人类完成各种任务，并且在时间推移中不断适应动态变化。例如，在家庭环境中，机器人可以通过观察物体的移动规律来推测用户的习惯，并主动帮助用户获取所需物品。然而，这些交互数据本质上是非独立同分布的（non-i.i.d.），例如，当一个机器人服务于多个用户时，由于每个人的习惯不同，它可能会遇到不同的数据分布。这就带来了挑战：如何在不发生灾难性遗忘的情况下整合新知识。为了解决这一问题，我们提出了STREAK（自适应知识保持的空间时间重定位）框架，这是一种面向实际应用的机器人持续学习方法。该方法利用带正则化和回放技术的流式图神经网络，既能缓解环境漂移，又能保留过去的知识。我们的方法在时间和内存效率上表现优异，能够在无需对所有历史数据重新训练的情况下实现长期学习。我们在50多天的时间跨度内，在不同家庭环境下对STREAK进行了增量预测人类日常习惯的任务评估。结果表明，STREAK能够有效防止灾难性遗忘，同时保持泛化能力，成为一种适用于长期人机交互的可扩展解决方案。

机器人学

2025-04-03更新2024-11-08 发布

随着包括视频、音频和文本在内的合成媒体变得越来越难以与真实内容区分，错误信息传播、身份欺诈和社会操控的风险也随之增加。本文回顾了深度伪造检测从早期的单模态方法向集成音频-视觉和文本-视觉线索的复杂多模态方法的演变过程。我们提出了检测技术的结构化分类，并分析了基于GAN到扩散模型驱动的深度伪造转变，这些新方法因其更高的逼真度和对检测的鲁棒性而带来了新的挑战。不同于以往主要关注单模态检测或早期深度伪造技术的综述，本文提供了迄今为止最全面的研究，涵盖了多模态深度伪造检测的最新进展、泛化挑战、主动防御机制以及专门设计用于支持新解释性和推理任务的新兴数据集。此外，我们还探讨了视觉-语言模型（VLMs）和多模态大型语言模型（MLLMs）在增强检测鲁棒性方面的作用，以应对日益复杂的深度伪造攻击。通过系统地分类现有方法并识别新兴的研究方向，本文为未来对抗人工智能生成的人脸伪造技术的进步奠定了基础。相关论文的完整列表可在\href{https://github.com/qiqitao77/Comprehensive-Advances-in-Deepfake-Detection-Spanning-Diverse-Modalities}{https://github.com/qiqitao77/Awesome-Comprehensive-Deepfake-Detection}获取。

计算机视觉与模式识别

2025-04-03更新2024-06-11 发布

深度完成技术通过稀疏激光雷达点云和RGB图像估计密集深度图，在光照良好的条件下展现了卓越性能。然而，由于RGB传感器的局限性，现有方法在恶劣环境（如强降雨和低光条件）下往往难以实现可靠性能。此外，我们观察到，在恶劣天气条件下（例如强降雨），真实深度图经常存在大量缺失测量值，导致监督不足。相比之下，热相机在这些条件下能够提供清晰可靠的可见性，但热-激光雷达深度完成的研究仍处于初步阶段。此外，热图像的特性（如模糊、对比度低和噪声）带来了深度边界不清晰的问题。为了解决这些挑战，我们首先通过对MS$^2$和ViViD数据集进行广泛基准测试，评估了热-激光雷达深度完成在不同光照条件（如良好光照、低光）、天气条件（如晴天、降雨）以及环境条件（如室内、室外）下的可行性和鲁棒性。此外，我们提出了一种利用对比学习和伪监督（COPS）的框架，通过两种关键方式增强深度边界的清晰度并提高完成精度。首先，COPS通过使用单目深度基础模型挖掘正负样本，强制在不同的深度点之间施加基于深度的对比损失，从而锐化深度边界。其次，它通过利用基础模型预测作为密集深度先验，缓解了真实深度图监督不足的问题。我们还对热-激光雷达深度完成的关键挑战进行了深入分析，以帮助理解任务并鼓励未来研究。

计算机视觉与模式识别

机器人学

2025-04-03 发布

我们引入了一类新的、广泛的连分数算法，这些算法产生所谓的收缩法里展开式。这些算法通过结合两种加速技术——诱导变换和收缩——在Shunji Ito提出的法里帐篷映射的自然扩展框架下定义，该框架生成“缓慢”的连分数展开。除了定义新算法外，我们还在统一框架中重新实现了多个现有的连分数算法。特别是，我们将正则连分数、第二作者的$S$-展开式以及Nakada参数化的$\alpha$-连分数族（对于所有$0<\alpha\le 1$）视为法里收缩展开式的例子。此外，我们给出了$\alpha$-连分数变换的平面自然扩展的一种新的描述，即Ito自然扩展的显式诱导变换。

数论

动力系统

11A55 (Primary) 37A05, 37A44 (Secondary)

2025-04-03 发布

近年来，大型语言模型和视觉-语言模型的进步实现了零样本推理，使模型能够在无需任务特定训练的情况下解决新任务。各种适应技术如提示工程、上下文学习（ICL）以及有监督微调可以进一步提升模型在下游任务上的表现，但这些方法需要大量的人工努力来构建有效的提示或标注示例。在这项工作中，我们引入了一种完全无监督适应的联合推理框架，消除了人工提示工程和标注示例的需求。与独立预测的零样本推理不同，联合推理对给定任务中的所有输入同时进行预测。由于直接的联合推理涉及昂贵的优化计算，我们开发了高效的近似技术，从而产生了两种无监督适应方法：无监督微调和无监督ICL。我们在多样化的任务和模型上展示了我们方法的有效性，包括在自然语言处理任务中的仅语言模型Llama-3.1、在小学数学问题上的推理导向模型Qwen2.5-Math、在视觉任务上的视觉-语言模型OpenFlamingo以及通过API访问的多学科任务GPT-4o模型。我们的实验表明，与标准的零样本方法相比，我们的方法在具有挑战性的GSM8K数学推理数据集上取得了39%的绝对改进。令人印象深刻的是，尽管完全无监督，我们的框架在许多情况下与依赖于真实标签的有监督方法表现相当。

机器学习

2025-04-03 发布

Liouville场论长期以来是二维量子场论和量子引力的核心内容，并在数学文献中引起了广泛关注。时像Liouville场论是一种Liouville场论的版本，其中作用量中的动能项带有负号，使其比普通（类空）Liouville场论更接近量子引力理论。为了解释这种“负号”问题，需要发展具有负方差的高斯随机变量理论。本文发展了这一理论，并利用其证明了当参数满足所谓的“电荷中性条件”时，时像DOZZ公式对于$3$-点关联函数成立。还推导了所有$k \geq 3$的$k$-点关联函数表达式，并表明这些函数在耦合常数趋于零时趋于正确的半经典极限。

按需叫车行业经历了快速的发展，改变了全球的交通方式。尽管其效率较传统出租车服务有所提升，但仍存在显著挑战，包括司机的战略性重新定位行为、用户流失以及调度算法的低效问题。为了解决这些问题，我们引入了一个全面的平均场博弈模型，通过整合多个区域内的司机重新定位、用户的流失行为以及平台的调度算法，系统分析了叫车平台的动态特性。利用这一框架，我们将所有可能的平均场均衡点识别为相关优化问题的Karush-Kuhn-Tucker（KKT）点。我们的分析揭示了多种均衡状态的存在，其中包括一种低效的“徒劳追逐”均衡，即司机追逐遥远的需求请求，导致系统性能不佳。为了缓解这些低效问题，我们提出了一种新颖的双半径最近邻调度算法，该算法消除了不理想的均衡状态，并确保多区域系统的唯一平均场均衡。该算法根据司机供应率动态调整匹配半径，优化司机的接单时间和等待时间，同时最大化需求完成率。数值实验和仿真结果表明，我们提出的算法减少了用户流失，最小化了司机和用户的等待时间，并提升了整体平台效率。

计算机科学与博弈论

2025-04-03 发布

我们基于现代极化理论的工具，对Aubry-André模型的局域化转变进行了数值研究。在该模型中，势能的空间调制参数$\alpha$为无理数，我们近似为斐波那契数列的比值$F_{n+1}/F_n$，其中$F_n=L$也是系统的大小。我们通过粒子密度（填充因子）和势能强度$W$绘制相图。我们计算了几何Binder累积量，并应用了重整化方法。对于任意给定的有限系统尺寸，在许多密度下，转变发生在或接近$W=2t$（$t$表示跃迁强度）处，这是已知单粒子态局域化的点。然而，我们也发现了“尖峰”，即某些密度下转变发生在$0<W<2t$范围内。这些尖峰出现在没有部分填充带的密度处。随着系统尺寸（以及$\alpha$中的$F_n$和$F_{n+1}$）增加，尖峰趋于零，但发生尖峰的密度也会略微变化：它们接近可以用斐波那契比值或其组合表示的无理数。对于固定比例的所有系统尺寸下的密度，转变发生在$W=2t$处。我们还研究了原始Aubry-André模型的一个扩展版本，引入了次近邻跃迁。此模型也表现出与原始模型不同的畸变相图，尖峰不一定趋于零，而是趋于由修改后的能隙结构决定的有限值$W$。

无序系统与神经网络

介观与纳米尺度物理

2025-04-03更新2024-09-02 发布

许多重要的动力学系统位于$\mathbb{R}^2$中，由一对微分方程$(x',y')=(f(x,y),g(x,y))$定义。一个根本性的问题是如何理解这些系统在量子力学中的行为。在发展量子理论时，Dirac等人认识到经典Hamilton系统可以通过典范量子化映射到其量子对应物。由此产生的量子动力学总是物理的，表现为薛定谔图景下的完全正且保迹演化。然而，是否可以系统地对非Hamilton系统进行量子化，并同时满足相同的物理要求，一直是一个长期存在的问题。在这里，我们解决了当$f(x,y)$和$g(x,y)$为任意多项式时这一问题。通过利用开放系统理论，我们证明性地证明了每个多项式系统都可以具有Lindblad形式的物理时间演化生成器。我们将此方法称为级联量子化，并通过分析分岔、噪声激发尖峰以及Liénard系统等典型的非线性动力学范例展示了其能力。实际上，我们的方法可以以任意精度量子化任何$f(x,y)$和$g(x,y)$为解析的经典系统。更重要的是，级联量子化是精确的。这意味着文献中为了促进量子化的许多限制性系统属性，如弱非线性、旋转对称性或半经典动力学，都可以通过级联量子化消除。我们还通过对基于拉格朗日的变分范例以及非变分方法的例子比较，突出了级联量子化相对于现有建议的优势。

2025-04-03更新2025-03-10 发布

给定某个代数三角范畴中的两个$\mathbb{P}$-对象，我们研究与之相关的$\mathbb{P}$-扭转之间的可能关系。主要结果是，在某些技术假设下，$\mathbb{P}$-扭转相互交换当且仅当$\mathbb{P}$-对象正交。否则，它们之间没有任何关系。特别地，这适用于大多数已知的超凯勒流形上的$\mathbb{P}$-对象对。为了证明这一点，我们将$\mathbb{P}$-扭转与球面扭转联系起来，并应用了关于球面扭转对之间不存在关系的已知结果。

代数几何

范畴论

2025-04-03更新2022-07-28 发布

在利用ESS$\nu$SB实验精确测量轻子CP破坏的过程中，准确且快速的事例重建起着至关重要的作用。本文探讨了用基于图神经网络（GNN）的方法替代目前提议的基于似然函数的事例重建方法的可能性。由于基于似然函数的方法虽然精度较高但计算成本较大，机器学习（ML）方法的一个优势在于可以在探测器开发阶段实现快速的事例重建，从而更方便地研究探测器设计变化的影响。我们专注于μ中微子和电子中微子事例以及μ中微子和电子中微子相互作用事例的味分类和相互作用类型分类，结果表明，对于复杂程度较高的事例，GNN在重建精度上优于似然方法，并且对所有事例都具有更快的速度。此外，我们还研究了影响重建性能的关键因素，并展示了通过另一个GNN分类器分离由π介子产生的事例如何有助于味分类。

高能物理-实验

仪器与探测器

2025-04-03更新2025-03-19 发布

特古岑星是一颗晚期M型矮星行星宿主，通常表现出非常低的活动水平。本文对其光球、色球和日冕层次上的活动进行了详细表征。我们特别研究了TESS对特古岑星的观测，发现两次非常大的耀斑，其估算耀斑通量在10$^{29}$至10$^{32}$ erg之间，相当于太阳最大的耀斑。此外，我们分析了近300条CARMENES光谱和11条ESPRESSO光谱，涵盖了光学中通常使用的所有色球线，从3930 Å的\ion{Ca}{ii} H \& K线到10830 Å的\ion{He}{i}红外三重线。这些线表现出不同的行为：\ion{He}{i}红外三重线在所有光谱中均缺失，一些线仅在耀斑期间出现，而另一些则始终存在且高度可变。具体而言，H$\alpha$线在平静期时或多或少被填充；然而，较高的巴耳末线仍以发射形式被观测到。许多色球线与H$\alpha$的变异性表现出相关性，除了随机行为外，还显示出系统性行为，包括旋转周期的时间尺度。此外，我们发现了多次耀斑，并报告了可能引发日冕物质抛射的爆发日珥的迹象。最后，我们展示了特古岑星的X射线观测（即通过钱德拉天文台获得的发现指向观测）以及使用XMM-牛顿天文台的广泛研究；当这两次大耀斑被观测到时，其中一次清楚地显示了Neupert效应的特征，表明该系统中硬X射线的产生。

太阳和恒星天体物理学

2025-04-03 发布

我们提出了一种基于球面上点之间测得的距离来确定球体半径的新方法。我们考虑了最一般的情况，即当距离测量存在误差且球体偏离理想形状时确定半径的问题。为了解决该问题，我们利用了最少必要的四个点以及任意数量的N个点。我们通过两两距离矩阵给出了一种新的球体半径闭式解。此外，我们还确定了由测量误差和球体偏离理想形状引起的半径估计的标准差。我们找到了球体上使半径估计标准差最小的最佳点配置。本文描述了我们的解决方案并提供了所有的数学推导过程。我们在https://github.com/boris-sukhovilov/Sphere_Radius分享了我们方法的开源代码。

计算几何

计算机视觉与模式识别

68U05 (Primary) 65D18 (Secondary)

I.3.5; I.4.5

2025-04-03 发布

共 13511 条搜索结果

共 13511 条