Research

arXiv

分类

多机器人系统的网络特性为多智能体强化学习带来了挑战。集中式控制策略在机器人数量增加时难以扩展，而独立控制策略无法利用其他机器人提供的信息，在合作竞争任务中表现不佳。本文提出了一种物理信息强化学习方法，能够学习既可扩展又能充分利用每个机器人可用信息的分布式多机器人控制策略。我们的方法具有三个关键特征：首先，它对策略表示施加了端口哈密顿结构，尊重物理机器人系统和机器人团队交互的网络特性中的能量守恒属性；其次，它采用自注意力机制确保稀疏的策略表示，能够在时间变化的信息下处理每个机器人来自交互图的信息；第三，我们提出了一个软演员-评论家强化学习算法，该算法由我们的自注意力端口哈密顿控制策略参数化，能够在训练过程中考虑机器人之间的相关性，同时克服了价值函数分解的需求。在不同多机器人场景下的大量仿真结果表明，所提出的方案在可扩展性和性能方面超越了现有的多机器人强化学习解决方案（平均累积奖励最高可达最先进的两倍），且使用的机器人数量最多为训练时的六倍。此外，我们在佐治亚理工学院机器人实验室的多个真实机器人上验证了该方法，在通信不完美的情况下实现了零样本仿真到实际的迁移，并展示了其在机器人数量上的可扩展性。

机器人学

cs.MA

cs.SY

系统与控制

2025-03-24更新2023-12-30 发布

图像生成任务中的分辨率泛化能力能够以较低的训练分辨率开销生成更高分辨率的图像。然而，在分辨率泛化这一问题中，特别是在广泛使用的扩散变换器中，一个显著挑战在于测试时遇到的位置编码与训练时使用的不匹配问题。尽管现有方法采用了插值、外推或其组合等技术，但尚未完全解决此问题。本文提出了一种新颖的二维随机位置编码（RPE-2D）框架，该框架专注于学习图像块的位置顺序而非它们之间的具体距离，从而在无需高分辨率和低分辨率图像联合训练的情况下实现无缝的高分辨率和低分辨率图像生成。具体而言，RPE-2D沿水平和垂直轴独立地在整个更广泛的范围内选择位置，确保在推理阶段对所有位置编码进行训练，从而提高分辨率泛化能力。此外，我们还提出了随机数据增强技术以增强位置顺序建模。为了解决因增强导致的图像裁剪问题，我们引入了相应的微条件，使模型能够感知特定的裁剪模式。在ImageNet数据集上，我们的提出的RPE-2D在以$256 \times 256$分辨率训练并在$384 \times 384$和$512 \times 512$分辨率下推理，以及从$512 \times 512$扩展到$768 \times 768$和$1024 \times 1024$时，达到了最先进的分辨率泛化性能，优于现有的竞争方法。此外，它还在低分辨率图像生成、多阶段训练加速和多分辨率继承方面展现出卓越的能力。

计算机视觉与模式识别

2025-03-24 发布

作为一种全球广受欢迎的运动，足球吸引了全世界球迷的广泛关注。本文旨在构建一个全面的多模态足球视频理解框架。具体而言，本文做出了以下贡献：(i) 引入了SoccerReplay-1988，这是迄今为止最大的多模态足球数据集，包含来自1,988场完整比赛的视频及其详细注释，并采用自动化注释流程；(ii) 提出了先进的足球专用视觉编码器MatchVision，该编码器利用足球视频中的时空信息，在多种下游任务中表现出色；(iii) 对事件分类、解说生成以及多视角犯规识别进行了广泛的实验和消融研究。MatchVision在所有任务上均达到最先进的性能，显著优于现有模型，这凸显了我们提出的数据和模型的优势。我们相信这项工作将为体育理解研究提供一个标准范式。

计算机视觉与模式识别

2025-03-24更新2024-12-02 发布

近年来，视频生成领域得到了显著扩展，可控且可组合的视频生成引起了广泛关注。大多数方法依赖于文本、物体边界框以及运动线索等标注信息，这些标注需要大量的人类努力，从而限制了其可扩展性。相比之下，我们通过引入一种新颖的无监督方法解决了在没有任何标注的情况下实现可控且可组合的视频生成的挑战。我们的模型在未标注视频的数据集上从头开始进行训练。在推理阶段，它可以通过在空间和时间上的期望位置放置物体部分来组合合理的全新场景并使物体动画化。我们方法的核心创新在于统一的控制格式和训练过程，其中视频生成以随机选择的预训练自监督局部特征子集为条件。这种条件迫使模型学习如何在空间和时间上补全视频中的缺失信息，从而学习场景的内在组合性和移动物体的动力学特性。条件输入的抽象级别及其对微小视觉扰动的不变性使得只需在所有期望的未来位置使用相同的特征即可控制物体的运动。我们将该模型命名为CAGE，代表视觉组合与动画用于视频生成。我们进行了广泛的实验以验证CAGE在各种场景下的有效性，展示了其准确遵循控制的能力，并能够生成具有连贯场景组合和逼真动画的高质量视频。

计算机视觉与模式识别

2025-03-24更新2024-03-21 发布

任意点跟踪（TAP）最近将运动估计范式从关注具有局部模板的显著点转向利用全局图像上下文跟踪任意点。然而，尽管研究主要集中于在理想条件下提高模型的准确性，但由于传感器的局限性，处理困难光照条件和高速运动场景仍然遥不可及。本文提出了首个基于事件相机的TAP方法，利用事件相机的高时间分辨率和高动态范围实现鲁棒的高速跟踪，并结合TAP方法中的全局上下文处理异步和稀疏的事件测量。我们进一步通过引入一种新颖的特征对齐损失扩展了TAP框架，以应对由运动引起的事件特征变化——这是纯事件驱动跟踪领域的一个开放挑战——从而确保学习到对运动鲁棒的特征。我们的方法使用新的数据生成管道进行训练，并在所有设计决策上进行了系统性的消融实验。结果显示，我们的方法在跨数据集泛化方面表现强劲，在平均Jaccard指标上比基线方法提高了136%。此外，在一个已建立的特征跟踪基准测试中，我们的方法比之前的最佳事件仅方法提升了20%，甚至超过了之前的最佳事件加帧方法4.1%。我们的代码可在https://github.com/tub-rip/ETAP获取。

计算机视觉与模式识别

机器学习

机器人学

2025-03-24更新2024-11-28 发布

对角线对称交替符号矩阵（DSASM）是一种具有 $-1$、$0$ 和 $1$ 入选的对称矩阵，其中每行和每列的非零元素交替变号，且每行和每列的元素和为 $1$。非对角线对称交替符号矩阵（OSASM）是满足上述条件的 DSASM，并且对于偶数阶矩阵其主对角线上的非零元素个数为 $0$，对于奇数阶矩阵其主对角线上的非零元素个数为 $1$。Kuperberg（《数学年刊》，2002 年）研究了偶数阶 OSASMs，并给出了计算任意固定偶数阶 OSASMs 数量的乘积公式。本文给出了任意固定奇数阶 OSASMs 数量的乘积公式，并进一步通过代数方法证明了偶数阶 OSASMs 的对称性质。这解决了 Behrend、Fischer 和 Koutschan（arXiv，2023 年）提出的关于 OSASMs 精确计数的三个猜想。

组合学

05B20, 15B35, 05E10, 05E05

2025-03-24 发布

本文旨在通过考虑太阳等离子体含有显著比例中性气体的事实，利用真实的三维（3D）太阳磁对流建模来加深对太阳色球层加热机制的理解。为此，我们在三个不同的分辨率下进行了相同物理体积的太阳模拟，即5.76×5.76×2.3 Mm³（其中1.4 Mm位于光学表面之上），分别为20×20×14、10×10×7和5×5×3.5 km³。在所有三种分辨率下，我们比较了包含/不包含双极扩散的时间序列模拟，双极扩散是由于中性气体导致的主要非理想加热机制。我们还比较了三种不同磁化条件下的模拟：（1）小尺度发电机情况；（2）初始植入的垂直磁场为50 G；（3）初始植入的垂直磁场为200 G，但并非所有情况在所有分辨率下都可用。我们发现随着分辨率的提高，模拟的平均磁化程度增加。高分辨率下的平均磁能通量也增加，这意味着在更高分辨率下模拟盒中的磁能量更多。双极扩散作用于相对较大的尺度，实际上可以通过最高分辨率模拟的网格尺度进行数值解析。我们采用两种方法评估双极扩散的数值解析位置：（i）评估模拟的数值扩散并与物理双极扩散进行比较；（ii）将由双极扩散给出的空间尺度与网格分辨率进行数量级比较。在解析位置处，我们比较了包含/不包含双极扩散的模拟平均温度，并得出结论，在包含双极扩散的情况下，经过1200秒的模拟时间后，等离子体平均温度约高600 K。

太阳和恒星天体物理学

2025-03-24 发布

我们提出了一种新颖的、基于硬件光栅化的三维高斯点绘（RayGS）光线渲染方法，实现了快速且高质量的新视角合成结果。我们的工作包含了一个数学严格且几何直观的推导，说明如何高效估计渲染RayGS模型所需的所有相关量，并将其结构化为标准的硬件光栅化着色器。我们的解决方案首次使得以足够高的帧率渲染RayGS模型成为可能，从而支持对质量敏感的应用，如虚拟现实和混合现实。我们的第二个贡献通过解决在训练和测试过程中渲染发散尺度时出现的MIP相关问题，实现了无混叠的RayGS渲染。我们在不同基准场景中展示了显著的性能提升，同时保持了RayGS的最先进的外观质量。

计算机视觉与模式识别

计算机图形学

2025-03-24 发布

约束满足问题是固体物理到人工智能等多个领域中普遍存在的问题。在许多情况下，当约束与变量的比值达到某个临界值$\alpha_{\textrm{crit}}$时，这类系统会发生转变。在此临界值之上，所有约束同时满足的可能性呈指数级下降。我们计算了球形感知机中所有约束都能满足的概率$P(\textrm{SAT})$。传统的复制方法（如Parisi假说）无法奏效。我们发现了一种新的假说——被阻塞的Parisi假说，它能够正确描述系统在这种状态下的行为。借助被阻塞的Parisi假说，我们首次计算了$P(\textrm{SAT})$并匹配了先前对阈值的计算结果。我们预计这里开发的技术将适用于一般的约束满足问题以及数据集中隐藏结构的识别。

统计力学

2025-03-24更新2025-03-14 发布

文本水印为识别大型语言模型生成的合成文本提供了有效的解决方案。然而，现有技术往往专注于满足特定标准，而忽略了其他关键方面，缺乏统一的评估方法。为填补这一空白，我们提出了综合水印评估框架（Comprehensive Evaluation Framework for Watermark, CEFW），这是一个统一的框架，从检测便捷性、文本质量保真度、嵌入成本最小化、对抗攻击鲁棒性以及不可感知性防止模仿或伪造五个关键维度全面评估水印方法。通过依据所有这些关键标准评估水印，CEFW为水印的实际可行性和有效性提供了全面评估。此外，我们引入了一种简单且有效的水印方法，称为平衡水印（Balanced Watermark, BW），通过平衡添加水印信息的方式，确保其鲁棒性和不可感知性。大量实验表明，BW在所有评估维度上的总体性能优于现有方法。我们将代码开源给社区以供未来研究。https://github.com/DrankXs/BalancedWatermark。

密码学与安全

人工智能

2025-03-24 发布

本文提出了一种帧内编码工具，称为基于模板的帧内模式派生（TIMD）合并模式（TIMD-Merge）。TIMD-Merge已纳入第15版增强压缩模型（ECM）软件中，该软件探索了Versatile Video Coding（VVC）标准之外的视频编码技术。所提出的工具基于常规TIMD模式运行，常规TIMD模式对当前块顶部和左侧的因果相邻模板进行基于模板的搜索，以找到与模板匹配的最佳帧内预测模式（IPMs）。本文提出的TIMD-Merge解决了常规TIMD方法的一个缺点，即由于纹理差异，块周围的相邻模板信息不可靠。为此，所提出的TIMD-Merge在比常规TIMD模板更大的模板区域内构建了一个TIMD编码块列表，其中包括非相邻邻近块。此列表称为合并列表，然后按模板排序以提供一组最佳的TIMD模式。TIMD-Merge模式在块级别上进行信号传输，在ECM-14.0实现中，亮度BDR增益性能提高了0.08%，编码和解码运行时间分别增加了100.6%和100.2%，增幅可忽略不计。

多媒体

2025-03-24 发布

为监测夜间天空状况，大多数天文观测台使用广角全天相机来监控天空云量。本文应用深度学习方法，自动化识别全天相机数据中的降水云，构建云预警系统。我们利用伊朗国家天文台（INO）的全天相机图像档案，手工标注训练集和测试集图像，基于其潜在降雨情况及其在天空中的分布。通过基于EfficientNet网络的深度学习方法，我们对约2445张由INO全天相机拍摄的图像进行模型训练。我们的模型在判断云降水潜力时平均准确率达到99%，在云覆盖度判断上准确率达到96%。为了全面比较并评估替代架构在此任务中的性能，我们还额外训练了三种模型：LeNet、DeiT和AlexNet。该方法可用于提前预警可能威胁望远镜的危险云层，并利用深度学习自动分析大量全天相机数据，精准识别降水云形成。我们训练好的模型可部署用于实时分析，快速识别潜在威胁，提供可扩展的解决方案，从而提升保护天文台望远镜和仪器的能力。这在当下众多小型和中型望远镜正日益集成智能控制系统以减少人工操作的情况下尤为重要。

使用深度学习模型进行抑郁检测在以往的研究中已被广泛探讨，尤其是在可以从社交媒体帖子中获取大量数据的情况下。这些帖子提供了关于个人心理健康状况的有价值信息，并可用于训练模型和识别数据中的模式。然而，在这一领域分布式学习方法尚未得到充分探索。在这项研究中，我们采用联邦学习（FL）在智能手机上实现去中心化训练，同时保护用户数据隐私。我们在Reddit帖子上训练三种神经网络架构——门控循环单元（GRU）、循环神经网络（RNN）和长短期记忆网络（LSTM），以检测抑郁征兆，并在异构联邦学习设置下评估其性能。为了优化训练过程，我们利用一个通用的标记器在所有客户端设备上工作，从而减少了计算负载。此外，我们分析了智能手机上的资源消耗和通信成本，以评估它们在现实世界联邦学习环境中的影响。实验结果表明，联邦模型的表现与集中式模型相当。本研究通过在边缘设备上提供安全高效的模型训练过程，展示了联邦学习在去中心化心理健康预测方面的潜力。

机器学习

2025-03-24更新2024-10-17 发布

我们在五维爱因斯坦-麦克斯韦-Chern-Simons理论中研究了由磁场诱导的量子相变的纵向剪切粘度和蝴蝶速度，该理论在全息意义上对应一类具有手征反常的强耦合量子场论。我们的分析表明，纵向剪切粘度与熵密度之比$\eta_\parallel/s$对温度$T$表现出显著的非单调依赖关系，当磁场$B$略低于量子相变的临界值$B_c$时尤为明显。特别是，在中间温度下它可能发展出一个明显的极小值。这与在$B=B_c$处及以上的单调温度标度形成鲜明对比，其中$\eta_\parallel/s$在$B=B_c$时遵循$T^{2/3}$的标度关系，并在$B>B_c$且$T\to0$时过渡到$T^2$。零温极限下单纵剪切粘度$\eta_\parallel/s$在$B<B_c$时不消失，表明其可作为量子相变的良好序参量。我们还发现，所有蝴蝶速度在量子相变附近均发生剧烈变化，因此它们对$B$的导数可以独立用于探测量子临界点。

高能物理-理论

强关联电子体系

2025-03-24更新2025-03-13 发布

基于大型语言模型（LLMs）构建的代理正越来越多地部署在各个领域，自动化复杂决策和任务执行。然而，它们的自主性也带来了安全风险，包括安全漏洞、法律违规以及无意中的有害行为。现有的缓解方法，如基于模型的安全保障和早期干预策略，在鲁棒性、可解释性和适应性方面存在不足。为了解决这些挑战，我们提出了AgentSpec，这是一种轻量级的领域特定语言，用于对LLM代理的运行时约束进行指定和强制执行。通过AgentSpec，用户可以定义包含触发器、谓词和执行机制的结构化规则，从而确保代理在预定义的安全边界内运行。我们在多个领域实现了AgentSpec，包括代码执行、具身代理和自动驾驶，展示了其适应性和有效性。我们的评估表明，AgentSpec成功防止了超过90%的代码代理案例中的不安全执行，消除了具身代理任务中的所有危险行为，并使自动驾驶汽车（AVs）达到了100%的合规性。尽管具有强大的安全保障，AgentSpec仍然保持计算上的轻量级，开销仅为毫秒级别。通过结合可解释性、模块化和效率，AgentSpec为在多样化应用中强制执行LLM代理安全性提供了一个实用且可扩展的解决方案。我们还利用LLMs自动生成规则，并评估其效果。我们的评估显示，由OpenAI o1生成的规则对具身代理的精确率为95.56%，召回率为70.96%，成功识别了87.26%的风险代码，并在8个场景中有5个防止了AVs违反法律。

人工智能

计算与语言

2025-03-24 发布

实现基于中性原子的容错量子计算需要解决固有的错误，尤其是在多量子比特门实现过程中里德堡态的泄漏问题。这种泄漏会引发两量子比特错误链，降低错误距离并损害错误校正性能。尽管现有的解决方案，如特定硬件协议（擦除转换）和电路基础协议，已表现出有利的错误距离（纯里德堡衰变时$d_e = d$）和较高的错误阈值，但它们依赖于显著的额外硬件资源。在本研究中，我们提出了一种硬件高效的处理里德堡衰变错误的方法，利用SWAP-LRU，并通过最终泄漏检测定位错误。无需额外资源即可清除泄漏并更新原子。当能够检测到所有泄漏时，我们提出了定位解码器，并展示了每个CNOT门的高错误阈值2.33%，并且对于纯里德堡衰变表现出改进的错误距离，优于传统的Pauli错误模型。此外，我们引入了一种替代但更硬件高效的解决方案——关键解码器。它仅需检测一种泄漏，就能有效消除里德堡衰变对亚阈值缩放的破坏性影响。我们的发现为定位错误提供了新的见解，并为实现基于中性原子阵列的资源高效容错量子计算铺平了道路。

量子物理

2025-03-24更新2025-03-03 发布

我们为由每个$n \in \mathbb{Z}^+$生成的$n$-周期l-预群$\mathbf{F}_n(\mathbb{Z})$所构成的变种以及这些变种的所有可能并集提供了公理化描述；有限并集在l-预群的次簇格中形成一个理想，我们完全描述了该理想格的结构。在此过程中，我们刻画了由$\mathbf{F}_n(\mathbb{Z})$生成的变种中的所有有限次直接不可约（FSI）代数，即具有全序群骨架的$n$-周期l-预群（且非平凡）。进一步地，我们刻画了不是l-群的有限生成FSI代数，它们可以被表示为有限生成全序可换l-群与$\mathbf{F}_k(\mathbb{Z})$的字典积，其中$k \mid n$。

本文提出了一种新的针对正常或强磁场中略非均匀磁场下带电粒子动力学问题的滤波二步变分积分器，其中磁场强度由无量纲参数$\epsilon$反比例表示。对于正常磁场情形（$\epsilon \approx 1$），该方法获得了二阶误差界以及长时间的能量和动量守恒性，并通过后向误差分析完成了长时间分析的证明。对于强磁场情形（$0<\epsilon \ll 1$），本文探讨了滤波变分积分器在大步长$h^2 \geq \epsilon$和小步长$h \sim \epsilon$下的行为。误差界分析基于精确解与数值解的调制傅里叶展开比较。研究表明，对于大步长该积分器在位置和并行速度上的精度达到$\mathcal{O}(h^2)$，而对于小步长的精度为$\mathcal{O}(\epsilon)$。此外，本文还通过发展所提方案的调制傅里叶展开，得到了强磁场条件下的长时间能量和磁矩守恒性。所有理论结果均通过两个数值实验进行了验证。

数值分析

cs.NA

2025-03-24 发布

我们证明了Moishezon流形在复数域$\mathbb{C}$单位圆盘上的光滑形变下，其形变极限仍为Moishezon的猜想。

复变函数

代数几何

微分几何

2025-03-24更新2024-07-02 发布

设简单有限图 $ G = (V, E) $。对应的宿舍床图 $ G^\pm $ 包含两个 $ G $ 的副本 $ G^+ = (V^+, E^+) $ 和 $ G^- = (V^-, E^-) $，以及额外边连接任意两个 $ v_+ \in V_+ $ 和 $ v_- \in V_- $ 的顶点，它们分别是 $ G $ 中顶点 $ v \in V $ 的副本。宿舍床猜想指出，在 $ G^\pm $ 上的独立键渗流中，对于所有 $ v, w \in V $，$ v_-, w_- $ 被连接的概率大于 $ v_-, w_+ $ 被连接的概率。尽管这一结论看起来非常合理，但迄今为止，严格证明的内容仍然非常少。最近该猜想已被完全图证明。本文给出了对完全二分图、从完全图中去掉一个完全子图的边以及对称完全 $ k $-部图的证明。

概率论

组合学

60K35, 05C80, 82B43, 05A20

2025-03-24更新2022-04-27 发布

共 13511 条搜索结果

共 13511 条

面向分布式多机器人问题的物理信息多智能体强化学习

借助随机位置编码提升扩散变换器分辨率泛化能力的研究

足球视频理解的通用方法

CAGE：无监督视觉组合与动画用于可控视频生成

ETAP: 任意点基于事件的跟踪

对角线对称交替符号矩阵的推广

真实磁对流模拟中双极扩散的收敛性研究

基于硬件光栅化的基于光线的高斯点绘方法

一种被阻塞的Parisi假说

大语言模型水印的综合评估框架CEFW

基于模板的帧内模式派生（TIMD）合并模式在ECM中的应用

基于深度学习的全天相机数据降水云识别用于天文台安全

基于智能手机的设备端联邦学习在从Reddit帖子检测抑郁中的应用

磁场驱动量子临界性的剪切粘度与蝴蝶速度的全息研究

AgentSpec：可定制的LLM代理运行时约束 enforcement 以确保安全性和可靠性

在SWAP-LRU中定位里德堡衰变错误

小周期l-预群变种的公理化

针对正常或强磁场中带电粒子动力学的滤波二步变分积分器

光滑形变下Moishezon流形的形变极限仍是Moishezon

宿舍床猜想对完全二分图及相关图类的研究