Research

arXiv

分类

从观测数据中进行因果发现具有巨大潜力，但现有方法通常依赖于对潜在因果结构的强假设，往往需要完全可观测所有相关变量。我们通过利用观测变量的分数函数$\nabla \log p(X)$来进行因果发现，并提出以下贡献。首先，我们在可加噪声模型上精细调整了现有的可识别性结果，表明其关于因果机制非线性的假设并非必要。其次，我们建立了即使在存在隐藏变量的情况下，利用分数函数推断因果关系的条件；这一结果具有两面性：我们证明了分数函数可以推断包含隐藏变量的因果图等价类（而以往结果局限于完全可观测的情形），并给出了潜在变量模型中直接原因识别的充分条件。基于这些见解，我们提出了一种灵活的算法，适用于线性、非线性和潜在变量模型的因果发现，并进行了实证验证。

机器学习

人工智能

方法论

2025-03-22更新2024-07-26 发布

人物再识别（Re-ID）是计算机视觉中的重要任务，旨在跨非重叠摄像机视图识别个体。尽管最近先进的视觉语言模型（VLMs）在逻辑推理和多任务泛化方面表现出色，但它们在Re-ID任务中的应用仍受到限制。它们要么难以基于身份相关特征进行准确匹配，要么作为辅助语义协助图像主导分支。本文提出了一种新颖的框架ChatReID，将重点转向文本主导的检索范式，实现灵活且交互式的再识别。为了将语言模型的推理能力集成到Re-ID流水线中，我们首先构建了一个大规模指令数据集，包含超过800万个提示以促进模型微调。接下来，我们引入了一种分层渐进微调策略，通过从人物属性理解到细粒度图像检索再到多模态任务推理的三个阶段赋予Re-ID能力。在十个流行基准上的广泛实验表明，ChatReID超越了现有方法，在所有Re-ID任务中实现了最先进的性能。更多的实验还表明，ChatReID不仅具备识别细微细节的能力，还能将这些细节整合到一个连贯的推理过程中。

计算机视觉与模式识别

2025-03-22更新2025-02-27 发布

设备无关量子随机数生成器（DI-QRNG）对于信息处理至关重要，能够确保认证的量子特性和真正的随机性。然而，现有的实现方案由于量子特性检测的挑战，通常面临低比特率的问题。在这里，我们提出了一种通过贝尔测试实现实时量子特性认证的高比特率DI-QRNG。利用极化萨格纳克干涉仪中的自发参量下转换，我们在环形结构的对称相对位置上生成具有强时空关联性的纠缠光子对。将环形结构划分为六个对称区域，我们创建了三个偏振无关的纠缠光子源，这些源从单一资源中展现出无偏的量子力学随机性。通过利用两个源产生的光子对的符合计数，我们生成原始比特，同时第三个源同步测量贝尔参数而不会损失QRNG比特。在46.4秒内生成了9000万原始比特，贝尔参数满足(S > 2)条件，最小熵提取比率超过97%。经过Toeplitz矩阵后处理，该DI-QRNG实现了1.8 Mbps的比特率，并通过了所有NIST 800-22和TestU01测试。在非最大纠缠态情况下缺乏贝尔参数时，$g^{(2)}(0)$可以作为量子特性度量的指标。可扩展且无分束器，这种兆比特速率的DI-QRNG非常适合实际应用。

量子物理

2025-03-22更新2024-12-24 发布

本文研究了六颗选定的Halley型彗星（HTCs）在未来10万年的演化，展示它们在动力学行为上的共同点和差异。这包括估算其成为日心彗星的概率以及轨道翻转的可能性。我们结合了三种互补的数值方法来研究动力学特征：时间向前积分、李雅普诺夫时间估算以及近邻轨道指数增长因子（MEGNO）。对于每颗彗星，我们从现有观测数据中获取其开普勒轨道参数。然后构建虚拟彗星群作为所有动力学研究的基础。结果显示，有两颗彗星（近日距q<1.3 au）在未来有很大概率成为日心彗星：161P在未来13千年内成为近日距q<0.005 au的日心彗星的可能性约为80%，而122P在未来10万年内有50%的可能性。我们发现这两颗HTCs成为日心彗星的原因是受到除木星以外其他行星的Kozai共振影响，例如天王星对161P的Kozai共振起到了重要作用。我们指出，这两颗彗星具有高日心概率的同时也具有较高的轨道翻转可能性。其余四颗HTCs在10万年后成为日心彗星的概率较低（<2.2%），但其中三颗可能具有较高的轨道翻转概率。我们还表明，李雅普诺夫时间和MEGNO指标在10,000年后提供了轨道稳定性互补的画面。结果使我们可以从最混乱到最稳定的顺序对彗星进行排名，其中161P由于Kozai机制可能导致瓦解，属于特别的情况。

本文致力于估算固定阶数为$p$的Bessel函数所需的Fourier-Bessel级数（阶数为$p'$）项数，使得误差达到某一给定值，其中$p \neq p'$。我们的方法分为两步：首先，构建$n$阶Hankel变换关于$n$的不变量；其次，观察将固定阶数为$p$的适当缩放Bessel函数展开为$p'$阶Fourier-Bessel级数的效果。我们提出了一种新的误差度量方法以简化误差计算。此外，我们利用数值模拟生成经验模型，并考察其预测所需项数的能力。

信号处理

2025-03-22 发布

开放集识别（OSR）要求模型在对已知样本进行分类的同时检测未知样本，以满足实际应用需求。现有研究表明，利用辅助数据集中未知样本对OSR模型进行正则化取得了显著进展，但证明了其对选择此类已知异常值非常敏感。本文从一个新的视角讨论上述问题：我们能否在不精心挑选辅助已知异常值的情况下正则化OSR模型？我们首先从经验上和理论上探索前景和背景在开放集识别中的作用，并揭示以下两点：1）与前景相关的背景会误导模型并在遇到“部分”已知图像时导致失败；2）与前景无关的背景可以作为辅助的已知异常值并通过全局平均池化提供正则化。基于以上见解，我们提出了一种新方法——背景混合（BackMix），该方法通过将图像的前景与不同背景混合来去除潜在的前景-背景先验。具体而言，BackMix首先使用类激活图（CAMs）估计前景，然后随机用其他图像的背景替换图像补丁，以获得用于训练的混合图像。通过去除前景和背景的相关性，开放集识别性能得到了显著提高。该方法实现简单，在推理过程中无需额外操作，可以无缝集成到几乎所有现有的框架中。代码已发布在https://github.com/Vanixxz/BackMix。

计算机视觉与模式识别

2025-03-22 发布

设$(X, E)$为由光滑Fano曲面$X$及其光滑反典范除子$E$组成的光滑对数Calabi-Yau对。我们通过$X$的典范丛的射影化$Z := \mathbb{P}(K_X \oplus \mathcal{O}_X)$，利用稳定对数映射的退化公式[KLR]获得某些高亏格局部Gromov-Witten不变量。我们利用$q$-细化热带曲线计数与带有$\lambda_g$插入的对数Gromov-Witten理论之间的关系[Bou]，在退化情形下计算了该不变量。作为一个推论，我们利用翻转证明了$Z$的高亏格不变量的爆炸公式。此外，假设$X$为toric簇时，我们利用Topological Vertex[AKMV]以及[GRZZ]中的论证，推广了[Cha]中的亏格0开闭等式，证明了外在Aganagic-Vafa brane$L \subset K_X$的开不变量与$Z$的闭不变量之间的一个全亏格对应关系。

我们研究了最近引入的非均匀$n$-物种$t$-PushTASEP，这是一种定义在周期性格点上的长程随机过程。建立了类似Baxter的公式，该公式将Markov矩阵表示为$U_t(\widehat{sl}_{n+1})$的所有基本表示下的交换转移矩阵的交错和。这种叠加作用类似于容斥原理，选择性地提取出PushTASEP特有的顺序粒子跃迁，同时消除禁止的通道。当参数趋于齐次时，PushTASEP与ASEP相连接，表明这两个模型共享特征态并具有共同的可积结构。

60J27, 82B20, 82B23, 82B44, 81R50, 17B37

2025-03-22更新2025-03-02 发布

复杂性理论通常关注的是利用经典输入和输出解决计算问题的难度，即使是在量子计算机的情况下也是如此。在量子世界中，应用另一种复杂性概念——即合成量子态的复杂性——是自然的。我们研究了NP类的状态合成对应类stateQMA，它涉及通过一个多项式时间内量子验证器，借助来自全能但不可信证明者的单一量子消息来准备某些量子态。这是Rosenthal和Yuen（ITCS 2022）最近引入的stateQIP类的一个子类，该类允许证明者与验证器之间有多项式次交互。我们的主要结果包括对这个类及其具有指数级小间隙或有界空间的变体进行错误减少，以及这个类与其他基本状态合成类之间的关系，即由均匀多项式时间量子电路（stateBQP）和空间均匀多项式空间量子电路（statePSPACE）生成的状态。此外，我们证明了被认为是stateQMA包含最自然候选之一的UQMA见证集属于stateQMA。另外，我们还表明stateQCMA实现了完美的完备性。

量子物理

计算复杂性

2025-03-22更新2023-03-03 发布

当前，人工智能（AI）被视为学术界内外可持续发展的“变革者”。为了讨论可持续人工智能，本文借鉴了批判数据与算法研究、科学技术与社会学（STS）、转型可持续科学、批判计算机科学以及公共利益理论的见解。我主张尽管人工智能确实存在许多与可持续发展相关的应用场景，但其总体弊端可能多于益处。为支持这一论点，我区分了人工智能供应链的三种“物质性”：首先是物质层面（如水、钴、锂、能源消耗等），其次是信息层面（如大量数据和集中控制的需求），第三是社会层面（如剥削性的数据工作、社区因废物和污染而受到的危害）。在所有这些物质性方面，对全球南方的影响尤为毁灭性，而全球北方则从中受益。关于可持续人工智能的另一个重要观点涉及所谓的非政治化优化（例如城市交通优化），然而，优化标准（如汽车、自行车、排放、通勤时间、健康等）本质上是政治性的，必须在应用人工智能优化之前通过集体协商确定。因此，从原则上讲，可持续人工智能无法突破转型的玻璃天花板，甚至可能分散必要的社会变革的关注点。为解决这一问题，我建议停止“无信息收集”，并采用“小即是美”的原则。这旨在为如何（不）将人工智能整合到可持续发展项目中贡献学术和集体协商，同时避免通过服务于有用的人工智能应用场景、技术乌托邦救赎叙事、技术中心效率范式、人工智能的剥削性和掠夺性特征以及数字去增长概念来延续现状。

刚体对象的6D位姿估算是计算机视觉领域长期存在的挑战性任务。近期，深度学习的兴起揭示了卷积神经网络（CNNs）在预测可靠6D位姿方面的潜力。鉴于当前直接位姿回归网络性能仍不理想，大多数方法在不同程度上依然依赖传统技术。例如，表现最佳的方法通常采用间接策略，首先建立2D-3D或3D-3D对应关系，然后应用RANSAC-based PnP或Kabsch算法，并进一步利用ICP进行细化。尽管这些方法提升了性能，但传统技术的引入使网络变得耗时且无法端到端训练。与此不同的是，本文提出了一种完全基于学习的物体位姿估计器。我们首先深入研究直接和间接方法，并提出了一种简单而有效的基于几何引导的直接回归网络（GDRN），以端到端的方式从单目图像中学习6D位姿。随后，我们引入了一个基于几何引导的位姿细化模块，在有额外深度数据可用的情况下提高位姿精度。通过预测的坐标图引导，我们构建了一个端到端可微的架构，用于在观测和渲染的RGB-D图像之间建立稳健且准确的3D-3D对应关系以优化位姿。我们的增强版位姿估计流水线GDRNPP（GDRN Plus Plus）连续两年在BOP挑战赛的排行榜上名列前茅，成为首个在准确性和速度上超越所有依赖传统技术的先前方法的技术。代码和模型可在https://github.com/shanice-l/gdrnpp_bop2022获取。

计算机视觉与模式识别

机器人学

2025-03-22更新2021-02-24 发布

我们建立了光滑债量除子$\Theta^n$与排列多面体$\Pi^n$及其对应的环簇$X_\Pi^n$之间的一种有趣关系。特别地，我们证明了债量除子$\Theta^n$的广义Todd示性数与排列多面体$\Pi^n$的$h$-多项式一致，并且仅相差一个符号$(-1)^n$。作为应用，我们利用Eulerian数得到了债量除子的所有Hodge数。此外，我们还揭示了债量除子与Tomei流形之间有趣的数值关系，这些流形来自Toda格子方程的可积理论。

代数拓扑

代数几何

14F45, 14M25, 55NXX

2025-03-22更新2022-11-29 发布

为了适应不断变化的道路状况，实时模型训练对于自动驾驶（AD）至关重要。联邦学习（FL）作为一种有前景的范式，能够使自动驾驶车辆利用车载计算资源协同训练模型。然而，现有的联邦学习车辆选择方案均假设车辆的数据集是预先确定且位置无关的，忽略了车辆沿其行驶路线收集训练数据的事实，从而导致次优的车辆选择结果。为提高特定区域的感知质量，我们提出了Sense4FL，这是一种基于车际感知增强的联邦学习框架，具有轨迹相关的车辆训练数据收集特性。为此，我们首先通过考虑车辆不确定轨迹及其上传概率的影响，推导了联邦学习的收敛界，并发现最小化训练损失等价于最小化车辆收集数据分布与全局数据分布之间的局部和全局地球移动者距离（EMD）的加权和。基于这一观察，我们将联邦学习在自动驾驶中的轨迹相关车辆选择与数据收集问题形式化。鉴于该问题是NP难问题，我们开发了一种高效的算法，在保证近似解的情况下找到解决方案。大量的仿真结果表明，与现有基准方法相比，我们的方法在提升目标检测性能方面具有显著优势。

机器人学

分布式、并行与集群计算

2025-03-22 发布

大型语言模型在自动化软件工程方面取得了令人印象深刻的性能。为了评估代码大型语言模型（code LLMs）在各个方面的能力，已经进行了大量的努力，并提出了越来越多的基准和评估框架。除了最受关注的代码生成能力外，代码理解能力也引起了越来越多的关注。然而，现有评估大型语言模型代码理解能力的工作表现出不同的局限性。像CRUXEval和REval这样的评估框架通常专注于特定输入情况下的代码推理任务，导致覆盖的执行轨迹范围有限，从而造成所检查的代码语义损失，并无法全面评估大型语言模型对目标程序的综合理解能力。为了解决这些挑战，我们提出了SpecEval，这是一种新颖的黑盒评估框架，通过程序规范来评估大型语言模型的代码理解能力。受规范可以作为程序行为在所有可能执行轨迹上的全面表述这一想法的启发，我们采用形式化的程序规范来表示程序语义并进行综合评估。具体而言，精心设计了四个与规范相关的任务，从基础到高级水平评估大型语言模型的能力。进一步开展了反事实分析，研究了大型语言模型在语义保持扰动下的性能变化。在六个最先进的大型语言模型上进行了系统实验。广泛的实验结果表明，大型语言模型在与规范相关任务上的表现低于预期，揭示了现有大型语言模型在用正式规范表达程序语义方面的局限性。反事实分析还揭示了大型语言模型对语义保持扰动的敏感性。

软件工程

2025-03-22更新2024-09-19 发布

本文讨论了在爱因斯坦-麦克斯韦框架下幽灵星模型的存在性。为了探讨这些天体，我们借鉴了泽尔多维奇和诺维科夫的思想，同时考虑到这些模型的能量密度在时空几何的某些区域处于负值范围。我们通过考虑静态球体并建立带电各向异性流体结构的场方程进行分析。随后引入两个生成函数，并将场方程改写为质量及这些物理量的形式。在此基础上，利用共形平坦条件以及所考虑的生成函数构建了两种不同的模型。此外，我们采用零复杂度约束和零有效引力质量条件，得到了另外两种解。所有构建模型的能量密度也通过图形进行了展示。最终得出结论：在存在电荷的情况下幽灵星可能存在，因为在特定的径向坐标范围内，所有得到的解的能量密度均处于负值区域。

广义相对论与量子宇宙学

2025-03-22 发布

多模态大型语言模型（MLLMs）对于开发通用人工智能助手至关重要，但它们也面临着日益增长的安全风险。如何确保这些模型能够安全地与人类意图对齐，以防止歧视、虚假信息或伦理标准违反等不当行为？进一步而言，我们需要探索如何在增强推理性能的同时确保这些模型满足安全约束条件。从根本上讲，这可以被表述为一个极小-极大优化问题。在这项研究中，我们提出了Safe RLHF-V，这是首个结合多模态奖励和成本模型的安全对齐框架，该框架基于拉格朗日约束优化方法，同时优化了有用性和安全性。鉴于目前缺乏区分多模态场景下有用性和安全性的偏好数据集，我们引入了BeaverTails-V，这是一个开源数据集，包含针对有用性和安全性的双重偏好标注以及多层次的安全标签（轻微、中度、严重）。此外，我们设计了一个多层次护栏系统，以主动防御不安全查询和对抗攻击。通过在前驱模型上应用Beaver-Guard-V审核进行五轮筛选和再生成，上游模型的整体安全性平均提高了40.9%。实验结果表明，使用Safe RLHF微调不同的MLLMs可以有效提升模型的有用性，同时确保更高的安全性。具体而言，Safe RLHF-V将模型的安全性提升了34.2%，有用性提升了34.3%。所有数据集、模型和代码均可在https://github.com/SafeRLHF-V获取，以支持MLLMs的安全发展并降低潜在的社会风险。

机器学习

人工智能

2025-03-22 发布

若图 $G=(V,E)$ 的任意顶点 $v\in V$ 的度数 $d_G(v)$ 均为奇数（或偶数），则称该图为奇数图（或偶数图）。显然，奇数图的阶数必为偶数。本文证明了每个 4-边连通的偶数阶图都存在一个连通的奇数因子。若生成树 $T$ 不包含度数为二的顶点，则称其为同胚不可约生成树（简称 HIST）。显然，奇数生成树必为 HIST。1990年，Albertson、Berman、Hutchinson 和 Thomassen 证明了任意阶为 $n$ 且最小度 $\delta(G)\geq \min\{\frac{n}{2}, 4\sqrt{2n}\}$ 的连通图都包含一个 HIST。我们证明了每个两部分均为偶数的完全二部图均不存在奇数生成树，从而对于任意可被 4 整除的偶数 $n$，存在一个阶数为 $n$ 且最小度为 $\frac{n}{2}$ 的图没有奇数生成树。此外，我们还证明了每个阶为 $n$ 且最小度 $\delta(G)\geq \frac{n}{2}+1$ 的图都存在奇数生成树，并进一步刻画了所有具有奇数生成树的分裂图。作为应用，对于任意直径至少为 4 的图 $G$，其补图 $\overline{G}$ 包含一个跨度奇数双星。最后，我们给出了一个三角形自由图 $G$ 的补图包含奇数生成树的充要条件。同时提出了一些相关开放问题。

组合学

05C05, 05C07

2025-03-22 发布

我们提出了一种新颖的、无需训练的方法，用于增强基于Transformer的文本引导扩散模型（TGDMs）中的对齐效果。现有的TGDMs在生成语义对齐图像时往往面临困难，特别是在处理复杂的文本提示或多概念属性绑定挑战时。以往基于U-Net的方法主要优化潜在空间，但直接应用于Transformer架构的效果有限。我们的方法通过在生成过程中直接优化跨注意力图解决了这些挑战。具体而言，我们引入了自一致引导（Self-Coherence Guidance），该方法利用从之前的去噪步骤中衍生出的掩码动态优化注意力图，确保精确对齐而不需额外训练。为验证我们的方法，我们构建了更具挑战性的基准测试，用于评估粗粒度属性绑定、细粒度属性绑定和风格绑定。实验结果表明，我们的方法在所有评估任务中均显著优于其他最先进的方法。我们的代码可在https://scg-diffusion.github.io/scg-diffusion获取。

计算机视觉与模式识别

2025-03-22 发布

人工智能系统（如推荐系统、聊天机器人）从用户交互中收集的反馈是训练数据的重要来源。尽管短期反馈（如点击、参与度）被广泛用于训练，但大量证据表明，优化短期反馈并不一定能实现期望的长期目标。然而，直接优化长期目标具有挑战性，我们发现短期干预（如排名）和长期反馈（如用户留存）在时间尺度上的脱节是关键障碍之一。为克服这一脱节，我们引入了多尺度策略学习框架，以在多个相互依赖的时间尺度上协调人工智能系统的行动和反馈优化。对于任意两个级别，我们的方法选择较低一级的较短期目标来优化较高一级的长期目标。因此，所有级别的策略都能有效优化长期目标。我们将该框架具体化为多尺度离线策略bandit学习（MSBL），并在与推荐系统和文本生成相关的三个任务中展示了其有效性。

机器学习

2025-03-22 发布

设$\Gamma$表示直径$D \geq 2$的距离正则图。设$E$表示$\Gamma$的一个本原幂等元，并且$\Gamma$相对于$E$是$Q$-多项式的。假设存在一个$3$-团$\{x,y,z\}$，使得$E\hat{x}, E\hat{y}, E\hat{z}$线性相关。本文分类了所有具有上述性质的$Q$-多项式距离正则图$\Gamma$，并从多个角度描述这些图。

组合学

2025-03-22更新2024-06-30 发布

共 13511 条搜索结果

共 13511 条

分数匹配的新高度：线性、非线性和潜在变量的因果发现

ChatReID: 视觉语言模型层级渐进微调下的开放式交互式人物检索

基于分束器自由架构且具备实时贝尔测试认证的兆比特速率设备无关量子随机数生成器

近极轨12P及其他Halley型彗星的未来演化

关于Bessel函数阶数在Fourier-Bessel级数和Hankel变换中的作用研究

BackMix：通过去除前景-背景先验正则化开放集识别

光滑对数Calabi-Yau对偶上的射影丛给出的高亏格Gromov-Witten不变量

从反对称融合出发的多物种非均匀$t$-PushTASEP

量子Merlin-Arthur证明系统用于合成量子态

关于可持续人工智能的可能性与不可能性：为何朝着错误方向前进时加速并无意义

GDRNPP：一种基于几何引导的完全学习型物体位姿估计器

债量除子与排列多面体

Sense4FL：基于车际感知增强的联邦学习用于自动驾驶

SpecEval：通过程序规范评估大型语言模型代码理解能力

电磁场背景下幽灵星可能存在的研究

多模态大语言模型的安全人类反馈强化学习（Safe RLHF-V）：多模态环境下的安全对齐研究

图的奇数生成树

基于自一致引导的Transformer对齐生成方法

多尺度上下文-bandits 方法用于长期目标

关于具有线性依赖性的$ Q $-多项式距离正则图的研究：涉及一个$ 3 $-团