Research

arXiv

分类

过程监督奖励模型是一种细粒度函数，能够为模型响应提供逐步骤的详细反馈，从而有效选择复杂任务中的推理路径。尽管其具有诸多优势，但对过程奖励模型（PRMs）的评估仍较少被探索，尤其是在多模态领域。为解决这一问题，本文首先在多个视觉-语言基准数据集上将当前视觉大语言模型（VLLMs）作为两种类型的奖励模型进行基准测试：输出奖励模型（ORMs）和过程奖励模型（PRMs）。结果表明，无论是ORM还是PRM，在所有任务中均未表现出始终如一的优越性能，且优秀的VLLMs并不一定带来更好的奖励表现。为进一步推进评估工作，我们引入ViLBench，这是一个旨在需要密集过程奖励信号的视觉-语言基准。值得注意的是，OpenAI的GPT-4o结合思维链（CoT）仅达到27.3%的准确率，表明该基准对当前VLLMs提出了挑战。最后，我们初步展示了弥合通用VLLMs与奖励模型之间差距的一种有前景的途径——通过使用增强的树搜索算法收集了73.6K个视觉-语言过程奖励数据，我们的3B模型在ViLBench上的表现相较于标准CoT提升了平均3.3%，相比未经训练的版本提升了最高2.5%，具体通过选择OpenAI o1的生成结果实现。我们已公开代码、模型和数据，可访问https://ucsc-vlaa.github.io/ViLBench获取。

计算机视觉与模式识别

计算与语言

2025-03-26 发布

我们分析了自旋-1矢量玻色子在扭曲时空中的行为，重点关注扭曲石墨烯结构中的光子模式。通过求解完全协变的矢量玻色子方程，我们得到了描述扭曲螺旋背景下光子量子态的精确解，揭示了它们的能量谱、模式轮廓和衰减动力学。研究发现，当扭曲螺距（$a$）从$10^3$纳米变化到$1$纳米时，阻尼光子模式的衰减时间范围为$10^{-16}$至$10^{-13}$秒，表明该结构能够高效吸收所有光子模式。此外，概率密度函数表现出时间依赖性，补充了其空间变化特性。这些结果为设计基于扭曲石墨烯的超快石墨烯光电探测器、高速光学通信的石墨烯光子器件、先进的光子器件以及用于各种纳米光子应用的量子材料奠定了基础。

光探测和测距（LiDAR）是自动驾驶的一项关键技术，因为它能够捕捉高分辨率的三维数据。由于三维目标检测系统（OD）可以解释这些点云数据，因此在自动驾驶车辆的驾驶决策中起着关键作用。因此，这种三维OD必须对各种扰动具有鲁棒性，并且必须进行广泛的测试。一种方法是使用对抗样本，即输入数据中的小扰动（有时较为复杂），这些扰动会改变OD的预测结果，使其失效。这些扰动是基于OD的弱点精心设计的。然而，通常情况下，不能仅凭对抗样本量化OD的鲁棒性，因为如果OD对给定攻击脆弱，无法确定这是由于OD本身的鲁棒性不足，还是因为攻击算法产生了特别强大的对抗样本。本文的工作贡献是Hi-ALPS——基于分层对抗样本的激光雷达扰动水平系统，随着扰动级别的增加，对OD的更高鲁棒性提出了要求。在此过程中，Hi-ALPS级别依次实施启发式方法，随后采用已建立的对抗样本方法。通过一系列使用Hi-ALPS的综合实验，我们量化了六种最先进的三维OD在不同类型的扰动下的鲁棒性。实验结果显示，没有一种OD能够在所有Hi-ALPS级别下保持鲁棒；一个重要的因素是人类观察者仍然能够正确识别被扰动的对象，因为相应的扰动较小。为了提高OD的鲁棒性，我们讨论了最先进的对策的适用性。此外，我们还基于实验结果提出了进一步的对策建议。

计算机视觉与模式识别

机器学习

2025-03-26更新2025-03-21 发布

对于大规模视觉-语言模型（LVLMs），生成能够理解图像中丰富文本内容的详细描述已引起越来越多的关注。然而，很少有研究专门开发针对详细描述的基准来衡量其准确性和全面性。本文介绍了一个名为CompreCap的详细描述基准，从有向场景图的角度评估视觉上下文。具体而言，我们首先根据常见物体词汇手动将图像分割为语义上有意义的区域（即语义分割掩码），同时区分这些区域内对象的属性。然后为这些对象标注方向关系标签，构建一个能很好地编码图像丰富组合信息的有向场景图。基于我们的有向场景图，我们开发了一套流程，从多个层面评估LVLMs生成的详细描述，包括对象级别的覆盖率、属性描述的准确性以及关键关系的评分等。CompreCap数据集上的实验结果表明，我们的评估方法与人类评估分数高度一致。

计算机视觉与模式识别

2025-03-26更新2024-12-11 发布

首先在完美剩余域的情况下证明了Bosch-Lütkebohmert-Raynaud关于未必为半阿贝尔代数群的全局Néron模型存在性的猜想；随后给出了不完美剩余域情况下该存在的反例。最后，作为对这些猜想的补充，在完美剩余域的情形下通过相对完美单一群的对偶性，我们对单连的不可分解单一群进行了“相对完备化”分类。上述工作的关键在于相对完美单一群的对偶理论。

数论

代数几何

14L15 (Primary) 14G17, 14F30, 11G10, 14K15 (Secondary)

2025-03-26更新2023-10-23 发布

让大型语言模型（LLMs）与人类价值观及安全约束对齐具有挑战性，尤其是在帮助性、真实性以及避免伤害等目标相互冲突时。基于人类反馈的强化学习（RLHF）在引导模型方面取得了显著成功，但过程复杂且可能不稳定。最近的方法如直接偏好优化（DPO）简化了基于偏好的微调，但可能会引入偏差或牺牲某些目标~\cite{dpo}。在这项工作中，我们提出了一种带有多标签奖励回归模型的分组相对策略优化（GRPO）框架，以实现安全且对齐的语言生成。GRPO算法通过比较采样响应组来优化策略，消除了单独价值评估器的需求，提高了训练效率~\cite{grpo}。我们训练了一个奖励模型来预测多个对齐分数（例如安全性、帮助性等），并将这些分数组合成单一奖励信号。我们为在GRPO中使用这种学习到的多方面奖励提供了理论推导，并讨论了其优势和局限性。实证研究表明，我们的方法在各种规模的模型（0.5B、7B和14B参数）的语言生成任务中改进了所有评估的安全性和质量指标，展示了目标间稳健的平衡。我们将GRPO与基于PPO的RLHF和DPO进行了比较，表明GRPO以显著降低的计算成本和明确的多目标处理实现了对齐。**我们将开源所有训练好的模型，地址为https://huggingface.co/hydroxai。

计算与语言

2025-03-26 发布

图压缩作为一种有前景的方法，通过在保持图基本特征的同时压缩训练数据集，实现了对图神经网络（GNNs）的可扩展训练。我们的研究揭示了当前图压缩技术存在的显著不足。首先，大多数算法在进行压缩时需要依赖整个数据集进行训练，这与压缩的目标背道而驰。其次，由于这些方法采用梯度模拟的方式，任何超参数或GNN架构的变化都需要重新进行压缩，从而限制了其灵活性和可重用性。最后，由于合成的是全连接、带边权的图，它们无法实现显著的图规模缩减。为了解决这些问题，我们提出了Bonsai，这是一种新颖的图压缩方法，其灵感来源于消息传递GNNs的核心处理单元——\textit{计算树}。Bonsai通过精心选择一组\textit{样本树}来编码训练集中所有计算树的表示，从而实现数据集的压缩。这种方法使Bonsai成为首个针对节点分类任务的线性时间、模型无关的图压缩算法，其在7个真实世界数据集上的准确率超越了现有基线算法，并且平均速度快22倍。此外，Bonsai基于所采用的近似策略的严格数学保证，使其对GNN架构、数据集和参数具有鲁棒性。

机器学习

人工智能

2025-03-26更新2024-10-23 发布

在IIA弦理论的$\mathbb{T}^6/(\mathbb{Z}_2\times \mathbb{Z}_2)$定向膜背景下分析超对称Pati-Salam模型景观时，我们仅发现两个模型能够精确描述标准模型中的所有费米子质量和混合。这两个模型在交换两个SU(2) sector后互为对偶，并包含12个伴随标量，这是该景观中允许的最大数量，其线性组合产生两个轻Higgs本征态。正常质量顺序下的狄拉克中微子质量$(50.6,~10.6,~6.2)\pm 0.1$ meV满足实验约束以及swampland约束。

高能物理-理论

高能物理-唯象学

2025-03-26更新2024-07-28 发布

当前物体关键点估计的进步主要得益于基于大量带有预定义关键点标注数据的传统监督学习范式。然而，这些经过良好训练的模型在测试时几乎无法检测到未定义的新关键点，这大大限制了它们在多样化下游任务中的可行性。为了解决这个问题，各种解决方案被探索，但仍面临有限的泛化能力或迁移能力的问题。因此，在本文中，我们探讨了一种新的关键点学习范式，即仅在新数据中标注新关键点并增量式地训练模型，而无需保留任何旧数据，称为增量式物体关键点学习（IKL）。为此，我们开发了一种两阶段学习方案作为针对IKL的新型基线。在第一个知识关联阶段，给定仅带有新关键点标注的数据，通过一个辅助的KA-Net，基于空间和内在解剖学关系自动将旧关键点与这些新关键点关联起来。在第二个相互促进阶段，基于一种关键点导向的空间蒸馏损失，我们联合利用辅助的KA-Net和旧模型进行知识整合，以相互促进所有旧关键点和新关键点的估计。由于对新旧关键点之间相关性的研究，我们提出的方法不仅可以有效缓解旧关键点的灾难性遗忘问题，甚至可能进一步提高旧关键点的估计精度，并实现超越防遗忘的正向迁移。这一观察已经在不同关键点数据集上的广泛实验中得到了充分验证，我们的方法在减轻遗忘问题和提升性能方面表现出优越性，同时在低样本数据情况下也享有标注效率。

计算机视觉与模式识别

机器学习

2025-03-26 发布

为什么深度神经网络（DNNs）在非常高的参数空间维度下表现出色？它们巨大的参数复杂性与实际中的出色表现之间的关系，无法通过标准的正则模型选择理论进行解释。本文提出了一种几何化的信息论方法来研究这一现象。基于最小描述长度理论，我们相信简单性与更好的泛化能力相关联，因此我们的分析目标是考察并限制DNNs的复杂性。我们通过考虑Fisher信息矩阵的显著维度数量，引入了神经网络模型参数空间的局部可变维数，并利用奇异半黎曼几何框架将参数空间建模为流形。通过对其奇异性分析，我们推导出模型复杂性度量，从而为深度神经网络模型提供短描述长度，从而解释了尽管参数数量庞大，DNNs仍能表现良好的原因。

机器学习

2025-03-26更新2019-05-27 发布

工业5.0依赖于智能、自动化以及高度互联的操作，以实现高效且可持续的人机协作。关键技术如物联网（IoT）通过促进网络中物理设备间的连接及数据驱动决策，实现了这一目标。然而，由于物联网设备容易受到网络攻击，可以利用区块链技术提高网络透明度并防止数据篡改。但即便如此，在某些情况下，区块链网络仍可能面临Sybil攻击和51%攻击等威胁。因此，基于后量子密码协议和安全量子通信信道的量子区块链应运而生，其安全性更强。本文开发了一种适用于物联网-量子区块链框架下的量子二元投票算法，使互联设备能够在存在潜在故障或恶意行为者的情况下对交易的有效性达成共识。文中详细证明了投票协议的正确性，并表明其能够安全地抵御与量子比特承诺、量子区块链以及量子拜占庭协议相关的各种重要外部和内部攻击。此外，我们还在IBM Quantum平台和Simulaqron库上模拟实现了该投票算法的量子电路。

量子物理

密码学与安全

2025-03-26 发布

脉冲神经网络（SNNs）和Transformer是神经计算中的两种强大范式，分别以其低功耗和捕获特征依赖性的能力著称。然而，Transformer架构通常涉及多种类型的计算层，包括MLP模块和分类头中的线性层、tokenizer中的卷积层以及自注意力机制中的点积计算。这些多样化的操作对硬件加速器设计提出了重大挑战，据我们所知，目前尚无硬件解决方案能够利用来自SNNs的脉冲形式数据为Transformer架构服务。本文介绍了一种名为VESTA的新硬件设计，它将这两种技术协同起来，提出了能够高效执行Transformer结构所需三种关键计算的统一处理单元（PE）。VESTA独特地受益于Spike神经元层的脉冲形式输出，通过将乘法操作从处理两个8位整数简化为处理一个8位整数和一个二进制脉冲，从而简化了计算过程。这种简化使得PE模块可以使用多路复用器，显著提高了计算效率，同时保持了SNNs的低功耗优势。实验结果显示，VESTA的核心面积为$0.844 mm^2$，工作频率为500MHz，并能够在实时图像分类任务中达到每秒30帧的速度。

计算机硬件体系结构

2025-03-26 发布

我们从非相对论库仑-薛定谔有效场论的角度，基于算符乘积展开（OPE）重新审视了原子薛定谔波函数的凝聚行为。我们以电子-核凝聚为例展示我们的形式化方法，其中著名的卡托尖点条件可以轻松重现。一个精确的OPE关系在微扰理论的所有阶次上被严格证明。我们的方法可以很容易地推广到确定原子波函数的多粒子凝聚行为，并且可以考虑相对论效应。

2025-03-26更新2018-09-24 发布

数据分析师在组织中至关重要，他们将原始数据转化为驱动决策和战略制定的洞见。本研究探讨了分析师在协作平台上的生产力如何随时间演变，重点关注两种关键学习活动：编写查询和查看同行查询。传统研究通常假设静态模型，即随着累积学习，表现会稳步提升，但这种模型无法捕捉现实世界中学习的动态特性。为了解决这一问题，我们提出了一种隐马尔可夫模型（HMM），用于追踪分析师根据参与这些活动而过渡到不同学习状态的过程。通过对一家企业提供的包含2,001名分析师和79,797条查询的数据集进行分析，研究识别出三种学习状态：新手、中级和高级。随着分析师进入更高的状态，其生产力也随之提高，体现了学习带来的累积效益。编写查询对各状态的分析师都有益处，其中新手获得的收益最大。查看同行查询对新手有帮助，但可能会因认知过载或效率低下而阻碍处于较高状态的分析师。从一个状态向另一个状态的过渡也并非均衡，尤其是从中级到高级的进步尤为困难。本研究深化了对知识工作者动态学习行为的理解，并为系统设计、培训优化、个性化学习以及有效知识共享提供了实践启示。

智能算法日益影响我们在线上遇到和参与的内容。TikTok的“为你推荐”（For You）信息流体现了极端的算法驱动型内容筛选机制，几乎完全基于用户对平台的显式和隐式互动来定制视频内容流。尽管这一现象受到了越来越多的关注，但TikTok算法驱动的内容放大机制仍缺乏量化研究。TikTok的算法如何快速且在多大程度上放大与用户兴趣相符的内容？为回答这些问题，我们开展了一项机器人审计实验，部署了具有不同兴趣的虚拟账号（sock-puppet）与“为你推荐”信息流进行交互。研究发现，与机器人兴趣一致的内容经历了强烈的放大效应，通常在观看前200个视频时就出现了迅速强化的现象。虽然所有兴趣类型的内容均表现出放大效应，但其强度因兴趣类别而异，表明了主题特定偏见的出现。时间序列分析和马尔可夫模型揭示了推荐机制的多个阶段动态，包括持续的内容强化以及随时间推移内容多样性逐渐下降的现象。尽管TikTok算法在一定程度上维持了内容多样性，但我们发现放大效应与探索行为之间存在显著的负相关：随着与用户兴趣一致内容的放大效应增强，对未见标签（hashtag）的参与度却有所下降。这些研究结果有助于探讨数字时代社会-算法反馈回路的问题，并为个性化推荐与内容多样性之间的权衡提供见解。

和集与子集和中长算术级数的存在性在加性组合学领域得到了广泛研究。这些加性组合学的结果在理论计算机科学中近期解决的一些基础问题（如背包问题和子集和问题）中起到了核心作用。然而，相关加性组合学结果的非构造性限制了它们在算法中的应用。特别是基于加性组合学的一些子集和问题算法仅适用于该问题的判定版本，而非搜索版本。我们为[Sárközy'89 '94]关于和集中及子集和中存在长算术级数的基本有限加法定理提供了构造性证明。我们的构造性证明产生了一个接近线性时间的算法，能够显式地返回一个算术级数，并且对于该算术级数中的每一项，还返回其在基集合中的元素表示之和。作为一个应用，我们现在得到了一个求解稠密子集和问题搜索版本的$\tilde{O}(n)$时间算法。我们结果的另一个应用是无界子集和问题，其中每个输入整数可以无限次使用。经典的Frobenius问题结果[Erdős和Graham '72]表明，对于所有$t \geq 2a^2_{\max}/n$的情况，决策版本可以线性时间内简单解决。然而，对于搜索版本是否可以在相同时间内解决仍不清楚。我们的结果表明，对于所有$t \geq ca^2_{\max}/n$（其中$c$为常数），可以通过$O(n \log a_{\max})$的时间获得无界子集和问题的解。

数据结构与算法

F.2.2

2025-03-26更新2025-03-25 发布

在“限制到一阶环图的量子引力辐射效应”（Brandt、Frenkel 和 McKeon，2020）中，作者在爱因斯坦-希尔伯特作用量中引入拉格朗日乘子（LM）场，消除了所有多圈引力子图，并将量子引力修正限制在一环内。由此得到的一阶有效作用量包含一个与$\ln(\mu/\Lambda)$成正比的项，他们认为该项可能通过实验确定，暗示可以直接测量量子引力效应。然而，我们表明$\mu$和$\Lambda$源自所选择的重正化方案，而非物理可观测量，这意味着$\ln(\mu/\Lambda)$表示在此“LM重正化方案”下的有限紫外截止。尽管牛顿常数保持不变（$G_N$无跑动），但由此产生的对数依赖性编码了四维广义相对论（GR）的有效域，从而明确展示了4D GR作为能量低于截止值的有效场论（EFT）。随后，我们说明如何将这一截断且重正化的引力部分一致地与标准模型（SM）统一起来，得到一个涵盖引力和粒子物理直至$\Lambda_{\text{grav}}$尺度的有限且重正化的有效场论。

高能物理-理论

2025-03-26更新2025-03-12 发布

传输是网络的重要功能之一。研究传输效率有助于揭示不同潜在结构中动态过程的发生，并具有广泛的应用前景。为了构建具有不同传输效率的网络，我们关注通过顶点合并操作获得的网络，该操作涉及通过单个节点连接多个图。本文考察了这些网络上的无偏随机游走，并分析了其首次通过特性，包括平均首次通过时间（MFPT）、平均捕获时间（MTT）以及全局平均首次通过时间（GFPT），后者表征了网络中的传输（搜索）效率。我们严格推导了这些量的闭式解。结果表明，所有这些量都受到组成组件首次通过特性的支配。此外，我们提出了一种通用方法，通过选择合适的节点并调整子图中节点数量的增长来优化传输（搜索）效率。我们利用棒糖图和哑铃图对研究结果进行了验证。我们的结果显示，对于任意的GFPT标度指数$\alpha \in [1, 3]$，都可以通过顶点合并操作构建一个GFPT随网络规模$N$变化为$\text{GFPT} \sim N^{\alpha}$的网络。这些结论为设计和优化网络结构提供了宝贵的见解。

混沌动力学

2025-03-26 发布

人工噪声（AN）传输是一种多天线无线通信系统中的物理层安全技术。通过波束成形，人工噪声被广播给除了指定合法用户外的所有接收者。我们研究了使用单个射频链路和模拟波束成形的AN传输方法，其中波束成形向量保持恒定幅值，而相位可以任意调整。我们的主要目标是设计一个恒定幅值的向量，能够同时消除多个用户的信道向量。为了解决这个零强迫问题，我们提出了一种新颖的连续划分零强迫（SPZF）方案，将多用户零强迫任务转化为优化信道划分以最小化中断概率。SPZF方案可以推广到任意数量的用户，但我们的分析集中于两用户情况。理论分析表明，所提出的SPZF方案在发射天线数量趋于无穷大时可以达到任意低的中断概率。我们提出了三种分区算法（随机、迭代和遗传）以最小化中断概率。通过数值仿真比较了这三种分区算法的中断概率和安全性速率。结果表明，更先进的分区算法（迭代和遗传）在高信噪比（SNR）、大量窃听者或较少发射天线的情况下，相较于随机算法能够实现更高的安全性速率。

物理信息神经网络为求解描述复杂物理现象的若干微分方程提供了一种替代方法。然而，当求解Helmholtz方程时，由于梯度消失问题的存在，其在预测声场方面的成功受到限制。本文提出了一种解决该困难的公式。通过试函数法，将带有给定边界条件的二维Helmholtz方程求解问题构造成一个无约束优化问题。根据这种方法，在训练过程之前，利用变换有限插值技术和R函数理论构建了一个满足给定边界条件的试神经网络。此假设首先应用于矩形域，随后扩展到圆形和椭圆域。所提出的公式预测的声场与二维有限元方法得到的结果进行了比较，在所考虑的三个域中均观察到良好的一致性。此外，还讨论了与所提出公式相关的次要局限性及其补救措施。

共 13511 条搜索结果

共 13511 条