Research

arXiv

分类

如果普朗克尺度$M_{\rm{Pl}}$不是一个基本参数，这将非常令人感兴趣。Brans-Dicke引力正是这样一个理论，其中普朗克尺度$M_{\rm{Pl}}$实际上是一个幻象参数。该理论预言了一个无质量的标量玻色子，其在物质之间的交换会诱导出不必要的长程力。我们通过在理论上引入没有维数参数（即使在量子水平上）来解决这个问题。我们进一步扩展了这一理论，加入了$R^2$项以及标准模型希格斯场与引力的非最小耦合，因为它们的系数是无维数的。这一扩展提供了一个与所有宇宙学观测一致的重暴涨场，其势能与Starobinsky模型非常相似。暴涨场必然衰变为无质量的标量玻色子，导致当前宇宙中有不可忽略量的暗辐射。我们证明了这个暴涨模型可以产生足够高的再加热温度，从而实现成功的轻子生成机制，并且还讨论了暗物质的一个可能候选者。

高能物理-唯象学

我们将著名的Glivenko-Cantelli定理（有时称为统计学的基本定理）从其标准设定下的总变差距离推广到所有的$f$-散度。这一努力的关键障碍在于如何在一个$\sigma$-代数的子集上定义$f$-散度，该子集构成一个$\pi$-系统但不是$\sigma$-子代数。这是我们工作的次要贡献之一。我们将证明这种在射线$\pi$-系统上的$f$-散度概念几乎保留了标准$f$-散度的所有已知性质，得到了Kolmogorov-Smirnov距离的一种新积分表示，并具有Glivenko-Cantelli定理。我们还将讨论$f$-散度的Vapnik-Chervonenkis理论的可能性。

2025-03-24更新2025-03-21 发布

青光眼是一种不可治愈的眼科疾病，会损害视神经、导致视力丧失，并成为全球范围内致盲的主要原因之一。诊断青光眼通常涉及眼底摄影、光学相干断层扫描（OCT）以及视野测试。然而，OCT高昂的成本常常导致依赖于眼底摄影和视野测试，而这两者都存在固有的观察者间变异性。这种变异性源于青光眼作为一种多因素疾病，受到多种因素的影响。因此，青光眼诊断具有高度主观性，强调了校准的必要性，即调整预测概率与实际疾病可能性的一致性。适当的校准对于防止过度诊断或误诊至关重要，尤其是在高风险疾病中。尽管人工智能在提高诊断准确性方面取得了显著进展，但模型的过度自信却恶化了校准性能。近期研究开始关注青光眼的校准问题，但以往的研究尚未充分考虑青光眼的系统性特征及其诊断过程中的高度主观性。为克服这些局限性，我们提出了V-ViT（基于投票的ViT），这是一种新颖的框架，通过整合疾病特异性特征来增强校准效果。V-ViT集成了双眼数据和元数据，反映了青光眼诊断的多面性。此外，我们引入了一种基于MC Dropout的投票系统，以解决高度主观性问题。我们的方法在所有指标上均达到了最先进的性能，包括准确性，表明所提出的方法在解决校准问题方面是有效的。我们使用包含双眼数据的自定义数据集验证了该方法。

图像与视频处理

计算机视觉与模式识别

2025-03-24 发布

将一条纸带沿同一方向多次折叠后再展开，使所有折痕处形成固定角度$\theta$，所得到的形状称为具有展开角$\theta$的龙曲线。当$0\le\theta<90^{\circ}$时，对应的龙曲线会发生自相交；当$\theta=180^{\circ}$时，对应的龙曲线为一条直线，不存在自相交。本文将证明，任何展开角大于$99.3438^{\circ}$且小于$180^{\circ}$的龙曲线均不会发生自相交。

度量几何

2025-03-24更新2024-01-13 发布

代理模型对于复杂升力面设计优化过程中的快速准确表面压力和摩擦预测至关重要。本研究专注于利用图神经网络（GNNs）预测二维翼型的压力分布，充分利用其处理非参数化几何形状的能力。我们引入了仅在表面网格上运行的边界图神经网络（B-GNNs），并与之前基于体积网格的体积GNNs的工作进行了比较。所有训练和评估均使用airfRANS（雷诺平均纳维-斯托克斯）数据库完成。我们展示了全局不可压缩流约束在GNNs中进行全互连通信的重要性，以确保预测的准确性。研究表明，向B-GNNs提供基于局部物理特性的输入特征，例如近似的局部雷诺数$\mathrm{Re}_x$和由平板法代码计算的无粘压分布，可以实现模型大小减少83%，训练集大小减少87%，同时达到相同的分布内预测精度。我们进一步调查了B-GNNs对S809/27风力机叶片截面的分布外预测能力，并发现包含无粘压分布作为特征可使误差相对纯几何输入减少高达88%。最后，我们发现基于物理特性的模型相比最先进的体积模型INFINITY，误差减少了85%。

流体动力学

2025-03-24 发布

捕捉高斯分布的位置、旋转和尺度等属性随时间演化的特性是一项具有挑战性的任务，由于大量随时间变化的参数以及有限的光度数据，通常会导致收敛问题，难以找到最优解。虽然将所有输入送入端到端神经网络可以有效建模复杂的时序动态，但这种方法缺乏显式监督且难以生成高质量的变换场。另一方面，利用时序条件多项式函数建模高斯轨迹和方向提供了更明确且可解释的解决方案，但需要大量手工设计的工作，并且在不同场景中的泛化能力较弱。为克服这些局限性，本文提出了一种基于可学习无穷阶泰勒公式的新型方法来建模高斯分布的时序演化。该方法兼具基于隐式网络方法的灵活性和显式多项式函数的可解释性，能够在各种动态场景中实现更鲁棒和更具泛化性的高斯动力学建模。在公开数据集上的动态新视角渲染任务中进行了广泛的实验，结果表明所提出的方法在该领域达到了最先进的性能。更多详细信息请访问我们的项目页面(https://ellisonking.github.io/TaylorGaussian)。

计算机视觉与模式识别

2025-03-24更新2024-12-05 发布

自1926年波恩提出波恩规则以来，其具体内容和表述形式经历了显著变化。本文追溯了波恩规则一百年前的早期历史，讨论了约五十年前将其推广至POVM（正算符值测度），这一推广对当今的量子光学和量子信息理论至关重要，并基于A. Neumaier所著《相干量子物理》（2019）和A. Neumaier与D. Westra合著的《代数量子物理，第一卷》（2024）中的鲜为人知的结果，给出了从量子探测器直观定义出发的一种现代推导。同时，文章还探讨了波恩规则的各种形式如同物理学中的其他陈述一样，存在适用范围限制的问题，当超出该范围应用时会导致相应问题。

量子物理

81-03, 81P10, 81P15

2025-03-24更新2025-02-12 发布

视觉语言模型（VLMs）在多模态推理方面取得了重大进展，但仍然难以理解用户特定的概念。现有的个性化方法解决了这一局限性，但严重依赖于训练过程，这些过程对个别用户来说可能是昂贵或不愉快的。我们不同于现有工作，并首次在个性化背景下探索无训练设置。我们提出了一种新颖的方法，即检索与推理用于个性化（R2P），利用VLMs的内部知识。首先，我们利用VLMs提取概念指纹，即定义该概念在其语义类中的独特关键属性。当查询到达时，通过链式思维推理检索并为最相似的指纹打分。为了降低幻觉的风险，在属性层面通过跨模态验证来验证分数：如果分数之间存在分歧，R2P通过成对多模态匹配优化概念关联，即将检索到的指纹及其图像与查询直接比较。我们在两个公开可用的数据集和一个新引入的数据集Personal Concepts with Visual Ambiguity（PerVA）上验证了R2P，用于概念识别并突出视觉模糊方面的挑战。R2P在所有基准上的各种下游任务中始终优于最先进的方法。代码将在接受后提供。

计算机视觉与模式识别

2025-03-24 发布

许多学习问题中的损失函数包含多个加项，这些加项可能产生冲突并导致更新方向不一致。对于Physics-Informed Neural Networks（PINNs），初始/边界条件和物理方程上的损失项尤为关键，因其任务难度较高。为改进PINNs提出的具有挑战性的多目标学习任务，我们提出了ConFIG方法，通过确保最终更新与每个特定损失梯度之间的点积为正，实现无冲突更新。该方法还保证了所有损失项的一致优化速率，并根据冲突水平动态调整梯度大小。此外，我们利用动量加速不同损失项的反向传播过程。我们提供了ConFIG方法收敛性的数学证明，并在一系列具有挑战性的PINNs场景中对其进行了评估。结果表明，ConFIG方法在性能和运行时间上均优于基线方法。我们还在经典多任务基准测试中验证了该方法，结果显示其表现极为出色。源代码可在https://tum-pbs.github.io/ConFIG获取。

机器学习

68T07

2025-03-24更新2024-08-20 发布

BI-RADS评分是放射科医生用于表达基于乳腺X线影像形态特征预测乳腺癌不确定性的概率报告工具。在描述肿块时存在显著的变异性，这有时会导致BI-RADS误分类。需要一个BI-RADS预测系统来支持放射科医生的最终决策。本研究利用贝叶斯深度学习模型提取的不确定性信息来预测BI-RADS评分。基于病理信息的研究结果表明，放射科医生预测的f1分数分别为42.86%、48.33%和48.28%，而模型在BI-RADS 2、3和5数据集样本中的表现f1分数分别为73.33%、59.60%和59.26%。此外，该模型能够以75.86%的准确率区分所用数据集中BI-RADS 0类别中的恶性与良性样本，并正确识别所有恶性样本为BI-RADS 5。Grad-CAM可视化显示，模型关注病变的形态特征。因此，本研究表明，具有不确定性感知的贝叶斯深度学习模型可以根据形态特征像放射科医生一样报告其对病灶恶性的不确定性。

计算机视觉与模式识别

人工智能

2025-03-24更新2025-03-18 发布

高红移处与星系团星系际介质相关的弥散同步加速辐射源对理解磁化及粒子加速机制具有特殊意义。El Gordo (EG) 是高红移（0.87）处最庞大的星系团，拥有射电晕和双射电遗迹系统。我们旨在通过结合射电和X射线观测理解湍流在弥散射电发射起源中的作用。我们使用升级后的GMRT在0.3至1.45 GHz波段对EG进行了观测，并获得了综合谱、空间分辨的光谱图以及射电与X射线表面亮度之间的比例关系。利用Chandra数据，我们构建了中心1 Mpc区域的密度涨落功率谱。射电晕和双遗迹在所有频段均被探测到，此外，我们还检测到了东部遗迹的一个延伸部分。射电晕的谱指数为$-1.0\pm0.3$，在高于1.45 GHz处可能有变陡的趋势。除了东部遗迹延伸部分的谱指数为$-2.1\pm0.4$外，所有遗迹的谱指数均为$-1.4$。在3和4波段的点对点射电与X射线表面亮度分析显示斜率分别为$0.60\pm0.12$和$0.76\pm0.12$。谱指数和X射线表面亮度呈现反相关性。密度涨落峰值出现在约700 kpc处，幅度为$(\delta \rho/\rho) =0.15\pm0.02$。假设所有涨落均由湍流引起，我们从气体密度涨落功率谱推导出三维湍流马赫数约为0.6。EG的推导特性与低红移星系团一致，表明高红移星系团中提出的快速磁场放大机制在EG中同样存在。我们讨论了所获结果与湍流再加速的一致性，这可能代表了高红移合并星系团的情况。

宇宙学和非星系天体物理学

2025-03-24 发布

深度强化学习近期在解决复杂问题方面取得了显著成功，但样本效率和局部最优性仍然是重大挑战。为此，基于新颖性驱动的探索策略应运而生，并展现出巨大潜力。然而，目前没有单一算法能在所有任务中超越其他算法，且大多数算法在处理高维复杂观测的任务时表现不佳。在此工作中，我们提出了一种名为“冒险者”（Adventurer）的新颖性驱动探索算法，该算法基于双向生成对抗网络（BiGAN），其中BiGAN被训练用于估计状态的新颖性。直观上，一个已针对访问过的状态分布进行训练的生成器只能生成来自访问过状态分布的状态。因此，利用生成器从特定潜在表示重构输入状态时，新颖状态会导致更大的重构误差。我们证明了BiGAN在估计复杂观测状态的新颖性方面表现出色。此新颖性估计方法可与基于内在奖励的探索相结合。我们的实验结果表明，“冒险者”在一系列流行的基准任务中产生了具有竞争力的结果，包括连续机器人操作任务（如Mujoco机器人）和高维图像任务（如Atari游戏）。

机器学习

人工智能

2025-03-24 发布

可重构智能表面（RIS）已被认为是提升定位精度的一种有前景的解决方案。传统的基于RIS的定位方法通常依赖于先验信道知识、波束扫描以及基于导频的辅助手段。这些方法往往导致显著的能量和计算开销，并且需要基站（BS）与RIS之间的实时协调。本文提出了一种新颖的多RIS辅助定位方法以解决这些问题。该方法首先利用条件样本均值方法估计RIS与用户之间的入射角（AoDs），然后利用估计出的多个AoD对确定用户位置。此方法仅需在BS处测量接收到的信号强度，对于所有RIS上的随机生成相移集进行测量即可，从而消除了对实时RIS相位调整或用户到基站导频传输的需求。数值结果表明，与传统方法相比，所提出的定位方法在提高定位精度的同时显著降低了能量和信令开销。

信号处理

信息论

2025-03-24 发布

指数跟踪型投资是一种被动型投资方式，旨在复制市场指数的收益与风险，而增强型指数跟踪则提供超越指数的回报。我们考虑在给定资产数量限制下构建一个用于追踪指数的投资组合，既包括无增强的情况也涵盖有增强的情况。我们将问题分为两个步骤：（1）资产预筛选；（2）选定资产的权重估计。所采用的八种资产预筛选程序包括：前向选择（FS）或后向剔除（BE），并分别通过普通最小二乘法（OLS）或最小绝对偏差（LAD）回归实现，同时考察带常数项（c）与不带常数项（n）的情形。两步法避免了资产选择与权重计算结合时产生的NP难问题，从而通过计算机密集型启发式方法选择约束条件下的指数跟踪资产组合，文献中已有许多针对少于10个资产的案例解决此问题。我们避免这些限制，证明样本外追踪误差大致与1/根号下资产数量成正比。结果表明，OLS相较于LAD更为有效，BE略优于FS，（n）稍优于（c）。对于指数跟踪，无论是无增强还是有增强的情况，我们在对所选时间段和评估周期进行敏感性分析时均采用BE-OLS(n)方法。以标准普尔500指数为例，我们发现样本外追踪误差、交易量以及收益风险比随资产数量增加而改善；而对于增强收益情况，资产数量在10到20之间最为有效。所使用的自2005年3月1日至2023年12月29日的标准普尔500指数数据可供研究人员使用。

投资组合管理

2025-03-24 发布

再汇聚现象在喷流的动力学演化及高能辐射发射中具有重要意义。此外，全面理解这一现象有助于揭示活动星系核（AGN）附近喷流的基本属性。三维（磁）流体力学模拟表明，再汇聚处的喷流条件有利于强不稳定性的发展，这挑战了传统观点——即二维模拟所支持的喷流经历一系列再汇聚和反射激波而被限制的观点。为了研究AGN中再汇聚点处相对论喷流的稳定性，我们利用最先进的PLUTO代码进行了一系列长时间的三维相对论流体力学模拟，重点关注流体力学不稳定性的演变。我们探索了不稳定性的非线性增长及其对初始喷流参数依赖下的物理喷流属性的影响：喷流洛伦兹因子、温度、张开角以及喷流-环境密度对比度。参数空间的设计旨在描述靠近核心的小尺度（约几秒差距）处低功率、弱磁化的喷流。我们模拟的所有汇聚喷流都发展出了不稳定性。再汇聚不稳定性会减速喷流、加热喷流、混入外部物质，并将再汇聚点移动到更靠近核心的位置。这一结论适用于锥形和柱形喷流。最初由离心不稳定性触发的这些不稳定性，在较窄、较密、更接近相对论速度且温度较高的喷流情况下显得不那么具有破坏性。这些结果为理解控制AGN喷流的复杂过程提供了宝贵的见解，可用于建模低功率、弱磁化喷流AGN的特性。

高能天体物理现象

2025-03-24 发布

随着软件的不断发展，代码变更可能会引入回归错误或以其他意想不到的方式影响行为。传统的回归测试生成方法在检测意外的行为变化时并不实用，因为它会将所有行为差异报告为潜在的回归。然而，大多数代码变更的意图是改变某些行为，例如修复错误或添加新功能。本文提出了一种名为Testora的自动化方法，通过比较代码变更的意图与由该变更引起的行为差异来检测回归。给定一个拉取请求（PR），Testora查询大型语言模型（LLM）以生成用于测试修改后代码的测试用例，比较原始代码和修改后代码的行为，并将任何行为差异分类为有意或无意。为了进行分类，我们提出了一种基于LLM的技术，利用与PR相关联的自然语言信息，如标题、描述和提交消息——从而为回归测试提供了一个自然语言Oracle。在复杂且流行的Python项目的PR上应用Testora后，我们发现了19个回归错误以及11个尽管有其他意图但巧合地修复了错误的PR。在向开发者报告的13个回归中，已有10个得到确认，8个已经修复。Testora的实际部署成本是可以接受的，每个PR的检查时间为12.3分钟，LLM成本仅为每个PR0.003美元。我们设想这种方法可以在代码变更合并到代码库之前或之后不久使用，为早期检测传统方法未捕获的回归提供一种方式。

软件工程

2025-03-24 发布

受BESIII实验在三体介子$D$衰变方面最新进展的启发，我们系统地分析了$D_{(s)} \to P_1 (V \to) P_2 P_3$衰变过程，其中$V$表示矢量共振态（$\rho, K^*, \omega, \phi$），而$P_{1,2,3}$为轻赝标介子（$\pi, K, \eta^{(\prime)}$）。通过因子化辅助拓扑振幅（FAT）方法，我们计算了中间过程$D_{(s)} \to P_1 V$，并采用相对论布雷特-维格纳分布来描述随后的$V \to P_2 P_3$强衰变。通过全面包含所有相关的共振态（$\rho, K^*, \omega, \phi$），我们计算了这些衰变模式的分支比以及$D_{(s)} \to P_1 (\omega \to) KK$过程中的布雷特-维格纳尾效应。我们的框架全面结合了可因子化和不可因子化的贡献，在由于粲介子质量尺度限制而使传统方法面临挑战的非微扰区域显著提高了理论预测精度。FAT方法的结果与实验数据吻合良好，表明其在捕捉不可因子化贡献方面具有较高的精确度。我们对尚未观测到的衰变模式的预测，特别是分支比在$10^{-4}$至$10^{-3}$范围内的模式，预计将在未来的BESIII和LHCb高精度实验中得到验证。

高能物理-唯象学

2025-03-24 发布

近年来，多模态大型语言模型（MLLMs）被用作代理，通过直接感知图形用户界面（GUI）并生成相应的命令来控制键盘和鼠标输入。然而，当前的代理主要在静态环境中展示出强大的理解能力，并且主要应用于相对简单的领域，例如Web或移动界面。我们认为，一个稳健的GUI代理应能够感知GUI上的时间信息，包括动态Web内容和多步骤任务。此外，它应该对各种GUI场景具有全面的理解，包括桌面软件和多窗口交互。为实现这一目标，本文介绍了一个新的数据集——GUI-World，该数据集精心制作了Human-MLLM注释，广泛涵盖了六种GUI场景和三种格式下的八类GUI导向问题。我们评估了当前最先进的MLLMs（包括图像LLMs和视频LLMs）在理解各种类型的GUI内容（特别是动态和顺序内容）方面的能力。研究结果表明，当前模型在没有人工标注的关键帧或操作历史的情况下，难以处理动态GUI内容。另一方面，由于GUI视频数据集的稀疏性，视频LLMs在所有GUI导向任务中表现不佳。因此，我们迈出了第一步，利用经过微调的视频LLM（GUI-Vid）作为GUI导向助手，展示了对各种GUI任务的改进理解。然而，由于基础LLMs性能的限制，我们得出结论，将视频LLMs用作GUI代理仍然是一项重大挑战。我们认为，我们的工作为未来动态GUI内容理解的研究提供了有价值的见解。所有数据集和代码均可公开获取：https://gui-world.github.io。

计算机视觉与模式识别

人工智能

计算与语言

2025-03-24更新2024-06-16 发布

状态空间模型（SSMs）是一种强大的统计工具，通过潜在状态对时变系统进行建模。在这些模型中，潜在状态无法直接观测到，而是可以通过与状态相关的观测序列获得。状态空间模型由状态动力学和观测模型定义，两者均由参数化分布描述。对这些分布参数的估计是一项极具挑战性但必不可少的任务，用于执行推理和预测。此外，通常并非系统的所有状态都相互作用，因此可以通过图来编码状态之间的交互关系，这种图通常不是完全连接的。然而，大多数参数估计方法并未利用这一特性。本文提出GraphGrad，这是一种全自动的方法，通过多项式近似获得非线性状态空间模型中状态交互的稀疏估计。该新颖方法揭示了数据生成过程的潜在结构，允许我们推断出一般状态空间模型的结构及其丰富且高效的参数化值。我们的方法利用可微粒子滤波器优化蒙特卡洛似然估计器，并通过适当的邻近更新促进系统估计中的稀疏性，这种方法比次梯度方法更高效且稳定。如论文所示，许多已知的动力学系统可以通过我们的方法准确表示和恢复，为实际应用场景提供了基础。

计算

2025-03-24更新2024-11-23 发布

我们研究了二维经典库仑气体在反温度$\beta=2$下，由旋转不变势$U(r)$限制在一个半径为$R$的区域内的行为。当$U(r)\sim r^2$时，这描述了复Ginibre随机矩阵特征值的分布。我们研究了如下形式的线性统计量${\cal L}_N = \sum_{i=1}^N f(|{\bf x}_i|)$，其中${\bf x}_i$是$N$个粒子的位置，在大$N$极限且$R=O(1)$的情况下进行分析。已知对于光滑函数$f(r)$，方差${\rm Var}\,{\cal L}_N=O(1)$，而对于与圆盘计数统计相关的指示函数，${\cal L}_N$的所有累积量$q\geq 2$都表现为$\sim \sqrt{N}$。此外，对于光滑函数，证明了${\cal L}_N$的累积量$q\geq 3$按$\sim N^{2-q}$缩放。令人惊讶的是，发现它们仅依赖于$f'(|\bf x|)$及其在液滴边界处精确评估的导数。为了理解这一性质，并在平滑与阶跃行为之间进行插值，我们研究了微观线性统计量，即$f(r) \to f_N(r) = \phi((r-\hat r) \sqrt{N}/\xi)$，该统计量探测了粒子间距尺度上的涨落。我们计算了固定$\phi(u)$在任意$\xi$下的大$N$极限中的${\cal L}_N$累积量。对于大的$\xi$，结果与光滑函数的预测一致，表明在这种情况下，主要贡献来自液滴边界附近的$1/\sqrt{N}$大小的边界层。最后，我们展示了${\cal L}_N$的全概率分布在${\cal L}_N \sim \sqrt{N}$和${\cal L}_N \sim N$的不同区域分别表现出两种不同的大偏差形式。我们还讨论了这些结果在旋转谐波陷阱中费米子以及Ginibre辛系综中的应用。

共 13511 条搜索结果

共 13511 条

无标度Brans-Dicke引力——超轻标量玻色子与重暴涨场

Glivenko-Cantelli定理在$f$-散度中的推广

重新思考青光眼校准：基于投票的双眼数据与元数据集成

非自相交的龙曲线

基于边界图神经网络的翼型压力分布预测

动态视图渲染的可学习无穷阶泰勒高斯方法

波恩规则——一百年前与今天

基于指纹检索与推理的无训练个性化方法

面向无冲突训练的Physics Informed Neural Networks方法：ConFIG

基于贝叶斯深度学习模型提取不确定性信息的乳腺X线摄影肿块BI-RADS预测

使用升级后GMRT在高红移星系团El Gordo中的双射电遗迹和射电晕

冒险者：基于BiGAN的深度强化学习探索方法

基于可重构智能表面辅助定位：一种无需信道状态信息的条件样本均值新方法

基于最优选择的约束条件资产组合指数跟踪研究：可选增强分析

再汇聚引起的不稳定性如何影响相对论流体喷流的传播？

基于自然语言Oracle的回归测试

三体介子$D$介子衰变的分析

GUI-World: 多模态图形用户界面理解的视频基准数据集与数据集

GraphGrad：高效估计广义状态空间模型稀疏多项式表示的方法

二维库仑气体在微观尺度下的线性统计