Research

arXiv

分类

当前JWST的时代，我们继续深入揭示再电离纪元的宇宙信息。在这项工作中，我们使用代码21cmSPACE运行了一系列模拟，以探索早期宇宙中星系的天体物理特性及其对高红移可观测量的影响。我们利用多波段观测数据，包括来自SARAS~3和HERA的全球21厘米信号和功率谱限制、当前的弥散X射线和射电背景、以及HST和JWST在$z=6-14.5$范围内的紫外亮度函数(UVLF)，得出了相关约束条件。我们约束了一个灵活的星团质量和红移相关的恒星形成效率(SFE)模型，定义为转化为恒星的气体比例，并发现其在$z\approx6-10$时几乎没有红移演化，在$z\approx10-15$时快速演化。我们在这一红移范围内推导了SFE的贝叶斯函数后验分布，推测质量为$M_h=10^{10}\text{M}_\odot$的星团在$z\lesssim10$时效率为$2-3\%$，在$z=12$时为$12\%$，在$z=15$时为$26\%$。通过SARAS~3和UVLF之间的协同效应，我们还发现星团中恒星形成的最小圆周速度为$V_c = 16.9^{+25.7}_{-9.5}\text{km s}^{-1}$，或等效地$\log_{10}(M_\text{crit}/\text{M}_\odot) = 8.29^{+1.21}_{-1.08}$（$z=6$）。除了这些恒星形成约束外，我们还发现早期星系的X射线和射电效率分别为$f_X = 0.5^{+6.3}_{-0.3}$和$f_r \lesssim 11.7$，优于不使用UVLF数据的现有工作。我们的结果表明UVLF在约束早期宇宙方面的重要作用，以及其与21厘米观测以及其他多波段观测数据集的协同效应。

星系天体物理学

宇宙学和非星系天体物理学

2025-03-27 发布

Transformer模型因其强大的注意力机制在各类人工智能任务中取得了最先进的性能，但面临着高计算成本和内存占用等问题。尽管研究人员正在探索利用量子计算来改进Transformer的设计，但在经典数据上的表现仍然有限。随着对利用量子机器学习处理量子数据的关注增加，尤其是在量子化学领域，我们提出了分子量子变换器（Molecular Quantum Transformer, MQT）用于建模分子量子系统的相互作用。通过在分子构型上利用量子电路实现注意力机制，MQT能够高效地计算所有构型的基态能量。数值演示表明，在计算H₂、LiH、BeH₂和H₄的基态能量时，MQT的表现优于经典Transformer，凸显了Transformer结构中量子效应的潜力。此外，其在多样化分子数据上的预训练能力有助于高效学习新分子，从而以最小的额外努力扩展到复杂的分子系统。我们的方法为现有估计基态能量的量子算法提供了替代方案，在量子化学和材料科学领域开辟了新的研究途径。

量子物理

机器学习

2025-03-27 发布

研究罕见事件的问题在计算机模拟的许多领域中占据核心地位。在近期的一篇论文[Kang, P., 等人, 自然计算科学, 4, 451-460, 2024]中，我们展示了通过计算承诺函数来解决这一问题的强大途径，并演示了如何以变分的方式迭代计算承诺函数以及如何高效采样过渡态集合。在此基础上，我们将该过程与一种类似元动力学的增强抽样方法相结合，其中承诺函数的对数被用作集体变量。这种集成程序能够准确且平衡地采样自由能曲面，使得过渡态和亚稳态盆地得到同样细致的研究。此外，我们还表明，我们的方法可以应用于存在竞争反应路径且遇到中间亚稳态的情况。另外，我们证明了可以从优化后的承诺函数模型和所采样的数据中获得物理洞察力，从而全面表征所研究的罕见事件。我们认为这种方法的成功归因于基于概率描述罕见事件的策略。

计算物理

统计力学

2025-03-27更新2024-10-22 发布

RNA结构-功能关系近期引起了深度学习社区的极大关注，并随着核酸结构模型的进步，其重要性有望进一步提升。然而，RNA三维结构上缺乏标准化且易于访问的基准测试，阻碍了RNA功能特性模型的发展。在这项工作中，我们引入了一组七个用于RNA结构-功能预测的基准数据集，旨在填补这一空白。我们的库基于已建立的Python库rnaglib构建，提供便捷的数据分发与编码、拆分器及评估方法，为比较模型提供了一个方便的一站式框架。数据集以完全模块化和可重现的方式实现，便于社区贡献和定制化。最后，我们使用图神经网络为所有任务提供了初步的基准结果。源代码：https://github.com/cgoliver/rnaglib 文档：https://rnaglib.org

生物分子

机器学习

2025-03-27 发布

本文的主要目的是研究如下泛函不等式 \begin{equation*} \int_{[0,1]}f\bigl((1-t)x+ty\bigr)d\mu(t)\geq 0, \qquad x,y\in I \mbox{ with } x<y, \end{equation*} 其中$f:I\to{\mathbb R}$为连续未知函数，$I$是非空开区间，$\mu$为$[0,1]$上的有界符号Borel测度。我们通过$f$的高阶单调性性质推导出其成立的必要条件和充分条件。利用所得结果，我们可以得到满足以下条件的所有函数$f$的充分条件：同时具有$k_1$-单调递增（或递减）、$k_2$-单调递增（或递减）、\dots、$k_l$-单调递增（或递减）性质，其中$k_1,\dots,k_l$为给定的非负整数。这推广了若干已知的随机序结果。此外，还给出了$(n,n+1,\dots,m)$-单调序的一个必要条件。

经典分析与常微分方程

2025-03-27 发布

超对称模型在某些无异常离散R对称性$Z_n^R$的存在下具有吸引力，因为1. R对称性（可能源于紧致弦理论作为破缺的10维洛伦兹对称性的残余）禁止不需要的超势项，同时允许产生一个意外的近似全局$U(1)_{PQ}$对称性，用于解决强CP问题；2. 它们为R-宇称守恒提供了一个合理的理由。我们通过引入两个额外的$Z_n^R$和PQ带电场$X$和$Y$扩展了最小超对称标准模型(MSSM)，其中中间尺度$m_{hidden}$上的超对称破缺导致PQ对称性在尺度$f_a\sim 10^{11}$GeV处破缺，从而产生超对称DFSZ轴子。同样的超对称破缺可以通过高维算符触发R-宇称破缺，导致微小的R破缺耦合，其阶数为$(f_a/m_P)^N$，并引发WIMP质量难题。对于$Z_4^R$和$Z_8^R$，我们发现只有$N=1$的抑制。此时，MSSM的最轻超对称粒子(LSP)变得不稳定，寿命约为$\sim 10^{-3}-10$秒，因此在当前时代之前所有LSP都会衰变掉。这留下了一个完全由轴子冷暗物质构成的宇宙，并且没有WIMP，这与最近LZ-2024的WIMP搜索结果一致。

高能物理-唯象学

高能物理-理论

2025-03-27更新2025-02-10 发布

在位置博弈的回避者-强制者约定中，两名玩家——回避者和强制者轮流从超图H中选择顶点。如果在H的所有顶点都被选完时，回避者在其所选顶点中完全填满了一条边，则强制者获胜；否则，回避者获胜。本文首先给出了一些通用结果，特别是关于博弈结果和超图的不交并的结果。然后我们确定了对于所有秩为2的超图以及当回避者最后移动时的线性秩为3的超图，哪位玩家有必胜策略。我们获得的结构特征使得算法可以在多项式时间内运行。

组合学

离散数学

2025-03-27 发布

我们世界模型中的一个核心组成部分是“直观物理”——对物体、空间和因果关系的理解。这一能力使我们能够预测事件、规划行动并导航环境，所有这些都依赖于对物体性的综合感知。尽管其重要性不言而喻，但目前尚无单一统一的物体性理论，不过多个理论框架提供了见解。本文的第一部分综述了物体性研究的主要理论框架——格式塔心理学、能动认知和发育心理学，并确定了每个框架赋予物体理解的核心能力及其在塑造生物体世界模型中的功能角色。鉴于物体性在世界建模中的基础地位，理解物体性在AI领域同样至关重要。本文的第二部分评估了当前AI范式在物体性能力方面的研究方法与测试方式，与认知科学中的方法进行对比。我们将AI范式定义为对物体性的概念化方式、研究方法、所用数据以及评估技术的结合。我们发现，虽然基准测试可以检测到AI系统是否建模了物体性的孤立方面，但它们无法检测到AI系统是否缺乏这些能力之间的功能性整合，因此并未完全解决物体性挑战。最后，我们探索了新的评估方法，这些方法与本文提出的物体性整合视角相一致。这些方法有望推动从孤立的物体能力向具有真实世界情境下通用物体理解的通用AI发展。

我们通过度量空间中的上梯度构造了各种Sobolev型函数的例子，这些函数未能成为拟连续或弱拟连续。这是通过对拟Banach函数格$X$作为定义Sobolev型函数光滑性的函数空间实现的。这些结果与$X=L^p$（$1\leq p<\infty$）的情况形成对比，在局部完备的度量空间$\mathcal{P}$下，所有的$N^p$中的Sobolev型函数都已知为拟连续。在我们的大多数例子中，$\mathcal{P}$是$\mathbf{R}^2$的紧子集且$X=L^\infty$。四个特定的例子包括阻尼拓扑学家的正弦曲线、von Koch雪花曲线、康托尔三分集以及谢尔宾斯基地毯。我们还讨论了几个相关性质，例如Sobolev容量是否为外容量，以及这些性质之间的关系。在这些考虑中，Vitali-Carathéodory性质的缺失起到了根本性的作用。

函数分析

Primary: 46E36. Secondary: 30L99, 31C15, 31E05, 46B42

2025-03-27 发布

给定一个定义在度量测度空间$({\mathrm X},{\mathsf d},\mathfrak m)$上的局部Lipschitz函数的单位代数$\mathscr A$，我们研究了两个与之相关的有界变差点的概念及其关系：通过能量逼近元素于$\mathscr A$得到的空间${\mathrm BV}_{\mathrm H}({\mathrm X};\mathscr A)$，以及通过涉及与$\mathscr A$对偶作用的分部积分公式定义的空间${\mathrm BV}_{\mathrm W}({\mathrm X};\mathscr A)$。我们的主要结果给出了代数$\mathscr A$的一个充分条件，使得${\mathrm BV}_{\mathrm H}({\mathrm X};\mathscr A)$与标准的度量有界变差点空间${\mathrm BV}_{\mathrm H}({\mathrm X})$（即取$\mathscr A$为所有局部Lipschitz函数的集合）一致。该结果适用于多个有趣的例子，例如欧几里得空间和具有光滑函数代数的黎曼流形，或者具有柱状函数代数的Banach空间和Wasserstein空间。对于指数$p\in(1,\infty)$的度量Sobolev空间${\mathrm H}^{1,p}$，类似的结果之前已被多位作者独立获得。

函数分析

度量几何

53C23, 26A45, 49J52, 46E35, 46N10

2025-03-27 发布

YbNi$_4$P$_2$ 是已知的第一个展示二阶量子相变的铁磁金属。当前的理论理解排除了中心对称二维和三维金属中存在二阶铁磁量子临界性的可能性。因此，研究 YbNi$_4$P$_2$ 的电子结构具有重要的基础意义。通过角分辨光电子能谱实验，我们证明了一维费米面轮廓的存在。此外，我们的结果表明，YbNi$_4$P$_2$ 的一部分电子结构由高维态组成，这引发了关于中心对称晶体中铁磁量子临界性仅限于一维系统的疑问。我们的实验数据表明，YbNi$_4$P$_2$ 的电子结构是一个混合维度、电子关联、强杂化以及自旋轨道耦合作用的实验平台，这些因素为理解铁磁量子临界性的起源提供了新的见解。

模型融合通过结合多个模型的参数，无需额外数据或训练即可获得通用能力。先前的方法通过排列不变性将参数对齐到相同的损失盆地来实现线性模式连接。本文引入了模型集成学习（Model Assembly Learning，MAL），这是一种新颖的模型融合范式，通过迭代整合开放模型库中多样化的模型参数来增强基础模型的能力。与之前需要相同架构的工作不同，MAL允许异构架构以及跨层选择性参数的融合。具体而言，基础模型可以从多个预训练模型的不同层中吸收参数。我们系统地研究了异构参数融合的条件和基本设置，解决了基础模型和目标模型之间所有可能的层宽度不匹配问题。此外，我们制定了关键定律并提供了有效实施MAL的实际指南。

多模态大型语言模型（MLLMs）的最新进展主要集中在整合多种模态，但其同时处理和推理不同输入的能力仍未得到充分探索。我们引入了OmniBench，这是一个新型基准测试，旨在评估模型在视觉、声学和文本输入之间同时识别、解释和推理的能力。我们将具备这种三模态处理能力的语言模型定义为全语言模型（OLMs）。OmniBench具有高质量的人类注释，需要跨所有模态的综合理解。我们的评估显示：i）开源OLMs在三模态上下文中的指令跟随和推理能力存在显著局限性；ii）即使有文本替代图像/音频输入，大多数基线模型的表现也很差（准确率约为50%）。为解决这些局限性，我们开发了OmniInstruct，一个包含96K样本的指令调优数据集，用于训练OLMs。我们提倡开发更强大的三模态集成技术和训练策略，以提高OLM性能。代码和数据可在我们的存储库（https://github.com/multimodal-art-projection/OmniBench）中找到。

计算与语言

人工智能

计算机视觉与模式识别

2025-03-27更新2024-09-23 发布

大型语言模型（LLMs）在生成任务中的卓越表现使得从业者能够利用公开可用的模型来驱动定制应用，如聊天机器人和虚拟助手。然而，用于训练或微调这些LLMs的数据往往未被披露，这使攻击者有机会篡改数据并在模型中注入后门。本文开发了一种新颖的推理时防御方法，名为CLEANGEN，以减轻LLMs生成任务中的后门攻击。CLEANGEN是一种轻量且有效的解码策略，与最先进的（SOTA）LLMs兼容。我们开发CLEANGEN的核心见解在于，与其它LLMs相比，受后门影响的LLMs会为表示攻击者期望内容的标记赋予显著更高的概率。这些标记概率之间的差异使CLEANGEN能够识别攻击者青睐的可疑标记，并将其替换为由未受到同一攻击者影响的另一个LLM生成的标记，从而避免生成攻击者期望的内容。我们在五种最先进的后门攻击上评估了CLEANGEN。结果表明，对于所有五种后门攻击，CLEANGEN的攻击成功率（ASR）均低于五种最先进的基线防御方法。此外，部署CLEANGEN的LLMs在服务良性用户查询时仍能保持其响应的有用性，并且只增加了极小的计算开销。

人工智能

密码学与安全

2025-03-27更新2024-06-18 发布

本文研究了一类由时间变换布朗运动驱动、具有局部Lipschitz条件的时间-空间相关系数随机微分方程的随机θ（ST）方法。在局部Lipschitz条件以及其他附加假设下，证明了当$\theta \in [1/2,1]$时，该方法是强收敛的。此外，在强制性条件下，对于任意正步长，当$\theta \in [1/2,1]$时，该方法是渐近均方稳定的；而在更强的假设下，对步长施加一定限制后，当$\theta \in [0,1/2)$时，该方法同样具有渐近均方稳定性。文中通过数值模拟展示了理论结果。

本文讨论了处于XUV/硬X射线辐照下的物质中的非平衡效应。当超短、高强度的XUV/硬X射线脉冲与材料相互作用时，会引发一系列复杂的过程，包括电子激发、非平衡电子动力学、与原子系统的能量交换、电子热化以及随后的原子动力学。这些效应通过XTANT-3这一混合模拟工具进行了研究，该工具能够同时模拟所有相关的动力学过程。XTANT-3集成了(a) 光子吸收和快速电子动力学的蒙特卡洛输运方法，(b) 非平衡慢电子动力学的玻尔兹曼方程，(c) 可转移的紧束缚方法用于电子结构演化和原子间势建模，以及(d) 分子动力学用于描述原子系统的响应。这种方法使得对每个子系统中的非平衡效应及其与非热损伤之间的相互作用进行详细研究成为可能，其中电子激发会改变原子间势。文中还讨论了量化电子和原子子系统中非平衡效应的方法。

材料科学

其他凝聚态物理

2025-03-27 发布

我们比较了石墨烯电导率的三种模型：非局域Kubo模型、由Falkovsky推导出的局域模型以及最后基于非局域量子场论（QFT）极化表达式的模型。这些模型均源自相同的哈密顿量，因此理论上应提供一致的结果。我们确认局域模型是非局域Kubo模型和非局域QFT模型在$\textbf{q}\to\textbf{0}$极限下的合理结果（在为后者引入损耗后）。然而，我们发现文献中现有的非局域QFT模型存在严重不一致性。特别是在真实的非局域区域（$\textbf{q}\neq\textbf{0}$），在低频条件下，可用的QFT模型表现出一种非物理的等离子体行为，即跨带横向电导率呈现出异常表现（即使引入不可避免的损耗）。而Kubo模型则显示出预期的行为，即电导率随频率$\omega$变化几乎恒定，并且在$\hbar\omega<\sqrt{(\hbar v_F q)^{2}+4m^{2}}$范围内存在间隙。我们证明了Kubo模型和QFT模型可以通过相同的极化算符$\Pi_{\mu\nu}(\omega,\textbf{q})$来表达，但它们对电导率$\sigma_{\mu\nu}(\omega,\textbf{q})$的表述不同。特别是，Kubo模型使用了标准的正则化表达式，这是欧姆定律和因果律的直接结果，我们在本文中严格重新推导了这一结论。我们还表明，一旦在QFT模型中采用标准的正则化表达式，并加入损耗，则Kubo模型和QFT模型一致，其所有异常现象自然消失。我们的研究结果表明，为了将QFT模型与现有模型连接起来，有必要适当地定义和正则化电导率。

介观与纳米尺度物理

材料科学

2025-03-27更新2024-03-04 发布

本研究对全球外交使团目录进行了比较评估。在十大全球服务中，战略性选择了DiplomaticMonitor.org、EmbassyPages.com和WikiData.org。通过对几乎所有可用的全球外交目录在线服务进行分析后，这三大平台因其代表了创建全球外交使团数据库的不同方法而被选中。我们以来自超过150个国家的官方外交名单为基准，评估了这些平台的数据覆盖范围、准确性以及更新频率。DiplomaticMonitor在结构、完整性和时效性方面始终优于其竞争对手，准确反映了大使任命周期，并在联系和人员记录方面保持高精度。尽管EmbassyPages具有强大的搜索引擎可见性和广泛使用率，但其数据时效性存在显著问题，大使信息准确性因刷新周期延迟而大幅下降。WikiData提供了有价值的历史文档和开源访问权限，但在可靠实时外交信息方面缺乏必要的一致性和验证协议。我们的研究结果突显了缺乏标准化全球外交使团登记册所带来的重大挑战。在这片碎片化的领域中，方法学严谨的第三方平台有时在质量和实用性上可以超越政府发布的记录。研究显示，在当代数字外交中，数据可靠性与机构渊源关系不大，而更依赖于严格、透明且一致的数据管理实践。

我们重新审视了高维设置下的离散argmin推断问题。给定来自$d$维向量的$n$个观测值，目标是检验均值向量的第$r$个分量是否在所有分量中最小。我们提出了与维度无关的检验方法，无论$d$如何随$n$缩放，也无论均值向量中是否存在任意的平局，这些检验方法都保持有效性。值得注意的是，我们的有效性在较弱的矩条件假设下成立，只需满足二阶矩的有限性，并允许坐标之间可能存在强相关性。此外，我们为该问题建立了局部最小子最优分离率，该分离率适应混淆集的基数，并证明所提出的检验达到了这一分离率。我们的方法采用了Kim和Ramdas（2024）的样本分割和自归一化方法。我们的检验可以轻松反转以得到argmin索引的置信集。经验结果表明，与现有方法相比，我们的方法在I类错误控制和功效方面表现出色。

扩散变换器（Diffusion Transformers, DiTs）在图像生成质量方面达到了最先进的水平（SOTA），但其高延迟和内存效率低下问题使其难以部署在资源受限的设备上。主要的效率瓶颈在于现有的DiTs对图像的所有区域应用了相同的计算量。然而，并非所有的图像标记具有相同的重要性，某些局部区域需要更多的计算，例如物体。为了解决这一问题，我们提出了DiffCR，这是一种具有可微压缩比的动态DiT推理框架，能够自动学习为每个图像标记动态分配层间和时间步间的计算，从而实现高效的DiTs。具体而言，DiffCR集成了三个特性：（1）标记级路由方案，其中每个DiT层包含一个路由器，该路由器与模型权重联合微调以预测标记重要性分数。这样，不重要的标记可以跳过整个层的计算；（2）层级可微比例机制，不同的DiT层从零初始化自动学习变化的压缩比，在冗余层中实现较大的压缩比，而其他层则保持较少压缩甚至完全不压缩；（3）时间步级可微比例机制，每个去噪时间步学习其自身的压缩比，结果表明噪声较大的时间步具有较高的压缩比，随着图像变得清晰，压缩比逐渐降低。在文本到图像和图像补全任务上的大量实验表明，DiffCR有效捕捉了标记、层和时间步轴上的动态性，在生成质量和效率之间取得了优于先前工作的权衡。项目网站可在https://www.haoranyou.com/diffcr获取。

计算机视觉与模式识别

人工智能

机器学习

2025-03-27更新2024-12-22 发布

共 13511 条搜索结果

共 13511 条

利用JWST与21厘米宇宙学观测的协同效应揭示早期宇宙中的恒星形成

分子量子变换器

无处不在的万物：基于概率的增强抽样方法研究罕见事件

RNA三维结构-功能建模的综合基准测试

高阶单调函数诱导的测度排序

超对称模型中的全部轴子暗物质

高维图形中的回避者-强制者游戏

受认知科学启发的AI对象理解核心能力评估

基于Banach函数空间的非拟连续Newton函数及外容量

度量测度空间中的有界变差函数与Lipschitz代数

量子临界铁磁体YbNi$_4$P$_2$的电子结构维度

异构层权重合并的模型集成学习

OmniBench：迈向通用多模态语言模型的未来

CleanGen：针对大型语言模型生成任务中后门攻击的缓解方法

随机θ方法对时间变换随机微分方程强收敛性和稳定性的研究——局部Lipschitz系数情形

非平衡效应对物质超快辐照的影响

石墨烯电导率：Kubo模型与非局域量子场论模型的比较

数字外交基础设施的映射：全球外交使团在线目录的比较评估

局部最小子最优且与维度无关的离散argmin推断

针对高效扩散变换器的自适应层与时间步压缩比