分类
真才实学还是虚张声势?对大型语言模型在2025年美国数学奥林匹克竞赛中的评估
近期针对大型语言模型(LLMs)的数学基准测试,如MathArena表明,最先进的推理模型在像AIME这样的数学竞赛中表现出色,其中领先的模型Gemini-2.5-Pro的成绩可与顶尖人类参赛者相媲美。然而,这些基准测试仅基于最终的数值答案来评估模型,忽略了严格的推理和证明生成,而这在现实世界的数学任务中至关重要。为了解决这一问题,我们首次全面评估了具有挑战性数学问题的全解推理能力。通过专家人工标注员,我们在2025年美国数学奥林匹克竞赛(USAMO)发布的六道题发布后的几个小时内评估了几种最先进的推理模型。我们的结果显示,所有被测试的模型都遇到了显著困难:只有Gemini-2.5-Pro达到了非微不足道的25%分数,而其他所有模型得分均低于5%。通过详细分析推理轨迹,我们确定了最常见的失败模式,并发现了几种由于模型训练期间采用的优化策略产生的不良现象。总体而言,我们的结果表明当前的LLMs在严格的数学推理任务中表现不足,强调了推理和证明生成能力需要大幅改进。
利用内循环反馈加速高质量扩散模型
我们提出了一种名为内循环反馈(Inner Loop Feedback, ILF)的新方法,用于加速扩散模型的推理过程。ILF通过利用选定扩散主干块在给定时间步的输出,训练一个轻量级模块来预测去噪过程中的未来特征。这种方法利用了两个关键直觉:(1) 相邻时间步主干块的输出相似,(2) 对某个步骤进行部分计算对模型的负担小于完全跳过该步骤。我们的方法非常灵活,因为发现反馈模块本身可以是扩散主干中的一个块,所有设置均复制。其对扩散前向的影响可以通过从零初始化的学习缩放因子进行调节。我们使用蒸馏损失训练该模块;然而,与一些先前工作不同,其中完整的扩散主干作为学生模型,我们的模型冻结主干,仅训练反馈模块。尽管许多优化扩散模型的努力集中在极少数步骤(1-4步)内实现可接受的图像质量,但我们的重点是在显著减少运行时间的同时匹配最佳情况结果(通常在20步内实现)。ILF有效实现了这一平衡,在扩散变压器(DiT)的类别到图像生成以及基于DiT的PixArt-alpha和PixArt-sigma文本到图像生成中均表现出色。ILF在1.7倍至1.8倍加速下的质量通过FID、CLIP分数、CLIP图像质量评估、ImageReward以及定性比较得到了确认。项目信息可在https://mgwillia.github.io/ilf获取。
使用CLAS测量0.01<$Q^2$<1 GeV$^2$范围内的核子自旋结构函数
在2006年杰斐逊实验室EG4实验期间,测量了质子和氘核的自旋结构函数。实验利用纵向极化的电子对纵向极化的NH$_3$和ND$_3$靶进行散射,分别收集了$Q^2$值低至0.012和0.02 GeV$^2$的数据,使用了CEBAF大型接受度谱仪(CLAS)。这是EG4实验的存档论文,总结了之前报告的质子和氘核的极化结构函数$g_1$、$A_1F_1$及其矩$\overline \Gamma_1$、$\overline \gamma_0$和$\overline I_{TT}$的结果。此外,我们还报告了通过结合质子和氘核数据并校正费米展宽后提取的新结果——中子的$g_1$,以及直接由质子和氘核数据形成的中子矩$\overline \Gamma_1$、$\overline \gamma_0$和$\overline I_{TT}$。我们的数据与质子、氘核和中子的Gerasimov-Drell-Hearn求和规则一致。此外,我们还为$g_1$和Bjorken积分$\overline \Gamma_1^{p-n}$形成了同位旋组合,并与现有的理论预测进行了比较。我们的所有结果首次在与介子质量相当的$Q^2$范围内,对手征有效场论($\chi$EFT)的自旋可观测量预测提供了广泛的测试。这些结果激励了从格点规范方法等其他方法进一步改进$\chi$EFT计算。
同质二元流体湍流中的普适能量级联:不同精确关系的直接比较
在临界温度以下,湍流阻止了二元混合物的自发相分离,导致一种显著的科学和工业应用感兴趣的乳化相滞止状态。本文是对我们之前关于关联能量级联性质和普适性的理论研究(Pan 和 Banerjee, PRE, 2022)的深入延续。除了之前推导出的发散形式和关联形式的精确关系外,我们在明确假设同质性的基础上,得到了一种类似于Banerjee-Galtier的无发散形式的精确关系。通过进行高达$1024^3$网格点的三维直接数值模拟,我们展示了动能和活性能量的总和在惯性尺度上展现出类似于Kolmogorov的普适级联,并具有恒定的通量速率。尽管各项之间存在偏差,但由三种精确定律计算出的级联速率表现出极好的一致性,从而证实了不同精确关系的等价性以及从三种公式中的任一种确定净级联速率的可行性。值得注意的是,发散形式的两个主要通量速率在接近域尺寸时相互交叉,这也作为小尺度活性能量逆级联的红外截止频率。这种行为基于滞止二元流体流动和表面动力学之间的相互作用进行了现象学上的合理解释。
低温结构同质异形转变影响下铁纳米团簇熔化中的尺寸依赖性二阶类相变
本文利用经典多体分子动力学模拟研究了包含10到100个原子的$Fe_n$纳米团簇的熔化相变行为。对于许多团簇尺寸而言,表面熔化发生在比核心熔化低得多的温度下。计算了所有团簇尺寸下的表面熔点、核心熔点以及能量熔点(最大热容$C_v$对应的温度)。结果表明熔化特性强烈依赖于团簇结构。具有闭壳层结构的团簇总是表现出一阶类相变特征。由于存在多个能量相近的结构构型,分析范围内的几乎三分之一的团簇尺寸表现出二阶类相变特征。相较于闭壳层结构,多出一个或几个原子的一壳层团簇具有非常低的表面熔点和非常高的能量熔点。在某些核结构的50个原子以上的团簇中,观察到了表面先于核心发生熔化的现象。
大多数拓扑序禁止无符号问题的量子蒙特卡洛:非正高斯和作为指示器
量子蒙特卡洛是一种研究量子多体物理的强大工具,但其有效性常常受到著名的符号问题的限制。在本文中,我们引入了二维玻色子拓扑序中“内在”符号问题的一个新标准,该问题无法通过局域基变换或哈密顿量的绝热变形解决。具体而言,我们证明了对于给定的拓扑序,非正的高斯和表明存在内在符号问题。这一条件不仅与先前的研究结果一致,还显著拓宽了其范围。利用这一新标准,我们检查了分类到秩12的所有405个玻色子拓扑序的高斯和,发现其中398个表现出内在符号问题。我们还揭示了内在符号问题与边界理论可隙性以及时间反演对称性之间的有趣联系,表明无符号问题的量子蒙特卡洛可能从根本上依赖于时间反演对称性和隙边界。这些结果突显了内在符号问题与拓扑相基本属性之间的深刻联系,为它们的经典模拟性提供了有价值的见解。
投影定理与可数个例外及精确重叠猜想的应用
我们对分形测度投影中的例外参数建立了几个最优估计:(1) 对于满足横截性条件的一族自相似测度,导致维数下降的参数集最多为可数集。(2) 对于$\mathbb{R}^2$上的任意遍历CP-分布$Q$,其正交投影的Hausdorff维数在除了至多可数个方向外均为$\min\{1, \dim Q\}$。我们的投影结果的应用包括:(i) 对于任何平面Borel概率测度,其均匀熵维数为$\alpha$,其正交投影的填充维数在除了至多可数个方向外至少为$\min\{1, \alpha\}$。(ii) 对于任何平面集合$F$,其正交投影的Assouad维数在除了至多可数个方向外至少为$\min\{1, \dim_{\rm A} F\}$。
由湍流尘埃通量驱动的尘埃空腔演化可引发类地行星的逃逸迁移
不对称尘埃结构(即所谓的尘埃空腔和纤维状结构)在嵌入无湍流尘埃-气体盘中的低质量行星周围形成时产生的扭矩可能超过气体盘分量所产生的扭矩,从而支配行星的轨道动力学。本文研究了当包含湍流尘埃扩散和尘埃反馈效应时,这些结构(因此尘埃扭矩)如何变化,并探讨其对类地行星迁移的直接影响。我们利用\textsc{Fargo3D}代码进行了二维和三维多流体流体力学模拟,重点研究了二维中非迁移行星的质量为$M_p=1.5\,M_\oplus$以及三维中迁移行星的质量范围为$M_p\in[1.5,12]\,M_\oplus$的情况。我们调整$\delta$-无量纲扩散参数在$[0,3\times10^{-3}]$范围内,并考虑三种不同的斯特罗姆金数$\mathrm{St}=\{0.04,0.26,0.55\}$,分别代表气体主导、过渡和引力主导的区域。在我们的二维模型中发现,当$\delta>3\times10^{-4}$时,湍流扩散会阻止尘埃空腔和纤维状结构的形成;否则,这些尘埃结构能够抵抗湍流扩散的影响。然而,仅在过渡和引力主导区域中,尘埃和总扭矩变为正值。在我们的三维模型中发现,当$\delta\gtrsim10^{-4}$时,由于尘埃湍流扩散和尘埃反作用力的共同影响,尘埃空腔被显著改变,高密度环形屏障消失。对于所有$\delta$值,行星前方的纤维结构被低密度沟槽取代。值得注意的是,当我们允许行星迁移时,演化的尘埃空腔可以驱动逃逸迁移或向外(向内)振荡扭矩迁移。因此,本研究表明低质量类地行星可以在尘埃盘中发生逃逸迁移。
MIRACLE I.:利用JWST/MIRI、VLT/MUSE和ALMA揭示活动星系核NGC 424的多相、多尺度物理特性
我们利用JWST/MIRI(中红外活动星系核线发射计划MIRACLE的一部分)、VLT/MUSE和ALMA的空间分辨光谱数据,分析了Seyfert II型星系NGC 424中的多相气体性质。通过CO(2-1)、H2 S(1)、[OIII]5007、[NeIII]15和[NeV]14等发射线,我们追踪了从冷分子气体到热电离气体的多相介质特性,覆盖大约1.4×1.4平方千秒差距区域,分辨率为10秒差距。结合多波段和多尺度的气体发射观测数据,我们从几解析度单位到核区外5千秒差距处建模了星系盘旋转曲线,并推断出动态质量为1.09±0.08×10^10太阳质量,盘尺度半径为0.48±0.02千秒差距。我们检测到一个速度高达10^3公里/秒的紧凑电离外流,由[OIII]、[NeIII]和[NeV]跃迁追踪,未发现冷或温分子外流的证据。我们认为该电离外流可能向星系核区注入大量能量,这可能阻碍分子风的形成,因为观测显示分子气体更密集且扩散程度较低。综合多波段观测还揭示,在所有气体相中,沿星系短轴方向(垂直于高速电离外流)的气体速度弥散显著增强,并延伸至核区外1千秒差距。我们的研究结果表明,这种外流可能通过向宿主盘注入能量并扰动周围物质,在这种增强现象中发挥了关键作用。
关于链不规则图的正则性、平面性和边界的探讨
若图 \( G \) 的每两个不同顶点的链均互不同构,则称其为链不规则图。图 \( G \) 中顶点 \( v \) 的链是由 \( v \) 的邻域在 \( G \) 中诱导出的子图。Ali、Chartrand 和 Zhang [Discussiones Mathematicae. Graph Theory, 45(1) (2025) 第95页] 猜测不存在正则链不规则图。本文证明了对于足够大的 \( r \),存在 \( r \)-正则链不规则图的可能性非常大。具体而言,我们构造了一个具有 12 个顶点的 7-正则链不规则图,这构成了对上述猜测的反例。此外,我们证明了不存在二分图形式的链不规则图,并且当 \( n \leq 9 \) 时,不存在 \( n \)-顶点上的正则链不规则图。我们还确定了链不规则图的边数的上下界,并证明了 \( n \) 顶点链不规则图的最小边数为 \( \Omega(n\sqrt{\log n}) \)。最后,我们证明除了有限个例外情况外,所有链不规则图均为非平面图,并且不存在正则链不规则平面图。
AutoPsyC:基于大规模语言模型从半结构化访谈中自动识别心理动力冲突的方法
心理动力冲突是持久存在的、通常是无意识的主题,它们塑造了一个人的行为和经历。准确诊断心理动力冲突对于有效的患者治疗至关重要,通常通过长时间的手动评分半结构化访谈进行。现有的精神疾病诊断自动化解决方案大多侧重于识别广泛的疾病类别(如抑郁症),但尚不清楚那些连患者自身可能都无意识的心理动力冲突能否通过对话自动识别。本文提出AutoPsyC,这是首个利用大规模语言模型(LLMs)从完整的操作化心理动力诊断(OPD)访谈中识别心理动力冲突存在及其重要性的方法。我们的方法结合了参数高效微调和检索增强生成(RAG)的最新进展以及一种总结策略,以有效处理长达90分钟的完整对话。在包含141个诊断访谈的数据集上的评估表明,AutoPsyC在识别四种高度相关心理动力冲突方面始终优于所有基线和消融条件。
KernelFusion:基于补丁扩散的无假设盲超分辨率方法
传统的超分辨率(SR)方法假设高分辨率(HR)图像和低分辨率(LR)图像之间存在“理想”的降采样SR核(例如,双三次降采样)。一旦LR图像以不同方式生成,这些方法就会失效。当前的盲超分辨率方法旨在消除这一假设,但仍然局限于相对简单的降采样SR核(例如,各向异性高斯核),在更复杂的(分布外)降采样退化情况下表现不佳。然而,选择正确的SR核往往比采用复杂的SR算法更为重要。在“KernelFusion”中,我们提出了一种零样本扩散驱动的方法,无需对核进行任何假设。我们的方法直接从LR输入图像恢复特定于图像的SR核,同时恢复其对应的HR图像。KernelFusion利用了这样一个原则:正确的SR核是能够在LR图像的不同尺度间最大化补丁相似性的核。首先,我们在单一LR输入图像上训练一个特定于图像的基于补丁的扩散模型,捕捉其独特的内部补丁统计特性。然后,在保持HR和LR图像之间跨尺度关系的同时,使用相同的学习补丁分布重建更大的HR图像,并同时恢复正确的降采样SR核。实证结果表明,KernelFusion在处理复杂的降采样退化时,大幅优于现有的所有SR基准方法,而现有的SotA盲超分辨率方法则完全失败。通过摆脱预定义核假设的束缚,KernelFusion推动盲超分辨率进入了一个全新的无假设范式,处理了之前被认为不可能解决的降采样核问题。
DESI 第2数据释放中星系和类星体BAO测量的验证
暗能量光谱仪(DESI)第2数据释放(DR2)的星系和类星体聚类数据相较于第1数据释放(DR1),在多个示踪物(包括亮星系(BGS)、发光红星系(LRG)、发射线星系(ELG)和类星体(QSO))的重子声波振荡(BAO)约束方面提供了显著改进的统计精度。本文验证了DR2的BAO分析。我们展示了对盲处理的DR2数据进行的鲁棒性测试结果,并在解除盲处理后对未盲数据的一致性进行了检查。所有结果均与一系列复制DR2样本选择和聚类特性的模拟目录套件所获得的结果进行了比较。我们确认DR2的BAO测量结果与DR1一致,同时由于调查体积和完整性的增加,统计不确定性有所减少。我们评估了分析选择的影响,包括不同数据向量(相关函数与功率谱)、建模方法和系统性处理方式以及高斯似然假设,发现我们的BAO约束在这些变化和假设下保持稳定,仅需对DR1 BAO分析的基本设置进行少数微调。我们总结了一系列解除盲处理前的测试,这些测试证实了我们的分析管道准备就绪、最终系统误差以及DR2 BAO分析的基础。这些测试的成功完成导致DR2 BAO测量的解除盲处理,最终促成了DESI DR2宇宙学分析,其对宇宙膨胀历史及暗能量本质的影响已在DESI关键论文中呈现。
Chern-Simons理论中典型态的纠缠
我们计算了由Chern-Simons路径积分构造的量子态在各种体几何平均下的纠缠特性,适用于任意水平数$k$和紧致规范群$G$。通过仔细求和所有拓扑上不同的体几何,这些几何具有$n$个不相交的边界环面,并且具有固定空间拓扑的时空分解,我们得出结论:在定义态的复杂度的主阶下,典型态在界定边界希尔伯特空间的任何环面双划分上是无纠缠的。这与三维引力的预期相反。此外,我们计算了一个平均波函数,该波函数捕获了$n$环面Chern-Simons希尔伯特空间中边界可观测量的主阶统计特性。我们证明了这个平均态是可分离态,这意味着对于足够复杂的体几何,不同的边界环面仅共享经典的关联。
Kundt引力波与非诺特共形标量场的耦合
Kundt类中的N型时空被提出为爱因斯坦方程的解,其源为一个实值标量场,该标量场的运动方程具有共形不变性,并推广了标准的共形标量场。所考虑的具体时空模型描述了在最大对称背景下传播且具有均匀和完全测地波前的引力波,这些时空由其恒定数量曲率和所谓的波包络函数表征。对这类时空的所有子类进行了分析。结果表明,标量场解通常分为两个分支,其中一个分支的行为与标准共形情况有显著差异。标量场通过在波包络函数满足的方程中添加新的奇异项而对其产生贡献。针对不同情形找到了波包络函数的闭形式解和模式解。所得的能量动量张量具有零特征矢量,但比通常与此类时空耦合的纯辐射类型更一般。
底重子衰变中的U自旋共轭CP破坏关系
受重子衰变中首次观测到CP破坏现象的启发,我们研究了底重子衰变的CP不对称性的关系。结果表明,在U自旋极限下,所有两个U自旋共轭衰变道的CP破坏比满足一个简单方程。作为例子,我们展示了底重子四体衰变中的U自旋共轭道。它们之间的CP破坏比可能为未观测到的道提供预测,并在未来实验中得到检验。
Boone-Higman嵌入$\mathrm{Aut}(F_n)$及其带孔曲面的映射类群
我们证明了对于所有的$n$,群$\mathrm{Aut}(F_n)$满足Boone-Higman猜想,即每个$\mathrm{Aut}(F_n)$都可以嵌入到一个有限生成的单群中。实际上,我们证明了每个$\mathrm{Aut}(F_n)$满足“置换”Boone-Higman猜想,这意味着所涉及的单群可以被取为扭曲的Brin-Thompson群。我们的方法的一个深远影响是,有限生成的扭曲Brin-Thompson群在所有有限生成且高度传递的单群中具有普适性。这表明Boone-Higman猜想与其置换版本可能是等价的。证明了$\mathrm{Aut}(F_n)$满足该猜想也确认了所有(拟)嵌入某个$\mathrm{Aut}(F_n)$的群满足该猜想,例如非闭曲面的映射类群、编织群、环编织群、带编织群以及某些Artin群。我们的方法还回答了第一作者和第四作者与Bleak和Matucci提出的一些问题。我们方法的另一个结果是,满足置换Boone-Higman猜想的性质在自由积下是封闭的。
SPHEREx任务表征近域星系PAH 3.3 μm发射潜力的研究
尘埃与气体、恒星以及中心超大质量黑洞一起,构成了星系的关键组分,在恒星及星系演化过程中扮演着至关重要的角色。因此,为了更好地理解星系的演化过程,了解宇宙时间尺度上的尘埃含量及其属性显得尤为重要。除了对蓝光吸收及其在红外波段再辐射的光度限制外,还可通过多环芳烃(PAH)在中红外波段的发射谱带,光谱学探索尘埃颗粒的具体性质。新的SPHEREx空间望远镜将在0.75-5 μm波长范围内进行全天空光谱测光巡天,这使其非常适合研究红移z~0.4范围内的整个星系群体中广泛存在的3.3 μm PAH发射。本文利用现实模拟的星系光谱,研究了SPHEREx在z=0.4范围内研究星系PAH发射的能力。结果表明,在全天巡天中,对于log(M/$M_\odot$)>9.5且恒星形成率(SFR)>1 $M_\odot$ yr$^{-1}$的星系(z=0.1),log(M/$M_\odot$)>10.5且SFR>10 $M_\odot$ yr$^{-1}$的星系(z=0.2-0.3),以及log(M/$M_\odot$)>11且SFR>100 $M_\odot$ yr$^{-1}$的星系(z=0.4),可以将3.3 μm PAH发射带的流量测量到30%的精度。在深场SPHEREx观测中,灵敏度极限可提高约一个数量级。总体而言,SPHEREx将能够测量天空中数十万星系的3.3 μm PAH发射带。鉴于PAH发射源于小尘埃颗粒(“纳米颗粒”)与年轻恒星的紫外辐射之间的相互作用,这些测量结果将为近域宇宙中大质量星系中的最小尘埃颗粒及其辐射特性提供种群研究。
层向量丛的三重性
对于给定的$\mathbb{Z}$-分级流形,层向量丛可以用三种不同的方式定义:基分级流形的结构层上的特定分级模层、基分级流形全局函数代数上的有限生成投射分级模,或者具有合适线性结构的局部平凡分级流形。我们论证这三种方法本质上是相同的,更确切地说,证明了相应的范畴是等价的。
星系动物园JWST:在$3<z<7$区间内多达75%的盘状星系没有特征
我们尚未观测到盘状星系在宇宙中出现的时代。虽然高红移条件下(如棒和螺旋臂)的大尺度特征可以追踪盘状星系的演化,但这些方法无法直接量化早期宇宙中的无特征盘状星系。本文通过结合来自星系动物园JWST CEERS项目的约7000个星系的定量视觉形态以及公开的专业视觉和参数形态目录,识别出大量看似无特征的盘状星系。我们发现最高红移的有特征盘状星系位于$z_{\rm{phot}}=5.5$,而最高红移的无特征盘状星系则位于$z_{\rm{phot}}=7.4$。这些无特征系统的Sérsic指数分布表明它们确实是动态冷的:盘主导系统至少从$z\sim 7.4$时就已存在。我们对不同红移条件下的无特征盘状星系比例进行了上限估计,并显示在$3.0<z<7.4$区间内,无特征盘状星系的比例高达75%。假设样本中的所有星系确实缺乏特征,则这是一个保守的估计。进一步考虑红移效应和观测限制后,我们认为CEERS成像中这些红移条件下的无特征盘状星系比例更可能为$\sim29-38\%$。我们推测,三分之一的高红移盘状星系似乎缺乏特征的原因可能是早期宇宙中更高的气体分数,这使得盘状星系能够抵抗弯曲和不稳定性。
共 13511 条搜索结果
共 13511 条