Research

arXiv

分类

查询和探索大规模数据源集合（如数据湖）一直是数据库社区的重要研究课题。尽管数据湖中的数据发现和集成领域已经取得了很多进展，但这些工作主要集中在数据湖由结构化表组成的情景下。然而，现实世界的企业数据湖往往更加复杂，可能包含结构化、半结构化和非结构化数据的多模态数据源孤岛。本文设想了一个具有声明式接口的端到端系统，用于查询和分析多模态数据湖。首先，我们提出了一组多模态算子，这是一种统一的接口，通过结合AI生成的算子扩展关系操作，以表达各种模态数据源上的分析任务。此外，我们正式定义了系统中的关键步骤，例如数据发现、查询规划、查询处理和结果聚合。在此基础上，我们进一步指出了实现和优化这些步骤的研究挑战，并讨论了利用大型语言模型带来的先进技术所带来的潜在机遇。最后，我们展示了针对该问题的初步尝试，并提出了对该研究主题的未来计划。

数据库

2025-04-02 发布

我们提出了超紧凑型中波红外光电探测器像素的设计、制备和光学表征。设计基于引导模式共振结构，将入射的中红外光限制在全外延生长材料堆栈的250纳米厚吸收区域，并采用混合腔-引导模式共振结构在横向方向上约束模式。预测结果显示，这种具有亚波长厚度和接近两倍自由空间工作波长的横向尺寸的像素，外部量子效率可达到约50%。我们的研究为真正紧凑的中波红外像素打开了大门，这些像素结合了低暗电流、室温操作和小横向尺寸的优点。

光学

应用物理

2025-04-02 发布

液体氩的平均激励能（I值）是中微子振荡实验中能量估算的关键输入参数。利用费米实验室LINAC提供的402.2 MeV质子束流范围，测得其值为$(205\pm4)$ eV。这一结果与作者近期基于振子强度分布分析、气态氩射程测量、固态氩稀疏停止功率数据以及从其他物质相变效应外推数据综合评估得出的$(197\pm7)$ eV较为接近。综合所有信息来源，我们推荐液体氩的I值为$(203.0\pm3.2)$ eV，显著高于ICRU-37基于气态氩评估得出的188 eV，后者常用于如\textsc{Geant4}等蒙特卡罗代码中。

加速器物理

2025-04-02更新2025-01-17 发布

设$(R,\mathfrak{m},k)$为Golod环。我们展示了高阶syzygy关于其前序syzygy的递推公式。在嵌入维数至多为2的情况下，我们完全描述了$k$的所有syzygy的所有不可分解直和项。

交换代数

13C13, 13D09, 13H10

2025-04-02更新2024-08-24 发布

我们研究了紧致规范群 $ G $ 和水平 $ k $ 的 Chern-Simons 理论中由“链环补体”路径积分定义的状态的多部分纠缠模式，即边界由 $ n $ 个拓扑链环组成的紧致流形。我们重点关注可以用 Seifert 表面纤维化的拓扑描述的链环补体。我们证明此类纤维化链环补体状态的纠缠结构受一个拓扑不变量控制，即纤维化的单值性。因此，Chern-Simons 链状态的纠缠结构不仅取决于链环本身，还取决于链环嵌入的背景流形。特别地，我们证明任何链环都可以嵌入某些背景中，从而产生类似于 GHZ 的纠缠。此外，我们展示所有具有周期单值性的纤维化链环都具有类似于 GHZ 的纠缠，即对任意链环分量的部分迹运算会产生可分离态。这些结果推广到具有对偶手征理性共形场论的任意三维拓扑场论中。

高能物理-理论

强关联电子体系

量子物理

2025-04-02更新2025-02-26 发布

本文探讨了类星体X射线和紫外辐射之间的非线性关系是否可用于推导其距离。在我们小组之前的工作中，已证明该关系的斜率在红移范围内没有演化。所得到的距离与标准平坦ΛCDM模型在红移z～1.5范围内一致，但在更高红移处显示出显著偏差。然而，有几位作者认为这种差异可能源于母样本中低红移和高红移源之间的一致性问题，或者是该关系的红移演化。在此，我们通过与超新星推导距离的定量比较讨论这些问题，并结合模拟表明，所有声称的不一致性都可能自然地源自用于数据分析的宇宙学模型的局限性，即我们对真实宇宙学的无知。我们认为，该方法的可靠性只能基于红移z>1.5时X射线到紫外辐射关系非演化的宇宙学无关评估，前提是仔细检查样本选择和流量测量中的可能红移相关系统效应。由于我们没有发现z>1.5时该关系归一化突然变化的任何物理原因，并且可以排除数据选择和流量测量中的严重系统误差，因此我们得出结论，应用X射线到紫外辐射关系于宇宙学是有充分依据的。为了进一步巩固这一点，我们需要更好地理解观测到的关系背后的物理过程和/或独立观测证据可能确认类星体与ΛCDM模型之间的差异，例如未来的红移z～2或更高的超新星测量。

宇宙学和非星系天体物理学

2025-04-02 发布

我们研究了从在线非遗忘符号固定（oNOSF）源确定性地压缩和提取随机性的任务，oNOSF源是一种自然的有缺陷随机源模型，在许多参数范围内提取是不可能的[ AORSV, EUROCRYPT'20 ]。一个$(g,\ell)$-oNOSF源是一系列$\ell$个块，其中$g$个块是好的（独立且具有一定的最小熵），其余的坏块由在线对手控制——可以与之前出现的任何块任意相关联。[CGR, FOCS'24]最近研究了oNOSF源的压缩器的存在性。他们证明了各种不可能的压缩结果，并在$n\gg\ell$时展示了压缩器的存在性。我们在几乎所有参数范围内显著推进了压缩器存在的证明，即使当$n$为大常数且$\ell$增长时也是如此。我们接下来构造了第一个针对oNOSF源的显式压缩器，其结果与[CGR, FOCS'24]中的存在性结果相匹配。我们还获得了用于将低熵oNOSF源转换为均匀oNOSF源的明显改进的构造。我们将结果应用到集体抛硬币和集体抽样问题中，这些问题在容错分布式计算中得到了广泛研究。我们利用压缩器为这些问题提供了非常简单的协议。接下来，我们转向理解从oNOSF源提取的可能性。我们引入了一种新的、自然的功能影响概念，称为在线影响。我们建立了函数在线影响的严格界限，这暗示了提取的下界。最后，我们通过与领导者选举协议的新联系，为oNOSF源构建了显式的提取器。这些提取器的参数超越了标准的弹性函数[AL, Combinatorica'93]。

计算复杂性

68Q87

F.0

2025-04-02更新2024-11-06 发布

近年来，越来越多的证据表明麦哲伦云中的丰富星团包含大量快速旋转的恒星。在本研究中，我们通过分析四个星团的颜色-亮度图来限制这些快速旋转恒星的比例，这四个星团是从那些具有最显著快速旋转特征的星团中选出的。利用来自PARSEC v2.0恒星轨迹推导出的等年龄线，我们生成了覆盖有限初始旋转速率区间$\omega_\mathrm{i}$的不同恒星群体，称为“部分模型”（PMs）。通过优化算法和马尔可夫链蒙特卡罗方法，我们将PMs组合起来创建最终的最佳拟合模型。在我们的分析中，采用了两个关键假设：每个星团内的恒星自转轴均匀分布且具有相同的年龄。解决方案允许在整个$\omega_\mathrm{i}$范围内以及不同的年龄、金属丰度、距离和前景消光值进行探索。我们发现，这四个星团中的旋转速度分布均显示出高比例的接近破裂极限的恒星。具体而言，在小麦哲伦云（SMC）的NGC 419星团和大麦哲伦云（LMC）的NGC 1831和NGC 1866星团中，$\omega_\mathrm{i}>0.7$的恒星比例超过80%。对于LMC中的NGC 2203星团，该比例较小但仍超过50%，确认此星团也主要由快速旋转的恒星组成。

星系天体物理学

太阳和恒星天体物理学

2025-04-02 发布

来自致密双星并合的引力波（GWs）已成为宇宙学和广义相对论（GR）最有前景的探针之一。然而，充分利用当前和未来的引力波观测台作为标准 sirens 的主要挑战在于开发高效且稳健的代码，以分析不断增加的数据量。我们在此介绍了 \texttt{CHIMERA} 2.0，这是一个先进的计算框架，用于使用标准 sirens 和星系目录进行宇宙学、修正引力和人口超参数的分层贝叶斯推断。该升级引入了新颖的 GPU 加速算法来估计分层似然函数，使分析数千个事件成为可能——这对于下一代实验至关重要，并包括两个参数（$\Xi_0-n$）修正的引力波传播模型。利用 \texttt{CHIMERA} 2.0，我们预测了未来 LIGO-Virgo-KAGRA O5 运行的宇宙学和修正引力波传播约束。我们分析了三个二元黑洞群体，每个群体包含 300 个信噪比 >20 的事件，每个群体的 $\Xi_0$ 值分别为 0.6、1（对应 GR）和 1.8。由于 \texttt{CHIMERA} 2.0 的速度提高了 10 到 1000 倍（取决于设置和目录大小），每个目录进行了多次分析，总计约 5000 个事件。我们联合推断了宇宙学、修正引力波传播和人口超参数。对于光谱星系目录，当 $\Xi_0$ 分别为 0.6、1 和 1.8 时，fiducial $\Xi_0$ 的精度分别为 22%、7.5% 和 10%；而当 $\Xi_0$ 不被推断时，$H_0$ 的精度差 2-7 倍。最后，在使用测光红移的情况下，所有情况下的约束平均下降 3.5 倍，突显了未来光谱巡天在最大化标准 sirens 约束能力中的重要性。

宇宙学和非星系天体物理学

广义相对论与量子宇宙学

2025-04-02 发布

我们研究了标量暗物质在早期宇宙一阶相变期间通过泡泡膨胀机制产生的可能性。为了使暗物质能量密度与观测结果一致，我们探讨了暗物质种类与经历相变场之间的可重正化及不可重正化相互作用，并考虑了泡泡壁运动所对应的洛伦兹增强因子的所有可能情形。通过结合解析和数值方法，我们证明即使在之前未被探索过的低速泡泡膨胀情形下，也能实现足够的暗物质产生，从而扩展了该情景的参数空间与可能性。值得注意的是，对于不可重正化相互作用，发现所产生的暗物质丰度在低洛伦兹增强因子的情况下也表现出与可重正化情况相似的定性行为。此外，对于接近电弱标度的相变，其伴随的引力波频谱在未来探测器的探测范围内。

高能物理-唯象学

宇宙学和非星系天体物理学

高能物理-理论

2025-04-02更新2024-07-19 发布

本文探讨了一般（不一定是理性）SCFT及其Calabi-Yau流形的B扭转在非可逆对称性方面的特性。我们首先详细概述了B模型中的缺陷。由于显然的原因，B模型中的所有缺陷都是拓扑算符，并定义了该拓扑场论的（通常是不可逆的）对称性，但只有部分在物理理论（即未扭曲理论）中保持拓扑不变性。对于一般的靶空间Calabi-Yau流形X，我们讨论了这些缺陷的几何实现，即同时为A扭转和B扭转的X×X上的复拉格朗日和复余辛膜，并讨论了它们的融合产物。需要明确的是，B模型中的可能非可逆对称性比可以用融合范畴描述的更为广泛。尽管如此，我们还是描述了某些Tambara-Yamagami范畴在椭圆曲线目标下的B模型实现，并且论证了椭圆曲线不能支持Fibonacci或Haagerup结构。我们还讨论了在这种语言下分解是如何实现的。

高能物理-理论

2025-04-02 发布

利用FLAMINGO模拟中包含530万颗星系的大样本（星系总质量 $M_\ast = 10^{10-11}\,{\rm M}_\odot$），我们对宁静星系和恒星形成星系进行了统计分析，以探索淬灭机制。从红移 $z \simeq 7$ 到 0，我们发现主序星系的中值恒星形成率与环境无关，并且与星系是中心星系还是卫星星系无关，而宁静星系的比例对两者都非常敏感。通过随机森林（Random Forest, RF）分类器，我们证明黑洞（BH）反馈是对中心星系和卫星星系进行淬灭的主要机制，而暗晕质量则是第二重要的因素。对于卫星星系，随机森林赋予恒星质量的重要性表明其淬灭过程更多依赖于原位预淬灭而非星外预处理。在宇宙午后时期（红移 $z = 0$–1），我们识别出两种不同的演化阶段：当黑洞质量 $M_{\rm BH} \gtrsim 10^7\,{\rm M}_\odot$ 时，无论环境如何，几乎所有星系都被淬灭；当 $M_{\rm BH} \lesssim 10^7\,{\rm M}_\odot$ 时，淬灭主要由暗晕质量决定。一旦星系的黑洞质量达到 $M_{\rm BH} \simeq 10^7\,{\rm M}_\odot$（通常对应 $M_\ast \simeq 10^{10.5}\,{\rm M}_\odot$ 和 $M_{\rm h} \simeq 10^{12}\,{\rm M}_\odot$），它们会经历从主序到宁静状态的急剧转变，淬灭时间尺度小于1 Gyr。这种转变是由内绕星系介质中气体质量的突然变化引起的。我们的结果表明，星系淬灭源于原位和星外物理过程的结合。

星系天体物理学

2025-04-02 发布

我们以自监督的方式解决了从连续视频流中进行表征学习的挑战。这不同于标准的视频学习方法，在这些方法中，视频在训练过程中被分割并打乱，以便创建一个满足独立同分布（IID）样本假设的非冗余批次，这是传统训练范式的期望。当视频仅作为连续输入流时，显然破坏了IID假设，导致性能下降。我们通过三个任务展示了从随机学习转向顺序学习时性能的下降：单视频表征学习方法DoRA、多视频数据集上的标准VideoMAE以及未来视频预测任务。为了解决这一性能下降问题，我们对标准优化器进行了几何修改，在训练过程中利用正交梯度来解耦批次。该修改可以应用于任何优化器——我们在随机梯度下降（SGD）和AdamW中进行了演示。我们提出的正交优化器允许从流式视频中训练的模型缓解表征学习性能的下降，在下游任务中进行评估。在三种场景（DoRA、VideoMAE、未来预测）下，我们证明了我们的正交优化器在所有三种场景中都优于强大的AdamW。

计算机视觉与模式识别

2025-04-02 发布

Schubert系数$c^w_{u,v}$是非负整数，在代数几何中出现，并在代数组合学中起核心作用。是否存在一个组合解释（即$c^w_{u,v} \in \#{\sf P}$）是一个重要的开放问题。我们研究了Schubert系数消失问题的相关性：$\{c^w_{u,v}=^? 0\}$。在此之前，尚不清楚该问题是否属于多项式层次结构${\sf PH}$。我们证明了在假设广义黎曼假设（GRH）下，$\{c^w_{u,v}=^? 0\}$属于${\sf coAM}$。特别地，消失问题属于${\Sigma_2^{{\text{p}}}}$。我们的方法基于提升构造的公式化，这为问题提供了多项式方程组系统。结果来源于对参数化Hilbert零点定理的约简，后者最近在arXiv:2408.13027中被研究。我们将结果扩展到所有经典类型。类型$D$在附录中得到了解决（与David Speyer合作）。

Primary: 05E14, Secondary: 05E05, 14M15, 14N15, 68Q05, 68Q15, 68Q25

2025-04-02更新2024-12-03 发布

视觉定位（Visual Grounding, VG）通常专注于利用自然语言在图像中定位感兴趣的区域，而现有大多数视觉定位方法局限于单张图像的解释。这种局限性限制了它们在实际场景中的应用，例如自动监控中检测多张图像之间的细微但有意义的视觉差异至关重要。此外，以往关于图像差异理解（Image Difference Understanding, IDU）的工作要么集中在检测所有变化区域而没有跨模态文本引导，要么仅提供粗粒度的差异描述。因此，为了推动更细粒度的视觉-语言感知，我们提出了图像差异定位（Image Difference Grounding, IDG）任务，旨在基于用户指令精确地定位视觉差异。我们引入了DiffGround，一个大规模且高质量的IDG数据集，包含具有多样视觉变化的图像对以及查询细粒度差异的指令。此外，我们提出了一个用于IDG的基线模型DiffTracker，该模型通过有效整合特征差异增强和常见抑制来精确定位差异。在DiffGround数据集上的实验突显了我们的IDG数据集在实现更细粒度IDU方面的重要性。为了促进未来的研究，DiffGround数据集和DiffTracker模型都将公开发布。

计算机视觉与模式识别

2025-04-02 发布

给出了与Ding-Iohara-Miki（DIM）代数整数射线相关的可积哈密顿算子特征函数的一般描述，这是通过Chalykh Baker-Akhiezer函数（BAF）理论提供的，该函数被定义为满足一个看似简单的线性系统的解。这些解本身虽然有些复杂，但比它们可能的复杂程度要简单得多，这是因为所有进入Cramer法则的行列式同时部分分解。这种“共谋”负责了Macdonald多项式和Noumi-Shirashi函数相对简单的性质，并且进一步延续到了所有的整数DIM射线上。然而，分解只是部分的，而且存在不同的分支，并在它们之间出现突变。我们通过BAF定义矩阵的一个例子解释了Cramer法则的这一特性，该矩阵表现出参数上的非解析依赖性。此外，该矩阵使得在非退化近似周围没有自然展开，导致公式意外地复杂。

高能物理-理论

数学物理

2025-04-02 发布

对实际量子处理器中的噪声进行精确建模对于构建容错量子计算机至关重要。尽管对真实噪声量子电路进行全面模拟可以提供关于所有量子比特之间相关噪声的信息，并因此准确，但它计算成本高昂，因为所需的资源随着量子比特数量呈指数级增长。我们提出了一种高效的系统化构造近似噪声通道的方法，通过纳入更高量子比特间关联度的噪声成分，可以提高其准确性。为了制定这样的近似通道，我们首先介绍了一种称为聚类展开方法的技术，将实际噪声通道的Lindblad生成器分解为基于量子比特间关联度的分量。通过截断聚类展开并纳入关联度至k阶的噪声分量，我们生成了一个k阶近似噪声通道。我们要求这些近似噪声通道必须既准确又“诚实”，即在我们的物理模型中不能低估实际误差。作为一种应用示例，我们将该方法应用于一个由三个量子比特组成的量子处理器中，该处理器稳定了[[2,0,2]]码字，即四个贝尔态之一。我们发现，对于固定频率超导量子比特通过始终存在的静态相互作用耦合的情况下的典型噪声强度，超出两量子比特关联的噪声会显著影响代码模拟的准确性。由于我们的方法提供了多量子比特噪声关联的系统表征，它使得从完全建模或实验表征足够小的量子子系统来高效地模拟大量量子比特成为可能，同时仍然保留整个设备的关键噪声特征。

量子物理

2025-04-02更新2023-11-15 发布

从 toric 变量扩展到量子 toric 堆栈允许研究具有固定组合结构的 toric 对象的模空间，因为我们现在将 $\mathbb{R}^n$ 的一般有限生成子群视为“格”。本文旨在构建一个模空间，包含给定环境空间维数的所有此类模空间。为实现此目标，我们在量子框架内调整了次级扇形的构造。这种方法提供了不同模空间之间类似于在 LVMB 流形中观察到的墙穿跃的描述。

代数几何

14D23, 14M25

2025-04-02 发布

我们引入了一类新的系统，称为路径突变体，它们通过扭曲计数器的轨道构建而成。我们利用这些变换在定量轨道等价中获得灵活性结果。Kerr和Li的工作表明，如果轨道等价的协周期是$\log$-可积的，则熵保持不变。尽管熵也是偶Kakutani等价的一个不变量，但我们证明了这种关系与$L^{\frac{1}{2}}$轨道等价并不相同，这是通过Feldman构造的一个非松散Bernoulli系统（该系统为路径突变体）实现的。我们还证明了Kerr和Li关于熵保持的结果是最优的，即我们找到了所有正熵的路径突变体，它们与计数器轨道等价，并且其协周期几乎为$\log$-可积。实际上，我们在唯一遍历Cantor极小同胚之间构建了一个强轨道等价，因此我们的结果是对Boyle和Handelman著名定理的一种改进。最后，我们证明了Belinskaya定理对于所有计数器都是最优的，即对于每个计数器，我们找到一个路径突变体，它几乎可积地轨道等价于该计数器，但不具有翻转共轭性。这扩展了Carderi、Joseph、Le Ma\^itre和Tessera的一个定理。

动力系统

2025-04-02 发布

上世纪八十年代末，Hildebrand和Tenenbaum证明了关于不超过$x$的正整数中恰好有$\nu$个不同素因子的数量的渐近公式：$\pi_{\nu}(x) \sim x \delta_{\nu}(x)$。本文考虑了在短区间$(x,x+y]$内整数的受限计数$\pi_{\nu}(x,y)$。在此设定下，我们证明了对于任意$\varepsilon >0$，渐近等价式\[ \pi_{\nu}(x,y) \sim y \delta_{\nu}(x)\] 在$1 \le \nu \le (\log x)^{1/3}/(\log \log x)^2$且$x^{17/30 + \varepsilon} \leq y \leq x$范围内一致成立。此外，这些方法还给出了$k$重除数函数$\tau_k$在短区间的平均上界，并对$k$具有强一致性。

数论

11N25

2025-04-02更新2024-08-29 发布

共 13511 条搜索结果

共 13511 条

实现异构数据发现的操作化方法

中波红外光电探测器像素的横向腔增强引导模式共振结构

液体氩平均激励能的测量

高维Golod环上剩余域的syzygy

纤维化链环态的多部分纠缠结构

类星体是否是可靠的标准化烛光？

抵御在线对手的压缩与提取

银河星团中快速自转恒星的显著高比例

加速标准 sirens 方法：基于未来数据对修正引力波传播的改进限制

标量暗物质通过泡泡膨胀机制的产生：洛伦兹因子与不可重正化相互作用的作用

B模型拓扑场论中的非可逆对称性

星系淬灭的原位与星外驱动因素：FLAMINGO模拟中的恒星序列普适性和关键黑洞质量

基于正交梯度从流式视频中学习

Schubert系数的消失问题

基于自然语言的图像差异定位

扭曲Baker-Akhiezer函数由行列式决定

高精度且诚实的关联量子比特噪声近似

利用次级扇形拼接量子环面堆栈的模空间

路径突变体与定量轨道等价的灵活性结果

短区间Hildebrand-Tenenbaum定理