Research

arXiv

分类

我们提出了一种基于$L^{\infty}$-归一化的新型组成数据分析方法，以应对高通量数据中零值丰富的挑战。传统方法如Aitchison变换需要排除零值，但现实中组学数据包含无法去除的结构性零值，去除这些零值会破坏内在的生物结构。这类数据仅存在于组成空间的边界上，使得专注于内部的传统方法从根本上不适用。我们引入了$L^p$-归一化的一族方法，特别关注$L^{\infty}$-归一化因其优越的特性。此方法将组成空间与$L^{\infty}$-单纯形识别，并表示为称为$L^{\infty}$-单元的高维面的并集。每个单元由绝对丰度中某一成分等于或超过其他所有成分的样本组成，其坐标系统将其与d维单位立方体等同。应用于阴道微生物组数据时，$L^{\infty}$-分解与已知的社区状态类型（Community State Types）一致，同时具有优势：每个$L^{\infty}$-CST以其主导成分命名，具有明确的生物学意义，对样本变化保持稳定，解决了基于聚类的问题，并提供了探索内部结构的坐标系统。我们通过立方体嵌入扩展齐次坐标，将数据映射到d维单位立方体中。这些嵌入可以通过笛卡尔积整合，从多个视角提供统一表示。虽然这些方法主要在微生物组研究中展示，但它们适用于任何组成数据。

计算

2025-03-27 发布

本文解决了现有马尔可夫决策过程（MDP）反事实推理方法的一个关键局限性。当前的方法假设特定的因果模型以使反事实可识别。然而，通常存在许多与MDP的观测分布和干预分布一致的因果模型，每个模型都会产生不同的反事实分布，因此固定某一特定因果模型会限制反事实推理的有效性和实用性。我们提出了一种新颖的非参数方法，计算在所有兼容因果模型下的反事实转移概率的紧界。与以往需要解决指数级复杂度优化问题的方法不同，我们的方法为这些界提供了闭式表达，使得计算对于非平凡MDP而言高效且可扩展。一旦构建了这样的区间反事实MDP，我们的方法能够识别出针对不确定区间MDP概率的最坏情况奖励进行优化的鲁棒反事实策略。我们在多个案例研究中评估了该方法，展示了其相较于现有方法的改进鲁棒性。

人工智能

2025-03-27更新2025-02-19 发布

从相关函数的动量空间表示出发，推导出了二维共形场论中的一个新的bootstrap方程。由于Wightman函数不具备交叉对称性，因此利用交换子的解析性质，得到两种不同算符乘积展开之间的关系。该过程需要计算一个具有两个光锥动量的四点函数。结果是适用于一维和二维任意理论的一个非对称方程。新的交叉方程可以通过两个简单的投影映射到Jacobi多项式的正交基上，从而重现已知的解析泛函集。其中一种具有双扭结维度零点的泛函仅被表征为一个围道积分，本文给出了其闭合形式表达式，这是全新的成果。我们还提供了一些新交叉方程的应用示例。

高能物理-理论

2025-03-27更新2025-02-28 发布

高质量的语义分割依赖于三种关键能力：全局上下文建模、局部细节编码以及多尺度特征提取。然而，现有方法难以同时具备这三种能力。因此，我们致力于使分割网络能够同时进行高效的全局上下文建模、高质量的局部细节编码以及丰富的多尺度特征表示，适用于不同输入分辨率。本文提出了一种名为SegMAN的新颖线性时间模型，该模型包含一个称为SegMAN编码器的混合特征编码器以及基于状态空间模型的解码器。具体而言，SegMAN编码器通过滑动局部注意力与动态状态空间模型的协同集成，实现了高效全局上下文建模的同时保留了细粒度的局部细节。此外，解码器中的MMSCopE模块增强了多尺度上下文特征提取，并自适应地随输入分辨率缩放。我们的SegMAN-B编码器在ImageNet-1k上达到了85.1%的准确率（比VMamba-S高出1.5%，且参数更少）。当与我们的解码器结合时，完整的SegMAN-B模型在ADE20K数据集上达到了52.6%的mIoU（比SegNeXt-L高出1.6%，且浮点运算次数减少了15%），在Cityscapes数据集上达到了83.8%的mIoU（比SegFormer-B3高出2.1%，且浮点运算次数仅为一半），在COCO-Stuff数据集上的mIoU比VWFormer-B3高1.6%，同时浮点运算次数更低。我们的代码可在https://github.com/yunxiangfu2001/SegMAN获取。

计算机视觉与模式识别

2025-03-27更新2024-12-16 发布

本文研究了在基于约束的因果发现中使用分层背景知识的方法。我们的重点在于放宽因果充分性假设的情形，即允许存在潜在变量，这些潜在变量可能由于无法完全测量相关信息或无法联合测量信息（例如在多个重叠数据集的情况下）。我们首先介绍了分层FCI（tFCI）算法的新见解。在此基础上，我们引入了一种新的扩展算法——结合分层背景知识的集成重叠数据集（IOD）算法，称为“分层IOD”（tIOD）算法。我们证明，在充分利用分层背景知识的情况下，tFCI和tIOD是可靠的，而简单的tIOD和tFCI版本则是可靠且完整的。此外，我们进一步表明，即使在Markov等价类的显式限制之外，tIOD算法通常会比IOD算法更高效且更具信息量。我们还提供了一个关于这种效率和信息量提升条件的正式结果。我们的研究结果辅以一系列示例，说明了分层背景知识的具体作用及其实际效用。

对于矩阵 $ A $、$ b $ 和整数解 $ x $ 都为整数的积分线性系统 $ Ax = b $，可通过计算 $ A $ 的不变因子（即其Smith标准型）进行求解。本文探讨了一种在实际应用中出现的新问题，即在给定 $ A, b \in \zz_n $ 的情况下，研究如何在 $ x \in \zz_n $ 中求解模线性系统 $ Ax = b \rem n $ 并附加约束条件：线性函数 $ \phi(x) = \langle w, x \rangle $ 的值与 $ n $ 互质。本文提出将系统分解为互素模数 $ p^{r(p)} $（这些模数是 $ n $ 的因子），并展示这种分解如何简化Smith标准型的计算。这种方法将著名的指数演算法推广到模数因子为素数幂 $ p^{r(p)} $ 的情况，而指数演算法原本假设模数为素数（用于求解素域上的简化系统）。本文还展示了如何利用增广矩阵 $ [A, -p^{r(p)}I] $ 的不变因子和Smith标准型以及 $ w $ 模 $ p $ 的条件高效地解决该问题，其中 $ p^{r(p)} $ 取遍 $ n $ 的所有素数因子的幂。

2025-03-27更新2025-03-13 发布

图聚类旨在将图划分为不同的簇。近年来新兴的深度图聚类方法大多基于图神经网络（GNN）。然而，GNN的设计目的是通用图编码，现有基于GNN的深度图聚类算法普遍存在表征塌缩问题。我们归因于两个主要原因：(i) GNN模型的归纳偏差：GNN倾向于为邻近节点生成相似的表示。由于图中往往包含不可忽略的簇间链接，这种偏差会导致错误的消息传递并导致有偏的聚类；(ii) 聚类引导的损失函数：大多数传统方法试图使所有样本更接近预学习的簇中心，这会导致退化解，即所有数据点都被分配到单一标签，从而使样本变得不具区分性。为了解决这些挑战，我们从图割的角度研究图聚类，并提出了一种创新的非GNN基础的深度割集信息图嵌入与聚类框架，即DCGC。该框架包括两个模块：(i) 割集信息图编码；(ii) 基于最优传输的自监督图聚类。对于编码模块，我们推导出一个割集信息图嵌入目标，通过最小化其联合归一化割来融合图结构和属性。对于聚类模块，我们利用最优传输理论获得聚类分配，可以平衡“接近预学习簇中心”的指导作用。通过上述两种定制设计，DCGC更适合图聚类任务，能有效缓解表征塌缩问题并实现更好的性能。我们进行了广泛的实验，证明了我们的方法在基准对比中简单但有效。

机器学习

人工智能

2025-03-27更新2025-03-09 发布

背景：对弥漫星际谱线（DIB）轮廓的众多研究表明，其存在亚结构，这表明大型分子可能是其载体。然而，一些最窄的DIB通常不显示此类亚结构，暗示可能存在非常小的载体。目标：基于之前发现的6196 Å、6440 Å和6623 Å三个窄波段之间的紧密相关性，并结合欧洲南方天文台弥漫星际带大范围探索巡天（ESO Diffuse Interstellar Bands Large Exploration Survey）数据集中检测到的较弱侧翼DIB，我们研究了它们是否可能源自小型线性分子载体。这种方法可以提出具体的DIB载体建议，未来可通过实验室测量进行验证。方法：我们认为所研究的DIB代表了一个小分子的单独转动跃迁。我们从观测中确定分子常数，并将其与大量量子化学计算的数据进行比较，以限制可能的载体候选者。此外，我们通过拟合分子模型的线型比值确定了转动温度。结果：我们确定了三个DIB系统的分子常数及其对应的跃迁类型。拟合的转动温度在已知星际双原子分子的范围内。我们识别出多个DIB载体候选者，其中几乎都是分子离子。其中一些是亚稳态物种，表明碰撞复合体可能是DIB载体。结论：如果我们的假设成立，这将是识别6196 Å DIB（最窄DIB中最强的一个）载体分子的重大进展。

星系天体物理学

2025-03-27更新2025-02-10 发布

我们证明了如果$l$为偶数且$(l,2n+1)\neq(2,5)$（其中$n\geq 1$），那么从$\mathbb{Q}^{2n+1}$到$\mathbb{G}(l,2n+1)$不存在非平凡态射。作为应用，我们证明了在$\mathbb{Q}^{2m+1}$和$\mathbb{Q}^{2m+2}$（$m\geq 3$）上，秩至多为$2m$的一致丛必分解，这改进了Kachi和Sato得到的一致丛分裂的上界。我们还对$B_n/P_k$（$k=\frac{2n}{3},k\geq 6$）和$D_n/P_k$（$k=\frac{2n-2}{3},k\geq 6$）上的秩最小且不可分解的一致丛进行了分类。此外，我们部分回答了Ellia的一个猜想，该猜想预测了某些特殊分裂类型的一致丛在$\mathbb{P}^n$上必定分解，并且我们找到了一些关于秩最小不可分解一致丛分裂类型的限制条件。

代数几何

14M15, 14M17, 14J60

2025-03-27更新2024-09-04 发布

本文研究了在短区间$[x, x + x^\theta]$内包含形如$n_1 n_2 n_3$和$m_1 m_2 m_3 m_4$（其中$n_1 \approx n_2 \approx n_3$且$m_1 \approx m_2 \approx m_3 \approx m_4$）的整数的最短长度。新思想是采用二次矩方法（通常用于几乎所有结果的情况）来推导出适用于所有短区间的结论。

数论

2025-03-27 发布

我们评估了从商业预报服务提供商处对显著波高 $H_s$、风速 $W$ 和平均频谱波周期 $T_m$ 的预报模型进行校准的价值，预报时间为零到168小时，以改善位于北海中部某地点的预报性能。我们考虑了两种简单的校准模型：线性回归（LR）和非齐次高斯回归（NHGR），这些模型结合了确定性预报、控制预报和集合预报均值作为协变量。结果显示，相对简单的校准模型（最多包含三个协变量）即可提供良好的校准效果，并且增加更多协变量并不能证明其合理性。对于物理量预报均值的最佳校准模型总是同时使用相同物理量的确定性预报和集合预报均值，以及一个与不同物理量相关的协变量。最优协变量的选择针对每个预报时间分别进行，而最佳协变量集在不同预报时间之间表现出高度一致性。因此，可以制定一致的模型来校准给定的物理量，该模型在所有时间范围内采用相同的三个协变量组合。对于特定物理量的NHGR模型，该物理量的集合预报标准差能够有效预测预报误差标准差，尤其是对于 $H_s$ 表现得尤为明显。我们还表明，一致的LR和NHGR校准模型能够使 $H_s$、$W$ 和 $T_m$ 的预报偏差接近于零，且LR和NHGR校准在均值方面差异不大。这两种模型都可以相对未校准的确定性预报（naive adoption）减少预报误差的标准差，其中NHGR的表现略好一些。

应用

2025-03-27 发布

已知具有系统矩阵A的线性系统构成一个二次哈密顿函数的哈密顿系统当且仅当A为哈密顿矩阵。这提供了一种直接的方法来验证一个线性系统是否是哈密顿系统或给定的哈密顿函数是否对应于一个线性系统。这些技术从根本上依赖于哈密顿矩阵的性质。本文在张量代数最新进展的基础上，将此类结果推广到一类广泛的多项式系统。由于感兴趣的系统可以自然地表示为张量形式，我们将它们称为基于张量的多项式系统。我们的主要贡献是正式定义了哈密顿立方张量并刻画其性质。至关重要的是，我们证明了一个基于张量的多项式系统是具有多项式哈密顿函数的哈密顿系统当且仅当所有相关的系统张量都是哈密顿立方张量——这与线性情况直接平行。此外，我们为基于张量的多项式哈密顿系统建立了可计算的稳定性判据。最后，我们通过数值例子验证了所有理论结果，并进一步进行了直观讨论。

系统与控制

cs.SY

2025-03-27 发布

我们提出在变分量子热化器（VQTs）中引入多量子比特非幺正操作。VQTs 是一种混合量子-经典算法，用于生成给定哈密顿量的热（吉布斯）态，具有在量子算法和模拟中的应用。然而，当前算法在中间温度下表现不佳，此时目标态为非纯态但表现出纠缠。我们设计了利用弱对称性的多量子比特非幺正操作，从而提升了算法性能。通过耗散工程，我们创建了这些多量子比特非幺正操作，无需测量或额外量子比特。为了训练变分形式，我们开发并验证了量子态熵估计的新方法，扩展了量子态表征的工具箱。我们证明了我们的方法可以在所有温度下制备典型自旋模型的热态。因此，我们的工作为模拟开放量子多体系统创造了新的机会。

量子物理

2025-03-27更新2025-02-13 发布

侵蚀在多相质量流中带来了巨大挑战，因为它通过显著增加其质量而极大地改变流动行为和沉积模式，对人口和民用结构产生负面影响。目前尚不存在基于力学解释的统一多相侵蚀模型。我们构建了一个新颖、统一且全面的固液两相侵蚀速率，并展示了其丰富性和紧迫性。这是通过开创性地引入侵蚀界面间的相互应力实现的。床面对滑坡产生的剪切应力的抗剪阻力基于包括摩擦应力、碰撞应力和黏性应力在内的物理一致原理。所提出的多相交互剪切结构在力学上更为优越且动态上更加灵活。总侵蚀率是固相和液相侵蚀率之和，它们在力学上具有广延性和紧凑性。侵蚀率始终从床面获取固液分数，并通常向流动中的固液组分供应。这克服了现有模型中存在的严重局限性。首次，我们在物理上正确构建了颗粒和流体从床面复合且复杂的侵蚀速度，并设计了包含滑坡与床面之间固体与流体所有相互作用的完整净动量产生。我们发明了应力修正、侵蚀剪切速度、超侵蚀漂移和侵蚀矩阵来表征侵蚀过程。通过将约束良好的广延侵蚀速度、统一的侵蚀率以及包含侵蚀诱导惯性的净动量产生嵌入到质量和动量平衡方程中，我们开发了一种新颖的、基于力学解释的综合多相侵蚀质量流模型。这一新模型为从业人员解决与侵蚀性多相质量流相关的技术工程问题提供了极大机会。

流体动力学

地球物理

2025-03-27更新2022-09-22 发布

扩散模型在视觉内容生成方面展示了显著的能力，但由于推理过程中的高计算成本，在实际部署中仍面临挑战。这种计算负担主要源于自注意力机制与图像或视频分辨率呈二次复杂度的关系。尽管现有的加速方法往往需要牺牲输出质量或进行昂贵的重新训练，我们观察到大多数扩散模型在较低分辨率下进行了预训练，这为利用这些低分辨率先验知识实现更高效的推理提供了机会，且不会降低性能。在这项工作中，我们提出了瓶颈采样（Bottleneck Sampling），这是一种无需训练的框架，通过利用低分辨率先验知识减少计算开销，同时保持输出保真度。瓶颈采样遵循高-低-高去噪的工作流程：在初始和最终阶段进行高分辨率去噪，而在中间步骤则在较低分辨率下运行。为了减轻混叠和模糊伪影的影响，我们进一步优化了分辨率转换点，并在每个阶段自适应地调整去噪时间步长。我们在图像和视频生成任务中评估了瓶颈采样，广泛的实验表明，它能够将图像生成的推理速度提高多达3倍，视频生成的速度提高达2.5倍，同时在多个评估指标下的输出质量与标准全分辨率采样过程相当。

计算机视觉与模式识别

2025-03-27更新2025-03-24 发布

对于单项式理想$I$，已知当$n$增大时，极小生成元的数量$\mu(I^n)$最终会遵循一个多项式模式。然而，关于这种模式出现所需的幂次，人们所知甚少；而对于该幂次之后极小生成元的具体形式，了解得更少。我们证明了对于足够大的$n$，理想$I^n$可以从特定幂次$s$下的某些子理想构造出来。我们明确地给出了$s$与$I$的关系，并证明$s\leq \mu(I)(d^2-1)+1$，其中$d$是出现在极小生成元集$\mathsf{G}(I)$中的$x$或$y$的最大次数。这为通过$\mathsf{G}(I^s)$显式描述$\mathsf{G}(I^n)$提供了方法，显著降低了确定双变量单项式理想高次幂的计算复杂度。此外，这还使我们能够显式地用关于$n$的线性多项式表示所有$n\geq s$时的$\mu(I^n)$。我们还附上了在SageMath中实现的运行时间测量结果。

交换代数

环与代数

13C99, 13E15, 68W30, 13F20, 13A15, 13B22

2025-03-27 发布

随着以太坊的广泛应用，金融欺诈如庞氏骗局在区块链生态系统中变得日益猖獗，对账户资产的安全构成了重大威胁。现有的以太坊欺诈检测方法通常将账户交易建模为图，但这种方法主要关注账户间的二元交易关系，未能充分捕捉以太坊中固有的复杂多边交互模式。为了解决这一问题，我们提出了一种用于以太坊庞氏骗局检测的超图建模方法，称为HyperDet。具体而言，我们将交易哈希视为连接交易涉及的所有相关账户的超边。此外，我们设计了一种两步超图采样策略，以显著降低计算复杂度。同时，我们引入了双通道检测模块，包括超图检测通道和超-同构图检测通道，以兼容现有的检测方法。实验结果表明，与传统的同质图基方法相比，超-同构图检测通道实现了显著的性能提升，展示了超图在庞氏骗局检测中的优越性。本研究为建模区块链数据中的复杂关系提供了创新思路。

密码学与安全

人工智能

2025-03-27 发布

在存在环交换相互作用的情况下，梯形晶格中的玻色子可能形成与关联金属相对应的玻色子类似物，称为d波玻色液体（DBL）。本文表明，具有三个内部能级的囚禁离子链可以模拟限制在每个横档最多一个玻色子占据的梯形系统。该设置允许对环交换相互作用进行可调谐控制，从而在所有玻色子被限制在一个腿上的极化态和DBL态之间过渡。后一种状态的特点是动量分布峰值分裂以及振荡的双粒子关联函数。

量子气体

强关联电子体系

量子物理

2025-03-27更新2024-10-09 发布

联邦学习（FL）是一种在去中心化数据上训练机器学习模型且保护隐私的有前景的方法。然而，隐私风险，特别是成员推理攻击（MIAs），仍然是一个重大问题，这类攻击旨在确定特定数据点是否属于目标客户端的训练集。现有的联邦学习中实现MIAs的方法主要分析来自目标客户端的更新，关注损失、梯度范数和梯度差异等指标。然而，这些方法未能利用来自非目标客户端的更新，可能未充分利用可用信息。本文首先基于非目标客户端更新的可能性，制定了一种单尾似然比假设检验。在此基础上，我们引入了一种三步成员推理攻击（MIA）方法，称为FedMIA，遵循“众人拾柴火焰高”的原则——利用多个通信轮次中所有客户端的更新，增强MIA的有效性。理论分析和广泛的实验结果表明，FedMIA在分类和生成任务中均优于现有的MIAs。此外，它还可以作为现有方法的扩展集成，并对各种防御策略、非独立同分布（Non-IID）数据和不同的联邦结构具有鲁棒性。我们的代码可在https://github.com/Liar-Mask/FedMIA获取。

机器学习

密码学与安全

2025-03-27更新2024-02-09 发布

从带缠绕纽结群的几何构造出发，我们定义并研究了几类Brauer型幺半群以及集划分幺半群的框架化，这些结构均出现在纽结理论中。我们引入了去框架化的概念，这是一种从给定的带缠绕幺半群获得带缠绕幺半群的方法。此外，我们详细说明了这一过程在上述提到的幺半群上的操作方法。我们还讨论了一些代数的框架化与去框架化问题，这些代数分别是这里讨论的带缠绕幺半群及其去框架化幺半群的变形。

环与代数

组合学

普通拓扑

2025-03-27更新2024-05-17 发布

共 13511 条搜索结果

共 13511 条

基于\(L^{\infty}\)-归一化的组成数据新分析方法及其在阴道微生物组中的应用

马尔可夫决策过程中的鲁棒反事实推理

二维动量空间共形-bootstrap

基于状态空间模型与局部注意力的全尺度上下文建模用于语义分割

基于约束的因果发现：分层背景知识与潜变量在单数据集或重叠数据集中的应用

基于Smith标准型分解与扩展欧几里得模素数幂因子除法求解带约束的模线性系统

基于深度割集信息的图嵌入与聚类

可见光巡天（EDIBLES）调查。X. 6196 Å弥漫星际谱线：通过识别侧翼小谱线作为小分子载体的指示

二次超曲面上的一致丛

短区间中的几乎立方数与四次幂

北海中程海洋气象预报的校准

关于基于张量的多项式哈密顿系统

基于弱对称非幺正多量子比特操作的变分量子热化器

多相质量流统一机械侵蚀模型

基于瓶颈采样的无训练扩散加速方法

双变量单项式理想高次幂的极小生成集

揭示交易哈希中的潜在信息：以太坊庞氏骗局检测的超图学习方法

三能级离子链中的环交换物理

FedMIA: 基于“众人拾柴火焰高”原则的联邦学习成员推理攻击

框架化与去框架化