Research

arXiv

分类

本文引入了一种新的对数双相型算子，形式如下： \[ \mathcal{G}u:=-\operatorname{div}\left(|\nabla u|^{p(x)-2}\nabla u+\mu(x)\left[\log(e+|\nabla u|)+\frac{|\nabla u|}{q(x)(e+|\nabla u|)}\right]|\nabla u|^{q(x)-2} \nabla u \right), \] 其中$\Omega\subseteq\mathbb{R}^N$为具有Lipschitz边界的有界区域，$N\geq 2$，$p,q\in C(\overline{\Omega})$满足$\forall x\in\overline{\Omega}, 1<p(x)\leq q(x)$，且$0\leq\mu(\cdot)\in L^1(\Omega)$。首先，我们证明了对数Musielak-Orlicz-Sobolev空间$W^{1,\mathcal{H}_{\log}}(\Omega)$和$W^{1, \mathcal{H}_{\log}}_0(\Omega)$（其中$\mathcal{H}_{\log}(x,t)=t^{p(x)}+\mu(x)t^{q(x)}\log(e+t)$，$(x,t)\in \overline{\Omega}\times [0,\infty)$）是可分的、自反的Banach空间，并且$W^{1,\mathcal{H}_{\log}}_0(\Omega)$可以配备一个等价范数。我们还证明了这些空间的嵌入结果以及截断闭包性。此外，在假设$p(\cdot)$满足Nekvinda衰减条件的情况下，我们展示了在无界域上光滑函数在$W^{1,\mathcal{H}_{\log}}(\Omega)$中的稠密性。第二部分研究了该算子的性质，证明其是有界的、连续的、严格单调的、(S$_+$)类的、强制的并且是同胚映射。作为一个独立的兴趣点，我们还提出了幂律与对数乘积的Young不等式的新版本。本文的最后一部分考虑了由该新算子驱动且右侧项具有超线性的方程。通过利用相应的Nehari流形的适当变化、定量变形引理和Poincaré-Miranda存在性定理，我们证明了此类方程解的多重性结果，特别是关于变号解的结果。

PDE分析

2025-03-24更新2023-09-17 发布

大气污染已成为威胁人类健康的重大问题，因此准确的空气质量预报对污染控制至关重要。传统的基于物理的模型通过在线或离线方式耦合气象和污染过程来预测全球空气污染，但两种方法都因高计算需求严重限制了实时预测效率。现有的深度学习（DL）解决方案采用在线耦合策略进行全球空气质量预报，需要微调基于预训练大气模型的污染预报，这需要大量的训练资源。本研究开创性地提出了一种基于深度学习的离线耦合框架，利用双线性池化实现气象场与污染物之间的离线耦合。所提出的模型仅需基于深度学习的在线耦合模型参数的13%，即可达到竞争性的性能表现。相较于最先进的全球空气质量预报模型CAMS，我们的方法在所有预报时间步中的63%变量以及超过48小时预测中的85%变量上表现出优越性。这项工作首次验证了基于深度学习的全球空气质量预报中气象场的有效性，表明离线耦合气象场与污染物可以实现所有污染变量相对均方根误差（RMSE）降低15%。本研究为实时全球空气质量预警系统建立了新的范式，并为开发更高效、更全面的人工智能驱动的全球大气预报框架提供了关键技术支撑。

计算机视觉与模式识别

机器学习

2025-03-24 发布

现有的基于扩散的净化方法通过前向扩散过程引入一定量的噪声，随后通过反向过程恢复干净样本，旨在破坏对抗扰动。然而，这种方法在根本上存在缺陷：前向过程对所有像素进行统一操作，这在试图对抗对抗扰动的同时会损害正常像素，导致目标模型产生错误预测。单纯依赖低强度噪声不足以实现有效的防御。为了解决这一关键问题，我们基于神经网络的可解释性实施了一种异构净化策略。我们的方法针对目标模型关注的特定像素应用高强度噪声，而其余像素仅受到低强度噪声的影响。这一需求促使我们重新设计扩散模型的采样过程，从而实现对不同噪声水平的有效去除。此外，为了评估我们的方法在强适应性攻击下的表现，我们提出的单步重采样方法显著降低了时间和内存开销。大量实验结果表明，我们的方法在三个数据集上的表现大幅优于大多数现有的对抗训练和净化技术。

计算机视觉与模式识别

人工智能

2025-03-24更新2025-03-03 发布

我们研究了从可积系统通过单位变换淬火的时间依赖多体量子系统的量子几何效应，该变换的相算符随时间线性变化。我们建立了一个定理，表明由此产生的时变多体系统的Berry联络矩阵以及所有相关的几何量可以精确地由来自量子可积系统的至多两粒子过程的激发所表征。这种几何刻画为分析驱动下的多体动力学过渡提供了有力工具。为了说明多体几何影响，我们分析了一个典型的随时间变化的Ising链，它受到小纵向场和缓慢旋转的横向场的影响，在标度极限下其低能物理瞬时由量子$E_8$可积场论控制。聚焦于量子几何势（QGP），我们展示了随着纵向场减小，QGP连续抑制瞬时能量间隙，从而增强多体Landau-Zener隧穿，这可以通过Loschmidt回波及其相关的光谱熵来体现。确定了纵向场强度的临界阈值，在此阈值处光谱熵随系统大小线性增加，并在接近阈值时表现出超标度行为。当纵向场超过阈值并减小至零时，QGP连续导致涉及更多低能激发的瞬时能量间隙消失，导致光谱熵增加，表明多体Landau-Zener隧穿。我们的结果揭示了时间依赖多体系统中的量子几何特征，阐明了量子几何与动力学之间复杂的相互作用。

时间序列信号的累积以及标签的缺乏使得时间序列异常检测（Anomaly Detection, AD）成为深度学习的一种自监督任务。基于正态性假设的方法面临以下三个局限性：（1）单一假设很难全面描述正态性或导致偏差。（2）某些假设可能违背异常检测的原则。（3）其基本假设是训练数据未被污染（无异常），而在实际应用中这一假设并不现实，导致鲁棒性下降。本文提出了一种新的鲁棒方法RoCA，据我们所知，这是首次解决上述三个挑战的方法。该方法在一个单一的训练过程中融合了单类分类和对比学习的分离假设，以刻画更为完整的所谓正态性。此外，它在整个训练过程中监控训练数据并计算一个精心设计的异常分数。这个分数有助于识别潜在的异常，进而用于定义分类边界，受到异常暴露概念的启发。在AIOps数据集上的性能比未考虑污染时（COCA）提高了6%。在两个大型高维多变量数据集上，性能提高了5%到10%。RoCA在单变量和多变量数据集上的平均性能最高。源代码可在https://github.com/ruiking04/RoCA获取。

机器学习

人工智能

2025-03-24 发布

高分辨率语义分割对于图像编辑、背景虚化成像、增强现实/虚拟现实（AR/VR）等应用至关重要。然而，现有的数据集往往分辨率有限，并且缺乏精确的掩码细节和边界。在本文中，我们构建了一个大规模的、基于抠图级别的语义分割数据集，名为MaSS13K，该数据集包含13,348张真实世界图像，全部达到4K分辨率。MaSS13K为多种物体提供了高质量的掩码标注，这些物体被分为七个类别：人物、植被、地面、天空、水体、建筑和其他。MaSS13K具有精确的掩码，其平均掩码复杂度比现有语义分割数据集高出20至50倍。因此，我们提出了一种专门设计用于高分辨率语义分割的方法，即MaSSFormer，它采用高效的像素解码器，在三个阶段聚合高级语义特征和低级纹理特征，旨在以最小的计算成本生成高分辨率掩码。最后，我们提出了一种新的学习范式，将七个给定类别的高质量掩码与新类别的伪标签相结合，使MaSSFormer能够将其准确的分割能力转移到其他类别的物体上。我们的提出的MaSSFormer在MaSS13K基准数据集上与14个代表性分割模型进行了全面评估。我们期望我们精心标注的MaSS13K数据集和MaSSFormer模型能够促进高分辨率和高质量语义分割的研究。数据集和代码可在https://github.com/xiechenxi99/MaSS13K找到。

计算机视觉与模式识别

2025-03-24 发布

在SPECT图像重建中，有限角（LA）条件会导致频率成分的丢失，从而在对应未采集投影角度范围的方向上扭曲重建的断层图像。尽管传统迭代图像重建方法已在有限角条件下用于改善重建图像质量，但其图像质量仍不适合临床应用。我们提出了一种基于端到端深度图像先验（DIP）框架的有限角SPECT图像重建方法，以提高重建图像质量。所提出的有限角SPECT图像重建方法是一种端到端的DIP框架，将前向投影模型纳入损失函数以优化神经网络。通过结合一个二值掩模（指示测量投影数据中的每个数据点是否已被采集），该方法恢复了未采集的投影数据并重建了更少失真的图像。该方法使用20个数值仿真目标和临床患者数据进行了评估。在数值模拟中，与现有的基于反投影的方法相比，所提出的方法在PSNR和SSIM方面表现更优。我们通过特定对象的调制传递函数分析了在模拟和临床患者数据中的重建断层图像的频域响应，以评估重建方法对不同频率物体的响应。结果表明，所提出的方法显著改善了几乎所有空间频率的响应，即使在未采集的投影角度范围内也是如此。结果证明，所提出的方法可以重建更少失真的断层图像。所提出的基于端到端DIP的重建方法通过将二值掩模纳入损失函数，恢复了丢失的频率成分并减轻了有限角条件下的图像畸变。

医学物理

图像与视频处理

2025-03-24 发布

我们考虑估计取值于巴拿赫空间的一组重尾随机变量序列的公共均值。特别是，我们重新审视并扩展了Catoni和Giulini首次提出的简单截断型均值估计方法。虽然现有的截断型方法需要观测值的原始（非中心）二阶矩有界，但我们的结果在满足某些$p\in(1,2]$的中心或非中心$p$阶矩有界时成立。因此，我们的分析能够处理具有无限方差的分布。论文的主要贡献来自于利用基于截断的均值估计与光滑巴拿赫空间中鞅集中之间的联系。我们证明了两类时间均匀的估计值与未知均值之间距离的界：线穿不等式，可以在固定样本大小$n$时进行优化；以及迭代对数不等式，在至多$n$的双对数因子范围内，与线穿不等式的紧度一致。我们的结果不依赖于巴拿赫空间的维数，适用于鞅相关情形，并且不等式中的所有常数均为已知且较小。

2025-03-24更新2024-11-18 发布

大多数最先进的跟踪器采用单流范式，使用单一的视觉Transformer进行模板图像和搜索区域图像的联合特征提取和关系建模。然而，不同图像块之间的关系建模表现出显著的变化。例如，由目标无关信息主导的背景区域需要减少注意力分配，而前景，特别是边界区域，则需要被强调。单一模型可能无法同时有效处理各种关系建模。本文提出了一种名为SPMTrack的新跟踪器，该跟踪器基于为视觉跟踪任务（TMoE）定制的专家混合方法，结合了多个专家处理多样化关系建模的能力，更加灵活。得益于TMoE，我们将关系建模从图像对扩展到时空上下文，进一步提高了跟踪精度，同时模型参数增加最小。此外，我们利用TMoE作为一种参数高效的微调方法，大大减少了可训练参数的数量，使我们能够高效地训练不同规模的SPMTrack，并保持预训练模型的泛化能力，从而实现卓越的性能。我们在七个数据集上进行了实验，实验结果表明，我们的方法显著优于当前最先进的跟踪器。源代码可在https://github.com/WenRuiCai/SPMTrack获取。

计算机视觉与模式识别

2025-03-24 发布

在树木生长模型中引入了活力的达尔文式扩散以及质量分布的概念。在均匀年龄林分内，任何单株树木的大小被视为遗传生产力的一种度量，并与质量稀疏相结合。对于稀疏栽培密度，结果是没有商业性稀疏作业的林业；由于大型树木最具生产力而无法移除，小型树木也无法移除，因为收获单位价格较高。对于高栽培密度，从上方稀疏作业与大型树木的质量稀疏相结合。增长速率的达尔文式扩散可能与质量相关联，质量稀疏可能会增强增长速率。这些效应结合在一起，大型树木仍然会被移除，但几乎所有的直径等级都会实施质量稀疏。在财务成熟时，经过质量稀疏处理的达尔文式扩散，在高种植密度的林分中胸径均值接近20厘米，而在低种植密度的林分中略高。增长与质量相关的达尔文式扩散，以及观察到的质量与增长速率之间的关联，树木会长得更大，成熟尺寸接近25厘米——比早期研究中没有树大小依赖性的活力情况下大。

经济学综述

q-fin.EC

2025-03-24更新2025-03-21 发布

本演示介绍了AnDB，这是一种支持传统OLTP工作负载和创新AI驱动任务的AI原生数据库，能够对结构化和非结构化数据进行统一的语义分析。尽管结构化数据分析已较为成熟，但在用户查询与非结构化数据之间弥合语义鸿沟仍面临挑战。AnDB通过利用前沿的AI原生技术解决了这些问题，使用户能够使用直观的类似SQL的语句执行语义查询，而无需具备AI专业知识。这种方法消除了传统文本到SQL系统的模糊性，并为分析各类数据提供了无缝的端到端优化。AnDB通过生成多个执行计划并通过其优化器选择最优计划，从而实现查询处理自动化，该优化器根据用户策略和内部优化机制平衡准确性、执行时间和财务成本。AnDB对未来数据管理基础设施进行了前瞻性设计，使用户能够在不从头开始的情况下有效且高效地发挥各种数据的全部潜力。

数据库

人工智能

机器学习

2025-03-24更新2025-02-19 发布

在大规模多模态模型（LMMs）领域，视觉指令微调阶段的指令质量显著影响模态对齐性能。本文从一个独特的视角——写作方式，评估了指令质量。写作方式涵盖词汇选择、语法和句法结构，用于传达特定语义。我们指出，在LMMs中的视觉指令与基础大语言模型（LLMs）之间存在显著的写作方式差距。这种差距迫使预训练的基础LLMs偏离其原有的写作风格，导致基础LLMs和LMMs的能力下降。为弥合写作方式差距并保留原始语义，我们提出直接利用基础LLMs使软格式视觉指令的写作方式与其自身对齐，从而产生新的与LLM对齐的指令。人工写作方式评估结果表明，我们的方法成功缩小了写作方式差距。通过使用与LLM对齐的指令，基线模型LLaVA-7B和QwenVL在所有15个视觉和语言基准测试中表现出更强的抗幻觉能力以及全面的改进。

人工智能

计算与语言

2025-03-24 发布

Transformer因在各个领域表现出色已成为基础模型的主要架构。然而，其模型扩展的巨大成本仍然是一个重要问题。这一问题主要源于线性投影中对固定数量参数的依赖。当引入架构修改（如通道维度）时，整个模型通常需要从头开始重新训练。随着模型规模的不断扩大，这种策略导致计算成本越来越高，变得不可持续。为了解决这个问题，我们提出了TokenFormer，这是一种原生可扩展的架构，不仅利用注意力机制处理输入标记之间的计算，还用于处理标记与模型参数之间的交互，从而增强架构灵活性。通过将模型参数视为标记，我们将Transformer中的所有线性投影替换为我们的标记-参数注意力层，其中输入标记作为查询，模型参数作为键和值。这种重构允许渐进且高效地扩展，而无需从头开始重新训练。我们的模型通过逐步添加新的键值参数对从1.24亿扩展到14亿参数，性能与从头开始训练的Transformer相当，同时大大降低了训练成本。代码和模型可在https://github.com/Haiyang-W/TokenFormer获取。

机器学习

2025-03-24更新2024-10-30 发布

交叉验证是一种常用的机器学习模型预测性能估计方法。在数据稀缺的情况下，通常希望最大化用于训练模型的样本数量，此时常采用“留一法交叉验证”方法。在这种设计中，对于每个数据实例，通过利用其他所有实例进行训练来构建单独的预测模型。由于每训练一个模型只留下一个测试实例，因此需要将整个数据集上的预测结果汇总起来，计算接收者操作特征曲线下面积（AUC）或R²分数等常见性能指标。本文研究发现，这种方法会导致每个训练折的平均标签与其对应测试实例标签之间产生负相关现象，我们称之为分布偏差。由于机器学习模型倾向于回归到其训练数据的均值，这种分布偏差会对性能评估和超参数优化产生负面影响。我们证明了这种效应也适用于留P法交叉验证，并且在广泛的建模和评估方法中持续存在，可能导致对更强正则化的偏见。为了解决这一问题，我们提出了一种通用的重平衡交叉验证方法，能够校正分类和回归任务中的分布偏差。我们通过合成模拟、机器学习基准以及多个已发表的留一法分析表明，我们的方法可以改善交叉验证的性能评估。

方法论

机器学习

定量方法

2025-03-24更新2024-06-03 发布

在二维单标量共形场论中，由左移电流$j=\partial_-\phi$生成的对称Lie代数是无限维的，并表现出相互交换的子代数。这些无限维的相互交换子代数定义了二维单标量共形场论的可积形变，且保持泊松括号结构。我们研究了这些相互交换的子代数，发现了此类子代数生成元必须满足的一般性质。在此过程中，我们推导出对Korteweg-de Vries型可积方程的约束。

高能物理-理论

数学物理

精确可解与可积系统

2025-03-24更新2025-02-25 发布

我们研究了大小为$n$的实椭圆Ginibre矩阵的实特征值，这些矩阵由非对称参数$\tau \in [0,1]$索引。在强非厄米和弱非厄米两种情况下，即当$\tau \in [0,1)$固定或$1-\tau=O(1/n)$时，我们推导出概率$p_{n,n-2l}$的渐近展开式，该概率表示所有但有限个数$2l$的特征值为实数。特别是，我们证明了展开式具有如下形式： $$ \begin{align*} \log p_{n, n-2l} = \begin{cases} a_1 n^2 +a_2 n + a_3 \log n +O(1) &\text{在强非厄米性下}, \\ b_1 n +b_2 \log n + b_3 +o(1) &\text{在弱非厄米性下}, \end{cases} \end{align*} $$ 并明确确定了所有系数。此外，在特殊情况下$l=1$时，我们得到了全阶展开式。对于证明，我们在强非厄米和弱非厄米两种情况下采用了不同的方法。在前者情况下，我们利用位势论技术分析了条件为具有$n-2l$个实特征值的椭圆Ginibre矩阵的自由能，并结合强Szegő极限定理。在后者情况下，我们利用斜正交多项式形式主义以及Hermite多项式的渐近行为。

在现实世界中，由于采集频率较低或设备覆盖范围有限，轨迹数据往往稀疏且不完整。轨迹恢复旨在恢复缺失的轨迹点，使轨迹更加密集和完整。然而，这一任务面临两个关键挑战：1）个体轨迹的过度稀疏使得难以有效利用历史信息进行恢复；2）稀疏轨迹使得捕捉复杂的个体移动偏好变得更加困难。为了解决这些挑战，我们提出了一种名为DiffMove的新方法。首先，我们利用群体智慧进行轨迹恢复。具体来说，我们通过所有用户的集体轨迹构建一个群体移动倾向图，并通过图嵌入将群体移动趋势集成到位置表示中。这解决了稀疏轨迹无法依赖个体历史轨迹进行恢复的问题。其次，我们从历史和当前视角捕捉个体移动偏好。最后，我们将群体移动倾向和个体偏好整合到轨迹的空间-时间分布中，以恢复高质量的轨迹。在两个真实世界数据集上的大量实验表明，DiffMove优于现有的最先进的方法。进一步分析验证了我们方法的鲁棒性。

人工智能

机器学习

2025-03-24 发布

Fawzi和Ferme [2024年信息理论汇刊] 提出的一个开放问题是，非信号（NS）辅助是否能够提高广播信道（BC）的容量。我们通过证明在某种自然出现在无线网络中的K接收者BC设置（称为协调多点传输CoMP）下，NS辅助可以实现容量和自由度（DoF）的乘法增益，甚至在某些情况下实现K倍改进，对此问题给出了肯定回答。令人惊讶的是，即使对于半确定性和/或退化的情况下的2接收者广播信道，这一结果仍然成立。在CoMP BC中，B个单天线发送器通过允许它们共享数据的后向链路协作，作为一个B天线发送器，向每个配备单个接收天线的K个接收器发送独立的消息。一个固定且全局已知的连接矩阵M，为每个发送天线指定了与之相连（具有非零信道系数）的接收器子集。除了连接之外，发送端没有任何信道状态信息。对于与树图相关的连接模式类，完全刻画了DoF区域。对于任意连接模式下的NS辅助总容量，分别由连接矩阵的三角数和最小秩给出上下界。虽然展示了高斯模型下的翻译结果，但我们的大多数结果是在无噪声、有限域（Fq）模型下呈现的。经典DoF的反证法适应了有限域模型的对齐图像界限。NS辅助容量的反证界扩展了NS辅助可用时BC的所有方的相同边缘分布特性。对于某些“带有侧信息的通信”设置，例如衰落脏纸信道，建立了更强（无界）的增益。

信息论

2025-03-24更新2025-03-11 发布

准确的生存预测模型对于改善癌症患者的靶向治疗和临床护理至关重要。本文研究并提出了一种利用两阶段数据及专家知识和预后指数来提高癌症生存预测的方法。我们的工作受到鼻咽癌（NPC）中两阶段数据的启发，其中传统协变量对所有受试者都可获得，但主要病毒因素人乳头瘤病毒（HPV）却大量缺失。为了解决这一挑战，我们提出了一种基于观察到的协变量和关键因素临床重要性的专家引导方法。该方法高效利用了现有数据，而不仅仅是丢弃未知HPV状态的患者。我们通过一系列模拟研究和鼻咽癌患者的真实数据分析，应用并评估了所提出的方法与其他现有方法的表现。在各种设定下，所提出的方法在一致性指数（c-index）、校准斜率和集成Brier分数方面始终优于竞争方法。通过有效地利用两阶段数据，该模型为生存模型提供了更准确和可靠的预测能力。

方法论

2025-03-24更新2025-03-20 发布

结直肠癌（CRC）是全球癌症相关死亡的主要原因之一，早期通过结肠镜检查发现并切除息肉对预防CRC至关重要。尽管深度学习方法在息肉分割方面显示出潜力，但仍存在计算成本高、难以分割小尺寸或低对比度息肉以及在不同数据集间泛化能力有限等问题。为解决这些问题，我们提出了LGPS，这是一种基于轻量级生成对抗网络（GAN）的息肉分割框架。LGPS包含三个关键创新：（1）增强型MobileNetV2主干网络，结合改进的残差块和Squeeze-and-Excitation（ResE）模块，用于高效特征提取；（2）卷积条件随机场（ConvCRF），用于精确边界细化；以及（3）结合二元交叉熵、加权交并比损失和Dice损失的混合损失函数，以应对类别不平衡问题并提高分割准确性。LGPS在五个基准数据集上进行了验证，并与最先进的（SOTA）方法进行了比较。在最大的且具有挑战性的PolypGen测试数据集上，LGPS达到了Dice系数为0.7299、IoU为0.7867的性能，超过了所有现有的SOTA方法，表现出强大的泛化能力。LGPS仅包含107万个参数，比现有最小模型小17倍，非常适合实时临床应用。其轻量级设计和卓越性能突显了其在改善早期CRC诊断方面的潜力。代码可在https://github.com/Falmi/LGPS/获取。

计算机视觉与模式识别

2025-03-24 发布

共 13511 条搜索结果

共 13511 条

关于对数双相问题的研究

基于双线性池化的离线气象-污染耦合全球空气质量预报模型

分而治之：基于异构噪声集成的扩散模型对抗性净化方法

瞬间可积时间依赖量子系统中的量子几何与多体Landau-Zener隧穿现象

鲁棒对比单类时间序列异常检测方法RoCA及其在受污染数据中的应用

MaSS13K：一种基于抠图级别的语义分割基准数据集

基于深度图像先验的有限角SPECT图像重建

巴拿赫空间中无限方差与鞅相关下的均值估计

SPMTrack：基于专家混合的时空参数高效微调用于可扩展视觉跟踪

达尔文式扩散与均匀年龄北方森林中的质量稀疏

AnDB：以AI原生数据库突破边界，实现通用语义分析

通过创建与LLM对齐的指令弥合视觉指令微调中的写作方式差距

TokenFormer：基于参数令牌化的Transformer扩展再思考

离群交叉验证受分布偏差影响

约束所有可能的Korteweg-de Vries型层次结构

椭圆实Ginibre系综中几乎所有特征值为实数的概率

DiffMove：基于扩散模型的群体移动倾向增强轨迹恢复方法

非信号辅助能否增加无线网络的自由度？

利用两阶段数据改进鼻咽癌生存结果预测的方法

轻量级GAN方法LGPS在结肠镜图像息肉分割中的应用