Research

arXiv

分类

CT断层图像中的金属伪影长期以来一直是医学诊断中的难题。这些伪影会降低图像质量，导致组织可视化效果不佳，并使金属植入物附近的组织准确解释变得复杂化。为了解决这些问题，我们引入了潜在宝石光谱成像（GSI）对齐框架，该框架能够有效减少金属伪影，同时避免引入噪声信息。我们的研究基于一个关键发现，即即使受伪影影响的普通CT序列也包含足够的信息以辨别详细结构。挑战在于无法清晰地表示这些信息。为解决此问题，我们开发了一种对齐框架，调整普通CT图像的表示方式以匹配GSI CT序列。GSI是一种先进的成像技术，通过使用多个能量水平来减轻由金属植入物引起的伪影。通过将表示方式与GSI数据对齐，我们可以有效地抑制金属伪影，同时清晰揭示详细结构，而不会向CT序列中引入额外的信息。为了促进应用，我们提出了一个新的数据集Artifacts-GSI，该数据集捕获自具有金属植入物的真实患者，并基于此数据集建立了新的基准。实验结果表明，我们的方法显著减少了金属伪影，并大大提高了CT切片的可读性。所有代码和数据均可在https://um-lab.github.io/GSI-MAR/获取。

计算机视觉与模式识别

2025-03-27 发布

虽然在数理统计框架下，寿险相关资产的估值已得到了充分研究，但金融经济学领域对这些资产在无套利、完备市场中的定价却鲜有关注。本文首先回顾了资产定价基本定理(FTAP)及其简短证明；接着通过基于定价核的简单证明指出，只有在所有随机状态下红利为零时，贴现后的资产价格才是鞅；然后应用FTAP推导出包括人寿保险单和寿险年金在内的寿险资产的估值公式；最后，我们陈述了动态经济环境下的静态投资组合假设，并阐明了适用于寿险政策组合估值的FTAP。

Mamyshev振荡器（MOs）是一种新型被动锁模光纤激光器，为探索从局域结构到混沌的复杂非线性动力学提供了极佳平台。尽管其具有多功能性，但实现自启动锁模仍然是一项重大挑战，尤其是在正常色散条件下。本研究揭示了耗散法拉第不稳定性（DFI）在促进MOs自启动过程中的关键作用，其中DFI触发均匀解的对称破缺以克服启动障碍。这一发现首次全面展示了具有不同DFI模式的多个独特运行状态，即非自启动状态、不规则模式、谐波锁模状态、稳定单脉冲状态以及稳定多脉冲状态。对于最后一种情况，我们通过分析随机脉冲的时间与时域初始条件（称为胚胎光）之间的因果关系，揭示了这些脉冲序列中随机性的起源。基于这些发现，我们提出了新颖的时间注入锁定（TIL）技术，用于定制MOs中脉冲的时间位置及其模式时间，从而展示了其在全光数据存储和可调超短脉冲源中的应用潜力。

光学

2025-03-27 发布

我们提出了MESA和DMESA两种新颖的特征匹配方法，利用Segment Anything Model（SAM）有效减轻了匹配冗余问题。我们的方法的关键见解是基于SAM的先进图像理解能力，在点匹配之前建立隐式语义区域匹配先验。然后，具有内部语义一致性的信息量大的区域匹配能够进行密集特征比较，从而实现精确的区域内点匹配。具体而言，MESA采用稀疏匹配框架，通过一种新的区域图（AG）从SAM结果中获得候选区域，然后将候选区域间的匹配问题转化为图能量最小化，并通过从AG衍生出的图形模型求解。为了解决MESA的效率问题，我们进一步提出了其密集匹配版本DMESA，采用了密集匹配框架。在确定候选区域后，DMESA通过生成密集匹配分布来建立区域匹配。这些分布利用高斯混合模型从现成的块匹配中生成，并通过期望最大化算法进行优化。由于减少了重复计算，DMESA的速度比MESA提高了近五倍，同时保持了竞争力的准确性。我们在涵盖室内和室外场景的五个数据集上对我们的方法进行了广泛评估，结果显示我们的方法在所有数据集的五个不同的点匹配基准上都取得了持续的性能提升。此外，我们的方法在应对图像分辨率变化时表现出良好的泛化能力和改进的鲁棒性。代码已公开发布在https://github.com/Easonyesheng/A2PM-MESA。

计算机视觉与模式识别

2025-03-27更新2024-08-01 发布

准确的患者死亡率预测能够实现有效的风险分层，从而制定个性化治疗方案并改善患者预后。然而，在医疗领域预测死亡率仍是一项重大挑战，现有研究多集中于特定疾病或有限的预测因子集。本研究利用MIMIC-III数据库，采用综合的特征工程方法评估了多种机器学习模型用于院内全因死亡率预测的效果。在临床专业知识和文献指导下，我们提取了诸如生命体征（如心率、血压）、实验室结果（如肌酐、葡萄糖）以及人口统计学信息等关键特征。随机森林模型表现最佳，其曲线下面积（AUC）达到0.94，显著优于其他机器学习和深度学习方法。这表明随机森林在处理高维、噪声大的临床数据方面具有稳健性，并有望开发出有效的临床决策支持工具。我们的研究强调了精心设计特征工程对于准确预测死亡率的重要性。最后，我们讨论了该模型在临床应用中的意义，并提出了未来的研究方向，包括提高模型鲁棒性及针对特定疾病的预测模型优化。

有效数据发现是现代数据驱动决策制定的基础。然而，识别具有特定分布特性（如百分位或偏好）的数据集仍然充满挑战。尽管最近的研究已经使用户能够基于百分位谓词进行搜索，但大多数数据发现研究仍依赖于启发式方法。本文提出了首个有理论支持的统一框架，适用于集中式和去中心化环境下的数据发现。设$\mathcal{P}=\{P_1,...,P_N\}$为包含$N$个数据集的存储库，其中$P_i\subset \mathbb{R}^d$，且$d=O(1)$。我们研究了集中式和联邦环境下百分位索引（Ptile）问题和偏好索引（Pref）问题。在集中式设置下，假设可以直接访问数据集；在联邦设置下，假设可以访问每个数据集的概要信息。Ptile的目标是构建一个数据结构，使得给定谓词（矩形$R$和区间$\theta$），报告所有满足条件的索引集合$J$，即$j\in J$当且仅当$|P_j\cap R|/|P_j|\in\theta$。Pref的目标是构建一个数据结构，使得给定谓词（向量$v$和区间$\theta$），报告所有满足条件的索引集合$J$，即$j\in J$当且仅当$\omega(P_j,v)\in \theta$，其中$\omega(P_j,v)$是$P_j$在$v$上的第$k$大投影内积。首先，我们证明在集中式设置下无法期望接近线性的数据结构和对数多项式的查询时间。接着，我们展示了空间复杂度为$\tilde{O}(N)$的数据结构，可以在$\tilde{O}(1+OUT)$时间内回答Ptile和Pref查询，其中$OUT$是输出大小。每个数据结构返回一组索引$J$，满足：i) 对于每个满足谓词的$P_i$，都有$i\in J$；ii) 如果$j\in J$，则$P_j$满足谓词，误差为$\varepsilon+2\delta$，其中$\varepsilon\in(0,1)$且$\delta$是概要信息的误差。

数据库

数据结构与算法

2025-03-27 发布

我们重新审视了序贯异常假设检验问题，并在名义分布和异常分布均为未知的情况下推导出可实现指数的界。异常假设检验的任务是在所有观测序列中识别由异常分布生成的异常集，其余多数序列由名义分布生成。在序贯设置下，每单位时间内从每个序列中获取一个样本，直到可以做出可靠决策为止。对于恰好存在一个异常的情况，我们的指数界是紧的，为序贯检验提供了精确的大偏差特征，并改进了Li、Nitinawarat和Veeravalli（2017）的先前结果。特别地，我们的序贯检验在任意名义分布和异常分布对下平均样本数都具有普遍界，且我们的序贯检验实现了比固定长度检验更大的Bayes指数，这一点无法保证由Li、Nitinawarat和Veeravalli（2017）提出的序贯检验实现。对于最多存在一个异常的情况，我们提出了一种基于阈值的检验方法，该方法在较弱条件下具有有界期望停止时间，并且在每个非零假设和零假设下界定了错误指数。我们的序贯检验解决了Zhou、Wei和Hero（TIT 2022）提出的固定长度检验中的错误指数权衡问题。最后，为进一步应用于实际场景，我们将结果推广到多个异常情况，并表明当异常数量未知时，误差指数会受到惩罚。

信息论

2025-03-27更新2024-04-22 发布

我们提出了一种利用量子计算机解决二元线性规划（BLP）的新方法，该方法可以扩展到一般整数线性规划（ILP）。目前，量子优化算法，无论是混合型还是纯量子型，都是通用的独立求解器，用于ILP问题。然而，期望它们在性能上超越当前最先进的经典求解器是不公平的：在经典ILP求解器中，经过几十年的发展，许多不同的算法协同工作形成一个稳健的系统以获得最佳结果。这就是我们现在希望采用的方法，即将我们的“量子求解器”解决方案融入经典的约束生成框架中。在研究中，我们将任何合适的量子优化算法封装在一个具有量子信息的经典约束生成框架内。首先，我们通过去除所有约束条件并将其编码为Ising哈密顿量，供量子优化子程序使用。然后，通过对子程序解的状态进行采样，我们可以获得初始问题中约束违反的信息，从而确定需要向哈密顿量引入哪些耦合项。这些耦合项对应于初始二元线性规划的约束条件。接着，我们再次针对新的哈密顿量进行优化，直到达到可行解或其他停止条件成立为止。由于每次迭代可以决定向哈密顿量添加多少约束条件，我们的算法至少与被封装的（混合型）量子优化算法一样高效。我们通过小规模最小成本精确覆盖问题的实例结果支持了这一论点。

数据结构与算法

量子物理

2025-03-27 发布

假设被宿主排出的液滴可以直接在基底上沉降，成为媒介物。在工业环境中，尤其是在食品加工行业中，保持特定温度的组件可充当基底，导致媒介传播的感染模式。我们假设基底温度会影响干燥动力学、细菌沉积模式以及细菌的存活率和感染性。实验我们针对不同温度下亲水性基底上的含菌液滴干燥行为进行了新颖的研究，这一领域鲜有探索。此类研究鲜有尝试。我们分析了不同食品工业常用基础液体（如Milli-Q水、LB培养基和肉提取液）中的细菌沉积模式、质量传输动力学及存活情况。通过热成像、共聚焦显微镜、扫描电子显微镜、原子力显微镜和光学剖面仪对图案形成进行表征，干燥后评估了细菌的存活率和感染性。结果我们的实验结果显示，基底温度显著影响细菌的沉积和存活。对于Milli-Q水，较低温度会导致环状沉积，而较高温度则会因马兰戈尼对流导致较薄的环状沉积并伴随内部沉积。50°C时径向速度比25°C高出一个数量级。对于LB培养基，树枝状图案随温度变化而变化，而肉提取液的图案保持不变。在60°C时，细菌表面积相比25°C显著减少，但长宽比保持恒定。较高温度降低了沉淀中细菌的存活率，但在所有基础液体中细菌的感染性几乎未发生变化。这些发现突显了由加热表面引起的潜在媒介传播感染风险，特别是在工业环境中。

生物物理

2025-03-27 发布

通过联邦学习（即FedLLM）微调大型语言模型（LLMs）已被提出，以在保护隐私的前提下为各种下游应用适配LLMs。为了减少资源受限设备上的微调成本，提出了FedLoRA方法，通过将低秩适应（LoRA）集成到FedLLM中，仅微调模型参数的小部分子集。然而，除了资源限制外，另一个关键挑战——数据异质性，严重阻碍了FedLoRA在实际应用中的实施。受先前基于分组的联邦学习范式的启发，我们提出了一个分层FedLoRA框架，称为HierFedLoRA，以解决这些挑战。具体而言，HierFedLoRA将所有设备划分为多个近-独立同分布（near-IID）组，并为每个组调整组内聚合频率，以消除非-IID数据的负面影响。同时，为了降低计算和通信成本，HierFedLoRA为每个组动态分配多样化且合适的微调深度（即从输出开始连续微调的层数）。HierFedLoRA探索联合优化聚合频率和深度，以更好地提升FedLoRA的性能。在由80个商用设备组成的物理平台上进行了广泛的实验。结果显示，与强基准相比，HierFedLoRA将最终模型准确性提高了1.6%至4.2%，并将微调过程加速至少2.1倍。

机器学习

2025-03-27 发布

参数高效微调（PEFT）已成为在降低计算成本的同时适配大规模预训练模型的重要方法。在PEFT方法中，LoRA通过将权重更新分解为低秩矩阵显著减少了可训练参数。然而，传统LoRA在所有层中采用固定的秩，未能考虑到分层信息的复杂性差异，导致适配效率低下且存在冗余。为了解决这一问题，我们提出了多尺度金字塔低秩适应（MSPLoRA），引入全局共享LoRA、中层共享LoRA以及层特定LoRA，分别用于捕获全局模式、中层特征和细粒度信息。这种分层结构减少了层间冗余，同时保持了强大的适配能力。在多种自然语言处理任务上的实验表明，MSPLoRA实现了更高效的适配并获得了更好的性能，同时大幅减少了可训练参数的数量。此外，基于奇异值分解的额外分析验证了其信息解耦能力，凸显出MSPLoRA作为一种适用于大规模语言模型参数高效微调的可扩展且有效的优化策略。我们的代码可在https://github.com/Oblivioniss/MSPLoRA获取。

计算与语言

人工智能

2025-03-27 发布

我们研究了一类具有核函数的非线性积分-微分方程，该核函数的不同阶由一般函数$\phi$描述。这一类方程不仅包括分数阶$p$-拉普拉斯方程，还包括当分数阶趋于$1$时的临界情形。在对$\phi$施加适度假设的情况下，我们建立了与相应Sobolev空间相关的尖锐Sobolev-Poincaré型不等式，这些问题与Brezis（Russian Math. Surveys 57:693--708, 2002）提出的问题相关。利用这些不等式，我们证明了这类非局部方程弱解的Hölder正则性和Harnack不等式。我们结果中的所有估计在对应的非局部能量泛函趋近于其局部对应物时保持稳定性。

PDE分析

35R11, 47G20, 35B65, 35D30, 35R05

2025-03-27更新2025-03-12 发布

本文研究了两种动力系统：Edwin McMillan提出的McMillan六极和八极可积映射。这两种系统代表了最简单的对称McMillan映射，由单一内在参数表征。尽管这些系统在数学和物理的多个领域有广泛应用，但它们的一些动力学特性尚未被充分探索。我们的目标是通过全面描述所有稳定的轨迹（包括不变曲线的参数化、庞加莱旋转数以及正则作用-角度变量）填补这一空白。在第二部分，我们建立了这些映射与标准形式的混沌映射之间的联系。研究表明，McMillan六极和八极映射在不动点附近的动力学行为可以视为一阶近似，类似于线性映射和二次不变量（在加速器物理中称为Courant-Snyder不变量），后者代表零阶近似（即线性化）。此外，我们提出了非线性Twiss参数的新形式主义，该形式主义考虑了旋转数对振幅的依赖性。这与加速器物理中使用的常规横向相位进步（与振幅无关）形成对比。值得注意的是，在加速器物理背景下，这种新形式主义展示了其在预测平束在低阶共振附近的动态孔径方面的能力，这是束流注入/提取场景中的关键因素。

精确可解与可积系统

加速器物理

2025-03-27更新2024-05-09 发布

我们提出了UGen，这是一种统一的自回归多模态模型，在文本处理、图像理解和图像生成任务中同时表现出强大的性能。UGen将文本和图像都转换为离散的标记序列，并利用单一的Transformer以自回归的方式统一生成它们。为了解决统一多模态学习面临的挑战，UGen采用了一种新颖的机制，即渐进词汇学习。在这个过程中，视觉标记ID逐步激活并整合到训练阶段，最终提高了统一多模态学习的有效性。在全面的文本和图像任务上的实验表明，与普通的统一自回归方法相比，UGen的整体性能提升了13.3%，并且在所有任务中的表现也与多种特定任务模型具有竞争力。

计算与语言

计算机视觉与模式识别

2025-03-27 发布

推荐系统（RecSys）利用用户交互历史预测并推荐相关项目，影响着不同领域的用户体验。尽管许多研究采用通用问题定义，即根据过去交互向用户推荐偏好的项目，但这种抽象往往缺乏实际部署所需的领域特定细节。然而，模型通常使用在线推荐平台的数据进行评估，这些数据本身反映了这些特定性。本文分析了推荐系统的任务公式化，强调了输入输出结构、时间动态和候选项目选择等关键组成部分，所有这些因素都直接影响离线评估。我们进一步探讨了用户-项目交互的复杂性，包括决策成本、多步参与和不可观察的交互，这些可能会影响模型设计和损失函数。此外，我们还探讨了任务特异性和模型泛化性之间的平衡，指出明确的任务公式化是稳健评估和有效解决方案开发的基础。通过澄清任务定义及其影响，本文为推荐系统研究提供了结构化的视角，旨在帮助研究人员更好地理解推荐任务的具体性，并确保公平和有意义的评估。

信息检索

2025-03-27 发布

量子密钥分发网络（QKDN）即使在强大的量子计算机时代也能实现安全通信。对于能够向众多用户提供服务的网络运营商而言，QKDN的经济可行性显著提高。大规模网络环境下运营商与用户之间的高度挑战性关系需要额外的要求以确保载人级运行。为应对这一挑战，本文提出了一种载人级QKDN架构，结合了功能型QKDN架构与网络运营商的操作视角，从而提升了QKDN的经济可行性。重点在于假设最先进的商用量子密钥分发模块的情况下，研究QKDN的网络和密钥管理方面。该架构已在实际演示系统中部署，连接德国柏林和波恩两地，总链路距离达923公里。我们证明，所提出的网络架构具有可行性和可集成性及可扩展性，使其适合在现实网络中部署。总体而言，提出的载人级QKDN架构有望成为网络运营商提供基于量子密钥分发服务的蓝图。

量子物理

网络与互联网体系结构

2025-03-27 发布

人脑是一个复杂的系统，在多种状态下表现出丰富的动态行为，包括由全身麻醉或神经疾病诱导的状态。通过脑电图（EEG）记录，我们的研究探讨了在全身麻醉和注意力缺陷多动障碍（ADHD）不注意型所诱导的大脑状态下，人类大脑动力学中的潜在复杂性和普遍模式。我们从EEG信号中提取相对相位动力学时间序列$\beta(t)$，并利用序模式框架计算不同状态下排列熵（PE）和统计复杂性。结果揭示了几个关键发现。首先，不同的大脑状态表现出不同的PE值，表明各状态下信息含量存在不同的特征。我们发现全身麻醉过程中熵与意识水平呈反相关。此外，当映射到复杂性-熵因果平面时，所有大脑状态（无论条件、个体或$\beta(t)$时间序列如何）均沿一条单一曲线排列，这表明大脑动力学中存在一个潜在的普遍模式。此外，与已知的随机过程（线性欠阻尼朗之万动力学、主动Ornstein-Uhlenbeck过程和分数布朗运动）相比，无论排列熵值如何，脑数据始终表现出更高的复杂性。多重分形分析显示，这种增强的复杂性可能源于其比随机过程具有更大的多重分形尺度特性。我们的研究结果突显了序模式在区分各种动态大脑状态以及揭示大脑动力学中隐藏的普遍模式方面的强大能力。我们对人在不同状态下大脑复杂性的全面表征为未来关于意识、注意力障碍和神经信息处理的研究提供了宝贵的见解。

神经元与认知

适应和自组织系统

2025-03-27更新2025-03-12 发布

随着深度学习的兴起，人脸识别技术得到了广泛的研究并迅速发展。尽管人脸识别被认为是一项成熟的技术，但我们发现现有的开源模型和商业算法在某些复杂的分布外（Out-of-Distribution, OOD）场景下缺乏鲁棒性，这引发了对其系统可靠性的一些担忧。本文引入了OODFace，从常见失真和外观变化两个角度探讨了人脸识别模型面临的OOD挑战。我们针对人脸识别设计了涵盖9大类别的30种OOD场景。通过在公共数据集上模拟这些挑战，我们建立了三个鲁棒性基准：LFW-C/V、CFP-FP-C/V和YTF-C/V。随后，我们在19个人脸识别模型和3个商业API上进行了广泛的实验，并通过物理实验进一步测试了面部遮挡对模型鲁棒性的影响。接着，我们从防御策略和视觉-语言模型（Vision-Language Models, VLMs）两个角度探索潜在解决方案。基于实验结果，我们得出了一些关键见解，强调了人脸识别系统对OOD数据的脆弱性，并提出了可能的解决办法。此外，我们提供了一个统一的工具包，包含所有类型的失真和变化，可以轻松扩展到其他数据集。我们希望我们的基准和研究结果能为未来提高人脸识别模型的鲁棒性提供指导。

2025-03-27更新2024-12-03 发布

我们利用Swift爆裂警报望远镜（Swift-BAT）对LIGO-Virgo-KAGRA（LVK）网络第三观测运行（O3）中的引力波（GW）候选体进行了X射线/伽马射线对应体搜索。该搜索涵盖了低延迟接收到的636个GW候选体，其中86个已被离线分析确认并包含在第三次累积引力波暂现源目录（GWTC-3）中。我们利用GUANO基础设施提供的BAT数据，通过最大似然NITRATES管道对整个GW样本进行了目标搜寻。我们没有发现任何在时间和空间上与任意GW候选体一致的显著电磁辐射。我们为目录中的所有候选体报告了15-350 keV能段的流量上限，并且对于Swift-BAT虚警率小于10$^{-3}$ Hz的GW候选体，我们计算了GW-BAT联合虚警率。最后，我们利用推导出的Swift-BAT上限约束了与双黑洞并合相关的假定电磁辐射。

高能天体物理现象

广义相对论与量子宇宙学

2025-03-27更新2024-07-13 发布

本文通过分解多阶段、模块化的推理框架解决了视频问答（videoQA）任务。以往的模块化方法在单一规划阶段未与视觉内容对齐的情况下也显示出了一定的前景。然而，通过一个简单而有效的基线模型，我们发现此类系统在具有挑战性的视频问答场景中可能会表现出脆弱的行为。因此，不同于传统的单阶段规划方法，我们提出了一种多阶段系统，该系统包括事件解析器、对齐阶段和最终推理阶段，并结合外部记忆。所有阶段均为无训练模式，利用大规模模型的少量提示进行操作，并在每个阶段生成可解释的中间输出。通过分解底层规划和任务复杂性，我们的方法MoReVQA在标准视频问答基准（NExT-QA、iVQA、EgoSchema、ActivityNet-QA）上取得了最先进的结果，并在相关任务（基于上下文的视频问答、段落描述）上实现了扩展。

计算机视觉与模式识别

人工智能

机器学习

2025-03-27更新2024-04-09 发布

共 13511 条搜索结果

共 13511 条

基于潜在空间对齐的宝石光谱成像数据减少CT金属伪影

寿险资产动态定价理论

耗散法拉第不稳定性诱导的自启动Mamyshev振荡器中的时间注入锁定

基于语义区域分割的有效匹配冗余减少方法：MESA与DMESA

基于特征增强的机器学习在医疗数据全因死亡率预测中的应用

面向分布感知的数据集搜索的理论框架

在普适性约束下的序贯异常假设检验

二元线性规划的量子约束生成框架

温度与敌意：基底温度如何影响蒸发液滴中的细菌沉积模式与致病机制

针对异构数据的大语言模型联邦微调资源高效方法

多尺度金字塔低秩适应的高效模型微调方法：MSPLoRA

核函数为一般阶的非局部方程

McMillan映射的动力学 I. McMillan多极

统一自回归多模态模型UGen及其渐进词汇学习方法

我们在解决一个明确界定的问题吗？基于任务视角的推荐任务分析

DemoQuanDT: 载人级量子密钥分发网络

人脑状态分析揭示大脑动力学的复杂性：来自全身麻醉和多动症（ADHD）脑电图信号的见解

OODFace：人脸识别在常见失真和外观变化下的鲁棒性评估基准

LIGO-Virgo-KAGRA第三观测运行引力波触发的Swift-BAT GUANO后随观测

MoReVQA：探索视频问答中的模块化推理模型