Research

arXiv

分类

ADITYA L1是印度首个专门用于研究太阳及其大气层从太阳-地球拉格朗日L1点进行观测的任务，于2023年9月2日成功发射，搭载了七个有效载荷。可见发射线日冕仪（VELC）是ADITYA-L1上的主要有效载荷之一。VELC能够同时进行成像和光谱观测（后者在日冕的三条发射线中进行）。可以在5000{\AA}的连续波长下获得日冕图像，视场范围从1.05$R_\odot$到3$R_\odot$，成像间隔取决于可下载的数据量。可以同时对日冕的三条发射线（即5303{\AA} [Fe XIV]、7892{\AA} [Fe XI]和10747{\AA} [Fe XIII]）进行光谱观测，每条线具有不同的曝光时间和采样频率。四个宽度为50${\mu}$m、间距为3.75mm的狭缝可以帮助同时获取日冕中上述所有发射线的四个位置的光谱。线性扫描机构（LSM）使其能够以可变步长扫描日冕至${\pm}$1.5$R_\odot$。该仪器还可以在视场范围1.05-1.5$R_\odot$内进行偏振光谱观测。仪器的各种组件在安装前通过光学台进行了干涉测试。利用激光源和钨灯在实验室中对单个组件进行了对齐，并检查了有效载荷的性能。使用太阳作为光源验证了仪器的波长校准。所有探测器都针对暗电流及其随曝光时间的变化等不同参数进行了校准。本文讨论了VELC的各种特性、对齐方式、校准过程、性能表现、可能的观测结果、初步数据分析以及在轨初期测试的结果。

太阳和恒星天体物理学

天体物理学仪器和方法

2025-04-01更新2025-03-27 发布

在城市地区部署蜂窝网络时，需要解决各种挑战。例如，高耸且形状和高度各异的建筑物会导致信号衰减、反射、衍射和散射效应，这使得在建筑物附近出现覆盖空洞（CHs）的可能性很高。对于网络运营商而言，检测这些CHs至关重要，因为这些区域的用户可能会遇到信号弱或无信号的情况。为了解决这一问题，我们提出了一种利用自主车辆（如无人机，UAV）进行CHs检测的方法，以减少路测工作量并降低人力成本。该无人机通过强化学习（RL）利用存储的局部建筑地图、当前位置以及测量到的信号强度来定位CHs。随着无人机移动，它会动态更新对信号环境的认知，并调整方向以接近最近的CH，同时避免与建筑物发生碰撞。我们使用来自OpenStreetMap的建筑地图和由NVIDIA Sionna射线追踪模拟生成的信号强度数据创建了广泛的测试场景。结果显示，基于强化学习的方法在检测城市地区的CHs方面优于非机器学习、基于几何的方法。此外，即使无人机的测量次数有限，该方法的性能也接近假设完全掌握所有信号强度的理论上限。

信号处理

2025-04-01更新2025-03-09 发布

若一个图 $ G $ 包含一个生成圈，则称其为Hamilton图。本文研究了一些特定类别的毛虫图（即具有中心路径且所有其他顶点均与其相邻的树）的Hamilton完备性。对于非Hamilton图 $ G $，其Hamilton完备数 $ \lambda_H(G) $ 是使 $ G $ 变为Hamilton图所需的最少添加边数。我们聚焦于正则和非正则毛虫图，并在各种情形下推导出 $ \lambda_H(G) $ 的显式公式。具体而言，对于中心路径上的每个顶点都与 $ k $ 片叶子相邻的正则毛虫图 $ G_{n(k)} $，我们证明了 $ \lambda_H(G_{n(k)}) = n(k-1) $。此外，我们还探讨了中心路径上每个顶点相邻的叶子数量不相等的非正则毛虫图，并为这些情况下的 $ \lambda_H(G) $ 提供了界值。我们的结果有助于理解树状结构中的Hamilton性质，并在网络设计与优化中有潜在应用。

组合学

05C45, 05C40, 05C38

2025-04-01更新2022-09-09 发布

对于具有高维性、测量噪声、部分观测以及数据采集成本高昂的真实时空数据建模极具挑战性。本文提出了一种名为SINDy-SHRED（Sparse Identification of Nonlinear Dynamics with SHallow REcurrent Decoder networks）的方法，用于联合解决传感问题和模型识别问题，该方法具有简单实现、高效计算和鲁棒性能的特点。SINDy-SHRED 使用门控循环单元对稀疏传感器测量的时间序列进行建模，并利用浅层解码网络从潜在状态空间重构完整的时空场。我们的算法引入了基于SINDy的正则化方法，当投影保持在一定集合内时，潜在空间会逐渐收敛到一个SINDy类函数空间。在将SINDy限制为线性模型的情况下，生成了Koopman-SHRED模型。SINDy-SHRED (i) 学习了一个符号化的、可解释的生成模型，用于复杂时空动态的简洁且低维潜在空间；(ii) 即使对于已知物理系统也能发现新的物理模型；(iii) 实现了全局凸损失景观下的证明稳健收敛；(iv) 在准确性、数据效率和训练时间方面表现优异，且所需模型参数更少。我们在偏微分方程（PDE）数据（如湍流）、海表温度真实传感器测量数据以及直接视频数据上进行了系统的实验研究。可解释的SINDy和Koopman模型能够实现稳定且准确的长期视频预测，在准确性、训练时间和数据需求方面优于当前所有基准深度学习模型，包括卷积LSTM、PredRNN、ResNet 和 SimVP。

机器学习

人工智能

动力系统

2025-04-01更新2025-01-23 发布

场景文本图像超分辨率（STISR）旨在提升低分辨率图像的分辨率和质量。与以往将场景文本图像视为自然图像的研究不同，近期利用文本先验（TP）的方法，通过从预训练的文本识别器中提取先验信息，展现了强大的性能。然而，存在两个主要问题：（1）明确的分类先验，如TP，若不正确可能会对STISR产生负面影响。我们揭示了这些显式先验的不稳定性，并提出使用倒数第二层表征来替代NCAP（非类别先验）。（2）用于生成TP的预训练识别器在处理低分辨率图像时表现不佳。为了解决这一问题，大多数研究通过联合训练识别器与STISR网络来弥合低分辨率与高分辨率图像之间的领域差距，但这种方法可能导致先验模态的过度自信现象。我们指出了这一问题，并通过混合硬标签和软标签的方法提出了缓解策略。在TextZoom数据集上的实验表明，我们的方法相比现有方法提升了3.5%，并且在四个文本识别数据集上显著提升了泛化性能达14.8%。我们的方法可以推广到所有基于TP引导的STISR网络。

计算机视觉与模式识别

2025-04-01 发布

大型语言模型在推理方面表现出显著的能力，但常常会产生不可靠或错误的响应。现有的验证方法通常是针对特定模型或领域限制的，需要大量的计算资源，并且缺乏在多样化推理任务中的可扩展性。为了解决这些局限性，我们提出了验证代理（VerifiAgent），这是一种统一的验证代理，集成了两个级别的验证：元验证，评估模型响应的完整性和一致性；基于工具的自适应验证，其中验证代理根据推理类型（包括数学、逻辑或常识推理）自主选择合适的验证工具。这种自适应方法确保了在不同验证场景中的效率和鲁棒性。实验结果表明，验证代理在所有推理任务中都优于基线验证方法（例如演绎验证器、后向验证器）。此外，它还可以通过利用验证结果的反馈进一步提高推理准确性。验证代理还可以有效地应用于推理扩展，在数学推理领域中，相比现有的过程奖励模型，它能以更少的生成样本和成本获得更好的结果。代码可在https://github.com/Jiuzhouh/VerifiAgent获取。

计算与语言

人工智能

2025-04-01 发布

对含噪量子电路性能进行表征是构建量子计算机原型的核心任务，并能够促进利用量子设备识别出的噪声偏倚来改进量子纠错。我们开发了一种适用于表征量子纠错码综合征提取电路的可扩展噪声表征协议，这是容错架构的关键组成部分。该协议基于平均电路特征值采样（ACES）框架，此框架能够在Clifford电路中同时估计所有门的Pauli误差概率，并捕获电路各层中同时实现的门之间的平均空间相关性。通过严格分析ACES框架下噪声表征实验的性能，我们得出了衡量其预期性能的指标，从而优化了实验设计并提高了在固定实验资源下对噪声估计的精度。我们通过模拟距离为25的表面码综合征提取电路（超过1000个量子比特）的整个噪声表征过程，展示了该协议的可扩展性和性能。结果表明，详细的噪声表征方法可以扩展到近期的量子设备。我们的代码已作为Julia包QuantumACES发布。

量子物理

2025-04-01更新2024-04-09 发布

自由表面会增强玻璃形成体的动力学行为。我们利用一种不含弹性效应的玻璃离散粒子晶格模型，研究了玻璃态薄膜的动力学增强现象。我们证明，尽管不同定义下的表面可动层厚度随温度的变化方式有所不同，但它们都基于局部位形弛豫速率。该速率可以拟合为双指数形式，并带有幂律尾部的指数衰减。我们的方法和结果排除了弹性机制在尾部中的唯一性。同时，我们也研究了按层分辨的粒子跃迁速率，这可能是衡量激活跃迁的关键指标，但它表现出较浅的表面效应。

软凝聚态物理

统计力学

2025-04-01更新2025-03-30 发布

设 $X$ 和 $Y$ 是两个 $n$ 阶图。$X$ 和 $Y$ 的朋友-陌生人图 $\textup{FS}(X,Y)$ 的顶点集由所有双射 $\sigma: V(X)\rightarrow V(Y)$ 组成，其中两个双射 $\sigma$ 和 $\sigma'$ 相邻当且仅当它们在 $X$ 的所有但两个相邻顶点上一致，并且对应的像在 $Y$ 中是相邻的。关于这些朋友-陌生人图最基本的问题是它们是否连通。本文给出了一个充分条件，涉及最大度 $\Delta(X)$ 和 $Y$ 的顶点连通度 $\kappa(Y)$，确保图 $\textup{FS}(X,Y)$ 是 $s$-连通的。作为推论，我们改进了 Bangachev 的一个结果，并部分证实了他提出的猜想。此外，我们完全刻画了 $\textup{FS}(X,Y)$ 的连通性，其中 $X\in\textup{DL}_{n-k,k}$。

组合学

05C40, 05C76

2025-04-01 发布

本文介绍了一种通过固定除两个参数外的所有参数值来解决多参数似然函数的方法。对这两个变量的评估随后通过对每个参数依次循环迭代，直至收敛。我们通过透镜化宇宙微波背景（CMB）的温度功率谱测试了该技术。由于定义功率谱的六个参数之一——功率谱振幅$A_s$在小偏差下接近线性，这使得计算从二维网格上的增量计算简化为一维增量计算，因此这一演示特别有效。在每次迭代步骤中，$A_s$与其他参数配对。迭代过程得出的参数值与由“普朗克”得出的结果一致，并且对于谱的计算在几百次调用内完成。我们进一步计算了最大多极矩$\ell_{\text{max}}$作为参数的函数，范围从$\ell_{\text{max}}=959$到2500，并发现在该范围的低端存在双峰行为。在一般情况下，即当没有变量是线性的情况下，我们识别出一些调节因素，例如在每次迭代步骤中同时改变两个参数，从而减少每一步迭代的次数。马尔可夫链蒙特卡洛（MCMC）计算一直是评估多参数函数的主要工具。对于具有准线性变量（如$A_s$）的应用，二维迭代方法比MCMC效率高出几个数量级。

天体物理学仪器和方法

2025-04-01更新2024-04-12 发布

虽然大型视觉语言模型（LVLMs）在理解多模态数据方面表现出色，但它们不可避免地会出现幻觉现象，导致生成的文本与对应的图像之间存在脱节。几乎所有当前的视觉对比解码方法都试图通过引入适当的视觉不确定性信息来缓解这些幻觉现象，从而适当扩大幻觉与目标类别之间的对比对数差距。然而，由于全局视觉不确定性的不可控性，这些方法难以精确诱导幻觉标记，这严重限制了其在缓解幻觉方面的有效性，甚至可能导致生成不希望出现的幻觉。为了解决这一问题，我们进行了理论分析以提升对比解码的有效性。基于这一见解，我们提出了一种名为幻觉诱导优化（HIO）的新颖优化策略。该策略依靠经过微调的理论偏好模型（即相反的布拉德利-特里模型）来放大幻觉标记与目标标记之间的对比，从而促进高效的对比解码，以减轻LVLMs中的幻觉现象。广泛的实验研究表明，我们的HIO策略可以有效减少LVLMs中的幻觉现象，在各种基准测试中优于最先进的方法。

计算机视觉与模式识别

2025-04-01更新2024-05-24 发布

量子神经网络（QNNs）在多个领域展示了重要价值，经过良好训练的QNNs代表了重要的知识产权，通常通过基于云的QNN即服务（QNNaaS）平台部署。近期的研究考察了使用经典方法和新兴量子策略的QNN模型提取攻击。这些攻击涉及对手查询QNNaaS平台以获取标记数据进行本地替代QNN的训练，从而复制云端模型的功能。然而，现有方法大多忽略了存在于噪声中等规模量子（NISQ）计算机中的可变量子噪声的影响，这限制了它们在现实世界中的有效性。为了解决这一局限性，我们提出了CopyQNN框架，该框架采用三步数据清洗方法，根据数据的噪声敏感性消除噪声数据。随后，在量子域内结合对比学习和迁移学习，利用有限但清洗过的查询数据集实现高效替代QNN的训练。在NISQ计算机上的实验结果表明，CopyQNN的实际实施显著优于最先进的QNN提取攻击，在所有任务中平均性能提升8.73%，同时将所需查询数量减少了90倍，硬件开销仅略有增加。

大型语言模型（LLMs）在列表式排序任务中表现出色，但其优越性能往往依赖于大规模参数（如GPT-4）以及重复滑动窗口过程，这带来了显著的效率挑战。本文提出了一种名为\textbf{CoRanking}的新颖协同排名框架，该框架结合了小规模和大规模排序模型，以实现高效且有效的排序。CoRanking首先利用一个小规模重排序器对所有候选段落进行预排序，将相关段落提升至列表的顶部部分（例如，前20名）。随后，大规模LLM列表式重排序器仅针对这些排名靠前的段落进行重新排序，而非整个列表，从而大幅提高整体排序效率。尽管更加高效，但先前研究表明，大规模LLM列表式重排序器对输入段落的顺序存在显著偏倚。直接将小规模重排序器选出的顶级段落输入LLM可能导致其性能下降。为解决这一问题，我们引入了一种通过强化学习训练的段落顺序调整器，用于重新排列来自小规模重排序器的顶级段落，使其更符合LLM对段落顺序的偏好。在三个信息检索基准数据集上的大量实验表明，CoRanking不仅显著提高了效率（将排序延迟减少约70%），同时相较于仅使用大规模LLM列表式重排序器，其排序效果更为出色。

计算与语言

信息检索

2025-04-01更新2025-03-30 发布

结构生物学依赖于精确的三维生物分子结构以推动我们对生物功能、疾病机制及治疗手段的理解。尽管深度学习的最新进展使得开发全原子基础模型用于分子建模和生成成为可能，但现有方法由于原子数据的多模态特性以及训练和采样策略缺乏全面分析，导致泛化能力不足。为解决这些局限性，我们提出了PharMolixFM，这是一个基于多模态生成技术构建全原子基础模型的统一框架。我们的框架包括三种采用最先进多模态生成模型的变体。通过将分子任务表述为具有任务特定先验的广义去噪过程，PharMolixFM在各种结构生物学应用中实现了稳健的性能。实验结果表明，PharMolixFM-Diff在蛋白质-小分子对接任务中（给定口袋情况下，RMSD < 2Å）达到了竞争性的预测精度（83.9% vs. 90.2%），并且显著提高了推理速度。此外，我们通过引入更多的采样重复或步骤探索了经验推理扩展定律。我们的代码和模型可在https://github.com/PharMolix/OpenBioMed获取。

生物分子

机器学习

2025-04-01更新2025-03-12 发布

现有的多模态大型语言模型（MLLMs）在建模长视频中的时间上下文时面临重大挑战。目前主流的基于代理的方法依赖外部工具（如搜索引擎、记忆库、OCR、检索模型）来辅助单一MLLM回答长视频问题。尽管有这些基于工具的支持，单一MLLM对长视频的理解仍然存在局限性，导致性能有限。为更好地解决长视频任务，我们提出了LVAgent，这是首个实现长视频理解中MLLM代理多轮动态协作的框架。我们的方法包括四个关键步骤：1. 选择：根据不同任务从模型库中预先选择合适的代理，组成最优代理团队；2. 感知：设计了一种有效的长视频检索方案，提高关键时间片段的覆盖范围，同时保持计算效率；3. 行动：代理回答长视频相关问题并交换理由；4. 反思：在每轮讨论中评估每个代理的表现，并优化代理团队进行动态协作。通过多轮动态协作，代理迭代地改进其答案。LVAgent是首个在长视频理解任务中超越所有闭源模型（包括GPT-4o）和开源模型（包括InternVL-2.5和Qwen2-VL）的代理系统方法。我们的LVAgent在四个主流长视频理解任务中达到了80%的准确率。值得注意的是，在LongVideoBench数据集上，LVAgent相比SOTA方法提高了多达13.3%的准确率。

计算机视觉与模式识别

2025-04-01更新2025-03-13 发布

协同感知通过车辆与万物通信（Vehicle-to-Everything, V2X）实现数据共享与融合，为克服单智能体系统感知局限提供了最优解决方案。然而，大多数现有方法仅关注单一模态的数据交换，限制了同构和异构融合在智能体之间的潜力。这忽视了利用每个智能体的多模态数据的机会，从而限制了系统的性能表现。在汽车行业中，制造商采用不同的传感器配置，导致各智能体之间存在异构的传感器模态组合。为了充分利用每一个可能的数据源以实现最优性能，我们设计了一种鲁棒的激光雷达与摄像头跨模态融合模块——径向粘合注意力机制（Radian-Glue-Attention, RG-Attn），该模块适用于智能体内部跨模态融合以及智能体间跨模态融合场景，得益于转换矩阵带来的便捷坐标转换以及统一的采样/反演机制。此外，我们提出了两种不同的架构，即Paint-To-Puzzle (PTP) 和 Co-Sketching-Co-Coloring (CoS-CoCo)，用于开展协同感知任务。PTP 旨在实现最大精度性能，并通过限制跨智能体融合到单一实例来减小数据包大小，但要求所有参与者都配备激光雷达。相比之下，CoS-CoCo 支持任意配置的智能体——仅激光雷达、仅摄像头或同时具备激光雷达和摄像头，展现出更强的泛化能力。我们的方法在真实和模拟的协同感知数据集上均达到了最先进的（SOTA）性能。代码现已在GitHub上发布。

2025-04-01更新2025-01-28 发布

对于采用次采样酉矩阵的压缩感知问题，优化采样方案相较于均匀次采样能够提供更好的理论保证和实验性能。我们首次在压缩感知领域提供了理论保证，表明在高斯噪声假设下，对于优化采样方案，测量噪声引起的误差会随着测量数量的增加而消失。此外，我们还对任意概率权重下的有放回采样提供了类似的保证。所有结果均适用于由低维子空间并集构成的先验集。最后，我们证明了当先验集为生成ReLU神经网络的值域或稀疏向量集合时，实际实验中的去噪行为与我们的理论保证密切匹配。

给定一个光滑射影曲线族 $C \to S$ 和定义在Noetherian基概形 $S$ 上的分裂可还原群概形 $G$。对于任意（可能非约化）固定的相对Cartier除子 $D$，我们对纤维上的 $G$-丛配备以 $t$-联络且极点阶数由 $D$ 控制的模空间进行处理。在 $S$ 的所有剩余域特征数满足温和假设下，我们为半稳定性区域构造了Hodge模空间 $M_{Hod, G} \to \mathbb{A}^1_S$，建立了Harder-Narasimhan分层，并由此得到了半稳定性约化定理。如果 $D$ 的极点除子的所有纤维均非空，则我们证明半稳定性对象栈在 $\mathbb{A}^1_{S}$ 上是光滑的。此外，我们在正特征下定义了Hodge-Hitchin态射并证明其为正规态射。

代数几何

2025-04-01更新2023-07-31 发布

使用带有腿式结构的机器人进行投掷需要精确协调物体操作与运动能力——这是实现高级现实世界交互的关键。大多数研究集中于单独关注操作或运动，对同时需要两者任务的探索较少。本文研究了在腿式操纵器中利用全身所有电机（而非仅限手臂）进行投掷的优势。我们将该任务定义为深度强化学习（RL）目标，优化投掷精度以达到用户指定的目标位置，并保持机器人的稳定性。仿真评估显示，全身体投掷通过利用身体动量、反向平衡以及全身动力学，提高了投掷距离、准确性和稳定性。我们引入了一种优化自适应课程策略，以平衡投掷准确性和稳定性，同时设计了一个定制化的RL环境设置，以在稀疏奖励条件下实现高效学习。与以往工作不同的是，我们的方法能够推广到三维空间中的目标。我们将训练出的控制器从仿真转移到真实的人形平台。

机器人学

2025-04-01更新2024-10-08 发布

陶哲轩广域全天巡天任务（TESS）旨在探测地球大小的系外行星。经过四年多的测光观测，第1至57扇区的数据被收集，其中包括约1,050,000条具有两分钟采样周期的光变曲线。通过与盖亚变星目录进行交叉匹配，我们获得了用于进一步分析的标记数据集。利用随机森林分类器，我们对变星进行了分类，并为每个子类设计了不同的分类流程，识别出6770颗EA型，2971颗EW型，980颗CEP型，8347颗DSCT型，457颗RRab型，404颗RRc型和12348颗ROT型变星。每种变星均通过人工目视检查确保编目结果的可靠性和准确性。最终，我们得到了6046颗EA型，3859颗EW型，2058颗CEP型，8434颗DSCT型，482颗RRab型，416颗RRc型和9694颗ROT型变星，总计发现了14092颗新变星。

太阳和恒星天体物理学

机器学习

2025-04-01 发布

共 13511 条搜索结果

共 13511 条

太阳探测器ADITYA-L1搭载的可见发射线日冕仪(VELC)

基于强化学习的无人机辅助城市蜂窝网络覆盖空洞检测

某些毛虫图变体的Hamilton完备数

利用浅层循环解码网络进行非线性动力学和Koopman算符的稀疏识别

基于非类别先验的场景文本图像超分辨率（NCAP）

验证代理：语言模型推理中的统一验证代理

基于平均电路特征值采样的综合征提取电路可扩展噪声表征

表面效应对玻璃态薄膜结构弛豫和粒子跃迁的影响

关于图参数及其他方面的朋友-陌生人图的连通性

多参数似然函数评估通过二维切片的迭代方法

通过幻觉诱导优化减轻大型视觉语言模型中的幻觉现象

CopyQNN：基于可变量子噪声的量子神经网络提取攻击

协同排名：结合小规模与大规模排序代理的协同排名方法

PharMolixFM：全原子基础模型用于分子建模与生成

长视频理解的LVAgent：多轮动态协作的多模态大型语言模型代理

RG-Attn: 雷达-注意力机制：多模态多智能体协同感知中的径向粘合注意力

压缩感知中优化采样方案的去噪保证

特征标任意的可还原群的亚纯Hodge模空间

具有腿式操纵器的全身动态投掷

利用机器学习方法对TESS第1至57扇区数据进行变星分类