Research

我们构建了一个在扩展基动力学上的连续线性协循环，对于所有遍历不变概率测度的李雅普诺夫指数均较小，除了一个例外，其李雅普诺夫指数远离零。这个特殊测度的支持集不是一个周期轨道。特别地，我们的例子违反了周期逼近性质。

动力系统

37D25

2025-03-29更新2025-02-17 发布

虽然机器学习通过极高的精度改变了折叠蛋白基态结构预测的方式，但内在无序蛋白及其区域（IDPs/IDRs）由多种动态结构集合组成，这些集合被AlphaFold等算法以低置信度预测。我们提出了一种新的机器学习方法——IDPForge（Intrinsically Disordered Protein, FOlded and disordered Region GEnerator），该方法利用变压器蛋白语言扩散模型生成包含所有原子的IDP集合以及保持折叠域的IDR无序集合。IDPForge无需序列特定训练、从粗粒度表示的反向转换或集合重加权，因为所创建的IDP/IDR构象集合与溶液实验数据具有良好的一致性，并且如果需要，提供了偏向实验约束的选项。我们预计，具备这些多样化能力的IDPForge将促进包含内在无序的蛋白质的整合性和结构性研究。

生物分子

高的医院再入院率与显著的成本增加及患者健康风险相关，因此，开发能够支持临床医生判断患者在相对较短的时间内（例如30天）是否会返回医院的预测模型至关重要。如今，可以收集到关于患者住院事件的结构化信息（如电子健康记录-EHR）和非结构化信息（如临床笔记），这些信息可能都包含对预测模型有用的相关信息。然而，它们的整合具有挑战性。在这项工作中，我们探索了结合临床笔记和EHR来预测30天医院再入院情况的方法。我们解决了如何表征EHR数据中的各种类型的信息，并尝试利用大规模语言模型（LLMs）来描述临床笔记。我们将这两种信息源作为图神经网络（GNN）中的节点进行收集。我们的模型达到了AUROC为0.72，平衡准确率为66.7%，这突显了结合多模态信息的重要性。

在最近的天体化学研究中，研究分子完整的构象全景变得至关重要，其中一些构象可能在星际介质（ISM）中被检测到。在此背景下，同分异构体比例可以作为一种有力工具，用于区分复杂程度不断增加的分子的不同形成途径。虽然甲酸甲酯（CH3OCHO, MF）最稳定的顺式构象在ISM中无处不在，但仅在恒星形成区Sgr B2(N)的包层中发现了一次对高能反式构象的初步探测。本文报道了在银河系中心分子云G+0.693-0.027和原恒星激波L1157-B1中对反式甲酸甲酯的探测结果，提供了其存在于ISM中的确凿观测证据。在这两个源中均识别出了大量未混合或轻微混合的$a$-型$K_a$ = 0, 1跃迁，属于反式-MF的$A$亚态。我们分别得出反式甲酸甲酯的分子列密度为N = (8.2 ± 0.4) × 10$^{12}$ cm$^{-2}$ 和 N = (1.6 ± 0.3) × 10$^{12}$ cm$^{-2}$，相对于H$_2$的分子丰度分别为约6 × 10$^{-11}$ 和约8 × 10$^{-10}$。因此，我们在G+0.693和L1157-B1方向上得到了约72和约34的顺/反异构体比值，分别是Sgr B2(N)区域发现的比值的约7倍和3倍。这些结果与新的表面颗粒理论计算进行了比较，表明通过CH3O + HCO途径在颗粒表面立体特异性形成反式-MF可以定性解释观测到的顺/反丰度比。然而，我们还显示，额外的立体特异性气相途径也可能在维持反式-MF的形成和破坏之间的微妙平衡中发挥关键作用，最终导致其被探测到。

星系天体物理学

图神经网络（GNNs）在药物发现、交通状态预测和推荐系统等实际应用中表现出色。然而，构建强大的GNN需要大量训练数据、强大的计算资源以及专业知识，这使得这些模型成为模型窃取攻击的诱人目标。先前的研究表明，针对GNN的窃取攻击威胁向量种类繁多，攻击者可以利用从节点标签到高维节点嵌入的各种异构信号，以远低于原始训练成本的方式创建目标GNN的本地副本。这种威胁向量的多样性使得设计有效的通用防御方法具有挑战性，而现有的防御措施通常仅针对特定的窃取设置。此外，它们仅提供识别被盗模型副本的方法，而非阻止攻击的发生。为了解决这一问题，我们提出了首个通用的针对图神经网络提取攻击的主动防御方法（ADAGE）。通过分析对GNN的查询，跟踪其在底层图中不同社区邻近程度的多样性，并随着已查询社区比例的增长而增强防御强度，ADAGE能够在所有常见的攻击设置下防止窃取行为。我们的实验评估基于六个基准数据集、四种GNN模型和三种自适应攻击者类型，结果显示，ADAGE使攻击者受到惩罚，以至于无法完成窃取行为，同时不会影响合法用户的预测性能。因此，ADAGE为未来安全共享有价值的GNN做出了贡献。

密码学与安全

2025-03-29更新2025-02-27 发布

肿瘤学家常常依赖多种数据，包括全片扫描图像（WSI），以指导治疗决策，力求获得最佳患者结局。然而，由于肿瘤异质性、患者内部变异以及分析WSI的复杂性，预测癌症患者的预后可能是一项具有挑战性的任务。这些图像非常庞大，包含数十亿像素，直接处理计算成本高昂，需要专门的方法提取相关信息。此外，来自同一患者的多张WSI可能捕捉到不同的肿瘤区域，其中一些更具信息量。这引发了一个根本问题：我们应该使用所有WSI来表征患者，还是应该识别最具代表性的切片进行预后判断？我们的研究通过比较在WSI和患者层面上预测生存的不同策略，试图回答这一问题。前者将每张WSI视为独立样本，模仿其他研究采用的策略，而后者则包含聚合多张WSI预测结果的方法或使用多实例学习（MIL）自动识别最具相关性的切片的方法。此外，我们还在这些策略下评估了不同的图神经网络架构。我们使用MMIST-ccRCC数据集开展实验，该数据集包含患有透明细胞肾细胞癌（ccRCC）的患者。我们的结果显示，基于MIL的选择可以提高准确性，表明选择最具代表性的切片有助于生存预测。

图像与视频处理

2025-03-29更新2025-03-24 发布

在动态任务（如物体捕捉、停靠或与刚体表面接触）中实现稳定的空中操作，通常需要通过阻抗控制实现柔顺行为。成功操作的关键在于阻抗控制能否有效应对空中飞行器与机械臂之间不可避免的耦合作用力。然而，现有的空中机械臂阻抗控制器要么忽略这些耦合作用力（分区系统柔顺方法），要么需要精确了解这些耦合作用力（完整系统柔顺方法）。遗憾的是，这类耦合作用力很难建模，甚至无法建模。为解决这一长期存在的控制难题，我们提出了一种无需先验知识的空中机械臂阻抗控制器，该控制器能够通过适配律处理未知的耦合作用力以及系统参数不确定性。理论分析证明了闭环系统的稳定性，并且在带载荷捕捉场景的实验结果表明，该控制器在整体稳定性和跟踪性能方面显著优于现有基于分区或完整系统柔顺性的阻抗控制器。

来自活动星系核中心的相对论喷流嵌套在强磁场和高粒子密度的极端环境中，使其成为研究磁化等离子体物理的重要工具。我们旨在研究射电星系3C 111中相对论喷流的磁场结构及其pc/sub-pc尺度特性。对于附近的射电星系（如该源），旋转量（RM）研究提供了探索同步辐射横向磁场属性的宝贵工具。我们通过多个二维高斯分量模型拟合源的亮度分布，以表征各个发射特征。在确定核心移动后，我们为所有频率对计算了谱指数图，并发现核心区域和喷流具有不同的分布，在距离核心1-2 pc处存在一个非寻常的光学厚/平坦特征。利用modelfit方法，我们在不同频率下共识别出56个分量。通过对大小和位置施加限制，我们确定了22个不同频率下的分量，并计算了它们的能量均分磁场强度。我们计算了两个不同频率三重组合的RM值。在15.2-21.9-43.8 GHz频率组合中，我们发现在发现光学厚/平坦特征的同一区域内存在高RM值，这可能与距离核心1-2 pc处的高电子密度有关，我们将其解释为来自不规则环面云团的结果。在5-8.4-15.2 GHz频率组合中，我们发现了线偏振角（EVPAs）分布和显著的RM横向梯度，这些结果强烈支持磁场呈现螺旋结构，这一结论与模拟结果一致。

高能天体物理现象

星系天体物理学

净零磁化磁体因其在超高密度和超快性能方面的潜力而引起了广泛的研究兴趣。在这些材料中，交替磁体具有交替自旋分裂能带结构，并表现出一系列以前被认为仅限于铁磁体的现象，包括反常霍尔效应和反常热电效应、非相对论自旋极化电流以及磁光克尔效应。块状交替磁体已在实验中被识别，而二维(2D)交替磁体仍处于实验探索阶段。在此，我们以实验合成的二维铁磁$\mathrm{CrX_3}$(X=Cl, Br 和 I)为母体材料，通过外场实现交替磁性。首先，我们通过双轴应变实现了从铁磁到反铁磁的转变。随后，我们通过电场打破空间反演对称性同时保持镜面对称性，从而诱导出交替磁性。此外，通过Janus工程构建$\mathrm{CrX_{1.5}Y_{1.5}}$(X$\neq$Y=Cl, Br 和 I)，单独由应变诱导的从铁磁到反铁磁的相变足以触发交替磁性的出现。这六种单层材料都具有$i$波自旋分裂的对称性。计算结果表明，由于$\mathrm{CrCl_3}$磁相变的低应变阈值，其可以通过外场在实验中很容易被调节以展示交替磁性。我们的工作为实现交替磁性提供了可行的实验材料和方法，这可以推动二维交替磁体的发展。

材料科学

2025-03-29更新2025-01-25 发布

在[Ge]中，Bert van Geemen计算了四次theta零值空间的维数。在[SM2]中，观察到所有关于$\theta_m^4$的线性关系都是四次Riemann关系的结果。本文旨在给出这些结果的一个新证明并加以推广。在最后一节中，我们处理任意幂$\vartheta[m]^k$之间的线性相关性。我们将证明$k=4$是这种相关性可能出现的唯一情况。因此，我们给出了一个稍有不同的标题：关于van Geemen一个定理的一些注记

代数几何

数论

在图的顶点着色问题中，避免某一族子图的双色成员的研究已经非常广泛。最著名的例子包括图的星形着色和无圈着色（Gr\"unbaum，1973），其中分别不允许出现双色的$P_4$和圈。本文研究了该问题的一个变体，即在网格中考虑避免双色路径的顶点着色问题。我们定义图的$P_k$-色数为避免双色$P_k$所需的最少颜色数。我们证明了在任意对两条路径的笛卡尔积$P_{k-2}\square P_{k-2}$的三重着色中，必定存在一个双色的$P_k$。结合我们的结果，二维网格中两条路径乘积的$P_k$-色数问题对于所有$k$得以解决。

组合学

离散数学

2025-03-29更新2023-12-20 发布

设$B$为光滑射影曲线，$\pi: \mathcal{X} \to B$为定义在$K(B)$上的几何不可约Fano簇的光滑整体模型。几何Manin猜想预测了参数化足够高反典范度非相对自由截面的不可约分支$M \subset \textrm{Sec}(\mathcal{X}/B)$的结构。在复数域上，我们证明对于任何这样的分支$M$，截面来自映射$f: \mathcal{Y} \to \mathcal{X}$，其中$\mathcal{Y}$的通用纤维的Fujita不变量$\geq 1$。此外，我们证明存在一个有界族的映射$f$，它们共同解释了所有此类分支$M$。这些结果验证了Batyrev关于几何Manin猜想的启发式方法的第一个部分。我们的结果对全局函数域上的Manin猜想有影响：如果我们从数域上的Fano纤维化开始，并取模$p$，通过首先让素数趋于无穷大，然后让高度趋于无穷大，可以得到所需形式的上界。

代数几何

数论

2025-03-29更新2023-01-04 发布

统计建模与机器学习中的主要目标是减少或消除数据或模型本身可能产生的偏差，确保预测和决策不会因种族、性别、年龄或其他受保护特征等敏感属性而受到不公正的影响。本文提出了一种公平充分表征学习（Fair Sufficient Representation Learning, FSRL）方法，平衡了充分性和公平性。充分性确保表征应捕获关于目标变量的所有必要信息，而公平性要求学习到的表征应与敏感属性保持独立。FSRL基于充分表征学习的目标函数和保证公平性的目标函数的凸组合。我们的方法在表征层面管理公平性和充分性，为公平表征学习提供了新的视角。我们利用距离协方差实现该方法，距离协方差对于刻画随机变量之间的独立性非常有效。我们还分析了所学表征的收敛性质。在具有多样结构的健康病例和文本数据集上的实验表明，与现有方法相比，FSRL在公平性和准确性之间实现了更优的权衡。

62G05, 68T07

现有的密集检索模型在需要推理的检索任务中表现不佳，因为它们无法捕捉超出表面语义信息的隐含相关性。为了解决这些挑战，我们提出了情景剖析索引与知识扩展（SPIKE），这是一种密集检索框架，通过将文档分解为基于场景的检索单元，显式地索引隐含的相关性。SPIKE 将文档组织为场景，这封装了揭示假设信息需求与文档内容之间隐含关系所需的推理过程。SPIKE 使用强大的教师大语言模型（LLM）构建增强场景的数据集，然后将这些推理能力蒸馏到一个小而高效的场景生成器中。在推理过程中，SPIKE 结合了场景级别的相关性和文档级别的相关性，实现了推理感知的检索。大量实验表明，SPIKE 在各种查询类型和密集检索器中始终提高了检索性能，并通过场景提升了用户的检索体验，同时为检索增强生成（RAG）中的LLM提供了有价值的上下文信息。

信息检索

图神经网络（GNNs）在各种应用中表现出色。近期，受语言和视觉基础模型发展的启发，图提示学习作为一种强大的GNN训练范式崭露头角。在此范式中，GNN首先在公开数据上进行预训练，然后通过轻量级图提示适应敏感任务。然而，使用来自敏感数据的提示会带来隐私风险。本研究首次通过实例化成员推理攻击，揭示了图提示中的显著隐私泄露问题。我们还发现，标准的隐私保护方法DP-SGD在图提示学习中未能提供实用的隐私-效用权衡，这可能是因为用于学习提示的小规模敏感数据所致。为了解决这一问题，我们基于PATE框架提出了DP-GPL，这是一种差分隐私图提示学习方法，能够生成具有差分隐私保证的图提示。我们的评估表明，该算法在强隐私条件下实现了高实用性，在有效缓解隐私问题的同时，保留了提示GNN作为图领域强大基础模型的强大能力。

2025-03-29更新2025-03-13 发布

配对图像-文本数据中存在细微变化（例如，手持冲浪板的人与手持铲子的人），这类数据有望产生具备适当组合理解能力的视觉-语言模型。由于减少了数据收集成本，利用生成模型合成此类训练数据备受青睐。然而，为组合学习合成训练图像面临三个挑战：（1）高效生成大量图像，（2）在细微变化处生成图像与标题之间的精确文本对齐，以及（3）确保其他地方图像保真度以足够接近原始真实图像。我们提出了SPARCL（用于提升鲁棒组合学习的合成扰动方法），通过将图像特征注入快速文本到图像生成模型，并结合图像风格迁移步骤，解决了这三个挑战。此外，为了应对文本对齐可能存在的残余问题，我们提出了一种自适应边界损失，用于筛选潜在错误的合成样本，聚焦于信息丰富的困难样本进行学习。在四个组合理解基准测试中的评估表明，SPARCL显著提升了CLIP的组合性，在所有基准测试中将CLIP基础模型的平均准确率提高了8%以上，并在三个基准测试中超越了最先进的方法达2%。

2025-03-29更新2025-03-03 发布

珊瑚礁生态系统提供重要的生态服务，但受到气候变化和人类活动的重大威胁。尽管深度学习的进步使珊瑚礁状况的自动分类成为可能，但传统深度模型在处理复杂的水下生态图像时难以实现高性能。视觉基础模型以其高精度和跨领域泛化能力提供了有前景的解决方案，然而微调这些模型需要大量的计算资源并导致较高的碳排放。为了解决这些问题，低秩适配（LoRA）等适配器学习方法应运而生。本研究引入了一种结合DINOv2视觉基础模型与LoRA微调方法的方法。该方法利用通过泰国龟岛15个潜水点的水下调查收集的多时相现场图像，并根据公民科学保护计划采用的通用标准对所有图像进行标注。实验结果表明，DINOv2-LoRA模型的匹配比率达到64.77%，优于最佳的传统模型的60.34%。此外，使用LoRA将可训练参数从1,100M减少到5.91M。在不同时间和空间设置下的迁移学习实验突显了DINOv2-LoRA在不同季节和地点之间卓越的泛化能力。本研究首次探索了在多时相和多空间条件下，高效适应基础模型用于珊瑚礁状况多标签分类的方法。所提出的方法推进了珊瑚礁状况的分类，并为监测、保护和管理珊瑚礁生态系统提供了工具。