Research

2025-03-24更新2024-04-22 发布

本文研究了一类权重估计量，定义为可以表示为潜在异质处理效应加权平均值的参数。普通最小二乘（OLS）、两阶段最小二乘（2SLS）以及双向固定效应（TWFE）估计量均为我们框架内的特例。我们的重点在于回答有关权重估计量的两个问题。首先，在什么条件下它们可以解释为目标总体（可能是潜在的子群体）的平均治疗效果？其次，在满足这些条件时，该子群体的规模在绝对值或相对于目标总体的相对大小上限是多少？我们认为，这一上限为实证研究提供了一个有价值的诊断工具。当给定的权重估计量对应于目标总体的小部分子群体的平均治疗效果时，我们称其内部有效性较低。本文开发了量化权重估计量内部有效性的实用工具。

计量经济学

方法论

本文提出了一种名为BR-MTRL的拜占庭容错多任务表示学习框架，用于处理故障或恶意代理。我们的方法通过共享神经网络模型实现表示学习，其中所有客户端共享固定层，仅保留特定于客户端的最终层。这种结构捕获了客户端之间的共享特征，同时允许个体适应，使其成为在异构联邦设置中利用客户端数据和计算能力以学习个性化模型的一种有前景的方法。为了学习模型，我们采用交替梯度下降策略：每个客户端优化其本地模型，更新最终层，并将共享表示的估计值发送到中央服务器进行聚合。为了防御拜占庭代理，我们采用了几何中值聚合以确保客户端-服务器通信的鲁棒性。我们的方法能够在分布式环境中实现个性化学习的同时保持韧性。我们在基于Amazon Web Services（AWS）平台构建的联邦试验台上实现了所提出的交替梯度下降算法，并将其性能与各种基准算法及其变体进行了比较。通过使用包括CIFAR-10和FEMINIST在内的真实世界数据集进行广泛的实验，我们证明了该方法的有效性和鲁棒性，并展示了其在存在拜占庭对手的情况下对新未见过且数据有限的客户端的可迁移性。

快速且准确地模拟复杂几何体周围的流体力学对于航空航天、生物医学流体等众多工程和科学应用至关重要。尽管科学机器学习（Scientific Machine Learning, SciML）展现出巨大潜力，但现有研究大多局限于简单几何形状，而对复杂的现实场景关注不足。本文通过针对复杂几何形状流场预测，对多种SciML模型（包括神经算子和基于视觉变换器的基础模型）进行基准测试，填补了这一空白。利用包含多种几何形状稳态流场的高保真数据集，我们评估了几何表示（符号距离场SDF和二值掩模）对模型准确性、可扩展性和泛化能力的影响。为此，我们引入了一种新颖的统一评分框架，整合了全局精度、边界层保真度和物理一致性指标，从而实现对模型性能的稳健比较。研究结果表明，较新的基础模型在数据受限的情况下显著优于神经算子，而SDF表示在充足训练数据下表现更优。然而，所有模型在分布外泛化方面均表现不佳，凸显了未来SciML应用的关键挑战。通过推进评价模型和建模能力，我们的工作为复杂几何形状流体力学问题提供了可靠且可扩展的机器学习解决方案。

2025-03-24更新2024-12-31 发布

流体动力学

本文介绍了一个名为CTorch的工具箱，该工具箱与PyTorch兼容，支持GPU加速且具备自动微分功能，旨在处理各种CT几何结构并配置投影算法。CTorch提供了灵活的扫描仪几何定义，支持二维扇形束、三维圆形锥束以及三维非圆形锥束几何结构。每种几何结构都允许视图特定的定义以适应扫描过程中的变化。可以指定平板探测器模型和曲面探测器模型以适配不同的临床设备。CTorch实现了四种投影算法：体素驱动、射线驱动、距离驱动（DD）和可分离足迹（SF），用户可以根据需求在准确性和计算效率之间进行权衡。所有投影器主要使用CUDA C构建以实现GPU加速，然后被编译为Python可调用函数，并封装为PyTorch网络模块。这种设计使得可以直接使用PyTorch张量，从而实现与PyTorch自动微分框架的无缝集成。这些特性使CTorch成为计算机断层扫描研究的一个灵活而高效工具，具有在精确CT模拟、高效迭代重建以及先进的基于深度学习的CT重建等领域中的潜在应用。

医学物理

图像与视频处理

2025-03-24更新2025-03-20 发布

我们提出了一种潜在的三维表示方法，通过在三维空间中将三维表面建模为概率密度函数（即p(x,y,z）），并采用流匹配技术实现。该表示特别设计用于机器学习模型的输入，其构造方式保证了连续性和紧凑性，同时仅需点云数据且需要最少的数据预处理。尽管这是一种数据驱动的方法，但我们利用三维空间中的流匹配技术，赋予了该表示有趣的几何特性，包括零样本估计表面法线和形变场的能力。我们在多个机器学习任务中进行了评估，包括3D-CLIP、无条件生成模型、单图像条件生成模型以及交点估计。在所有实验中，我们的模型相对于现有基线表现出具有竞争力的性能，同时所需的预处理和训练数据的辅助信息更少。

2025-03-24更新2024-12-20 发布

计算机图形学

从人类反馈（RLHF）强化学习作为一种将人工智能系统与人类价值观对齐的关键技术，在微调大型语言模型方面取得了显著成功。然而，现有的RLHF框架通常假设人类偏好相对同质，并可以通过单一统一的奖励模型来捕捉。这种假设忽略了个体之间固有的多样性和异质性，限制了RLHF在个性化场景中的适应能力，可能导致满意度下降和对AI系统的信任风险。本文通过将低秩适应（LoRA）引入个性化RLHF框架来解决这些问题。我们在所有个性化奖励函数的聚合参数空间中应用LoRA，从而能够高效地从潜在的有限本地数据集中学习个性化奖励模型。我们的方法利用了局部真实奖励模型之间的潜在共享结构，同时允许个体适应，而无需依赖关于共享表示的限制性假设，如先前的工作所做。我们进一步为该方法建立了样本复杂度保证。理论分析表明，所提出的方法能够有效捕捉异构人类偏好中的共享和个体特定结构，解决了个性化需求和实际数据约束的双重挑战。在现实世界数据集上的实验结果证实了我们算法在个性化RLHF设置中的效率。

人工智能

使用文生图（T2I）模型进行文本引导的图像编辑往往无法获得满意的结果，常常引入意想不到的修改，例如局部细节的丢失和颜色的变化。本文分析了这些失败案例，并将其归因于对所有频率带的无差别优化，尽管实际上只有特定的频率可能需要调整。为了解决这一问题，我们提出了一种简单而有效的方法，能够在局部空间区域内选择性地优化特定的频率带，以实现精确的编辑。我们的方法利用小波将图像分解为多个频率带的不同空间分辨率，从而在各个细节层次上实现精确的修改。为了扩展该方法的应用范围，我们提供了不同频域技术的对比分析。此外，通过在三平面表示上进行频域分解，我们将该方法扩展到三维纹理编辑，实现了对三维纹理的频率感知调整。定量评估和用户研究证明了我们方法在生成高质量且精确编辑方面的有效性。

68W20, 68W40, 37A30, 60J20

随机梯度下降（SGD）是用于最小化机器学习中出现的目标函数的一种流行算法。对于恒定步长的SGD，迭代过程在一般状态空间上形成一个Markov链。聚焦于一类可分离（非凸）目标函数，我们建立了类似于“Doeblin型分解”的结果，即状态空间可以分解为一个一致瞬时集和一组不相交的吸收集的并集。每个吸收集中包含唯一的不变测度，而所有不变测度的集合则是这些测度的凸包。此外，证明了这些不变测度构成马氏链的全局吸引子，并且具有几何收敛速率。理论通过例子进一步阐明：（1）扩散近似无法刻画SGD的长时间动力学；（2）目标函数的全局最小值可能位于不变测度支撑集之外（即即使从全局最小值开始，SGD的迭代仍会离开该点）；（3）分岔现象可以使SGD的迭代在两个局部极小值之间切换。理论的关键在于将SGD的动力学视为单调迭代函数系统，并满足Dubins和Freedman 1966年以及Bhattacharya和Lee 1988年的“分裂条件”。

2025-03-24更新2024-09-18 发布

我们介绍了Julia语言的包PauliStrings（https://github.com/nicolasloizeau/PauliStrings.jl），用于量子多体模拟，通过二进制编码泡利字符串在泡利群上执行快速操作。泡利字符串代数的所有操作都被编码为对整数的低级逻辑运算，并通过各种截断方法使其高效，这些截断方法允许对结果进行系统的外推。我们通过（i）通过直接数值积分进行海森堡时间演化和（ii）构建Liouvillian Krylov空间来展示该软件包的有效性。我们将结果与张量网络方法进行了基准测试，发现我们的包表现良好。此外，我们展示了这种表示方式可以轻松编码任何几何结构。我们展示了1D混沌和可积自旋系统的部分结果以及一些2D的例子。目前，主要限制是非平凡纯态（或其他低秩算符）表示的效率低下，以及需要引入耗散来探测长时间动力学。

量子物理

2025-03-24更新2024-10-12 发布

本文提出了一种通用的定量框架，用于研究涉及聚合物序列相互作用的动力学过程。可能的应用范围从聚合反应动力学的定量研究扩展到化学实现的计算行为（包括基本生命样）过程的探索。通过这种方式，我们在由序列相互作用定义的系统中建立了热力学和计算方面之间的桥梁。在这些研究的副产品中，我们澄清了围绕“自催化的”概念的一些常见混淆，并定量展示了如何使化学实现的图灵机接近兰道尔极限运行。通过采用马尔可夫过程模型描述聚合物序列组成，并通过常微分方程（ODE）动态演化马尔可夫过程参数，该方法能够在采取“化学”多粒子极限以及“稀疏相互作用”极限时，实现对系统熵生成的精确定量探索，其中计算由热力学平衡弛豫驱动。计算框架内部利用Scheme编程语言的内在连续机制提供非确定性求值原语，允许用户以纯粹的功能代码形式指定示例系统，从而自动且隐式地完成所有可能的相关序列组成配置的探索，而无需手动编写繁琐的代码。一系列完全解析的示例阐明了此建模方法与精确和近似解析方法之间的定量关系。这些示例还可作为进一步探索的起点。

无序系统与神经网络

利用近场声悬浮（NFAL）技术的定位器由于在Z轴方向具有较大的声学刚度和挤压薄膜阻尼，能够提供高分辨率和宽带定位，主要沿Z轴方向实现。然而，由于XY方向上的声学刚度和阻尼有限，其XY方向的定位分辨率和带宽要低几个数量级。本文通过采用基于稳态电流的平面电磁陷阱技术和涡流阻尼技术，分别提高XY方向的刚度和阻尼。具体而言，NFAL用于悬浮一个磁性平台，该平台随后在XY平面上通过电磁力进行捕获。位于悬浮平台下方的薄铜板产生的涡流通过增加平面内的阻尼提高了52倍，从而减少了NFAL技术固有的振动。此外，用于电磁捕获的平面线圈提供了多轴定位能力。我们演示了沿所有轴的均方根（rms）定位分辨率优于20纳米的三轴线性运动。平面内运动范围和带宽分别为1.42毫米和16赫兹，而Z轴方向实现了40微米的运动范围和171赫兹的定位带宽。

三维和二维注视估计共享捕捉眼球运动这一根本目标，但传统上被视为两个独立的研究领域。本文提出了一种新颖的跨任务小样本2D注视估计方法，旨在仅使用少量训练图像的情况下，通过迁移预训练的三维注视估计网络实现对未见过设备上的二维注视预测。由于三维与二维注视之间存在域差距、未知屏幕姿态以及有限的训练数据，此任务极具挑战性。为解决这些挑战，我们提出了一种新的框架以弥合三维与二维注视之间的差距。我们的框架包含一个基于物理的可微分投影模块，并带有可学习参数，用于建模屏幕姿态并将三维注视投影到二维注视。该框架完全可微分，并能无缝集成到现有的三维注视网络中，而无需修改其原始架构。此外，我们引入了一种动态伪标签策略用于翻转图像，由于未知屏幕姿态，这在二维标注中尤为具有挑战性。为克服这一问题，我们通过将二维标注转换到三维空间并进行翻转来逆向投影过程。值得注意的是，这个三维空间并不与相机坐标系对齐，因此我们学习了一个动态变换矩阵以补偿这种不一致。我们在MPIIGaze、EVE和GazeCapture数据集上评估了我们的方法，这些数据分别采集自笔记本电脑、台式机和移动设备。实验结果表明，我们的方法性能优越，展示了其在现实世界应用中的巨大潜力。

2025-03-24更新2025-02-06 发布

原子级薄层摩尔材料表现出类似弹性膜的行为，在非常小的扭转角度下，范德华黏附能远超应变能。在“边缘扭转”这一强耦合状态下，低黏附能区域扩展并占据大部分摩尔单元格，而不利能量构型则收缩形成由周期性畴壁连接的拓扑缺陷。我们找到了能够成功描述三角形孤子网络和六角形孤子网络这两种强耦合状态的解析表达式，这些结果与LAMMPS分子动力学模拟预测以及连续弹性理论数值解相匹配。这种现象具有普适性，其理论仅由一个依赖于扭转角的参数表征。我们的理论框架对于理解当前广泛关注的一系列材料实验至关重要，包括扭转双层石墨烯、平行和反平行堆叠的tWSe₂和tMoTe₂，以及其他具有相同堆叠对称性的扭转同质双层材料。

介观与纳米尺度物理

材料科学

密集三维映射下的实时SLAM计算挑战巨大，尤其是在资源受限的设备上。近期三维高斯点云（3DGS）的发展为实时密集三维重建提供了有前景的方法。然而，现有的基于3DGS的SLAM系统在平衡硬件简洁性、速度和地图质量方面存在困难。大多数系统在上述一个或两个方面表现优异，但很少能够全面实现。关键问题在于初始化三维高斯分布的同时进行SLAM的难度。为了解决这些挑战，我们提出了单目GSO（MGSO），这是一种新颖的实时SLAM系统，将光度SLAM与3DGS相结合。光度SLAM为3DGS提供密集结构化点云以加速优化，从而生成更高效且包含较少高斯分布的地图。实验表明，我们的系统在质量、内存效率和速度之间实现了平衡，优于现有技术。此外，我们的系统仅使用RGB输入即可完成所有结果。我们在Replica、TUM-RGBD和EuRoC数据集上评估了当前实时密集重建系统。不仅超越了现代系统，实验还显示我们的性能在笔记本硬件上得以保持，使其成为机器人、增强现实（A/R）和其他实时应用的实际解决方案。

机器人学

2025-03-24更新2024-09-19 发布

木星上层大气的全球温度尚缺乏有效约束。除了“伽利略号”探测器的就地测量外，所有温度数据均来自遥感方法，这些方法主要依赖于巨行星电离层中占主导地位的分子离子H$_3^+$的辐射。尽管在特定条件下H$_3^+$温度可作为热层温度的替代指标，但目前对木星的H$_3^+$观测存在空间覆盖范围有限以及报告温度范围较广等问题，这给大气温度分析带来了复杂性。我们展示了2022年和2023年三个半晚上的局部正午附近的高分辨率H$_3^+$温度图。极地到极地的温度结构在一个月到一年的时间跨度内保持一致。三晚赤道区域（±25°纬度）的中位数温度为762 ± 43 K，夜与夜之间的差异小于75 K。北部和南部极光卵统计位置内的温度分别为1200 ± 96 K和1143 ± 120 K。在约20°N、90°W System III经度附近发现了一个比周围环境约低30K的区域，大致与磁场异常重合，为木星上层大气受磁场影响提供了进一步证据。温度从极光区向赤道区域一般呈平滑下降趋势，这与木星非极光区域主要由极光能量动力学再分配加热的预期梯度一致。

地球与行星天体物理学

高内涵筛选的计算机视觉开发由于实验条件、扰动剂和荧光标记的变化而产生多种分布偏移，这使得模型开发具有挑战性。基于迁移学习的典型模型评估方法混淆了不同来源的分布偏移，限制了对模型设计和训练如何影响泛化的解释。我们提出了一种使用JUMP-CP数据集隔离分布偏移源的评估方案，使研究人员能够针对特定的分布偏移源评估泛化能力。随后，我们介绍了通道无关的掩码自编码器$\mathbf{Campfire}$，通过共享解码器处理所有通道，有效扩展到包含多种荧光标记的数据集，并展示了其在分布外实验批次、扰动剂和荧光标记上的泛化能力，同时证明了从一种细胞类型到另一种细胞类型的成功迁移学习。

11A41, 11B25, 11R04, 11R11

Silverman证明了在假设ABC猜想成立的情况下，对于所有非零$a$，存在$\gg \log x$个小于$x$的$a$-基底非Wieferich素数 \cite{silverman}。这一结果启发了Graves和Murty \cite{Graves}、Chen和Ding \cite{Chen1} \cite{Chen2}，以及Ding \cite{Ding} 探索基于ABC猜想的非Wieferich素数$p$的增长结果，其中$p \equiv 1 \pmod{k}$且$k \geq 2$为整数。鉴于Murty、Srinivas和Subramani最近关于‘Wieferich素数猜想’和数域中欧几里得算法的工作 \cite{murty}，数论学家需要数域中的非Wieferich点相关结果。我们证明了Graves & Murty和Ding的结果的类比，并展示了Ding的结果对所有基数$a$在所有虚二次域整环中均成立，除了明确列出的31个例外情况。在过程中，我们将有关有理整数的有用结果推广到了代数整数。

数论

随着高风险机器学习应用越来越多地迁移到不受信任的终端用户或云环境中，保护预训练模型参数对于保护知识产权和用户隐私变得至关重要。硬件隔离区域（如Intel SGX）的最新进展为保护机器学习应用程序的内部状态提供了可能，即使操作系统受到损害也是如此。然而，我们证明了特权软件对手可以利用常见神经网络激活函数中的输入相关内存访问模式，从SGX enclave中提取秘密权重和偏置。我们的攻击利用了SGX-Step框架，获得了无噪声、指令粒度的页面访问跟踪。在对使用Tensorflow Microlite库的11输入回归网络的案例研究中，我们展示了完全恢复第一层的所有权重和偏置，以及在特定条件下部分恢复深层网络参数的能力。我们的新型攻击技术仅需每输入每权重20次查询即可以平均绝对误差小于1%的精度恢复所有第一层的权重和偏置，优于先前的模型窃取攻击。此外，更广泛的生态系统分析揭示了流行机器学习框架中广泛存在具有输入相关内存访问模式的激活函数（直接或通过底层数学库）。我们的发现突显了在SGX enclave中部署机密模型的局限性，并强调了对机器学习实现进行严格的侧信道验证的必要性，类似于应用于安全加密库的审查工作。

密码学与安全

设$p$为素数，$N$为正整数且$p$为模$N$的原根。令$q = p^e$，其中$e = \phi(N)$，并记$\mathbb{F}_q$为具有素子域$\mathbb{F}_p$的有限域。设$\mathrm{Tr}$为从$\mathbb{F}_q$到$\mathbb{F}_p$的迹函数。对于$\alpha \in \mathbb{F}_p$和$\beta \in \mathbb{F}_q$，令$D$为$\mathbb{F}_q$中关于方程$\mathrm{Tr}(x^{\frac{q-1}{N}} + \beta x) = \alpha$的非零解集合。若记$D = \{d_1, \ldots, d_n\}$，则定义码$\mathcal{C}_{\alpha,\beta} = \{(\mathrm{Tr}(d_1 x), \ldots, \mathrm{Tr}(d_n x)) : x \in \mathbb{F}_q\}$。本文研究了对任意$\alpha \in \mathbb{F}_p$和$\beta \in \mathbb{F}_q$的$\mathcal{C}_{\alpha,\beta}$的权分布，重点考虑一般奇素数$p$的情形。当$\beta = 0$时，证明了$\mathcal{C}_{\alpha,0}$为双权码，并计算其权分布。当$\beta \neq 0$时，确定了$\mathcal{C}_{\alpha,\beta}$中所有可能的码字权重，表明其最多有$p+1$个不同的非零权重。此外，还证明了对偶码$\mathcal{C}_{0,0}^{\perp}$相对于球填充界是最优的。这些结果推广了以往的结果至任意奇素数$p$的情形。

密码学与安全

94B05