Research

arXiv

分类

GPU是加速高性能计算（HPC）工作负载（如人工智能和科学模拟）的最流行平台。然而，大多数学术界的微体系结构研究依赖于基于超过15年历史架构的GPU核心流水线设计。本文对现代NVIDIA GPU核心进行逆向工程，揭示了其设计中的许多关键方面，并解释了GPU如何利用硬件-编译器技术，在执行过程中由编译器指导硬件。特别是，它揭示了指令调度逻辑的工作原理，包括指令调度器的调度策略、寄存器文件及其相关缓存的结构，以及内存流水线的多个特性。此外，它分析了一个基于流缓冲区的简单指令预取器如何很好地适应现代NVIDIA GPU并可能被采用。进一步地，我们研究了寄存器文件缓存以及读取端口数量对模拟准确性和性能的影响。通过建模这些新发现的微体系结构细节，我们在执行周期上的平均绝对百分比误差（MAPE）比先前最先进的模拟器降低了18.24%，相对于真实硬件（NVIDIA RTX A6000）的平均MAPE为13.98%。此外，我们证明了这个新模型适用于其他NVIDIA架构，例如Turing。最后，我们展示了现代NVIDIA GPU中包含的基于软件的依赖管理机制在性能和面积方面优于基于记分板的硬件机制。

计算机硬件体系结构

2025-03-26 发布

本文研究了$\mathbb{R}^N$（$N\geq 2$）中外区域$\Omega$中半线性热方程$\partial_tu-\Delta u+u^p=0$初边值问题解的衰减性质。一维情形下，问题被表述为$\Omega=(0,\infty)$，这是$\mathbb{R}$中连通分支的代表性情况之一。可以发现，对应线性问题的$C_0$-半群具有不变测度$\phi(x)\,dx$，其中$\phi$是一个满足Dirichlet边界条件的正调和函数。本文阐明了解关于测度$\phi(x)\,dx$的质量在$t\to \infty$时趋于零当且仅当$1<p\leq \min\{2,1+\frac{2}{N}\}$。在另一情形$p>\min\{2,1+\frac{2}{N}\}$下，我们证明所有解都是渐近自由的。当$N\geq 3$时，给出了具体的高斯修正形式的渐近轮廓。

PDE分析

35K20, 35K58, 35B40

2025-03-26 发布

我们为李理论中的几乎所有已知（量子）簇代数构造了公共三角基。这些基提供了簇理论中长期预期的对偶典范基的类比。在广义Cartan矩阵是对称的情况下，我们证明这些簇代数及其基是准范畴化的。我们的方法基于李理论中簇代数之间的组合相似性。为此，我们引入新的簇运算以在不同情形下传播结构，从而将关于量子单参数子群的结果推广到其他此类代数。此外，我们还得到了丰富的副产品。首先，我们证明了这些量子簇代数满足A=U。另外，我们发现了由双Bott-Samelson胞腔产生的局部紧量子簇代数的丰富结构，包括T-系统、标准基和Kazhdan-Lusztig型算法。特别地，在ADE型中，我们通过与正纽结相关的幺半范畴获得了其幺半范畴化。作为特例，这些范畴为ADE型下的量子函数代数提供了幺半范畴化。

表示论

量子代数

13F60

2025-03-26更新2024-07-02 发布

詹姆斯·韦布空间望远镜（JWST）揭示了一组活动星系核（AGN），这些发现对现有的黑洞（BH）形成模型提出了挑战。这些新观测到的黑洞相对于其宿主星系来说质量过大，并且数量比预期的多。它们的确切起源仍然是一个谜。本研究的主要目标是探讨密集的第三星族（Pop III）恒星团中大质量黑洞种子的形成。通过模拟Pop III恒星团的形成过程，我们提出了这些恒星团的组装及其后续演化的模型。模型考虑了背景气体势能、恒星碰撞及相关的质量损失、气体吸积、恒星增长、初始质量函数（IMF）以及随后的恒星形成过程。我们利用N体模拟在200万年的时间跨度内对这些模型进行了研究。结果表明，在所有情况下都形成了质量大于400倍太阳质量的黑洞，最乐观的情况下可达到约5000倍太阳质量，并且在高吸积率（10$^{-3}$ M$_\odot$ yr$^{-1}$）能够持续的情况下，其质量可能超过10$^4$ M$_\odot$。我们得出结论，大质量黑洞可以在Pop III恒星团中形成，并且很可能留在其宿主恒星团中。这些黑洞可能会在其沉入星系势阱的过程中进一步增长。这一形成通道应在星系形成和黑洞人口统计学的模型中得到进一步考虑。

星系天体物理学

2025-03-26 发布

半导体器件（尤其是金属氧化物半导体场效应晶体管，MOSFET）在功率电子学中至关重要，但其可靠性受到循环和温度影响的老化过程的影响。在分立半导体和功率模块中的主要老化机制是键合线脱落，这是由于热疲劳导致裂纹扩展引起的。这一过程通过指数增长并以突然失效为特征，使得长期老化预测具有挑战性。本研究对用于MOSFET失效预测的不同预测方法进行了全面的对比评估。经典追踪、统计预测以及基于神经网络（NN）的预测模型与新型时序融合变换器（TFTs）一同被实现。针对不同预测时间范围，对其MOSFET老化预测能力进行了综合比较。对于短期预测，所有算法均能产生可接受的结果，其中经典神经网络预测模型表现最佳，但计算成本较高。对于长期预测，仅TFT能够产生有效的结果，这得益于其整合未来预期条件协变量的能力。此外，TFT注意力点识别出关键的老化转折点，这些转折点表明了新的失效模式或加速老化阶段。

信号处理

机器学习

2025-03-26 发布

基因表达数据集为基因调控机制、生化通路以及细胞功能提供了重要见解。此外，通过比较疾病患者与对照组患者的基因表达谱，可以更深入地理解疾病的病理机制。因此，机器学习被广泛应用于处理基因表达数据，其中患者诊断成为最流行的用途之一。尽管基因表达数据具有重要价值，但也面临挑战，因为表达数据集中患者数量通常有限，并且来自不同数据集且具有不同基因表达的数据难以直接整合。本文提出了一种创新方法，利用知识图谱这一生物医学数据整合的独特工具，集成多个基因表达数据集及其领域特定知识，然后通过知识图谱嵌入技术生成向量表示，作为图神经网络和多层感知器的输入。我们从单数据集学习、多数据集学习和迁移学习三种场景评估了该方法的有效性。实验结果表明，结合基因表达数据集和领域特定知识在所有三种场景下均能提升患者诊断的性能。

机器学习

2025-03-26 发布

组织正在迅速采用人工智能（AI）工具来执行原本由人员完成的任务，其潜在益处巨大。此外，一些组织部署了人事安全措施以减轻来自可信赖的人类内部人员的安全风险。然而，人工智能领域快速发展的同时，与传统人事安全领域之间缺乏有意义的互动，这是一个问题。尽管经过数十年的努力，人类内部人员带来的复杂风险仍然难以理解和管理，而来自人工智能内部人员的新兴安全风险则更加模糊不清。双方都需要尽可能多的帮助。在处理人类内部人员时证明有用的某些概念和方法同样适用于应对人工智能内部人员带来的新兴风险。此外，人工智能还可以用于防御性地保护免受人类和人工智能内部人员的风险。

我们证明了两种自然且表面上无关的结构实际上包含相同的数据，即某些交换且结合的乘积结构以及一类超可积哈密顿系统。更具体地说，考虑至少三维的欧几里得空间，并赋予其满足Manin-Frobenius流形条件的交换且结合的乘积结构，再加上一个额外的兼容性条件。我们证明了这样的乘积结构精确地封装了所谓的丰富结构的条件。这种结构提供了构造一族二阶（最大）超可积哈密顿系统的必要数据。我们还证明了所有在至少三维欧几里得空间上的丰富超可积哈密顿系统都可以通过这种方式获得。作为一个例子，我们给出了Smorodinski-Winternitz哈密顿系统。

微分几何

37J39, 53D45, 70G45, 37J35, 70H33

2025-03-26更新2024-11-10 发布

随着大规模语言模型（LLMs）的持续扩展，所需的计算能力和带宽不断增加。为了解决这一问题，我们引入了UB-Mesh，这是一种新型的人工智能数据中心网络架构，旨在提升可扩展性、性能、成本效率和可用性。与传统提供对称节点间带宽的数据中心不同，UB-Mesh采用了一种分层局部化的nD-FullMesh网络拓扑结构。该设计充分利用了LLM训练的数据局部性，优先考虑短距离直接互连以减少数据移动距离并降低交换机使用量。尽管UB-Mesh的nD-FullMesh拓扑具有多个理论优势，但其具体架构设计、物理实现以及网络系统优化带来了新的挑战。在UB-Mesh的实际构建中，我们首先设计了基于4D-FullMesh拓扑的UB-Mesh-Pod架构。UB-Mesh-Pod通过一系列硬件组件得以实现，这些组件包括专门设计的神经处理单元（NPU）、中央处理器（CPU）、低阶交换机（LRS）、高阶交换机（HRS）、网络接口卡（NIC）等，它们作为基础构建块相互连接，并通过一种名为统一总线（UB）的新技术实现灵活的IO带宽分配和硬件资源池化。在网络系统优化方面，我们提出了先进的路由机制——全路径路由（APR），以高效管理数据流量。这些优化措施，结合拓扑感知的性能增强和如64+1备份设计等可靠的可靠性措施，使UB-Mesh的成本效率提高了2.04倍，网络可用性比传统Clos架构提高了7.2%，并在各种LLM训练任务中实现了95%以上的线性度。

计算机硬件体系结构

网络与互联网体系结构

2025-03-26 发布

在施瓦茨child黑洞静态和下落球壳模型的光学薄吸积中，推导出远处观测者所观测到的积分强度公式，并以单色辐射模式为例（具有$1/r^2$径向分布），绘制了不同边界球壳的黑洞图像。对于这些黑洞图像，总结了几何和亮度特征，并对静态和下落球壳模型间亮度变化的定性解释进行了提供。下落球壳模型中黑洞图像的一个显著特征是：当球壳内边界远离光子束缚轨道时，阴影外部附近的观测亮度增强。进一步探索了施瓦茨child黑洞光学薄且几何薄的圆环状吸积模型。首先给出了适用于所有影响参数值的传输函数的解析形式，并推导出静态、下落和旋转圆环模型中的红移因子。基于这些结果，在三种情况下，推导出远处观测者在倾斜角度下观测到的圆环积分强度公式，并绘制了Phys. Rev. D \textbf{100} (2019) 024018中提供的每种发射模式对应的黑洞图像。最后，还总结了任意阶数黑洞图像的几何和亮度特征，并对不同圆环模型间亮度变化的定性解释进行了给出。

广义相对论与量子宇宙学

2025-03-26更新2024-12-31 发布

全球导航卫星系统（GNSS）为广泛的应用场景提供独立精确定位服务。然而，无人驾驶车辆（空中、地面车辆或水面舰艇）等应用或系统通常需要比独立接收机更高的精度水平。实现厘米级精度的最有效且经济的方式是依赖固定参考站接收机提供的校正信息来改善卫星测距测量。差分GNSS（DGNSS）和实时动态定位（RTK）通过在线分发校正流给附近的移动接收机（通常称为漫游器），从而提供厘米级精度。然而，由于参考站的静态特性，它们成为GNSS攻击的主要目标，包括简单的干扰和高级欺骗，具有不同程度的对抗控制和复杂性。干扰参考站会拒绝向漫游器提供校正信息，从而降低精度；而欺骗参考站则会强制其分发误导性的校正信息。因此，所有使用这些校正信息的连接漫游器都将受到敌方的影响，无论其实际轨迹如何。我们利用射频仿真器生成了一系列测试，评估了通用DGNSS/RTK处理库和接收机的鲁棒性。我们测试了干扰和同步欺骗，证明从对抗者的角度来看，针对漫游器的参考站欺骗既有效又方便。此外，我们讨论了漫游器和参考站可以采用的一些可能策略，基于现有的反制措施（位置、导航和时间解算方案的自验证以及自身时钟漂移的监控），以避免使用或分发虚假校正信息。

密码学与安全

信号处理

2025-03-26 发布

部分顺序工作流语言（POWL）作为一种过程建模符号，近年来因其强大的质量保证和高表达能力而崭露头角。然而，由于实际应用中标准符号如工作流网（WF-nets）和BPMN的广泛存在，其推广受到阻碍。本文提出了一种新颖的算法，用于将安全且健全的WF-net转换为等效的POWL模型。该算法通过递归识别WF-net中的结构模式，并将其转化为对应的POWL表示形式。我们正式证明了此方法的正确性，表明生成的POWL模型保留了输入WF-net的语言。此外，我们展示了该算法具有高度可扩展性，并在一类包含所有POWL模型等效表示的WF-net子类上证明了其完整性。这项研究弥合了POWL理论优势与实践中对兼容现有符号需求之间的差距，为POWL在过程分析和改进应用中的更广泛应用铺平了道路。

计算机科学中的逻辑

2025-03-26 发布

系统能谱之间的能量关联是量子混沌的一个重要特征，可以通过谱函数因子（SFF）进行探测。我们研究了每个谱距离对构建这一双点关联函数的具体贡献。具体而言，从第$k$邻近能级间距（$k$nLS）的谱分布出发，我们给出了第$k$邻近谱函数因子（$k$nSFF）的解析表达式。我们针对三种高斯随机矩阵系综以及“泊松”系综（无相关性的能级集合）进行了分析。我们研究了$ k $nSFF的特性，包括其最小值及其达到最小值的时间，以及深度$ k $nSFF对应的能隙。这使我们可以量化每个独立的$ k $nLS对SFF斜坡的贡献，这是量子混沌的一个典型特征。特别是，我们展示了通过包含更长范围的谱距离，斜坡的起点（由凹陷或Thouless时间表征）如何向较短时间移动。有趣的是，偶数和奇数邻居的贡献显著不同，前者对构建斜坡最为重要，分别在斜坡中产生共振或反共振。我们所有的解析结果均通过随机矩阵的数值实现进行了验证。此外，我们利用引入的工具分析了一个具有局域 onsite 无序相互作用的XXZ海森堡模型的谱性质，该模型允许在混沌和可积区域之间过渡。

2025-03-26更新2023-11-15 发布

我们证明了，就光谱范数而言，若且仅若李域的辛上同调非零，则紧支撑哈密顿微分同胚群中存在无限维拟平面。特别是，在任何闭流形的单位余切丛的紧支撑哈密顿微分同胚群中存在无限维拟平面。对于任意李域中的可容许拉格朗日子集的${\rm Ham}$-轨道空间，类似结论成立。此外，我们证明了，若闭辛流形包含具有特定拓扑条件的不可压缩拉格朗日子流形，则其哈密顿微分同胚群中存在无限维平面。所有这些结果的证明都依赖于一类重超曲面的存在性。

辛几何

53D40, 53D22, 53D12

2025-03-26更新2025-03-19 发布

基于Fermi-LAT望远镜在高于10 GeV光子到达方向图像中探测到的浓度分布，对大麦哲伦云（LMC）中超新星遗迹（SNRs）的$\gamma$射线辐射进行了搜寻，在自2008年8月4日至2020年8月4日（12年时间窗口）的数据集中发现了其中9个源的显著证据。本文报告了一项新的搜寻结果，该研究扩展了截至2023年8月4日长达15年的数据集，并涵盖更高的能量范围（高于4 GeV）。延长的时间基线和更低的能量下限有助于进一步理解LMC中X射线与$\gamma$射线SNRs之间的关系，并调查低亮度样本的完整性。我们应用了两种不同的聚类分析方法：最小生成树（MST）以及基于密度的空间聚类算法（DBSCAN）与DENCLUE算法的组合。我们确认了之前的所有检测结果，并发现至少8个新聚类与其它SNRs存在空间对应关系，从而将LMC中候选或已检测到的高能$\gamma$射线SNRs总数增加至16个。本研究通过纳入更长的观测时间基线和更宽的能量范围，扩展了此前关于LMC中SNRs $\gamma$射线辐射的研究。改进的数据集和先进的聚类技术加深了我们对X射线与$\gamma$射线SNRs之间联系的理解，为它们的高能特性提供了新的见解，并有助于评估低亮度样本的完整性。

高能天体物理现象

2025-03-26 发布

公众对偏头痛的认知水平较低，这种误解对偏头痛患者的生活质量产生了负面影响。为理解这一影响，我们采用文本挖掘方法研究了Reddit社交平台上关于偏头痛的讨论。总结出“大众应了解慢性偏头痛的四个方面”：它是一种影响各年龄段人群的严重疾病，可能由多种不同因素诱发，女性患病率高于男性，并且在与新冠病毒结合时症状可能加重。

我们研究了由潜在量子临界点（QCP）驱动的临界行为，这些QCP被称为$\tau_{0,x,y,z}$-型QCP，在$d$-波铜氧化物超导体中。在重整化群方法的框架内，我们构建了所有相互作用参数的耦合流方程，并得到了几个独特的性质。一方面，在特定的临界能量尺度下，相互作用参数流向几个不动点（FPs）。我们在干净极限下识别出两种不同的FP类型。FP-I的特点是二次参数发散且对相互作用参数的变化具有鲁棒性。相比之下，FP-II由三阶和四阶相互作用参数主导，且对初始条件敏感，从而导致五个子类。此外，我们发现无序散射可以影响费米速度和临界能量尺度，甚至在$\tau_{x,z}$-QCP附近破坏某些FP，推动系统向预先存在的由无序诱导的FP发展。另一方面，我们发现量子涨落对于系统接近这些QCP时的临界温度($T_c$)起着至关重要的作用。在$\tau_x$-QCP附近，无论FP-I还是FP-II，$T_c$都受到显著抑制。相比之下，在$\tau_0$-QCP附近，FP-I的$T_c$大幅下降，而FP-II仅略有下降。相反，在$\tau_y$-QCP附近，$T_c$呈现上升趋势，在$v_{\Delta 0}/v_{F0}\sim 0.25$处出现明显峰值。然而，数值分析表明$\tau_z$-QCP在物理上不太可能实现。此外，我们发现$\tau_x$-QCP附近的无序诱导FP的出现也可以改变$T_c$。这些发现将为$d$-波铜氧化物超导体及相关材料的低能临界性质提供宝贵的见解。

超导

强关联电子体系

2025-03-26 发布

数学流体力学中的偏微分方程（PDEs）寻求一个好的解概念仍然是一个未解决的重要问题。测度值解是一种重要的解概念。众所周知，对于许多PDEs，即使施加了能量不等式等相容性条件，仍存在大量的测度值解。因此，近年来人们尝试在所有相容的测度值解中选择相关的解，或者至少排除一些无关的解。本文研究了另一种这样的判据。特别是，我们致力于选择“最大湍流”的广义Young测度。为此，我们寻找某个泛函（即方差，更精确地说是能量的Jensen缺陷）的最大化者。我们证明了这种最大化的存在性，并且表明其平均值和总能量是唯一确定的。我们的理论是在非常一般的框架下进行的，该框架可以应用于许多需要从一组广义Young测度中选出最大湍流测度的情况。最后，我们将这一一般框架应用于不可压缩Euler方程和等熵可压缩Euler方程。我们提出的最大湍流判据是合理的，并且在某种意义上导致了解的存在性和唯一性（特别是不同最大湍流解的平均值和总能量相同）。

PDE分析

35D99, 76M30 (primary), 35Q31, 76B03, 76N10, 76F99 (secondary)

2025-03-26 发布

星系的主要重子组成（如星系核球和盘的质量）可以通过多种方法进行估算，但这些方法的实施往往面临挑战，因为它们通常依赖于对重子动力学或暗物质模型的强假设。在本文中，我们提出了一种利用一组机器学习算法（KNN近邻算法、线性回归、随机森林和神经网络）预测星系组分质量（包括盘、核球、恒星质量和总质量）的替代方法。选择u griz 光学系统中的绝对星等作为输入特征，并使用来自Guo模拟目录的螺旋星系样本（包含核球）进行训练数据集构建，该目录来源于Millennium模拟。总体而言，所有算法对从$10^9 M_\odot$到$10^{11} M_\odot$范围内的星系质量组分提供了良好的预测结果，这对应于训练质量域的中心区域；然而，神经网络相较于其他方法提供了更精确的预测。此外，为了测试神经网络架构的性能，我们使用了来自SDSS巡天观测样本的数据，其质量组分已知。我们发现，对于合成样本中的盘优势星系，神经网络可以在相同星等范围内以高达99%的置信水平预测发光质量；而对于包含更大核球的星系，其质量组分可以被预测至95%的置信水平。神经网络算法还可以揭示不同组分质量与星等之间的比例关系。

星系天体物理学

宇宙学和非星系天体物理学

2025-03-26更新2024-03-10 发布

本文研究了在无套利且完备的一般金融市场中的$n$个投资者。每位投资者的目标是在确保其终端财富以特定概率超过竞争对手表现定义的基准的同时，最大化自身的期望效用。这种设定引入了投资者之间的相互依赖性，从而需要寻找纳什均衡。对于两位投资者且均具有CRRA效用函数的情形，我们能够以终端财富的形式推导出所有的纳什均衡。对于$n>2$个投资者且具有对数效用函数的情况，我们区分两种情形：在第一种情况下，约束中的概率较小，可以刻画所有的纳什均衡；在第二种情况下，概率较大，我们则在某一特定集合中寻找纳什均衡。此外，我们还通过数值例子讨论了竞争的影响。作为副产品，我们解决了若干带有概率约束的投资组合优化问题。

共 13511 条搜索结果

共 13511 条

分析现代NVIDIA GPU核心

关于外区域半线性热方程解的质量随不变测度衰减的研究

李理论中簇代数的对偶典范基类比

第三星族恒星团中大质量黑洞的形成

在线健康监测中半导体器件老化预测方法的对比分析与评估

基于基因表达知识图谱的多数据集与迁移学习

对不起，Dave：传统人事安全领域如何为新兴的人工智能内部风险提供启示

具有交换且结合乘积结构的流形：编码超可积哈密顿系统

UB-Mesh：一种分层局部化的nD-FullMesh数据中心网络架构

施瓦茨child时空下球壳和圆环状吸积模型中的黑洞图像

无参考站分析：针对连通漫游器的RTK参考站欺骗效应研究

将工作流网转化为部分顺序工作流语言的研究

谱函数因子分解的研究

通过集合重量实现的大尺度光谱几何

大麦哲伦云中超新星遗迹的$\gamma$射线辐射搜寻：高于4 GeV能量的新聚类分析

大众应了解偏头痛的四件事

在$d$-波铜氧化物超导体中接近量子临界点时的不动点及临界温度

最大湍流作为测度值解的选择准则

利用机器学习算法估算星系组分质量

基于风险价值约束的相对投资组合优化