分类

具有表现力动态状态演化的RWKV-7“鹅”模型

我们提出了RWKV-7“鹅”,这是一种新的序列建模架构,具有恒定的内存使用量和每令牌恒定的推理时间。尽管在训练数据量远少于其他顶级模型的情况下,我们的29亿参数语言模型在多语言任务上达到了新的3B SOTA,并在英语下游性能上达到了当前的3B SOTA。RWKV-7引入了一种新的广义delta规则公式,包含向量值门控和上下文学习率,以及一种放松的价值替换规则。我们展示了RWKV-7能够进行状态跟踪并识别所有正则语言,同时保持训练的并行化能力。这超过了标准复杂性猜想下的Transformer的能力,后者被限制在$\mathsf{TC}^0$内。为了展示RWKV-7的语言建模能力,我们还发布了一个扩展的开源3.1万亿令牌多语言语料库,并在这个数据集上训练了四个从1.9亿到29亿参数的RWKV-7模型。为了促进开放、可重复性和采用,我们将模型和数据集组件列表发布在https://huggingface.co/RWKV,并将训练和推理代码发布在https://github.com/RWKV/RWKV-LM,均采用Apache 2.0许可证。

计算与语言
人工智能
机器学习
I.2.0; I.2.7
2025-03-30更新2025-03-18 发布

基于离散小波变换的时间-频率分析在顺序推荐系统中的过滤应用:一种自适应且轻量化的模型

顺序推荐系统(SRS)旨在对用户的序列行为进行建模,以捕捉其兴趣,而这些兴趣通常会随时间演变。基于Transformer的SRS近期取得了显著的成功。然而,研究表明,基于Transformer的模型中的自注意力机制本质上是一种低通滤波器,忽略了可能包含有意义用户兴趣模式的高频信息。这促使我们寻求SRS更好的过滤技术,并最终发现来自数字信号处理领域的著名时间-频率分析技术——离散小波变换(DWT)能够有效处理低频和高频信息。我们设计了一种基于DWT技术的自适应时间-频率滤波器,该滤波器将用户兴趣分解为多个具有不同频率和时间的信号,并能自动学习这些信号的权重。此外,我们开发了DWTRec,这是一种完全基于自适应时间-频率滤波器的顺序推荐模型。由于快速的DWT技术,DWTRec在理论上具有更低的时间复杂度和空间复杂度,并且擅长对长序列进行建模。实验表明,我们的模型在不同领域、稀疏程度和平均序列长度的数据集上优于最先进的基准模型。特别是,当序列变长时,我们的模型相较于先前的模型表现出显著的性能提升,这进一步证明了我们模型的另一优势。

信息检索
2025-03-30 发布

超大规模控制系统的分布式设计:进展、挑战与前景

从大型集中式复杂控制系统向依赖大量相互连接的简单子系统的分布式配置转变在许多应用中正在进行且不可避免。这种转变归因于众多工程领域对韧性、灵活性和可扩展性的追求,具有深远的社会影响。尽管已有许多分布式和分散式控制系统的设方法,但大多数方法依赖于需要整个系统全局信息的集中式设计流程。显然,在网络规模超过一定限度时,这些用于分布式控制器的集中式设计流程不再可行,我们将相应的系统称为超大规模系统(ULSS)。对于这些ULSS,需要设计出能在子系统之间分布实施的算法,并且每个子系统在通信、计算和内存使用方面受到严格限制。本文提出了一组要求,以确保在超大规模下所有控制解决方案阶段的实时实施可行性。现有方法在这些要求下被回顾,阻碍合适控制算法发展的挑战也被明确指出。将这些挑战与当前进展进行比较,识别并激励了有前景的研究方向。

系统与控制
cs.SY
2025-03-30 发布

LIRA: 一种基于学习的查询感知分区框架用于大规模近似最近邻搜索

近似最近邻搜索是信息检索中的基础问题。以往基于分区的方法通过探测部分分区来提升搜索效率,但面临两个常见问题。在查询阶段,一种常见的策略是根据查询点到分区质心的距离排名来选择分区进行探测,这种方法会不可避免地探测到不相关的分区,因为它忽略了数据分布。在分区构建阶段,所有基于分区的方法都面临边界问题,即将查询点的最近邻分离到多个分区中,导致kNN分布呈现长尾现象,从而降低最优nprobe(即探测分区的数量)的效果。为了解决这一问题,我们提出了LIRA,一种基于学习的查询感知分区框架。具体来说,我们提出了一种探测模型,可以直接探测包含查询点kNN的分区,这可以减少探测浪费并实现针对查询的个性化探测。此外,我们将探测模型与基于学习的冗余策略相结合,以减轻长尾kNN分布对搜索效率的不利影响。在真实向量数据集上的大量实验表明,LIRA在准确率、延迟和查询扩散之间的权衡上表现出优越性。代码已发布在https://github.com/SimoneZeng/LIRA-ANN-search。

信息检索
数据库
2025-03-30 发布

三组分暗物质相变引力波的研究

本文提出了一种包含三种具有不同自旋的粒子以及标量场$\phi$的暗物质模型,该标量场介导标准模型粒子与暗物质之间的相互作用。文章讨论了大爆炸后经历的电弱相变过程,在此过程中,由于Higgs机制未激活,所有粒子最初都是无质量的。随着温度下降,有效势在两个点为零,导致临界温度($T_c$)下出现两个极小值,并最终形成真实的真空状态。新真空泡的形成,即电弱对称性破缺和粒子获得质量的过程,会通过这些真空泡与时空结构的相互作用产生引力波。基于模型参数,本文推导了引力波的频率和探测范围,结果与普朗克卫星观测数据及PandaX-4T和XENONnT探测器的阈值相一致。最后,文章通过比较预测的背景引力波密度与LISA和BBO探测器的灵敏度,得出结论。

高能物理-唯象学
2025-03-30更新2025-03-18 发布

多次通过流模型下Max-Cut问题的近似下界

在流模型下的Max-Cut问题中,算法接收到未知图$ G=(V,E) $的边序列,其目标是近似图中最大割的大小。Kapralov和Krachun改进了Kapralov、Khanna和Sudan的早期结果,证明了对于所有$\varepsilon>0$,任何内存为$o(n)$的单次通过流算法都无法实现$(1/2+\varepsilon)$-近似。他们的结果适用于单次通过流,即仅允许算法查看一次数据流的情况,并且开放问题是多次通过访问是否可能有所帮助。Assadi和N给出的最佳现有结果排除了常数次通过且空间为$n^{1-\delta}$的任意好的近似算法,其中$\delta>0$。我们改进了这一现有结果,表明任何非平凡的Max-Cut近似算法都需要多项式次数的通过或多项式大小的空间。具体来说,我们证明了对于所有$\varepsilon>0$,$k$次通过流的$(1/2+\varepsilon)$-近似算法需要$\Omega_{\varepsilon}\left(n^{1/3}/k\right)$的空间。该结果还导致了对Maximum Directed Cut问题类似的下界,展示了[Saxena, Singer, Sudan, Velusamy, SODA 2025]算法的接近最优性。我们的下界是通过展示Kapralov和Krachun引入的分布隐含隐藏划分(DIHP)问题的通信复杂度下界得出的。尽管直接应用差异方法失败,我们识别了一个称为“全局性”的协议属性,并证明(1)任何DIHP协议都可以转换为全局协议,(2)全局协议的差异必须较小。第二个步骤是论证中更技术性的部分,在这里我们使用了全局超合同不等式。

数据结构与算法
计算复杂性
离散数学
2025-03-30 发布

高数值孔径全向透镜逆问题求解的设计方法

我们提出了一种新型透镜,可将平面波聚焦为球面波,其中光线来自四面八方。我们的方法还提出了理想光学镊子的设计方案,或者反向用于捕获全向光源发出的几乎全部光。我们的设计通过使用高折射率的简单各向同性非磁性材料来实现,尽管面临诸多挑战,但我们相信,通过优化以及借助常规透镜的帮助,所提出的透镜可以演变为可制造的透镜,从而提高离子-光子量子实验中的光子收集效率。

光学
2025-03-30 发布

基于音频信号的HearFit+:智能音箱上的个性化健身监测

健身有助于增强肌肉力量、提高疾病抵抗力并改善体型。由于时间不足,如今许多人选择在家或办公室锻炼而非去健身房。然而,在缺乏专业指导的情况下,他们很难获得良好的健身效果。受此启发,我们提出了首个基于家庭/办公室智能音箱的个性化健身监测系统HearFit+。我们探讨了利用声学传感技术监测健身的可行性,并设计了一种基于多普勒频移的健身检测方法,采用短时能量对健身动作进行分割。通过深度学习,HearFit+能够同时实现健身分类和用户识别。结合增量学习,用户可以轻松添加新的健身动作。我们设计了4个评估指标(即持续时间、强度、连续性和流畅性)以帮助用户提升健身效果。通过对12名志愿者的超过9,000次10种类型健身动作的广泛实验表明,HearFit+在健身分类中的平均准确率达到96.13%,在用户识别中的准确率为91%。所有志愿者均确认HearFit+能够在各种环境中帮助提升健身效果。

音频
音频与语音处理
2025-03-30 发布

正则区域与临界区域之间的自相似桥梁

在统计和非线性系统中,通常会识别出两个定性不同的参数区域:正则区域,其特征为关键量表现出平滑行为;以及临界区域,其中这些量显示出奇异性或强烈波动。由于这些区域具有截然不同的性质,它们往往被视为弱相关甚至无关。然而,我们证明了这些区域之间存在密切联系,这种关系可以通过自相似近似理论明确揭示出来。这一框架允许基于正则区域的信息预测临界点附近的可观测量,反之亦然。值得注意的是,该方法仅依赖于关于某个参数的渐近展开式,而不论该展开式源自正则区域还是临界区域。自相似理论的数学原理在这两种情况下保持一致。我们通过从正则区域外推来预测统计系统的状态方程临界点的存在、位置和临界指数,即使没有直接的临界区域信息。相反,在具有离散尺度不变性的系统中,我们探索从临界区域到正则区域的外推,其中可观测量中的对数周期振荡引入了额外的复杂性。我们的研究结果为材料断裂、股市崩盘和地震预测等多种现象提供了见解和解决方案。

统计力学
数学物理
数学物理
2025-03-30 发布

多标签微动作检测(MMAD)在视频中的应用

人体动作是非语言交流的重要形式,在社会互动中占据重要地位。本文特别关注一种被称为微动作的体态动作子集,这些微动作是细微且低强度的身体运动,在人类情感分析中有广阔的应用前景。在现实场景中,人类的微动作往往在时间上共现,多个微动作重叠出现,例如头部和手部的同时运动。然而,当前研究主要集中在识别单个微动作,而忽视了它们共现的本质。为解决这一问题,我们提出了一个新的任务——多标签微动作检测(MMAD),该任务旨在识别给定短视频中的所有微动作,确定其起止时间并进行分类。完成此任务需要一种能够准确捕捉长短期动作关系的模型,以便检测多个重叠的微动作。为了促进MMAD任务的研究,我们引入了一个新的数据集——多标签微动作-52(MMA-52),并提出了一种带有双路径时空适配器的基线方法,以应对MMAD中微妙视觉变化带来的挑战。我们希望MMA-52能激发视频中微动作分析的研究,并推动以人为中心的视频理解中的时空建模发展。所提出的MMA-52数据集可在https://github.com/VUT-HFUT/Micro-Action获取。

计算机视觉与模式识别
2025-03-30更新2024-07-07 发布

工具集成强化学习:ToRL

本文介绍了一种名为ToRL(工具集成强化学习)的框架,该框架旨在通过强化学习训练大型语言模型(LLMs)自主使用计算工具。与监督微调不同,ToRL允许模型探索并发现最优的工具使用策略。实验结果表明,使用Qwen2.5-Math模型进行测试时,ToRL取得了显著的改进:ToRL-7B在AIME~24数据集上的准确率达到43.3%,比没有工具集成的强化学习方法高出14%,比现有最佳的工具集成推理(TIR)模型高出17%。进一步分析显示,模型表现出了一些涌现行为,如战略性地调用工具、自我调节无效代码以及在计算推理和分析推理之间动态适应,这些行为完全源于基于奖励驱动的学习过程。

计算与语言
2025-03-30 发布

ADF22+:z=3.09时SSA22原团块中远红外亮度函数的衰减微弱端

原团块代表了早期宇宙中最大尺度结构中最密集的区域,也是现今大质量椭圆星系形成的环境。毫米波连续谱辐射为研究各种环境下高红移星形成提供了强有力的探针。本文利用ALMA在z=3.09的SSA22原团块中心8平方角分(约30共动Mpc²)区域内进行了深度1.17毫米马赛克观测,以研究暗尘埃星形成星系(DSFG)的微弱群体。该连续谱图达到了约1弧秒空间分辨率下的25微焦耳每平方秒的均方根噪声水平,比之前对该领域的观测深了约2倍。我们检测到信噪比大于4.2的53个源,使探测数量翻倍。利用光学至中红外辅助数据,我们搜索了光谱红移并确认其中18个为团块成员。对于近红外有多于两个测光数据点的源,我们通过光谱能量分布拟合给出了恒星质量(M_星)和恒星形成率(SFR)。1.17毫米数密度在大于1毫焦耳每平方米处显示出了超过2倍的过剩,但在更微弱的流量区间内与空白场一致。SSA22原团块核心区域的单色远红外亮度函数表明缺乏微弱的DSFG。所有在1.17毫米波段被探测到的SSA22原团块成员星系都位于一般星形成星系的M_星-SFR关系内。我们的结果表明,像SSA22原团块这样的早期过密环境中,主要促进了现今星团中大质量早型星系的形成,但单个成员星系中的星形成可能由宇宙网中的气体供应驱动,并以一种长期的方式发生。

星系天体物理学
2025-03-30 发布

数值谱控制与上同调谱

设 $X$ 是定义在域 $\mathbf{k}$ 上的光滑不可约射影簇,其维数为 $d$。设 $\tau: \mathbb{Q}_l\to \mathbb{C}$ 是任意场嵌入。设 $f: X\to X$ 是满射自同态。我们证明对于每个 $i=0,\dots,2d$,$f^*$ 在数值群 $N^i(X)\otimes \mathbb{R}$ 和 $l$-进上同调群 $H^{2i}(X_{\overline{\mathbf{k}}},\mathbb{Q}_l)\otimes \mathbb{C}$ 上的谱半径相同。作为推论,如果 $f$ 对某个 $q>1$ 是 $q$-极化自同态,则我们证明 $f^*$ 在第 $j$ 个上同调群上的每个特征值的范数为 $q^{j/2}$,对所有 $j=0,\dots, 2d$ 成立。这推广了 Deligne 的关于 Weil 猜想的定理到任意极化的自同态,并证明了 Tate 的一个猜想。我们也得到了一些关于不动点计数及其“移动目标”变体的应用。事实上,我们研究了某些上同调对应关系的一般作用,并最终在自同态情形下得到了上述结果。

代数几何
2025-03-30更新2024-12-02 发布

面向大规模知识库的大语言模型知识缺陷发现

大型语言模型(LLMs)具有令人印象深刻的语言能力,但往往无法忠实地保留事实性知识,导致出现幻觉和不可靠的输出。通过全面评估来理解LLMs的知识缺陷在计算上是难以承受的,特别是对于闭源权重模型而言。我们提出了随机误差上升(SEA),这是一种在严格查询预算下对闭源权重LLMs中的知识缺陷(错误)进行发现的可扩展且高效的框架。SEA不简单地探测所有知识候选者,而是将错误发现形式化为一个随机优化过程:它通过利用先前观察到的失败之间的语义相似性,迭代检索新的高错误候选者。为了进一步提高搜索效率和覆盖范围,SEA在文档和段落级别采用分层检索,并构建关系有向无环图来建模错误传播并识别系统性失败模式。实证结果显示,SEA发现的知识错误比自动化能力发现多40.7倍,比AutoBencher多26.7%,同时将每项错误的成本分别降低了599倍和9倍。人工评估确认了生成问题的高质量,消融和收敛分析验证了SEA中每个组件的贡献。对发现的错误的进一步分析揭示了LLMs家族中相关的失败模式和重复性缺陷,突显了未来LLMs开发中需要更好的数据覆盖率和针对性微调的需求。

计算与语言
2025-03-30 发布

并非所有LoRA参数都是必需的:对推理必要性的洞察

当前关于LoRA的研究主要集中在减少微调参数的数量或优化其架构上。然而,推理过程中所有微调LoRA层的必要性仍未得到充分探索。本文研究了每个LoRA层对模型预测真实值的能力的贡献,并假设低层LoRA模块在模型推理和理解中发挥更为关键的作用。为解决这一问题,我们提出了一种简单而有效的方法,以提升使用LoRA微调的大规模语言模型(LLMs)的性能。具体而言,我们通过分析一小部分验证样本,识别出一个“边界层”,以区分必要的LoRA层。在推理阶段,我们将此边界层之后的所有LoRA层丢弃。我们在四个广泛使用的文本生成数据集上的三个强大基线模型上评估了我们的方法。结果表明,我们的方法在各数据集上都表现出一致且显著的改进,强调了在推理过程中选择性保留关键LoRA层的有效性。

计算与语言
2025-03-30 发布

通过酉矩阵的特征空间进行反射的一个简单算法

反射是量子算法中无处不在的工具。我们考虑通过对可实现的酉矩阵的特征空间进行反射的任务。此类反射通常通过相位估计或酉矩阵的线性组合来设计。这些方法在所需精度和酉矩阵的谱隙方面具有有利的规模和深度。然而,它们所需的辅助量子比特数量随着这两个参数的增长而增加。在这里,我们提出了一种简单的算法,该算法具有相同的规模和深度缩放特性,但对所有问题实例仅需4个辅助量子比特。因此,预计此算法将成为通过酉矩阵特征空间进行反射的标准方法。

量子物理
2025-03-30更新2024-12-12 发布

关于理想不可压缩MHD二维等离子体-真空界面问题

本文研究了理想不可压缩磁流体力学(MHD)方程描述的二维等离子体-真空界面问题,这些方程描述了在磁场影响下完美导电流体在真空区域的动力学行为。我们在标准Sobolev空间中建立了局部适定性理论,假设存在表面张力或自由边界上的总磁场非退化。我们还展示了在磁场非退化假设或有效压力的Rayleigh-Taylor符号条件下,表面张力趋于零的极限。这些结果表明,表面张力和非退化的切向磁场确实可以稳定等离子体-真空界面的运动,这特别为C. Hao和第二作者构造的不适定例子提供了另一种解释(Comm. Math. Phys. 376 (2020), 259-286)。尽管所提供的初始数据在描述流映射正则性的Sobolev空间中高度不稳定/不适定,但在欧拉框架下涉及标准Sobolev空间时,这些等离子体-真空问题仍可以保持稳定/适定。

PDE分析
数学物理
数学物理
76W05, 76B03, 35Q35, 76E25
2025-03-30 发布

利用Hamilton系统和跃迁蛙跳法求解稀疏主成分分析问题

主成分分析(PCA)是一种广泛使用的降维技术;然而,由于其固有的不可解释性——源于所有特征的密集线性组合——在许多领域限制了其应用。本文提出了一种新颖的稀疏PCA算法,通过平滑L1惩罚实现稀疏性,并利用通过几何积分技术求解的Hamilton公式。具体而言,我们实现了两种不同的数值方法——一种基于近端梯度(ISTA)方法,另一种采用蛙跳(四阶Runge-Kutta)方案——以最小化平衡方差最大化与稀疏性约束的能量函数。为了提取一组稀疏主成分,我们进一步结合了消去技术,并将原始高维人脸数据转换为低维特征空间。在人脸识别数据集上的实验评估表明,所提出的稀疏PCA方法比传统PCA具有更高的分类准确性。未来的研究将进一步扩展这一框架,将其与现代深度学习架构集成,用于多模态识别任务。

机器学习
2025-03-30 发布

探究Krylov基底中的局域化效应

Krylov复杂度(K-复杂度)是一种衡量量子态复杂性的指标,它最小化了波函数在所有可能基底上的扩展。它作为算符增长和量子混沌的关键指示器而存在。在这项工作中,我们利用K-复杂度和Arnoldi系数来研究量子踢转子系统中的多种局域化现象。我们分析了四种不同的局域化场景——从由量子反共振引起的紧凑局域化效应到较弱形式的幂律局域化——每种情况都表现出独特的K-复杂度特征和Arnoldi系数变化。总体而言,K-复杂度不仅表明了局域化的程度,还意外地揭示了局域化的性质。特别是,K-复杂度的长时间行为以及Krylov链上波函数的演化可以区分量子踢转子(QKR)中观察到的各种类型的局域化。此外,时间平均的K-复杂度以及Arnoldi系数方差随有效普朗克常数的变化可以区分经典规则相结构诱导的局域化效应和由量子干涉引起的动力学局域化。进一步地,Arnoldi系数还展示了从可积性到混沌的转变过程。这项工作展示了局域化动力学在Krylov基底中的表现方式。

量子物理
2025-03-30 发布

单位$C_\infty$-代数与$(r-1)$-连通紧致流形的实同伦型:维数$\leq \ell(r-1)+2$的情形

我们将$n$维$(r-1)$-连通紧致流形$M$(其中$r\geq 2$)的实同伦型编码为$H^*(M,\mathbb{R})$上的最小单位$C_\infty$-结构,该结构通过de Rham代数$\mathcal{A}^*(M)$的Hodge分解所关联的小商代数上的单位DGCA结构经过同伦传递获得,这一方法由Fiorenza-Kawai-Lê-Schwachhöfer在[Ann. Sc. Norm. Super Pisa (5), vol. XXII (2021), 79-107]中提出。我们证明了如果$n\leq \ell(r-1)+2$,且$\ell\geq 4$,则在最小单位$C_\infty$-代数$H^*(M,\mathbb{R})$上的乘法$\mu_k$对于所有$k\geq \ell-1$均消失。这扩展了[loc. cit.]中的结果,将维数限制从$5r-3$推广到一般限制$\ell(r-1)+2$。我们还证明了Zhou提出的变体结果,即如果$n\leq \ell(r-1)+4$且$b_r(M)=1$,则对于所有$k\geq \ell-1$,乘法$\mu_k$也均消失。这蕴含了Cavalcanti在[Math. Proc. Cambridge Philos. Soc. 141 (2006), 101-112]中给出的两个形式化结果。我们表明,在任意维数$n$下,Harrison上同调类$[\mu_3]\in \mathrm{HHarr}^{3,-1}(H^*(M,\mathbb{R}),H^*(M,\mathbb{R}))$是流形$M$的同伦不变量,并且是形式化的首个障碍;并且详细证明了如果$n\leq 4r-1$,这是唯一的障碍。此外,我们证明了在任意维数$n$下,类$[\mu_3]$与Crowley-Nordström在[J. Topol. 13(2020), 539-575]中引入的Bianchi-Massey张量彼此唯一定义。

代数拓扑
交换代数
微分几何
K-理论与上同调
55P62, 57R19, 13D03, 58A10
2025-03-30更新2023-10-30 发布

共 13511 条搜索结果

共 13511 条