分类
视频-R1:多模态大型语言模型中视频推理的强化
受DeepSeek-R1通过基于规则的强化学习(RL)激发推理能力成功的启发,我们引入了视频-R1,这是首次系统性探索R1范式以激发多模态大型语言模型(MLLMs)中视频推理的尝试。然而,直接应用GRPO算法进行视频推理的强化学习训练面临两大主要挑战:(i)缺乏对视频推理的时间建模,以及(ii)高质量视频推理数据的稀缺性。为了解决这些问题,我们首先提出了T-GRPO算法,该算法鼓励模型利用视频中的时间信息进行推理。此外,我们没有仅仅依赖视频数据,而是将高质量的图像推理数据纳入训练过程。我们构建了两个数据集:Video-R1-COT-165k用于SFT冷启动,Video-R1-260k用于RL训练,这两个数据集均包含图像和视频数据。实验结果表明,视频-R1在视频推理基准测试如VideoMMMU和VSI-Bench,以及通用视频基准测试如MVBench和TempCompass等方面取得了显著改进。值得注意的是,视频-R1-7B在视频空间推理基准测试VSI-Bench上的准确率达到35.8%,超过了商业专有模型GPT-4o。所有代码、模型和数据均已开源。
关于't Hooft-Veltman方案中两圈Feynman积分有限基底的研究
在这项工作中,我们研究了标准模型中't Hooft-Veltman方案下维正则化的两圈Feynman积分的有限基底拓扑结构。我们提出了一个在功能上不同的有限主积分基底,该基底涵盖了所有外部动量在四维中的两圈Feynman积分的整个超越空间。我们还指出,在适当的基底下,具有超过8个分母的所有两圈主积分都不会对任何两圈散射振幅的有限部分作出贡献。此外,我们详细讨论了't Hooft-Veltman分解在利用AMFlow和DCT包进行Feynman积分数值计算性能改进方面的应用。另外,我们分析了出现在任意两圈散射振幅中的特殊函数及其对应的几何结构。我们的工作将有助于减少提供未来高多重性对撞机可观测量高精度预测所需的计算复杂度,无论是解析还是数值方法。
可积模型中的绝热量子态制备
我们提出将绝热算法应用于量子计算机上制备可积模型的高能本征态。首先,我们回顾了在典型XXZ海森堡链的每个磁化扇区中制备基态的标准绝热算法。基于热力学Bethe假设,我们证明该算法的电路深度在qubit数量\( N \)上呈多项式增长,优于先前明确依赖于可积性的方法。接下来,我们提出了一种协议,用于制备满足某些条件的可积模型的任意本征态。对于给定的目标本征态,我们构建了一个合适的母哈密顿量,其形式为完整的局部守恒量集。我们建议将此哈密顿量作为绝热算法的输入。在非相互作用XY自旋链的情况下对该构造进行基准测试后,我们证明了其效率,并将其应用于制备Richardson-Gaudin模型的任意本征态。在这种情况下,我们提供了数值证据表明,尽管这些模型是相互作用的,但我们的算法的电路深度对所有本征态均为\( N \)的多项式。
关于两变量不变序逻辑的表达能力和复杂性
不变序一阶逻辑是第一-order逻辑(FO)的一个扩展,其中公式可以利用结构上的线性序,但要求其真值对于所有线性序保持不变。我们继续研究Zeume和Harwath发起的两变量片段不变序一阶逻辑,并探讨其复杂性和表达能力。首先,我们证明了判定一个给定的两变量公式是否为不变序的问题是coNExpTime-完全的,这改进并显著简化了Zeume和Harwath的coN2ExpTime证明。其次,我们讨论了每一个可以用不变序两变量逻辑表达的性质是否也可以在不使用线性序的情况下用一阶逻辑表达的问题。我们怀疑答案是否定的。为了支持我们的观点,我们给出了一类有限树状结构(度数无界),其中一种松弛版本的不变序两变量FO可以表达出不能在一阶逻辑中定义的性质。相比之下,我们证明了如果限制在度数有界的结构类上,则不变序两变量FO的表达能力包含在FO中。
在$\tilde{\mathcal{O}}(\log^2 n)$时间内维护双连通性的全动态算法
我们提出了一种确定性的全动态数据结构,用于维护图中割顶(即删除后会断开图的顶点)的信息。该数据结构支持边的插入与删除以及连接顶点对是否双连通的查询,并在后者情况下支持访问分离割顶的操作。所有更新操作的摊还时间为$O(\log^2 n \log^2 \log n)$,查询操作的最坏时间为$O(\log n \log^2 \log n)$。需要注意的是,这些时间界限与当前最佳的确定性动态连通性算法相比仅相差$\log \log n$因子。我们通过一系列从原问题到定义明确的数据结构问题的约简得到了改进的运行时间。虽然我们确实应用了已知的技术来提高两连通性问题的运行时间[STOC'00, SODA'18],但单独使用这些技术无法达到$\tilde{O}(\log^3 n)$的时间界限,更不用说我们最终得到的$\tilde{O}(\log^2 n)$结果了。我们的贡献包括一个形式化定义的瞬时暴露操作,可以看作是在拓扑树上的一个成本较低的只读暴露操作。对于图中的每个顶点,我们在其邻居上维护一个数据结构,并在此数据结构中应用两次偏置以节省两个$\tilde{O}(\log n)$因子。其中一种偏置技术是一种新的带偏置的不相交集数据结构,可能具有独立的研究价值。此外,在这个邻域数据结构中,我们允许顶点选择两个VIP邻居,获得特殊处理,对应于其潜在的两条暴露路径上的邻居,从而将一个耗时$\log n$的操作优化为常数时间。正是这种VIP邻居与瞬时暴露的结合,从另一个瓶颈中节省了一个$\tilde{O}(\log n)$因子。
关于具有两行的通用 $Δ$-模整数矩阵
列数问题旨在确定一个整数矩阵的最大列数,该矩阵的所有秩大小的子式在绝对值上都被固定参数 $Δ$ 所限制。近年来在不同背景下证明了多项式的上界,这对整数线性规划和拟阵论中的算法问题产生了影响。本文聚焦于两行且无零 $2$-子式的此类矩阵最大列数的确切确定。我们证明,当 $Δ$ 足够大时,该数量是一个拟线性函数,非递减且始终为偶数。这类列数函数的基本结构性质鲜为人知,但预计在其他背景下也成立。此外,我们的结果识别出了一类可表示为 $Δ$-次模矩阵的拟阵所对应的唯一排除(共)秩二子式。
慢快-LLaVA-1.5:面向长视频理解的高效令牌视频大型语言模型家族
我们提出了慢快-LLaVA-1.5(简称SF-LLaVA-1.5),这是一组提供高效解决方案的视频大型语言模型(LLMs),用于长视频理解。我们将两流慢快机制整合到一个精简的训练管道中,并在仅包含公开可用数据集的精心策划的数据混合体上进行联合视频-图像训练。我们的主要重点是高度高效的模型规模(1B和3B),证明即使相对较小的视频LLMs也可以在视频理解任务中达到最先进的性能,满足移动友好型模型的需求。实验结果表明,SF-LLaVA-1.5在各种视频和图像任务上表现出色,在所有模型大小(从1B到7B)下均具有稳健的结果。值得注意的是,SF-LLaVA-1.5在长视频理解(例如LongVideoBench和MLVU)方面取得了最先进的成果,并在各种视频基准测试中小规模下表现出色。
CLAIMCHECK:科学论文LLM批评的依据有多扎实?
科学同行评审的核心部分涉及提供专家评论,直接评估论文提出的科学主张。虽然现在可以自动生成看似合理(尽管通用)的评论,但确保这些评论基于论文主张且合理仍然具有挑战性。为了促进大型语言模型(LLMs)在这些挑战上的基准测试,我们引入了CLAIMCHECK,这是一个来自OpenReview的NeurIPS 2023年和2024年提交论文及其评论的数据集,并由机器学习专家对其进行丰富注释,包括评论中的弱点陈述以及它们所质疑的论文主张,以及对所识别弱点的有效性、客观性和类型的细粒度标签。我们利用CLAIMCHECK支持的三种以主张为中心的任务对多个LLMs进行基准测试,要求模型完成以下任务:(1)将弱点与它们所质疑的主张关联起来;(2)预测弱点的细粒度标签并改写弱点以增强其特异性;(3)通过有依据的推理验证论文的主张。我们的实验表明,尽管最先进的LLMs在任务(2)中能够预测弱点标签,但在其他所有任务上相对于人类专家的表现仍显不足。
高维独立性检验的强大自助法测试
本文提出了一种非参数独立性检验方法,用于检验一个随机变量是否与其他大量随机变量相互独立。该检验统计量为多个Chatterjee秩相关系数的最大值,临界值通过块乘法自助法计算。理论分析表明,即使变量个数远大于样本容量,该检验在一大类数据生成过程中仍能渐近控制检验水平,并且对任何固定的替代假设一致。此外,该检验可以结合逐步程序选择违反独立性的变量集合,同时控制族错误率。所有正式结果均未对池中变量间的依赖关系施加任何限制。模拟结果显示,我们的检验方法非常强大,在大多数考虑的情景下优于现有方法,尤其是在高维情形或池中变量存在依赖关系时。
如 PIE 一样简单:理解剪枝为何会导致语言模型产生分歧
语言模型(LM)剪枝通过移除权重、节点或其他架构部分来压缩模型。通常情况下,剪枝侧重于效率提升而牺牲了有效性。然而,当观察单个数据点在剪枝过程中的影响时,发现特定子集的数据点始终承受了大部分的准确性下降,但在报告所有数据点的平均准确性时这一影响被忽略。这些数据点被称为 PIE(Pruning Impact Examples),已在图像处理领域研究过,但在自然语言处理(NLP)中尚未研究。通过对多种 NLP 数据集、剪枝方法以及不同压缩水平的研究,我们发现 PIE 对推理质量有显著影响,且不受类别频率的影响,同时发现 BERT 比 BiLSTM 更容易受到 PIE 的影响。此外,我们还发现 PIE 包含大量对模型泛化到未见过数据的表现具有最大影响的数据点。这意味着在剪枝过程中,尽管所有数据点的总体准确性损失看似较小,但实际上严重损害了最重要的那些数据点。我们将 PIE 对推理造成困难和重大影响的原因归结为它们整体上更长且语义更复杂的文本。这些发现是新颖的,并有助于理解 LM 在剪枝过程中的影响。代码可在 https://github.com/pietrotrope/AsEasyAsPIE 获取。
现象学增长模型在流行病预测中的结构性与实用性可识别性研究
现象学模型是利用现实世界数据预测疾病传播动态的强大工具,尤其是在对疾病机制了解有限的情况下。然而,这些模型的可靠性依赖于参数的结构性与实用性可识别性。本研究系统分析了流行病学中常用的六种增长模型的可识别性:广义增长模型、广义Logistic模型、Richards模型、广义Richards模型、Gompertz模型以及具有非均匀混合的改进SEIR模型。为解决这些模型中非整数幂指数带来的挑战,我们通过引入额外的状态变量重新构建模型,并利用JULIA语言中的StructuralIdentifiability.jl软件包进行严格的结构性可识别性分析。我们通过GrowthPredict MATLAB工具箱对参数估计和预测进行验证,该工具箱基于现象学增长模型拟合和预测时间序列轨迹。我们将其应用于三种流行病学数据集:猴痘、COVID-19和埃博拉的每周发病率数据。此外,我们通过蒙特卡洛模拟评估了实际可识别性,以检验不同观测噪声水平下参数估计的稳健性。结果表明,在所提出的重构下,这六种模型均具有结构性可识别性。进一步的实际可识别性分析显示,尽管不同模型和数据集对噪声的敏感性有所差异,但参数估计在各种噪声水平下保持稳健。这些发现为现象学模型刻画流行病传播轨迹提供了重要见解,强调了其适应现实世界挑战的能力及其在公共卫生干预中的作用。
基于分层贝叶斯分析研究在线国际象棋中的经验效应
胜负效应的存在与否是体育和心理学研究中广泛讨论的现象。然而,这类效应的研究常常受到数据可用性的限制。近年来,在线国际象棋的流行程度激增,提供了大量可用于探索这一问题的数据。通过分层贝叶斯回归模型,我们仔细研究了在线国际象棋中此类经验效应的存在情况。利用大量的在线国际象棋数据,我们发现所有玩家一致的经验效应几乎没有证据支持,但个别玩家显示出一些这样的效应证据。鉴于这些数据的时间特性具有挑战性,我们讨论了几种评估模型适用性的方法,并严格检查了模型的有效性。
声腔中散射体诱导的复杂压力节点形成与共振现象
声学驻波声腔中的压力节点对声学介导的组织工程、细胞分析及颗粒操控等应用至关重要。通常情况下,在半波长共振条件下仅会形成单一主节点,其形状和位置受通道尺寸限制。然而,在生物医学应用中,生成额外节点并对其位置和形状加以控制的需求十分强烈,这将显著提升颗粒操控能力。为探索这一潜力,我们通过数值模拟展示了在矩形腔体内,一个圆形散射体旁除主节点外还能形成额外的复杂形状节点。我们识别出三种不同类型的节点:环状节点、凸起节点和新月形节点,其形成取决于散射体的大小、放置于通道中央的位置及其对应的共振频率。这种节点形成的背后机制是内部反射增强,从而促进破坏性干涉以生成节点。为此,我们采用了三个关键概念:采用低宽高比的通道、在通道中央放置刚性圆形散射体,并将所有表面建模为完美反射器。此外,我们分析了散射体对声压和品质因子(定义为每周期储存的声能与阻尼声能之比)的影响。结果显示,在散射体存在的情况下,虽然可以产生额外的节点,但代价是通道内的声压和能量减少。综上所述,本研究为在驻波声腔中利用基频生成复杂节点提供了信息,这对声流控设备中的颗粒操控具有广泛的应用价值。
连续区束缚态在细线介质中的研究
我们证明由细平行金属丝组成的薄板状细线介质能够自然支持一种以非同寻常方式形成的连续区束缚态(Bound States in the Continuum, BICs)。这些揭示出的BICs出现的原因在于强烈的空间色散效应,这使得纵向类等离子体波以及具有平带特性的横电磁(TEM)偏振模式的传播成为可能。对称保护的(位于$\Gamma$点处的)BICs是由纵向类等离子体波与周围空间横向平面波之间的极化失配造成的,而意外产生的(偏离$\Gamma$点的)BICs则是由于块体TEM模式与等离子体模式之间的干涉抵消所导致。所有揭示出的BICs都可以在有效介质近似下进行良好的解析描述,此时细线介质表现为各向异性的一维均匀等离子体,并且无需借助布洛赫定理。
关于Bianchi模形式的Ramanujan和Sato-Tate猜想
我们证明了Bianchi模形式在权大于等于2时的Ramanujan和Sato-Tate猜想。更一般地,我们证明了对于任意CM域$F$上的$\mathrm{GL}_2(\mathbf{A}_F)$的所有正则代数尖点自守表示(平行权),这些猜想也成立。我们从一个新的关于Galois表示对称幂的潜在自同构定理出发,推导出这些结果,该定理适用于平行权的二维相容系统。
国内表示类型块中的平凡源特征标
设 $G$ 是偶数阶有限群,$k$ 是特征为 2 的代数闭域,并且 $B$ 是群代数 $kG$ 中具有国内表示类型的块。在辉煌Morita等价的意义下,仅有三种情形可能发生:$kV_4$、$k\mathfrak{A}_4$ 和 $k\mathfrak{A}_5$ 主块。对于每种情形,给定 $B$ 的普通不可约特征标的特征值后,我们确定了所有平凡源 $B$-模的普通特征标。
椭圆曲线在虚二次域上的模性
本文建立了任意虚二次域$F$上椭圆曲线$E/F$的模性,其中$F$取遍无穷多个虚二次域,包括$\mathbb{Q}(\sqrt{-d})$($d=1,2,3,5$)。更具体地说,设$F$为虚二次域,并假设模曲线$X_0(15)$(作为$\mathbb{Q}$上的秩为$0$的椭圆曲线)在$F$上的秩也为$0$,我们证明了$F$上所有的椭圆曲线都是模的。更一般地,当$F/\mathbb{Q}$为不含原五次单位根的虚CM域时,我们在$\mathrm{Gal}(\overline{F}/F)$对$E[3]$或$E[5]$的表示图像满足一定技术条件的前提下,证明了$E/F$的模性。我们所使用的新的关键技术工具是局部-整体相容性定理,该定理涉及与相关局部对称空间上同调的挠点相关的$p$-进Galois表示。我们在结晶情形下建立了这一结果,但在某些技术假设下允许任意维数、任意大的正则Hodge-Tate权以及$p$在虚CM域$F$中取较小值且高度分歧的情况。
非交换变量形式级数的有效类及其应用中的可换性问题
有理数域上的非交换变量$\Sigma$的形式级数是从$\Sigma^*$到$\mathbb Q$的映射。如果输出值不依赖于输入符号的顺序,则称该级数为可换的。对于一类级数的可换性问题,其输入是该类中一个(有限表示的)级数,并且目标是确定它是否是可换的。这是一个非常自然但并不平凡的问题,之前从未从算法的角度进行过考虑。我们证明了对于所有构成所谓有效预簇(generalizing Reutenauer的形式级数簇的概念)的级数类,可换性是可判定的。例如,Schützenberger在20世纪60年代引入的有理级数类,众所周知是一个有效的(预)簇,因此对于它来说可换性问题是可判定的。为了展示我们的结果的适用性,我们考虑了推广有理级数类的形式级数类。我们研究了多项式自动机、shuffle自动机和渗滤自动机,并证明每个模型都识别出一个有效预簇的形式级数。因此,它们的可换性问题是可判定的,这是一个新的结果。我们发现,对于如此不同的计算模型,可换性可以在统一的方式下被判定,这一点令人印象深刻。最后,我们将可换性问题的应用扩展到形式级数理论之外。我们展示了可以决定某些受限类代数差分和微分方程的序列和幂级数的可解性,对于这些问题在完全一般的情况下是不可判定的。通过这些,我们能够证明多元多项式递归序列和构造可微代数幂级数的语法是有效的,这些都是先前工作中遗留下的新结果。
快速Pose三角测量:毫秒级多视角多人全身人体姿态三角测量
多视图成像与姿态估计的结合在计算机视觉应用中代表了重要进展,为理解人类运动和交互提供了新的可能性。本文提出了一种新算法,改进了多视角多人姿态估计,重点在于快速三角测量速度和良好的泛化能力。该方法扩展到全身姿态估计,能够捕捉从面部表情到手指动作的细节,并适用于多个个体和视角。通过在未见数据集和配置中的强大表现,展示了对不同环境的适应性。为了支持该领域的进一步发展,本研究的所有工作均公开可用。
凸团队逻辑
我们证明了凸命题逻辑和模态团队逻辑的表达完全性结果,其中逻辑的凸性是指对于每个公式,如果它在两个团队 \( t \) 和 \( u \) 中为真且 \( t \subseteq s \subseteq u \),则它在 \( s \) 中也为真。我们引入了多个具有凸命题/模态团队属性表达完全性的命题/模态逻辑。我们还回答了一个关于经典命题逻辑扩展非空原子 NE 的表达能力的开放问题:我们证明其对于所有凸且并封闭的属性是表达完全的。这一模态逻辑的类似结果进一步得到了 Aloni 的基于双边状态的模态逻辑的表达完全性定理。从某种意义上说,其中一个新提出的命题凸逻辑扩展了命题依赖逻辑,另一个则扩展了命题求知逻辑。我们推广了团队语义文献中考虑的均匀定义概念,以形式化凸逻辑的扩展概念。
共 13511 条搜索结果
共 13511 条