分类
基于M-LLM的高效视频理解视频帧选择方法
多模态大型语言模型(M-LLM)在视频推理方面取得了显著进展。现有的多模态大型语言模型框架通常采用简单的均匀采样方法减少输入到M-LLM中的视频帧数量,特别是在处理长上下文视频时。然而,这种方法可能在视频的某些时段丢失关键上下文信息,导致下游M-LLM缺乏足够的视觉信息来回答问题。为了解决这一问题,我们提出了一种轻量级基于M-LLM的帧选择方法,该方法能够自适应地选择与用户查询更相关的帧。为了训练所提出的帧选择器,我们引入了两种监督信号:(i)空间信号,通过提示M-LLM获得单帧重要性评分;(ii)时间信号,通过提示大型语言模型(LLM)利用所有候选帧的字幕进行多帧选择。然后,所选帧由冻结的下游视频M-LLM进行视觉推理和问答处理。实验结果表明,所提出的M-LLM视频帧选择器在中等上下文(ActivityNet、NExT-QA)和长上下文视频问答基准(EgoSchema、LongVideoBench)上提升了多种下游视频大型语言模型(video-LLM)的性能。
QTM方法下XX自旋链的热力学
在量子转移矩阵方法中,磁场中XX链的自由能密度以两种替代的方式获得。在这两种情况下,证明都是完整且自洽的。所有中间构造均详细明确地呈现。
多用途视频取证网络MVFNet:利用多种取证证据
虽然视频可以通过许多不同方式被篡改,但大多数现有的取证网络只能检测单一类型的篡改(例如深度伪造、修补)。这带来了显著问题,因为用于篡改视频的方法在事先并不为人所知。为了解决这个问题,我们提出了MVFNet——一种能够检测多种类型篡改的多用途视频取证网络,包括修补、深度伪造、拼接和编辑。我们的网络通过提取并联合分析广泛的取证特征模态,捕捉伪造视频中的空间和时间异常来实现这一点。为了可靠地检测和定位各种大小的虚假内容,我们的网络采用了一种新颖的多尺度分层Transformer模块,以识别多个空间尺度上的取证不一致。实验结果表明,我们的网络在可能包含多种不同篡改的一般场景中达到了最先进的性能,并在目标场景中与专门的检测器相当。
FinAudio:金融应用中音频大语言模型的基准测试
音频大语言模型(AudioLLMs)在对话、音频理解以及自动语音识别(ASR)等任务上的性能已显著提升并受到广泛关注。然而,在金融场景中评估AudioLLMs仍缺乏相应的基准数据集,而如财报电话会议和CEO演讲等音频数据对金融分析和投资决策至关重要。本文介绍了首个面向金融领域的基准测试数据集——\textsc{FinAudio}。我们首先基于金融领域的独特特性定义了三项任务:1)短音频的ASR;2)长音频的ASR;3)长音频的总结。随后,我们整理了两个短音频数据集和两个长音频数据集,并开发了一个新颖的金融音频总结数据集,构成了\textsc{FinAudio}基准。接着,我们在\textsc{FinAudio}上评估了七种主流的AudioLLMs。我们的评估揭示了现有AudioLLMs在金融领域中的局限性,并为改进这些模型提供了洞见。所有数据集和代码都将公开发布。
确定性顶点连通性算法:基于公共邻居聚类与伪随机性方法
我们提出了一种确定性算法,用于在具有$n$个顶点和$m$条边的顶点加权图中计算全局最小顶点割,时间复杂度为$\widehat O(mn)$。这一结果打破了稠密图中长期存在的$\widehat \Omega(n^{4})$时间复杂度障碍(通过简单地计算所有顶点对的最大流可以实现)。在亚多项式因子范围内,我们匹配了由[Henzinger, Rao, 和 Gabow'00]提出的最快的随机化$\tilde O(mn)$时间算法,并肯定回答了[Gabow'06]提出的问题,即是否存在确定性的$O(mn)$时间算法,即使对于无权图也是如此。我们的算法适用于有向图。对于无权无向图,我们提出了一个更快的确定性$\widehat O(m\kappa)$时间算法,其中$\kappa\leq n$是全局最小顶点割的大小。当$\kappa$值适中时,这严格优于之前所有无权图中的确定性算法,其运行时间为$\widehat O(m(n+\kappa^{2}))$[Even'75]、$\widehat O(m(n+\kappa\sqrt{n}))$[Gabow'06]以及$\widehat O(m2^{O(\kappa^{2})})$[Saranurak 和 Yingchareonthawornchai'22]。最近,[Korhonen'24]展示了针对非常小的$\kappa$的线性时间算法。我们的方法以新颖的方式应用了[Blikstad, Jiang, Mukhopadhyay, Yingchareonthawornchai'25]最近引入的公共邻居聚类技术,例如在加权图和顶点扩张分解之上。我们还利用了计算复杂性社区常用的伪随机对象,包括基于[Wigderson 和 Zuckerman'99;TaShma, Umans 和 Zuckerman'01]分散器的交叉家族和基于[Guruswami, Umans 和 Vadhan'09;Cheraghchi'11]线性无损压缩器的选择器。据我们所知,这是选择器首次应用于图算法。
INSPIRE:探究恒星群体遗迹 VIII. 超紧致大质量星系中的发射线和紫外颜色
我们报告了通过INSPIRE项目(包括遗迹在内的超紧致大质量星系UCMGs的光学光谱中发现的发射线,这些遗迹是宇宙中最古老的星系。发射线诊断图表明,所有这些UCMGs无论其恒星形成历史如何,都属于“退休星系”。它们与正在形成恒星的星系不一致,但位于由激波驱动的发射或光致电离模型的相同区域,其中包括渐近巨星分支(pAGB)恒星的贡献。此外,除一个对象外,所有INSPIRE天体都具有较高的[OII]/Hα比值,这与正常大小的红色死寂星系所报告的结果相似。剩下的那个对象(J1142+0012)是唯一一个从光谱中显示出强烈活动星系核(AGN)活动证据的对象。我们还为匹配GALEX观测的20个(5个)INSPIRE天体提供了近紫外(远紫外)通量。它们的NUV-r颜色与位于紫外绿谷中的星系一致,但也与存在百分之一以下水平最近(<0.5 Gyr)形成的恒星相一致。这种中心近期的恒星形成可能是由于气体最初在pAGB阶段被喷出,然后通过行星状星云包层的冲击压缩并带回到核心而引发的。一旦进入核心,它可能会受到冲击并重新发射光谱线。
多量子比特系统的选择性和高效量子态层析成像
量子态层析成像(QST)是表征量子态的重要工具。然而,由于数据集和计算成本随量子比特数呈指数级增长,QST 对于重构多量子比特密度矩阵变得不切实际。在本文中,我们引入了一种选择性和高效量子态层析成像(SEEQST),该方法能够高效估计任意 N 量子比特密度矩阵中的多个选定元素。我们证明,任何 N 量子比特密度矩阵可以被划分为 2^N 个子集,每个子集包含 2^N 个元素。通过 SEEQST,可以从仅两个实验中准确估计任一子集,且只需单量子比特测量即可完成。无论希尔伯特空间维度如何,估算任何子集的复杂度保持不变,因此 SEEQST 可以用 2^(N+1) - 1 个实验找到完整的密度矩阵,而标准方法需要 3^N 个实验。我们提供了 SEEQST 实验的电路分解,假设全连接情况下,其最大电路深度随 N 的对数尺度增长。SEEQST 的 Python 代码已在 \href{https://github.com/aniket-ae/SEEQST}{github.com/aniket-ae/SEEQST} 公开提供。
如何组织线下、线上或混合黑客松——一份修订版规划工具包
黑客松及其类似的限时活动已成为全球现象。其在不同领域中的普及以及对多种目标的实用性,促使了各种形式的出现。尽管有许多关于如何筹备和举办黑客松的指南,但大多数指南专注于特定形式的活动,这些活动是为某个领域的特定目的而设计的,面向某种类型的参与者。这使得新手组织者难以决定如何举办适合自身需求的活动。为了解决这一问题,我们在2020年开发了最初的规划工具包,该版本主要关注当时占主导地位的线下黑客松。该工具包围绕组织黑客松时需要考虑的12个关键决策进行了构建。快进到2025年,经历了迫使所有活动转向线上的全球大流行之后,我们看到不同形式的活动——线下、线上和混合模式——在全球范围内展开,尽管它们各有价值,但在规划时需要考虑不同的因素。为了适应这些差异,我们决定通过在每个决策中增加讨论线下、线上和混合活动的优势和要求的部分,来更新最初的规划工具包。此外,我们修改了原有的时间表示例,以涵盖不同形式和类型的活动。同时,我们还基于持续组织和研究黑客松所获得的见解,对整个规划工具包进行了更新。主规划工具包可在线获取,而本报告旨在作为一个可下载和引用的资源。
几何组合学能否提升RNA分支预测的准确性?
之前针对tRNA和5S rRNA的研究表明,通过修改多分支环熵惩罚函数中的参数,可以显著提高二级结构预测的准确性。然而,由于当时尚未完全理解的原因,这两种家族整体上的改进幅度远低于单独考虑每个家族时的水平。本文解决了这一矛盾,发现每种家族都有其特有的目标区域几何结构,这种几何结构不仅彼此不同,也与其自身的二核苷酸洗牌结构显著不同。这需要一种更高效的方法来从分支参数空间计算所需信息,并对区域几何结构进行新的理论描述。所获得的见解强烈表明应考虑由多环参数变化产生的多种可能的二级结构。我们提供了原理证明结果,表明这种方法显著提高了Archive II基准数据集中另外8个家族的预测准确性。
IHEval:评估语言模型遵循指令层次结构的能力
指令层次结构通过从系统消息到用户消息、对话历史以及工具输出建立优先级顺序,对于确保语言模型(LMs)行为的一致性和安全性至关重要。尽管其重要性不言而喻,但这一主题却受到的关注有限,并且缺乏全面的基准来评估模型遵循指令层次结构的能力。我们通过引入IHEval填补了这一空白,该基准包含九个任务中的3,538个示例,涵盖了不同优先级指令对齐或冲突的情况。我们对流行语言模型的评估表明,它们在识别指令优先级方面存在困难。与原始指令遵循性能相比,所有评估的模型在面对冲突指令时都表现出显著的性能下降。此外,最具竞争力的开源模型仅在解决这些冲突方面达到48%的准确率。我们的结果强调了未来语言模型开发中需要有针对性优化的需求。
施瓦茨儿童黑洞的量子化面积:非厄米视角
本文旨在将贝肯斯坦提出的事件视界面积的量子化形式与已知为$\mathbb{PT}$对称的非厄米Swanson振荡器的哈密顿量联系起来。我们通过一个相似变换实现这一目标,该变换将非厄米量子系统映射到缩放后的谐振子。我们的方法是标准且广为人知的。首先,我们考虑不受约束的约化哈密顿量,它直接由施瓦茨儿童质量表达,并表明其共轭动量(代表渐近时间坐标)具有周期性,周期为霍金温度的倒数。这导致了事件视界面积以谐振子能级的形式被量子化。在Swanson振荡器框架内,我们进一步推导出霍金温度和黑洞熵的新表达式。值得注意的是,面积校正项的对数项-(1/2)$\ln$(面积)与我们的结果一致,而-(3/2) $\ln$(面积)则不一致。
高阻抗超导电路中由微波频率梳驱动的GKP量子比特耗散保护
我们提出了一种生成、保护和控制GKP量子比特的新方法。该方法利用微波频率梳参数调制约瑟夫森电路,强制高阻抗电路模式的耗散动力学,从而自主稳定有限能量的GKP码。编码后的GKP量子比特对超导电路中存在的所有主要退相干通道具有鲁棒的保护能力,但准粒子中毒除外。特别是,用于耗散工程的辅助模式中的噪声不会传播到逻辑层面。在最先进的实验设置中,我们估计编码量子比特的寿命可以比盈亏平衡点延长两个数量级,并且通过工艺和控制电子设备的进步还有很大的改进空间。可以在保持码稳定的同时进行量子比特初始化、读取和通过Clifford门的控制,为在容错量子计算架构中构建GKP量子比特铺平了道路。
自适应集成分层注意力机制(AILA)
我们提出了自适应集成分层注意力机制(AILA),这是一种结合密集跳跃连接与不同机制以实现跨网络层自适应特征重用的神经网络架构。我们在三个具有挑战性的任务上评估了AILA:多种商品及指数(标普500、黄金、美元期货、咖啡、小麦)的价格预测、使用CIFAR-10数据集进行图像识别以及IMDB电影评论数据集上的情感分析。在所有情况下,AILA均达到了强大的深度学习基线模型(LSTM、Transformer和ResNet)的表现水平,但其训练和推理时间仅为基线模型的一小部分。值得注意的是,我们实现了两种版本的模型——AILA架构1,采用简单的线性层作为层间连接机制;AILA架构2,实施了注意力机制以选择性地关注从前一层输出的信息。这两种架构均应用于单任务学习场景,每个模型分别针对具体任务进行独立训练。结果表明,AILA的自适应层间连接通过灵活重用多层网络中的相关信息特征,带来了稳健的性能提升。因此,AILA方法是对现有架构的一种扩展,能够提高长距离序列建模能力、优化计算速度的图像识别性能以及实际应用中的SOTA分类效果。
甲醇作为友好的密度探针:校准及其应用
星系形成的所有物理过程都高度依赖于分子气体的数密度。然而,估算这一关键属性的方法往往基于对几何结构的不确定假设,依赖过于简化的均匀模型,或者需要耗时的观测来约束气体温度。目前尚缺乏一种在实际条件下易于使用的、推导n(H2)的方法,这导致了这一参数的估计精度以及专用示踪剂的使用频率,与气体温度的估计相比存在不对称性。我们提出并校准了一种基于CH3OH谱线的多功能工具,极大地简化了数密度推断的过程。CH3OH在冷气和热气中均很丰富,因此它可以应用于广泛的尺度。此外,该工具不需要针对特定源属性(例如距离、温度和质量)进行调整。我们进行了辐射转移计算,研究了在密度和温度梯度存在的情况下,线比作为密度探针的稳健性。我们发现,(2_K-1_K)带跃迁的比例在5 x 10^4至3 x 10^7 cm^-3范围内,可以约束视线方向上的平均n(H2),误差范围为2到3倍。当结合(5_K-4_K)和/或(7_K-6_K)带的线比时,该范围可扩展至几百个cm^-3。我们提供了实用的解析公式和数值方法,用于从线比推导n(H2)及其不确定性。通过我们的校准和分析方法,n(H2)的估算变得更加简单,其工作量与推导Tex相当,有助于缩小分子气体这两个基本参数之间的差异。我们将该方法应用于ATLASGAL TOP100样本的一个子集,表明团块中的物质正在被压缩,并在最后阶段加速。
使用qudit交换算符的量子最大$d$-割问题
对于qubit系统的量子最大割(QMC)问题是局部哈密顿量问题的一个例子,并且是计算复杂性理论中的一个突出范例。本文研究了更高维度的QMC问题对于qudit系统的类比的代数结构。量子最大$d$-割(d-QMC)问题旨在寻找定义在具有$n$个顶点的图上的哈密顿量的最大特征值,其边对应于作用于$(\mathbb{C}^d)^{\otimes n}$上的交换算符。由交换算符生成的代数被识别为自由代数模去对称群关系以及一个额外的$d$次关系的商代数。这种表述导致了一种专门的半定规划层次结构,利用非交换多项式优化(NPO)方法,收敛到d-QMC问题的解。对于一大类完全二分图,利用对称群表示论得到了d-QMC问题的精确解,这特别包括$n$个顶点的团图和星图的d-QMC问题,适用于所有$d$和$n$。最后,论文讨论了一个细化的d-QMC问题,专注于找到图哈密顿量中每个同构成分(不可约块)的最大特征值。结果显示,星图哈密顿量的谱可以区分3-QMC问题的同构成分。对于一般的$d$,给出了分离同构成分的低次关系,从而能够调整全局NPO层次结构以有效地计算每个同构成分的最大特征值。
蛋白质聚集的种子动力学:理论与应用
“接种”是指向单体蛋白溶液中添加预先形成的纤维状聚集体,以加速其形成新的纤维状聚集体的过程。作为一种通用且广泛使用的工具,“接种”使科学家能够分离并单独研究蛋白质聚集过程中贡献于纤维延伸和二次成核等离散反应步骤,但由于缺乏适用于中高接种水平且普遍适用于常见反应机制的综合速率定律,这些步骤各自所需的接种量主要通过试错方法确定。本文改进了一种基于李对称性的微分方程求解数学方法,并由此推导出上述综合速率定律。我们进一步发展了用于计算隔离各步骤所需接种量的简单表达式,解释了实验观察到的必须将纤维状种子分解为小片段才能成功隔离延伸的现象,并推导了聚集反应不同时间点上的平均纤维长度表达式,探讨了不同的纤维破碎方法。本文将为未来采用接种技术的实验和理论研究提供宝贵的参考,并有望实现比以往更精细的分析。
Schmid过渡中量子临界线的鲁棒性
Schmid预测,一个单个约瑟夫森结耦合到电阻环境时,当分流电阻\( R \)超过量子电阻\( h/(4e^2) \)时,会经历一个量子相变进入绝缘态。近期的测量和理论研究引发了关于这一转变位置是否依赖于约瑟夫森能量与电荷能量比值的争议。我们采用多种创新的解析和数值技术(这些技术之前从未明确应用于该问题),明确证明了超导与绝缘行为之间的转变线确实独立于这一能量比值。首先,我们应用场论重正化群方法,并发现约瑟夫森能量展开到第三阶时,临界线上\(\beta\)函数为零。然后,我们识别出一个简单的费米子模型,能够精确描述临界线上低能物理,而与能量比值无关。通过比较这一共形不变费米子模型的预期能谱与电阻分流约瑟夫森结的精确对角化计算结果,验证了模型的准确性,即使对于中等系统尺寸也表现出极好的一致性。尤为重要的是,这一识别提供了严格的非微扰证明:转变线在\( R = h/(4e^2) \)处保持不变,无论约瑟夫森能量与电荷能量的比值如何。这条转变线还对其他紫外截断(如电阻环境的等离子体频率)具有鲁棒性。最后,我们采用绝热方法验证了大约瑟夫森能量下的对偶性。
预训练卷积神经网络及基础模型作为基于内容的医学图像检索特征提取器的评估
医学图像检索是指在数据库中为给定查询图像找到相似图像的任务,其应用包括诊断支持。传统医学图像检索依赖于临床元数据,而基于内容的医学图像检索(CBMIR)则依赖于图像特征,这些特征可以自动或半自动地提取。许多方法已被提出用于CBMIR,其中利用预训练卷积神经网络(CNNs)是一种广泛应用的方法。然而,考虑到计算机视觉任务中基础模型的最新发展,也可以研究它们在CBMIR中的应用。本研究使用了来自知名预训练CNN和预训练基础模型的多个预训练特征提取器,并调查了八种二维(2D)和三维(3D)医学图像的CBMIR性能。此外,我们还研究了图像尺寸对CBMIR性能的影响。我们的结果显示,总体而言,对于2D数据集,基础模型在性能上明显优于CNNs,通用计算病理学自监督模型(UNI)在所有数据集和图像尺寸上的整体表现最佳。对于3D数据集,CNNs和基础模型表现出更具有竞争力的性能,组织病理学对比学习模型(CONCH)实现了最佳的整体性能。此外,我们的研究结果证实,虽然使用更大的图像尺寸(特别是在2D数据集上)可以获得稍好的性能,但即使使用较小的图像尺寸,仍然可以实现竞争性的CBMIR性能。我们的代码可在以下网址复现结果:https://github.com/masih4/MedImageRetrieval。
基于新型分析方法扩展加速扩散模型的目标分布
加速扩散模型有望显著提高标准扩散过程的效率。理论上,这些模型已经显示出比普通扩散模型的标准$\mathcal O(1/\epsilon^2)$收敛率更快的收敛速度,其中$\epsilon$表示目标精度。然而,目前的理论研究仅在对目标分布类施加了平滑条件或有界支持等限制条件下证明了加速优势。在这项工作中,我们通过一种新的加速随机DDPM采样器显著扩展了目标分布类。具体而言,我们证明其对于之前未考虑的三大类广泛分布实现了加速性能。我们的第一类分布仅需对目标密度$q_0$施加平滑条件,这比现有沿整个采样路径对所有$q_t$施加的平滑条件更为宽松。我们的第二类分布仅需有限的二阶矩条件,允许的目标分布类远比现有的有限支撑条件宽泛。我们的第三类分布为高斯混合分布,对此我们的结果首次建立了加速保证。此外,在针对有界支撑分布的加速DDPM类型采样器中,我们的结果展示了对数据维度$d$依赖性的改进。我们的分析通过构建收敛误差的倾斜因子表示,并利用Tweedie公式处理泰勒展开项,引入了一种新颖的技术来建立性能保证。这一新的分析框架可能具有独立的研究兴趣。
环形谐振器系统中脉冲压缩态产生建模与优化
我们提出了一种半解析形式,用于计算通道波导与损耗环形谐振器侧耦合情况下的压缩和反压缩光谱。我们的方法首先利用环内密度矩阵的半解析演化直至压缩达到最大值的时间点。然后注意到在较晚时间忽略泵浦效应可得到保守的近似压缩结果,我们计算了通道波导中所有较晚时刻的场算符自由演化。随后,假设测量从环内压缩达到最大值时开始,我们计算波导中的四极压缩光谱。利用这些结果,我们确定了泵浦脉冲持续时间和幅度以及泵浦和信号的环-通道耦合的最佳值。研究发现,在反压缩水平低于22分贝的情况下,通道中可以轻松实现超过10分贝的压缩。
共 13511 条搜索结果
共 13511 条