分类
自由概率中的量子混沌特征
经典的动力学系统可以看作是装备了保测变换映射的概率空间,其相空间上的有界函数代数可以提供纯代数形式的表述。类似地,量子动力学系统可以通过非交换概率空间中的有界算子代数以及时间演化映射来表述。无论在哪种设定下,混沌都可以通过 $ t = 0 $ 和 $ t \to \infty $ 时刻可观测量之间的统计独立性来刻画,从而导致涉及这些可观测量的累积量消失。在量子情形下,独立性的概念被自由独立性所取代,而自由独立性仅在热力学极限(渐近自由性)中出现。本文基于渐近自由性提出了一种量子混沌的定义,并研究了其在包含混合场Ising模型、随机磁场版本的高自旋模型以及SYK模型在内的量子多体系统中的出现情况。渐近自由性的标志是 $ A(0) + B(t) $ 形式的算符谱符合自由卷积预测的出现,这表明在热力学极限下无限温度热态中 $ A(0) $ 和 $ B(t) $ 之间的所有自由累积量都趋于零。我们系统地研究了上述模型中 $ A(0) + B(t) $ 的谱属性,证明了自由卷积预测之上的涨落遵循普适的Wigner-Dyson统计规律,并讨论了其与量子混沌的关系。最后,我们论证了自由概率论为理解量子混沌提供了严格框架,提供了一个统一视角,连接了量子混沌的多种表现形式。
三种人工智能伦理
人工智能伦理领域的研究成果数量庞大且增长迅速,由于其多学科性质,追踪相关辩论并系统地界定人工智能伦理学家所需的目标、研究问题、方法及专业知识变得十分困难。本文指出,人工智能与伦理之间的关系至少可以从三种方式来理解,这对应于三种代表性的人工智能伦理:伦理与人工智能;人工智能中的伦理;人工智能的伦理。本文阐明了这三种人工智能伦理的特点,界定了各自的研究问题,并识别了每种伦理类型所需的专业知识。同时,本文还表明,某些对人工智能伦理的批评之所以不当,是因为它们从一种人工智能伦理的角度出发,却针对另一种目标不同的伦理类型。总的来说,这项工作揭示了人工智能伦理的本质,并为更明智地讨论人工智能伦理学家的范围、方法和培训奠定了基础。
进阶聚焦Transformer用于单图像超分辨率
基于Transformer的方法在图像超分辨率任务中取得了显著成果,因为它们能够捕捉低质量输入图像中的非局部依赖关系。然而,这种特征密集建模方法计算成本高昂,因为在获取注意力权重时,它需要计算大量与查询特征无关的特征之间的相似性,这些不必要的相似性计算不仅降低了重建性能,还引入了显著的计算开销。如何准确识别对当前查询特征重要的特征并避免无关特征之间的相似性计算仍然是一个亟待解决的问题。为了解决这一问题,我们提出了一种新颖且有效的进阶聚焦Transformer(PFT),通过进阶聚焦注意力(PFA)将网络中的所有孤立注意力图连接起来,集中注意力于最重要的标记。PFA不仅使网络能够捕获更多关键的相似特征,而且通过在计算相似性之前过滤掉无关特征,显著降低了整个网络的计算成本。大量的实验表明,所提出的方法在各种单图像超分辨率基准测试中达到了最先进的性能。
沙漠绿洲:一张图片即可满足多模态指令数据合成
多模态大型语言模型(MLLMs)的成功在很大程度上归因于大规模训练数据的支持。然而,由于隐私问题,许多MLLMs的训练数据无法获得,而收集多模态数据的过程既昂贵又费时,进一步加剧了这一问题。是否可以不损害多样性和质量的情况下自动合成多模态训练数据?本文提出了一种名为“沙漠绿洲”(Oasis)的新方法,仅通过图像即可合成高质量的多模态数据。Oasis突破了传统方法的限制,仅通过提示图像给MLLMs来扩展数据多样性。我们的方法还包含一种精细的质量控制机制,确保数据质量。我们收集了超过50万条数据,并在LLaVA-NeXT上进行了增量实验。大量实验证明,我们的方法能够显著提升MLLMs的性能。基于图像的合成也使我们可以专注于MLLMs在特定领域的能力。代码和数据集已公开发布于https://github.com/Letian2003/MM_INF。
针对Solidity编译器和分析器测试的有界穷尽随机程序生成方法
随机程序生成器通常表现出机会主义特性:它们在编程语言定义的巨大搜索空间内生成程序时缺乏明确目标。这种机会主义行为阻碍了生成能够触发编译器和分析器漏洞的程序,即使这些程序与生成的程序非常相似。为了解决这一局限性,我们提出了一种新颖的方法——有界穷尽随机程序生成,旨在通过聚焦程序生成的搜索空间,更快速地识别触发漏洞的程序。我们的方法包括两个阶段:1)生成随机程序模板,这些模板是包含与漏洞相关占位符的不完整测试程序;2)对这些模板中每个占位符的有效值进行有界穷尽枚举。为了确保效率,在模板生成阶段维护一个可解约束集,并在穷尽枚举阶段系统地探索这些约束内占位符的所有可能值。我们针对以太坊区块链流行的智能合约语言Solidity实现了这种方法,并开发了一个名为Erwin的工具。根据最近的一项Solidity编译器漏洞研究,Erwin使用的占位符与通常与编译器漏洞相关的语言特性密切相关。Erwin成功识别了两个Solidity编译器(solc和solang)以及一个静态分析工具slither中的23个未知漏洞。评估结果表明,Erwin在漏洞检测方面优于最先进的Solidity模糊测试工具,并通过覆盖solc编译器中4,582个未被单元测试触及的边沿以及14,737行代码,补充了开发者编写的测试套件。
解锁HyDRa:混合融合、深度一致性与雷达的统一3D感知
近年来,以低成本视觉为中心的自动驾驶3D感知系统取得了显著进展,缩小了与昂贵的基于LiDAR方法之间的差距。然而,成为完全可靠的替代方案的主要挑战在于具备鲁棒的深度预测能力,因为基于摄像头的系统在长检测范围以及不良光照和天气条件下表现不佳。在这项工作中,我们引入了HyDRa,这是一种用于多样化3D感知任务的新颖摄像头-雷达融合架构。HyDRa基于密集BEV(鸟瞰图)架构的原则,提出了一种混合融合方法,结合互补摄像头和雷达特征在两种不同表征空间中的优势。我们的Height Association Transformer模块利用透视视图中的雷达特征,生成更鲁棒和准确的深度预测。在BEV中,通过Radar加权的深度一致性对初始稀疏表示进行优化。HyDRa在公开的nuScenes数据集上实现了新的最先进性能,其64.2 NDS(+1.8)和58.4 AMOTA(+1.5)的融合结果达到了前所未有的高度。此外,我们的新语义丰富且空间精确的BEV特征可以直接转换为强大的占用表示,在Occ3D基准测试中超越所有先前基于摄像头的方法,提高了3.7 mIoU。代码和模型可在https://github.com/phi-wol/hydra获取。
万能模型:开放且先进的大规模视频生成模型
本文介绍了万能模型(Wan),这是一套全面且开源的视频基础模型套件,旨在推动视频生成领域的边界。基于主流的扩散变换器范式,通过一系列创新,包括我们提出的新型变分自编码器(VAE)、可扩展的预训练策略、大规模数据整理以及自动化评估指标,Wan在生成能力方面取得了显著进步。这些贡献共同提升了模型的性能和多功能性。具体而言,Wan具有四个关键特征:领先性能:140亿参数的Wan模型在包含数十亿图像和视频的大规模数据集上进行训练,展示了视频生成在数据量和模型规模方面的缩放规律。它在多个内部和外部基准测试中始终优于现有的开源模型以及最先进的商业解决方案,显示出明显且显著的性能优势。综合性:Wan提供两种能力强大的模型,即13亿参数和140亿参数,分别针对效率和效果。它还涵盖了多种下游应用,包括图像到视频转换、指令引导的视频编辑和个人视频生成,涉及多达八项任务。消费级效率:13亿参数的模型表现出色的资源效率,仅需8.19 GB显存,使其兼容各种消费级GPU。开放性:我们开源了整个Wan系列,包括源代码和所有模型,旨在促进视频生成社区的发展。这种开放性旨在显著扩大行业内视频制作的创意可能性,并为学术界提供高质量的视频基础模型。所有代码和模型均可在https://github.com/Wan-Video/Wan2.1获取。
两个平方和连续项正密度的存在性
我们研究了算术级数中两个平方和连续项的分布情况。我们证明了对于任意奇数无平方因子的模数$q$,任意两个约化剩余类$a_1$和$a_2$模$q$,以及任意$r_1,r_2 \geq 1$,存在一个正密度的两个平方和开始形成一个长度为$r_1$的连续链,这些和都属于剩余类$a_1$模$q$,紧接着是一个长度为$r_2$的连续链,这些和都属于剩余类$a_2$模$q$。这类似于Maynard关于素数序列的结果,即对于任意约化剩余类$a$模$q$和任意$r \geq 1$,存在一个正密度的素数开始形成一个长度为$r$的连续素数链,这些素数都属于剩余类$a$模$q$。
BaZrS$_\text{3}$ 的发光现象:强发光单晶中电子、光子和声子的相互作用
硫属化合物钙钛矿已成为下一代光电子应用的有前景材料类别,而BaZrS$_\text{3}$ 因其宽禁带、地壳元素丰富的组成以及热化学稳定性引起了广泛关注。然而,无论采用何种合成方法,以往的研究均报告了微弱且模糊的光致发光(PL),这引发了对其固有光电子质量的质疑。在本研究中,我们展示了高质量BaZrS$_\text{3}$ 单晶在室温下的强带间主导PL。尽管PL发射谱带狭窄且单一,但时间分辨PL测量表明载流子寿命为$1.0\pm0.2$ ns。为了理解强PL和短载流子寿命的起源,我们结合多波长激发和偏振依赖性拉曼光谱测量,并辅以第一性原理晶格动力学计算。我们识别出全部23种理论上预测的拉曼活性模式及其对称性,为未来研究提供了全面参考。结果表明,声子辅助载流子衰减和强烈的电子-声子耦合导致了短载流子寿命,这由拉曼光谱和DFT计算所证实。进一步研究成分变化或部分阳离子/阴离子取代可能缓解电子-声子耦合并提高载流子寿命。通过建立BaZrS$_\text{3}$ 固有振动和光电子性质的详细参考,本研究为硫属化合物钙钛矿在能源和光电子技术中的进一步发展铺平了道路。
NGC 1068核区从射电到亚毫米波段一致性的 pc 尺度研究
射电安静(RQ)活动星系核(AGN)射电源的起源仍然是一个长期未解之谜。我们对附近原型射电安静 Seyfert 2 星系 NGC 1068 核区的厘米至亚毫米波发射进行了详细研究。我们利用 $e$-MERLIN、VLA 和 ALMA 对 4.5-706 GHz 的观测数据进行了分析,并将所有用于成像的数据限制在匹配的 $uv-$ 范围 15$-$3300 k$\lambda$ 内,以确保所有数据采样相同的尺度范围。所有图像均采用约 0.06$''$ 的分辨率恢复。为了推导光谱能量分布(SED),我们对这些数据拟合了同步辐射、自由自由辐射、尘埃和日冕成分模型。我们报告称,在 $\sim$ 200-700 GHz 波段的亚毫米波段过量发射与半径约为 $R_\mathrm{c}\approx 70\pm5 \,R_\mathrm{g}$ 的紧凑且光学厚度较大的日冕的同步辐射一致,非热电子的能量密度占比为 $\sim$\,$10\pm2$%,磁场强度 $B\approx 148$ G。日冕的亮度大致符合——但高于——近期射电安静 AGN 研究中通过毫米波至 X 射线相关性得出的预期值。这种差异可能归因于日冕 SED 在 ($\approx$550 GHz) 处达到峰值。在 10 至 $\sim$ 200 GHz 波段,SED 主要由自由自由辐射主导。需要高角分辨率的低于 5 GHz 频率的观测来约束潜在的光学薄同步辐射分量以及自由自由吸收的程度。
多语言、以文化为中心的LLM应用中性别误指方法研究
性别误指是指以不符合他人选择身份的性别对其进行称呼的行为,这种行为会边缘化个人的身份认同,造成严重伤害。基于英语的方法在避免性别误指方面有明确的解决方案,例如使用“they”这一代词。然而,其他语言由于语法和文化结构的不同,带来了独特的挑战。本文采用参与式设计方法,开发了评估和减轻42种语言及方言中性别误指的方法,并设计了适用于所有语言的有效且合适的防护措施。我们在标准的大语言模型应用场景(会议记录总结)中测试了这些防护措施,数据生成和标注环节均采用了人机协同的方式。结果表明,所提出的防护措施在减少所有语言生成摘要中的性别误指率方面非常有效,同时并未影响质量。我们的研究展示了通过人机协同方法在多种语言和文化背景下可扩展包容性和负责任的AI解决方案的可能性。
属性构建的类别特定概念空间:赋予语言瓶颈模型更好的可解释性和可扩展性
语言瓶颈模型(LBMs)通过基于文本概念瓶颈对图像进行分类来实现可解释的图像识别。然而,当前的LBMs简单地将所有概念一起作为瓶颈层,导致虚假线索推理问题,并且无法推广到未见过的类别。为了解决这些局限性,我们提出了属性构建的语言瓶颈模型(ALBM)。ALBM 在属性构建的类别特定空间中组织概念,其中概念是对特定类别的特定属性的描述。这样,ALBM 可以仅基于每个类别的本质概念进行分类,从而避免虚假线索推理问题。此外,跨类统一的属性集还确保了不同类别概念空间之间具有强相关性,因此学习到的概念分类器可以轻松推广到未见过的类别。此外,为了进一步提高可解释性,我们提出了视觉属性提示学习(VAPL)来提取细粒度属性的视觉特征。另外,为了避免劳动密集型的概念注释,我们提出了描述、总结和补充(DSS)策略,自动生成高质量且完整的精确属性概念集。在9个广泛使用的少量样本基准数据集上的大量实验验证了我们方法的可解释性、迁移能力和性能。代码和收集的概念集可在https://github.com/tiggers23/ALBM获取。
高阶双代数语义
高阶语言中的组合性证明极为复杂,且难以找到能够保证组合性的通用语义框架。特别是,Turi 和 Plotkin 的双代数抽象 GSOS 框架虽然为一阶语言提供了现成的组合性结果,但迄今为止尚未适用于高阶语言。在本文中,我们发展了一种针对高阶语言的抽象 GSOS 规范理论,实际上将 Turi 和 Plotkin 框架的核心原理推广到了高阶设置中。在我们的理论中,高阶语言的操作语义由某些特定的 dinatural 变换表示,我们称其为“(指针)高阶 GSOS 法则”。我们给出了一般的组合性结果,适用于所有以此方式定义的系统,并讨论了如何将组合逻辑和 λ-演算相对于 Abramsky 强形式的可应用性相似性的组合性作为特例获得。
时间图转换器:利用Transformer进行时空预测
时空数据无处不在,对其预测在许多领域具有重要应用价值。然而,其复杂的跨分量依赖性和非线性时间动态特性对传统方法提出了挑战。现有方法通过分别学习两个维度来应对这一问题。在此,我们介绍了Temporal Graphormer(T-Graphormer),这是一种基于Transformer的方法,能够同时建模时空相关性。通过在Graphormer架构中加入时间编码,每个节点可以关注图形序列中的所有其他标记,使模型能够在最小化预定义归纳偏差的情况下学习丰富的时空模式。我们在真实世界交通预测基准数据集上展示了T-Graphormer的有效性。与最先进的方法相比,T-Graphormer将均方根误差(RMSE)和平均绝对百分比误差(MAPE)降低了多达20%和10%。
苏格拉底规划器:基于自问自答的零样本规划方法实现具身指令跟随
具身指令跟随(EIF)任务是指通过在交互环境中导航和操作物体来执行自然语言指令。EIF的关键挑战之一是组合式任务规划,通常通过有监督学习或少量样本上下文学习来解决。为此,我们提出了苏格拉底规划器,这是一种基于自我问答的零样本规划方法,无需进一步训练即可推断出适当的计划。苏格拉底规划器首先利用大型语言模型(LLM)进行自我提问和回答,从而帮助生成一系列子目标序列。在执行子目标的过程中,具身代理可能会遇到意外情况,例如不可预见的障碍。苏格拉底规划器随后通过视觉引导的重新规划机制,根据密集的视觉反馈调整计划。实验表明,苏格拉底规划器的有效性显著优于ALFRED基准上的当前最先进的规划模型,在所有指标上均表现优异,特别是在需要复杂推理的长时序任务中尤为突出。此外,我们通过在物理机器人上部署该方法,进一步证明了其实际应用价值。
统一一切的框架:在RLHF中的基于RL和非基于RL方法的统一
本文主要探讨了为解决基于人类反馈的强化学习(RLHF)和大型推理模型(LRMs)而设计的各种基于RL和非基于RL的方法。我们首先简要概述了RLHF和LRMs的典型步骤。接着,我们通过神经结构化多臂强盗预测的角度重新解释了一些基于RL和非基于RL的算法,提供了一个清晰的概念框架,揭示了这些看似不同的方法之间的深层联系。随后,我们简要回顾了强化学习的一些核心原理,强调了现有RLHF研究中经常被忽视的一个方面。在此基础上,我们在完整的RL背景下详细推导出标准RLHF目标,证明其与神经结构化多臂强盗预测的等价性。最后,通过对近端策略优化(PPO)背后原理的重新审视,我们确定了需要调整的领域,并引入了广义强化优化(GRO)框架,实现了RLHF中基于RL和非基于RL方法的无缝集成。我们期待社区对GRO进行实证验证,并欢迎建设性的反馈。
具有标度不变估计的Ricci流的唯一性
本文证明了具有标度不变曲率边界的完备非紧致Ricci流的唯一性。这一结果推广了陈-朱、科茨沃的工作,并涵盖了大多数具有无界曲率的Ricci流例子。在三维情况下,我们利用它证明了从一致非塌缩、非负曲率流形出发的完备Ricci流是唯一的,扩展了陈的强唯一性定理。这是基于在无界曲率背景下求解Ricci-调和映射热流得到的结果。
几个新的奇镇和偶镇问题
给定一个向量 $\alpha = (\alpha_1, \ldots, \alpha_k) \in \mathbb{F}_2^k$,如果集合族 $\mathcal{F}$ 中任意 $i$ 个不同集合的交集大小满足 $\alpha_i \pmod{2}$,则称其满足 $\alpha$-交集模式模 $2$。在这一表述下,经典的奇镇问题和偶镇问题分别对应于向量 $\alpha=(1,0)$ 和 $\alpha=(0,0)$。本文渐近地确定了 $n$ 元集中所有满足 $\alpha$-交集模式模 $2$ 的最大子集族的大小,其中 $\alpha \in \mathbb{F}_2^3$ 和 $\alpha \in \mathbb{F}_2^4$。最后,我们研究了模 $3$ 限制下的相应问题。
Schur秩、兼容度与典范分解
分母向量的概念可以自然地推广到所有上簇代数的通用基元上。在一种弱化的通用配对假设下,我们为这一推广概念提供了表示论解释,并在此一般性框架下得出若干结论。我们给出一个反例,反驳了“不同簇单项式具有不同分母向量”的猜想。利用一个新的秩函数——Schur秩,我们扩展了兼容度的概念。作为应用,我们找到了一种热带方法来计算$\delta$-向量典范分解中实分量的重数。
黎明:基于非自回归扩散框架的动态帧虚拟化身生成用于说话人脸视频生成
说话人脸生成旨在从单张肖像图片和语音音频片段生成生动逼真的说话人脸视频。尽管基于扩散模型的说话人脸生成已取得显著进展,但几乎所有方法都依赖于自回归策略,这些策略在当前生成步长之外的上下文利用率有限、误差累积且生成速度较慢。为了解决这些问题,我们提出了DAWN(Dynamic frame Avatar With Non-autoregressive diffusion,基于非自回归扩散的动态帧虚拟化身),该框架能够一次性生成动态长度的视频序列。具体而言,它包含两个主要组件:(1) 基于音频驱动的整体面部动态生成(在潜在运动空间中);(2) 基于音频驱动的头部姿态和眨眼生成。广泛的实验表明,我们的方法能够生成真实生动的视频,具有精确的唇部动作以及自然的头部姿势和眨眼动作。此外,凭借较高的生成速度,DAWN具备强大的外推能力,确保高质量长视频的稳定生产。这些结果凸显了DAWN在说话人脸视频生成领域的巨大潜力和影响。此外,我们希望DAWN能激发更多关于扩散模型中非自回归方法的探索。我们的代码将在https://github.com/Hanbo-Cheng/DAWN-pytorch公开发布。
共 13511 条搜索结果
共 13511 条