分类
镜头级:基于电影语法的无训练音频描述生成
我们的目标是自动生成电影和电视节目等剪辑视频材料的音频描述(AD)。为此,我们提出了一种两阶段框架,以“镜头”作为视频理解的基本单元。这包括扩展邻近镜头的时间上下文,并结合电影语法设备(如镜头尺度和叙事结构)来指导AD生成。我们的方法兼容开源和专有的视觉-语言模型(VLM),通过附加模块集成专家知识,而无需对VLM进行额外训练。我们在所有先前的无训练方法中取得了最先进的性能,并在几个基准测试中甚至超过了经过微调的方法。为了评估预测AD的质量,我们引入了一个新的评价指标——动作评分——专门用于评估AD这一重要方面。此外,我们提出了一个新的评估协议,将自动框架视为AD生成助手,并要求它们为选择生成多个候选AD。
通过量子图示主义使年轻学习者接触量子世界:一项实验研究
科学领域完全基于图表方法的教育价值从未被探索过。我们提出了量子图示主义(QPic),一种完全基于图表形式的量子比特量子力学体系。这一框架对年轻学习者来说是一种新颖的方式,可以教授纠缠、测量以及混合态量子力学等核心概念,而无需深入数学知识。它消除了传统障碍,同时不牺牲数学正确性——无需矩阵、向量、张量、复数和三角函数作为学习的前提条件。其意义在于,像量子信息科学与技术(QIST)这样复杂的领域,通常仅限于大学及以上水平的教育机会,现在可以在高中阶段引入。在本研究中,我们测试了这一假设,考察QPic是否通过降低复杂数学障碍来减轻认知负担,同时提高心理计算能力和概念理解。数据来源于2023年进行的一项实验,其中54名高中生(年龄16-18岁)接受了为期八周、共计16小时的培训。后测评估显示,在三个特定关注领域均取得了有希望的结果:(1)QPic是否能缓解学习QIST的技术障碍;(2)确保内容和教学方法适合年龄段;(3)增强学生在科学和STEM领域的信心和动力。教学成果的成功率为82%的参与者通过了培训结束考试,其中48%获得了优异成绩,表明高水平表现。独特的测试和培训制度有效地降低了传统方法通常伴随的技术障碍,正如预期的那样。
J-辫群是环面项链群
我们构造了一类称为环面项链的链环族,其链环群恰好为广义$J$-反射群的辫群。此外,这种对应关系展示了上述链环群的经线为辫反射。特别地,这一构造推广了已知的某些秩二复辫群与某些环面纽结群之间的对应关系,适用于所有不可约秩二复反射群。另外,作为抽象群,我们证明了Seifert链环所对应的链环群族与圆群族一致。这表明每当一个链环群具有非平凡中心时,它都是Garside群。
基于屏障证书和矩阵zonotope的数据驱动安全性验证
在网络物理系统(CPSs)中确保安全性是一项至关重要的挑战,尤其是在由于不确定性、建模误差或环境干扰而难以获得或无法完全信任系统模型的情况下。传统的基于模型的方法依赖于精确的系统动力学,而在现实世界场景中这些可能不可用。为了解决这一问题,我们提出了一种基于数据驱动的安全性验证框架,利用矩阵zonotope和屏障证书直接从噪声数据中验证系统安全性。而不是信任一个单一的不可靠模型,我们构建了一组模型,捕捉所有与观测数据一致的可能系统动态,从而确保真实系统模型始终包含在这个集合内。这个模型集通过矩阵zonotope紧凑地表示,使得不确定性传播的计算高效可行。通过将这种表示集成到屏障证书框架中,我们在不需要显式系统模型的情况下建立了严格的安全保障。数值实验展示了我们的方法在验证具有未知模型的动力系统安全性方面的有效性,展示了其在实际CPS应用中的潜力。
零样本基准测试:一种灵活且可扩展的语言模型自动评估框架
随着语言模型的进步并能够在更多模态下完成更复杂的任务,对其自动评估变得越来越具有挑战性。开发强大且稳健的任务特定自动指标变得更加困难,而昂贵的人工标注测试集也更快达到饱和。一个有吸引力的替代方案是设计可靠策略以自动化测试数据和评估的创建,但以往尝试要么依赖于现有数据,要么仅专注于个别任务。我们提出了零样本基准测试(ZSB),这是一种利用语言模型进行合成测试数据创建和评估的通用任务高质量基准创建框架。ZSB简单且灵活:只需创建用于数据生成的提示和用于评估的提示即可;可以扩展到收集现实世界数据成本高昂或不切实际的任务和语言;它对模型无依赖性,随着模型改进可以创建越来越具挑战性的基准。为了评估该框架的有效性,我们在五个纯文本任务和一个多模态任务上创建了基准:四种语言(英语、中文、法语和韩语)的一般能力、翻译以及英语中的通用视觉-语言能力。然后在我们的基准上对广泛开放和封闭系统进行排名。ZSB排名始终与人工排名高度相关,优于广泛采用的标准基准。通过消融实验,我们发现可以用开源模型创建强大的基准,并且裁判模型大小和数据集多样性是性能的关键驱动因素。我们将所有基准和代码公开,以重现我们的实验并生成新的基准。
4U 1630-47中的黑洞盘风研究——I. 长期行为及硬X射线的影响
在过去二十多年里,高度电离的X射线风特征已在高倾角黑洞低质量X射线双星(BHLMXBs)的软态中被发现。然而,由于单个源采样不足以及需要考虑能谱能量分布(SED)的宽带演化,出流本身的系统性演化特征仍不明确。我们对迄今为止观测到的具有最强风辐射的暂现BHLMXB 4U 1630-47的存档X射线风特征进行了整体分析。结合Chandra、NICER、NuSTAR、Suzaku和XMM-Newton的数据,并辅以Swift/BAT和INTEGRAL在硬X射线波段的数据,覆盖了9次爆发中的超过200个独立天的数据,提供了爆发较亮阶段的近完整宽带覆盖。结果表明,硬X射线能够定义普遍存在风探测的“软”状态,其贡献与谱线的等效宽度(EW)呈强相关。随后,我们利用热稳定性曲线和光离化建模约束了一组代表性观测中出流的演化。前者证实,不稳定SED的转换发生在风特征消失之后,甚至在最后的经典硬态中已达到热稳定。后者显示,为了解释线EW与亮度或硬X射线的主要相关性,必须存在出流本身的内在变化。这些行为在所有爆发中系统性地出现,确认了风特性与热盘和冕之间的个体联系。
开放、轻量、繁琐——评估Llama 3.2 3B对编程练习反馈的效果
大型语言模型(LLMs)在过去几年受到了广泛研究,尤其是在LLMs为大学初学者生成形成性编程反馈的潜力方面。与基于LLMs的生成式人工智能(GenAI)工具(如GPT)相比,较小且开放的模型受到的关注较少。然而,这些较小的开放模型具有许多优势,例如教育者可以在虚拟机或个人计算机上运行它们,这有助于规避其他GenAI工具和LLMs的一些主要问题(例如数据保护、对更改缺乏控制以及隐私问题)。因此,本研究探讨了开放、轻量级LLM Llama 3.2(3B)的反馈特性。我们特别研究了该模型对真实学生提交的Java入门编程练习解答的响应。通过定性分析生成的输出,以评估反馈的质量、内容、结构及其他特征。结果提供了对该开放、小型LLM反馈能力及其严重不足之处的全面概述。此外,我们在先前关于LLMs的研究背景下讨论了这些发现,并为基准测试最近可用的GenAI工具及其对编程初学者的反馈做出了贡献。这项工作对试图利用各种形式的LLMs(包括开放、小型模型)生成形成性反馈和支持学习的教育工作者、学习者和工具开发者具有重要意义。
GNN 101:基于Web浏览器的图神经网络可视化学习
图神经网络(GNNs)在各个应用领域取得了显著成功。然而,其复杂的结构和内部工作机制对非人工智能领域的专家来说可能难以理解。为了解决这一问题,本研究提出了\name{},一个用于交互式学习GNN的教育可视化工具。GNN 101通过多层抽象引入了一组动画可视化,这些可视化无缝地将数学公式与可视化结合在一起,包括模型概述、层操作以及详细的计算过程。用户可以轻松切换两种互补视图:一种是节点-链接视图,提供直观的图数据理解;另一种是矩阵视图,提供紧凑且全面的特征及其跨层变换的整体概览。GNN 101的设计和开发基于与四位GNN专家的紧密合作以及在三个与GNN相关的课程中的部署。我们通过教学助教和学生的实际使用案例及用户研究展示了GNN 101的可用性和有效性。为了确保广泛的教育普及,GNN 101是开源的,并可以直接在Web浏览器中使用,无需任何安装。
UVIT数据发布版本7:重新生成的高级UVIT数据产品
搭载于AstroSat上的紫外成像望远镜(UVIT)是一台高分辨率远紫外成像(<1.5'')和低分辨(${\lambda}/{\delta}{\lambda}$ ≈ 100) slitless光谱仪,视场可达约0.5度。尽管已接近十年,UVIT仍持续运行并为科学界提供宝贵数据。UVIT还能进行近紫外成像(<1.5''),但其近紫外通道在2018年8月停止工作,此前已提供了近三年的数据。本文介绍了UVIT管道最新版本(7.0.1)以及UVIT数据发布版本7的概述。使用主版本号为七的管道版本生成的高级产品将被称为“UVIT数据发布版本7”。新版本解决了前一版本(6.3)的两个限制,即(a)无法组合所有分集图像以及(b)在大量观测中天体测量模块失败的问题。本文还介绍了克服这两个限制所采用的方法,并比较了新版本与旧版本的性能。UVIT数据发布版本7的产品将于2024年6月1日起在印度空间研究组织的印度空间科学数据中心进行归档和分发。新的管道版本是开源的,并已在GitHub上发布。
邻近宜居带温带岩石系外行星的目标气候与热辐射光谱
过去十年间,径向速度法和凌星技术的进步使得附近恒星宜居区内岩石系外行星的探测成为可能。为了进一步表征这些行星样本,尤其是那些非凌星的行星,需要采用新颖的观测方法。一种提议的方法是行星红外盈余(Planetary Infrared Excess, PIE)技术,该方法通过测量行星相对于恒星光谱能量分布的红外辐射盈余来表征非凌星行星。本文预测了未来使用如MIRECLE任务概念等新型天文台通过PIE技术进行观测的效能。为此,我们利用ExoCAM通用环流模型(GCM)对七个附近的宜居带目标天体进行了21组广义模拟,考虑了三种不同大气成分组合下CO$_2$分压的变化。随后,我们利用行星光谱生成器(Planetary Spectrum Generator, PSG)对ExoCAM GCM模拟结果进行后处理,构建热相曲线和发射光谱。我们发现,假设轨道倾角为90$^\circ$时,所有情况下的二氧化碳和水特征均可以区分。特别地,我们预测在15 $\mu\mathrm{m}$波长下,MIRECLE能够探测到至少四个已知的附近非凌星宜居带岩石行星候选目标:比邻星b、GJ 1061d、GJ 1002b以及蒂加登星c的CO$_2$信号。我们的ExoCAM GCM模拟和PSG后处理展示了对附近非凌星岩石行星进行观测表征并更好地约束太阳系邻域宜居性的潜力。
扭转光束,操控自旋:利用逆Faraday效应与轨道角动量控制金纳米颗粒磁化
我们提出了一种通过逆Faraday效应结合携带轨道角动量的拉盖尔-高斯光束控制金纳米颗粒磁化的全新方法。通过调整相位等值面的倾斜角度,我们诱导出漂移光电流,从而产生相对于光束轴线偏转高达25°的磁场。通过切换偏振手性和轨道角动量符号可以反转磁化方向,通过重新定位颗粒可使其在方位角上旋转,覆盖超过2π立体角的任意角度。这种前所未有的控制水平将全光磁化扩展到三维方向,鉴于逆Faraday效应的瞬时特性,可能实现超快时间尺度操作。我们的研究为高级基于自旋的应用铺平了道路,从触发磁性材料中的自旋波到设计下一代磁存储和逻辑器件。
大规模多组学生物序列Transformer模型用于蛋白质-核酸相互作用的建模
Transformer架构彻底改变了生物信息学,并推动了对生物分子特性和预测理解的进步。几乎所有关于大规模生物序列Transformer的研究都集中在单一领域(单组学),通常是DNA/RNA或蛋白质。这些模型在各自领域的下游任务中取得了令人难以置信的成功,并在序列建模和结构建模方面实现了特别显著的突破。然而,这些单组学模型自然无法高效地建模多组学任务,其中最具生物学意义的一项便是蛋白质-核酸相互作用。我们展示了训练迄今为止最大的开源多组学基础模型的工作。尽管仅通过未标注的生物序列进行训练,我们发现这些多组学模型(MOMs)能够学习各种单组学分布之间的联合表示,这些表示与分子生物学中心法则一致。我们进一步证明,MOMs可以被微调以在蛋白质-核酸相互作用任务中达到最先进的结果,即预测给定核酸和蛋白质之间结合相互作用的Gibbs自由能变化($\Delta G$)。令人惊讶的是,我们表明多组学生物序列Transformer能够自发学习有用的结构信息,而无需任何先验结构训练,从而允许我们预测哪些蛋白质残基最参与蛋白质-核酸结合相互作用。最后,我们提供了证据表明,在许多情况下,多组学生物序列模型在每浮点运算性能(performance-per-FLOP)和绝对性能方面均优于仅基于单组学分布训练的基础模型,这表明构建这些模型的方法可能更具通用性或基础性。
n维非对易GUP量子化及其在Bianchi I模型中的应用
我们分析了一种n维广义不确定性原理(GUP)量子化框架,其特点是构型变量具有非对易性。首先,我们确定了一组仅在一个方向上达到最大局域化的态,而代价是在其他所有方向上的局域性较差。随后,为了恢复整个构型空间上的局域化信息,我们利用理论中唯一一个在每个方向上同时达到最大局域化的态,通过适当的平移算符构造了一个令人满意的准位置表示。由此得到的量子框架被应用于Bianchi I宇宙学的动力学建模。根据Vilenkin场景,我们用类似体积的宇宙变量的WKB表示,将相应的Wheeler-DeWitt方程约化为两各向异性自由度的Schrödinger动力学。我们所实现的宇宙学构造量子理论的主要结果表明,如果与普通量子理论相比,当波包集中在构型空间的某一点时,在准位置变量表示下,该理论的动力学会使初始状态成为最可能的构型持续相对较长时间。这种偏好来源于两种量子理论中波包表现出的不同动力学行为。
量子细胞自动机与自旋链的范畴对偶性
对偶性在量子自旋链的研究中起着核心作用,为量子相图及相变结构提供了深刻见解。本文研究了范畴对偶性,其定义为满足对称性约束的自旋链局域算符代数之间的有界弥散同构。我们考虑与酉融合范畴相对应的广义全局对称性,这些对称性由矩阵乘积算符代数表示。关于对偶性的一个根本问题是,它们是否可以扩展到由所有满足单位矩阵乘积算符的局域算符生成的大代数上的量子细胞自动机中。对于有限群的常规全局对称性,该大代数即为链中单个自旋相关代数的张量积。我们利用Doplicher-Haag-Roberts双模工具解决了这一扩展问题。我们的解法为对偶性的存在提供了一个清晰的范畴标准。我们证明,可能的扩展集合构成了相关对称性范畴中可逆对象上的转置。由此得出一个关于群情形下对偶性的分类结果。
改进动态行程公平性的新兴交通系统路由引导
本文提出了一种动态路由引导系统,优化了新兴交通系统中单个车辆的路线推荐,同时提升了出行者的行程公平性。我们开发了一个框架,用于量化动态出行环境中的行程质量和公平性,为理解路由引导如何影响道路运输中的公平性提供了新见解。我们的方法通过结合监测到的和预期的交通拥堵实现实时路由。我们给出了在自由流网络中确保所有旅行者达到完美行程公平性的条件。最后,对波士顿城市路网中1000辆车辆进行的仿真实验表明,与最短路径策略相比,所提出的方法可提高约11.4%的行程公平性。此外,结果还显示,我们的方法通过路由优化重新分配了不同类型车辆的出行成本,有助于构建更加公平的交通系统。
无限图中的无边相交链路
1980年,Thomassen提出了弱链路猜想:对于奇数正整数 \( k \),如果图 \( G \) 是 \( k \)-边连通的,则对于 \( G \) 中任意一组 \( k \) 对顶点(不一定是不同的) \(\{s_1,t_1\}, ..., \{s_k,t_k\}\),存在 \( G \) 中无边相交的路径 \( P_1, ..., P_k \),其中 \( P_i \) 连接 \( s_i \) 和 \( t_i \)。1991年,Huck证明了当 \( G \) 是有限图且 \( (k+1) \)-边连通时结论成立。我们证明了Huck定理对所有无限图也成立,推广并改进了Ok、Richter和Thomassen针对单端、局部有限图的结果。证明中一个新颖的关键工具是第3节中证明的链接扇形引理。为了展示该引理在其他上下文中的潜力和实用性,我们在最后一节给出了一项新结果,类似于Thomassen的一个结果,即在 \( (2k+2) \)-边连通的无限图中存在 \( 2k \)-边连通的有限嵌入,并由此推导出关于 \( k \)-弧连通定向的一个陈述。
设计中的AI裁判:实现视觉-语言模型与人类专家同等性的统计视角
早期工程设计(如概念草图)的主观评估传统上依赖于人类专家。然而,专家评估耗时、昂贵且有时不一致。最近在视觉-语言模型(VLMs)方面的进展为自动化设计评估提供了可能性,但确保这些AI“裁判”表现与人类专家相当至关重要。然而,目前尚无现有框架评估专家等效性。本文引入了一个严格的统计框架,以确定AI裁判的评分是否与人类专家的评分一致。我们在一个案例研究中应用此框架,评估了基于四种VLM的裁判在关键设计指标(独特性、创造性、实用性以及绘图质量)上的表现。这些AI裁判采用了多种上下文学习(ICL)技术,包括单模态与多模态提示以及推理时间推理。同一统计框架也被用于评估三名受过训练的初学者的专家等效性。结果显示,采用基于文本和图像的ICL并结合推理的顶级AI裁判在独特性和绘图质量方面达到了与专家的同等水平,并在所有指标上优于或匹配受过训练的初学者。在独特性和创造性的6次运行中有6次,以及在绘图质量和实用性的6次运行中有5次,其与专家的一致性达到了或超过了大多数受过训练的初学者。这些发现表明,支持推理的VLM模型可以在设计评估中实现人类专家的同等性。这对教育和实践中扩展设计评估具有重要意义,并为其他需要主观内容评估的领域验证AI裁判提供了一般性统计框架。
TOMG-Bench:基于文本的开放分子生成评估基准
本文提出了Text-based Open Molecule Generation Benchmark(TOMG-Bench),这是首个用于评估大型语言模型(LLMs)在开放领域分子生成能力的基准。TOMG-Bench包含三个主要任务的数据集:分子编辑(MolEdit)、分子优化(MolOpt)和定制化分子生成(MolCustom)。每个主要任务进一步细分为三个子任务,每个子任务包含5,000个测试样本。鉴于开放分子生成评估的固有复杂性,我们还开发了一套自动评估系统,以帮助衡量生成分子的质量和准确性。通过对25个LLMs的全面基准测试,我们揭示了当前文本引导分子发现的局限性和潜在改进领域。此外,我们提出了OpenMolIns,这是一个专门用于解决TOMG-Bench所提出挑战的指令微调数据集。经过OpenMolIns微调后,Llama3.1-8B的表现优于所有开源通用LLMs,在TOMG-Bench上的表现甚至比GPT-3.5-turbo高出46.5%。我们的代码和数据集可通过https://github.com/phenixace/TOMG-Bench获取。
针对任意化学成分的热质量恒星实时线驱风质量损失估算器(LIME)
热质量恒星的质量损失率对于天体物理学的诸多应用至关重要。我们提出了一种快速、高效且易于使用的实时质量损失计算器,用于具有给定恒星参数和任意化学成分的热质量恒星线驱风质量损失计算,并通过万维网向公众开放使用(https://lime.ster.kuleuven.be/)。线驱动力基于激发和电离平衡计算,利用包含超过400万条光谱线的大规模原子数据库实时计算得出。随后,依据考虑有限恒星盘和气体声速影响的线驱风理论推导出质量损失率。对于给定的一组恒星参数和化学成分,我们在风临界点处预测质量损失率以及三个线驱动力参数Qbar、Q0和alpha。将我们的预测结果与来自XshootU合作项目(Vink等,2023年)的大量近期状态-of-the-art、同质化经验质量损失率进行比较表明,本文提供的超级简单计算器在平均意义上甚至优于Vink等(2001年)、Bjorklund等(2023年)和Krticka等(2024年)的质量损失公式(这些公式均基于更复杂但更为繁琐且灵活性较低的方法对限制模型网格的拟合)。除了速度和简便性之外,我们质量损失计算器的优势在于避免了将拟合公式应用于针对更受限参数范围计算的基础模型网格所导致的不确定性。特别是,这里可以轻松修改单个化学丰度,并探索其对预测质量损失率的影响。这使得直接应用于表面化学成分显著改变的恒星成为可能。
高维球交图的强次线性分隔器及有界渐近维数
本文研究了$d\geq 2$时$\mathbb{R}^d$中的球交图类$\mathcal{C}^d$。我们证明,对于每个整数$t$,在$\mathcal{C}^d$中排除$K_{t,t}$为子图的所有图类具有强次线性分隔器。此外,我们还证明$\mathcal{C}^d$的渐近维数至多为$2d+2$。
共 13511 条搜索结果
共 13511 条