分类
零测地线重聚焦的拓扑后果及其在$Z^x$流形中的应用
设$(M,h)$为一个连通且完备的黎曼流形,令$x\in M$及$l>0$。若从点$x$出发的所有测地线都返回到$x$,则称$M$为$Z^x$流形;若从点$x$出发的所有单位速度测地线都在时间$l$时返回到$x$,则称$M$为$Y^x_l$流形。目前尚不清楚是否存在某些$l>0$使得$Z^x$流形不是$Y^x_l$流形。根据B\'erard-Bergery定理,任何维度至少为2的$Y^x_l$流形都是紧致的,并具有有限的基本群。我们证明了对于所有从点$x$出发的单位速度测地线在均匀有界时间内返回到$x$的$Z^x$流形$M$,该结果同样成立。此外,我们还证明了若$h$是解析的,则任何$Z^x$流形$(M,h)$均为某个$l>0$下的$Y^x_l$流形。我们首先定义了一类全局双曲时空(称为观测者重聚焦时空),并指出任何$Z^x$流形都是某种观测者重聚焦时空的Cauchy曲面。接着我们证明了在适当条件下,观测者重聚焦时空的Cauchy曲面是紧致的,并具有有限的基本群,同时展示了三维及以上维度的解析观测者重聚焦时空是强重聚焦的。最后,我们提出了一个与我们在黎曼几何和洛伦兹几何中得到的结果相对应的接触几何猜想。
网络同步最优有向图的一类研究
在Nishikawa和Motter的一篇文章中,一种称为Laplacian特征值归一化散布量的指标被用来衡量某些网络动力学的同步能力。通过模拟,并未进行理论验证的情况下,推测在具有固定顶点数和弧数的所有简单有向图中,该量的最佳值可通过Laplacian谱满足特定模式的图实现。本文证明了所推测的Laplacian谱总是可以通过一类几乎正则的有向图实现。对于一些特殊情况,还表明相应量的值确实是最优的。
穆斯吸收断层成像技术在民用结构成像中的应用
本研究聚焦于利用宇宙射线穆斯吸收断层成像这一非侵入式成像技术,监测中等尺寸考古/民用/工业结构的内部情况。研究结合实验测量与基于Geant4的数值模拟,验证了利用易得组件实现穆斯吸收断层成像的可靠性和精确性。实验探测了穆斯在包括建筑行业中常用材料在内的多种材料中的相互作用。一项名为MARS(刚性结构中穆斯吸收)的实验被开展,旨在探索利用重叠闪烁桨板改善混凝土结构不均匀性映射的可能性。所有测试的实验结果与模拟结果的良好一致性表明,这种简单的方法可用于对民用和工业感兴趣的结构进行无损评估。
孤跑者谱系的结构
对于$(\mathbb{R}/\mathbb{Z})^n$的每个子环面$T$,记$D(T)$为$T$到点$(1/2,\ldots, 1/2)$的(最小)$L^\infty$-距离。第$n$个孤跑者谱系$\mathcal{S}(n)$被定义为当$T$遍历$(\mathbb{R}/\mathbb{Z})^n$中不包含在坐标超平面内的$1$维子环面时所取得的所有$D(T)$值的集合。孤跑者猜想预测$\mathcal{S}(n) \subseteq [0,1/2-1/(n+1)]$。我们不直接研究该猜想,而是探讨集合$\mathcal{S}(n)$的结构。本文的主要目的是证明$\mathcal{S}(n)$的累积点集恰好是$\mathcal{S}(n-1)$。
Whisper-LM:利用语言模型提升低资源语言自动语音识别模型性能
自动语音识别系统在整合多语言和多任务模型(如Whisper)后无疑取得了显著进展,这些模型展现出在广泛语言范围内理解和处理语音的强大能力。尽管这些模型非常稳健,但在处理少数语言的语言学差异时往往表现不足。本研究通过将传统和新颖的语言模型与微调后的Whisper模型相结合,提高了其在较少研究的语言中的性能。通过在多个数据集上的严格微调和评估,我们展示了词错误率的显著改善,特别是在低资源场景下。我们的方法不仅充分利用了Whisper预训练所依赖的大规模数据,还通过引入语言模型增强了其语言适应性。使用统计语言模型,我们在分布内数据集上的性能提升了高达51%,在分布外句子上的性能提升了高达34%;而大型语言模型则在整个多样化的语言环境中提供了适度但持续稳健的改进。研究结果表明,这种集成可靠地使所有模型大小受益,但改进的程度有所不同,突显了优化语言模型参数的重要性。最后,我们强调在报告基于Transformer的ASR模型结果时选择适当评估参数的重要性。总之,这项研究为更包容的ASR技术铺平了道路,使其能够在更多语言中表现出色,通过丰富其语言知识实现这一目标。有关本研究的进一步实施细节,技术文档和源代码可在http://www.github.com/hitz-zentroa/whisper-lm获取。
ROVER:多季节视觉SLAM数据集
鲁棒的SLAM是自然、半结构化环境(如公园和花园)中自主导航的关键推动因素。然而,由于频繁的季节变化、光线条件的变化以及密集植被的存在,这些环境对SLAM提出了独特的挑战。这些因素往往会影响原本为结构化城市环境设计的视觉SLAM算法的性能。为了解决这一问题,我们推出了ROVER,这是一个综合性的基准数据集,旨在评估视觉SLAM算法在不同环境条件和空间配置下的表现。我们使用配备单目、立体、RGBD相机以及惯性传感器的机器人平台采集了该数据集。它涵盖了五个户外地点的39段记录,通过了四季以及多种光照场景(白天、黄昏和夜晚,有无外部照明)。借助这个新颖的数据集,我们评估了几种传统和基于深度学习的SLAM方法,并研究了它们在各种具有挑战性条件下的性能。结果表明,虽然立体惯性及RGBD配置在良好光照和适度植被条件下通常表现较好,但大多数SLAM系统在低光照和高植被场景下表现不佳,尤其是在夏季和秋季。我们的分析强调了提高视觉SLAM算法适应性的必要性,因为当前系统难以应对影响尺度、特征提取和轨迹一致性动态环境因素。该数据集为推进真实世界半结构化环境中视觉SLAM研究奠定了坚实基础,促进了更强大SLAM系统的开发,用于长期室外定位和地图构建。数据集和基准代码可在https://iis-esslingen.github.io/rover获取。
利用Gaia DR3光变曲线探索年轻恒星的变异性
背景:光变特性是年轻恒星(YSO)的一个重要特征,它反映了不同阶段恒星形成及早期演化过程中各种物理过程的影响。Gaia第三数据发布版(GDR3)提供了前所未有的光度时序数据集,其中包括79375条YSO候选体的光变曲线。凭借其全天覆盖的优势,Gaia为大规模研究YSO变异性提供了独特的机会。目标:我们的目标是进一步表征GDR3样本中的YSO变源,并验证由吸积、消光、旋转调制等引起的YSO变异性模式的重现性。通过适应Gaia稀疏且长期的光变曲线,我们试图弥合低频和高频巡天在YSO变异性研究中的差距。方法:我们尝试应用不对称性(M)和周期性(Q)变异性指标,利用Gaia光变曲线表征YSO变异性。通过优化样本选择,我们识别出适合Q&M方法的源。我们使用广义Lomb-Scargle周期图和结构函数推断变异性时间尺度。结果:我们成功为GDR3 YSO样本中约23000个源计算了Q&M指数。这些变源随后被分为八种变异性形态类别。我们通过使用Hα作为吸积的代理,并使用α_IR-指数衡量盘状物质的存在,将形态类别与物理机制联系起来。结论:我们证明Q&M指标可以成功应用于Gaia稀疏的时间序列数据。我们用它们区分了几种变异性模式。虽然我们的结果总体上与先前的高频率短期研究一致,但我们发现GDR3的长时间跨度揭示了更多种类的变异性机制。
如果大型语言模型是角色,它会了解自己的故事吗?评估LLMs的终身学习能力
大型语言模型(LLMs)能够进行类似人类的对话,但与人类不同的是,由于叠加特性,它们处于无状态的状态。然而,在多轮、多智能体交互过程中,LLMs开始表现出一致的角色化行为,暗示了一种新兴的终身学习形式。尽管如此,现有的基准测试往往无法捕捉这些动态,主要集中在静态、开放式的评估上。为填补这一空白,我们引入了LIFESTATE-BENCH,这是一个用于评估LLMs终身学习能力的基准。它包含两个情节数据集:《哈姆雷特》和一组合成剧本集合,富含叙事结构和角色互动。我们的事实核查评估探查了模型在参数化和非参数化方法下的自我意识、情节记忆检索以及关系跟踪能力。在Llama3.1-8B、GPT-4-turbo和DeepSeek R1等模型上的实验表明,非参数化方法在管理状态化学习方面显著优于参数化方法。然而,所有模型在交互时间延长时都表现出灾难性遗忘的挑战,这凸显了终身学习领域进一步发展的必要性。
缓冲区是你所需要的:通过缓冲防御非独立同分布下的联邦学习后门攻击
联邦学习(FL)是一种流行的范式,使客户端能够在不共享原始数据的情况下联合训练全局模型。然而,由于其分布式特性,FL易受后门攻击的影响。作为参与者,攻击者可以上传有效破坏FL的模型更新。更糟糕的是,现有的防御措施大多是在独立同分布(iid)设置下设计的,因此忽略了FL的根本非独立同分布特性。我们在此提出FLBuff,用于在非独立同分布情况下应对后门攻击。此类防御的主要挑战在于,非独立同分布使得良性更新和恶意更新更加接近,从而更难分离。FLBuff的灵感来源于我们的见解,即非独立同分布可以在表示空间中建模为全向扩展,而后门攻击则为单向扩展。这引出了FLBuff的关键设计,即利用监督对比学习模型提取倒数第二层表示,创建一个大的中间缓冲层。全面评估表明,FLBuff始终优于最先进的防御方法。
已知自适应序贯抽样设计中程序性质的研究
我们在两组治疗临床试验背景下考虑了Bhandari等(2009)提出的程序,其目的是尽量减少无效药物应用于最少数量的患者。我们的重点是一种既简单又直观的自适应序贯程序。研究结果表明,无效药物的应用次数是一个有限的随机变量,并且所有矩也都是有限的。相比之下,Bhandari等(2009)观察到该次数随总样本量对数增长。我们将这种差异归因于他们选择的初始样本量以及所采用的分析方法的不同。
同步关联与博弈的鲁棒自测试
我们提出了同步关联和博弈的鲁棒自测试的一种抽象算符代数特征刻画。具体而言,我们证明了一个同步关联是鲁棒自测试当且仅当在适当的$C^*$-代数上存在唯一的状态“实现”该关联。进一步推广这一结果,我们证明了一个同步博弈是鲁棒自测试当且仅当其相关的$C^*$-代数具有唯一的可容许迹态。此框架使我们能够确立所有作为有限维策略的交换算子自测试的同步关联和博弈也都是鲁棒自测试。作为应用,我们得到了线性约束系统博弈呈现鲁棒自测试的充分条件。此外,我们还展示了存在一个同步非局部博弈,它是一种鲁棒自测试但不是交换算子自测试,表明这两个概念并不等价。
关于精调注意力机制的理论洞见:泛化与优化
基于Transformer架构的大规模语言模型(LLMs)在广泛的任务中表现出显著的泛化能力。然而,由于其庞大的参数量,在特定任务上的微调仍然需要大量资源。本文研究了LLMs微调过程中与注意力机制相关的两种引人注目的现象。第一种现象被称为“注意力矩阵的重要性不平等”,揭示了微调不同权重矩阵的影响。研究发现,优化$\mathbf{W}_v$矩阵相较于优化$\mathbf{W}_k$矩阵能够显著提升性能。仅微调$\mathbf{W}_q$和$\mathbf{W}_v$矩阵不仅计算效率更高,而且结果可与甚至优于微调全部三个矩阵($\mathbf{W}_q$、$\mathbf{W}_k$和$\mathbf{W}_v$)的情况相媲美。第二种现象“定制学习率的注意力矩阵能实现更好的收敛”,强调了为这些矩阵分配不同的学习率的重要性。具体而言,与$\mathbf{W}_q$和$\mathbf{W}_k$相比,为$\mathbf{W}_v$矩阵设置更高的学习率可以加速收敛并提高性能。基于这些洞见,我们提出了一种新的策略,从存储和时间两方面提升了微调效率。基准数据集上的实验结果验证了该方法的有效性,支持了我们的理论发现。我们的分析为配置和改进LLMs微调中的轻量化算法奠定了理论基础。
紧致Dyck巢的车移树及其在奇数和中间层次图中的应用
一种称为紧致Dyck词的Dyck词子族通过“车移”操作对应于有序树$T$的顶点集。从$T$出发,“扩张”操作可以重建整个Dyck词族。在整个树$T$的过程中,其顶点可以进行基本更新。这简化了T. Mütze等人发现的奇数和中间层次图哈密顿圈的边补充弧因子分解视角。这一方法考虑到Dyck词分别代表:{\bf(a)} 奇数和中间层次图的循环以及二面体顶点类,{\bf(b)} 它们的2-因子的循环,如T. Mütze等人所发现的。
算法稳定性是否可测试?基于计算约束的统一框架
算法稳定性是学习理论中的核心概念,用于量化算法对训练数据微小变化的敏感程度。如果一个学习算法满足某些稳定性属性,则会带来许多重要的下游推论,如泛化能力、鲁棒性和可靠的预测推理。因此,验证特定算法是否具有稳定性是一个重要且实用的问题。然而,近期的研究结果表明,在未知分布下有限数据的情况下,对于数据位于不可数无限空间(如实值数据)的情形,测试黑盒算法的稳定性是不可能的。在本文中,我们将这一问题扩展到更广泛的场景,例如数据可能位于任何空间——例如分类数据。我们开发了一个统一的框架来量化测试算法稳定性的难度,该框架表明在所有情况下,如果可用数据有限,则穷举搜索本质上是唯一普遍有效的认证算法稳定性机制。由于在实际应用中,任何稳定性测试都会自然受到计算约束的影响,而穷举搜索是不可行的,这表明我们在测试黑盒算法的稳定性属性方面存在根本性的限制。
微调中的顺序无关性
大型语言模型(LLMs)在许多自然语言处理(NLP)任务中表现出色,但常常表现出顺序依赖性:仅重新排列语义相同的标记(例如,多项选择题中的答案选项)就可能导致预测不一致。近期研究提出基于集合的提示(Set-Based Prompting, SBP)作为一种方法,从指定标记子集中移除顺序信息,从而减轻位置偏差。然而,在基础模型上应用SBP会导致输入格式偏离分布,这可能降低分布内性能。我们引入了一种微调策略,将SBP整合到训练过程中,“拉近”这些集合格式提示与模型训练流形的距离。我们展示了通过微调可以将SBP集成到模型中。我们在分布内(MMLU)和分布外(CSQA、ARC Challenge)多项选择任务上的实验表明,SBP微调显著提高了准确性和对答案顺序排列的鲁棒性,同时保持了更广泛的语言建模能力。我们讨论了顺序不变建模的更广泛影响,并概述了构建更公平、一致的LLMs的未来方向。
实时强化学习中的延迟处理
实时强化学习(RL)带来了若干挑战。首先,由于硬件限制,策略必须受限于每秒固定数量的动作。其次,环境可能在网络仍在计算动作时发生变化,导致观测延迟。第一个问题可以通过流水线技术部分解决,从而提高吞吐量并可能改善策略。然而,第二个问题仍然存在:如果每个神经元并行运行且执行时间为$\tau$,一个包含$N$层前馈网络的观测延迟为$\tau N$。减少层数可以降低此延迟,但会牺牲网络的表达能力。在这项工作中,我们探讨了最小化延迟和网络表达能力之间的权衡。我们提出了一种基于理论动机的解决方案,结合了时间跳跃连接和增强历史观察。我们评估了几种架构,并展示了那些采用时间跳跃连接的架构在各种神经元执行时间、强化学习算法和环境中均表现出色,包括四个Mujoco任务和所有MinAtar游戏。此外,我们证明了并行神经元计算可以在标准硬件上将推理速度提升6%-350%。我们对时间跳跃连接和并行计算的研究为实时环境下更高效的RL代理奠定了基础。
面向点对点能源交易的损失感知定价策略
点对点(P2P)能源交易可能提高效率并降低成本,但对网络运营商提出了重大挑战,如维持电网可靠性、考虑网络损耗以及公平重新分配成本。我们提出了一种新颖的面向P2P能源市场的损失感知定价策略,解决了这些挑战,同时激励参与者加入合作能源交易市场。该问题被建模为一个分层Stackelberg博弈,其中电网运营商确定网络关税,而产消者基于这些关税优化其交易,同时确保满足网络约束。该算法旨在最小化并从交易方回收成本,同时最小化枢纽的总成本。该机制根据位置和网络拓扑动态调整关税,抑制高损耗交易。最后,完整框架包括公平交易价格的计算,确保所有市场参与者均能公平受益。提出了一种基于ADMM的超梯度下降方法来解决此问题。通过IEEE 33节点基准系统的广泛数值仿真表明,与固定关税方案相比,该方案通过减少网络损耗实现了显著的成本降低和网络效率提升。结果凸显了所提机制在不同网络配置、规模、需求模式及季节条件下的适应性和可扩展性。
VacHopPy:基于从头算分子动力学模拟的空位跳跃分析Python软件包
多尺度建模通过将从头算计算的材料性质整合到设备尺度模型中,为优化半导体器件提供了有前景的方法。然而,一个关键挑战依然存在:尽管从头算方法能够给出特定迁移路径的扩散参数,但设备模型需要一组单一的有效参数来反映整体扩散行为。为弥合这一差距,我们提出了VacHopPy,这是一个开源的Python软件包,用于基于从头算分子动力学(AIMD)的空位跳跃分析。VacHopPy通过统计集成所有跳跃路径的热力学、动力学和几何贡献,提取出一组有效的空位跳跃参数:跳跃距离、跳跃势垒、有效路径数量、关联因子以及跳跃尝试频率。此外,它还提供追踪空位轨迹和检测AIMD模拟中相变的工具。VacHopPy在三种材料中的适用性得到了验证:面心立方Al、金红石TiO₂和单斜HfO₂。这些有效参数准确反映了温度依赖性的扩散行为,并与先前的实验观察结果高度一致。以简化形式表达适合设备模型的参数在跨越数百开尔文的宽广温度范围内仍然有效。此外,我们的研究强调了各向异性热振动在整体扩散中的关键作用,这一因素在其他框架中经常被忽略,但在VacHopPy中已得到内在考虑。总体而言,VacHopPy为原子尺度模型和设备尺度模型之间架起了桥梁,使得更可靠的多尺度模拟成为可能。
Codehacks:从Codeforces获取的竞争编程问题对抗性测试数据集
软件在我们的日常生活中被用于关键应用,确保其正确性至关重要。一种常见的评估正确性的方法是对软件进行测试。如果测试失败,则表明被测软件存在故障;如果所有测试均正确通过,则可以认为软件是正确的。然而,这些结果的可靠性取决于所考虑的测试套件,且存在假阴性的风险(即软件通过了所有可用测试但包含错误,因为某些情况未被测试)。因此,在评估软件时考虑错误诱导的测试用例非常重要。为支持基于数据驱动的此类测试套件的创建,特别是对来自大型语言模型合成软件的测试感兴趣,我们整理了一个数据集(Codehacks),其中包括相应的错误诱导测试用例(即“hack”)以及对应的竞争编程问题。该数据集是从实际环境中收集的,特别是从Codeforces在线评测平台获取的。数据集包含针对5,578个编程问题的288,617次hack操作,每个问题都有自然语言描述,还包含可被相应hack破坏的2,196份提交解决方案的源代码。关键词:竞争编程、语言模型、数据集
流程远不止“应用程序”——以德国Corona-Warn-App(CWA)为例的去中心化数字接触者追踪的隐私问题
自2020年初SARS-CoV-2在欧洲开始传播以来,人们强烈呼吁采取技术解决方案来应对或遏制疫情,其中接触者追踪应用程序成为争论的核心。根据《欧盟通用数据保护条例》(GDPR),如果数据处理可能对权利和自由造成高风险,则要求控制者进行数据保护影响评估(DPIA)(GDPR第35条)。DPIA是一种结构化的风险分析,提前识别并评估与基本权利相关的数据处理可能带来的后果,并描述旨在解决这些风险的措施,或者表明无法做到这一点。基于标准数据保护模型(SDM),我们展示了德国Corona-Warn-App(CWA)的科学且方法清晰的DPIA结果。结果显示,即使采用去中心化架构也存在众多严重的弱点和风险,目前实施中仍有许多未解决的问题。研究还发现,所提出的任何设计均未基于匿名数据或确保适当的匿名化。此外,知情同意并非处理过程的合法法律依据。对于所有仍未充分保障数据主体权利的方面,我们简要概述了解决方案。
共 13511 条搜索结果
共 13511 条