分类
格拉斯曼流形优化的微分进化算法:一种投影方法
我们提出了一种新颖的进化算法,用于优化定义在格拉斯曼流形Gr}(k,n)上的实值目标函数,其中Gr}(k,n)是R^n的所有k维线性子空间的空间。尽管现有的格拉斯曼流形Gr}(k,n)优化技术主要依赖于一阶或二阶黎曼方法,但这些本质上局部的方法往往难以应对非凸或多峰的景观。为了解决这一局限性,我们将微分进化算法——一种基于全局群体的优化方法——适应为在格拉斯曼流形上有效运行。我们的方法结合了自适应控制参数方案,并引入了一种通过QR分解将试验向量映射到流形上的投影机制。该算法在保持对流形结构可行的同时,能够探索超出局部邻域的范围。此框架为经典的黎曼优化方法提供了灵活且具有几何感知能力的替代方案,特别适用于机器学习、信号处理以及低秩矩阵恢复等领域,在这些领域子空间表示起着核心作用。我们在格拉斯曼流形上的多种优化问题示例中测试了该方法。
单栅极多晶硅CMOS技术中的温度鲁棒模拟神经形态芯片
在模拟神经形态芯片中,设计者可以通过嵌入器件和电路固有物理特性的计算原语,大幅减少器件数量和能耗,并实现高并行性,因为所有器件同时进行计算。神经网络参数可以存储在本地模拟非易失性存储器(NVMs)中,从而节省在存储器和逻辑之间移动数据所需的能量。然而,模拟亚阈值电子电路的主要缺点是其显著的温度敏感性。本文展示了一种温度补偿机制,可以解决此问题。我们设计并制造了一款芯片,该芯片实现了两层模拟神经网络,通过低成本单栅极互补金属氧化物半导体(CMOS)工艺训练,用于对手写数字低分辨率图像进行分类,并使用非常规模拟NVMs存储权重。我们展示了在10℃至60℃范围内运行的温度鲁棒型模拟神经形态芯片,用于图像识别,分类精度无损失,在整个温度范围内与相应的基于软件的神经网络相比,误差不超过2%。
观测WZ$\gamma$产生并约束质子-质子对撞中的新物理场景($\sqrt{s}$ = 13 TeV)
呈现了WZ$\gamma$三玻色子产生截面的测量结果。分析基于LHC的CMS探测器在质心能量为$\sqrt{s}$ = 13 TeV下记录的数据样本,对应的积分亮度为138 fb$^{-1}$。研究集中在具有三个带电轻子的末态$\ell^\pm\nu\ell^+\ell^-$(其中$\ell$ = e 或 $\mu$),伴随一个光子的状态。观测到(预期)WZ$\gamma$信号显著性为5.4(3.8)个标准差。在限定区域内测量到的截面为5.48 $\pm$ 1.11 fb,与量子色动力学下一阶修正预测值3.69 $\pm$ 0.24 fb一致。对异常四次规范耦合以及大质量类轴子粒子的产生截面设定了排除界限。
基于预训练贝叶斯非参数知识先验的机器人长时域强化学习
强化学习(RL)方法通常从零开始学习新任务,往往忽略可能加速学习过程的先验知识。尽管有些方法整合了之前习得的技能,但它们通常依赖固定的结构,例如单一高斯分布,来定义技能先验。这种刚性假设可能限制技能的多样性和灵活性,特别是在复杂的长时域任务中。在这项工作中,我们提出了一种方法,将潜在的基础技能动作建模为具有未知数量潜在特征的非参数属性。我们利用带出生和合并启发式的贝叶斯非参数模型——狄利克雷过程混合模型,预先训练了一个能够有效捕捉技能多样性的技能先验。此外,所学技能在先验空间内可显式追踪,提高了可解释性和控制能力。通过将这种灵活的技能先验集成到RL框架中,我们的方法在长时域操作任务中超越现有方法,使复杂环境中的技能迁移和任务成功率更高。研究结果表明,技能先验的丰富非参数表示显著提升了挑战性机器人任务的学习和执行效率。所有数据、代码和视频可在https://ghiara.github.io/HELIOS/获取。
由Kan延展定义的范畴
范畴可以被识别为Set上的多项式余单子(polynomial comonad),并且一个函子沿自身的左Kan延展总是构成一个余单子——称为密度余单子(density comonad)。当其载体为多项式时,这个余单子定义了一个范畴。我们提供了一些推广方法,从而通过旧范畴或由单子与余单子间的分布律(distributive law)构造出新范畴。例如,所有Lawvere理论、小范畴的所有积完备化(product completion)以及单纯形反范畴$\Delta^{op}$都可以以此方式得到。另一个例子是从一个多项式余单子构造所谓的选择范畴(selection category),这在某种程度上是对由单子构造Lawvere理论范畴的一种对偶操作;我们将详细讨论这一过程。在此过程中,我们还会看到一些非多项式的余单子的构造。
通过自回归表征对齐释放大型语言模型在文生图中的潜力
本文提出了一种名为自回归表征对齐(Autoregressive Representation Alignment, ARRA)的新训练框架,该框架无需进行架构修改即可解锁自回归大型语言模型(LLMs)中的全局一致文生图生成能力。与之前需要复杂架构重设计的工作不同,ARRA通过全局视觉对齐损失和混合标记<HYBNEXT>,将LLMs隐藏状态与外部视觉基础模型的视觉表征对齐。这种标记强制执行双重约束:局部下一标记预测和全局语义蒸馏,使LLMs能够在保持原有自回归范式的同时隐式学习空间和上下文一致性。大量实验验证了ARRA的即插即用灵活性。当从仅文本生成LLMs或随机初始化开始训练时,ARRA将Chameleon和LlamaGen等高级自回归LLMs的FID分别减少了25.5%(MIMIC-CXR)、8.8%(DeepEyeNet)和7.5%(ImageNet),且无需任何框架修改。在领域适应方面,ARRA将通用LLMs与专用模型(如BioMedCLIP)对齐,在医学影像(MIMIC-CXR)上的FID降低了18.6%,优于直接微调方法。通过证明训练目标的重新设计——而不仅仅是架构创新——可以解决跨模态全局一致性挑战,ARRA为推进自回归模型提供了互补的范例。代码和模型将被公开发布,以推动自回归图像生成的发展。
对于$n\gg m^3$且$m\geq3$,嵌入为$\mathcal{O}(1,2)$的$\mathbb{P}^m\times\mathbb{P}^n$的Segre-Veronese簇的secant簇是非退化的
我们证明了对于任意$m\geq3$,当$n\gg m^3$时,$\mathbb{P}^m\times\mathbb{P}^n$的Segre-Veronese簇的所有secant簇具有预期的维数。Abo和Brambilla已经在次丰富情形下证明了这一点,因此我们专注于超丰富情形。我们将Brambilla和Ottaviani的方法一般化为一种称为“inductant”的构造。通过这种方法,非退化的证明归结为验证有限个基例,这些基例我们使用了计算机辅助证明进行了验证。
常数乘积做市商(CPM)中的价值复制与无常损失对冲
本文针对去中心化市场(如Uniswap或Balancer中的常数乘积做市商CPMM)中的无常损失进行了理论分析。我们通过组合欧式看涨期权和看跌期权推导出池子价值的静态复制公式,并进一步证明了在预定义价格区间内实现对冲覆盖的结果。基于这些理论成果,我们还通过Deribit交易所的真实加密货币期权数据,展示了如何利用宽跨式策略进行数值模拟。
基于天空图像的辐照度短时预报深度学习方法对比研究
针对光伏发电中高不确定性问题,近年来越来越多的研究聚焦于短期太阳能预报。大多数研究通过深度学习模型直接利用天空图像序列预测辐照度或光伏发电值。然而,近期生成建模的进步催生了一种新方法,将预报问题分解为两个子问题:1)未来事件预测,即生成未来的天空图像;2)辐照度或光伏发电短时预报,即从单张图像预测同步值。SkyGPT模型展示了短时预报模型较生成模型具有更大的改进潜力。本文专注于辐照度短时预报问题,在广泛使用的Folsom、SIRTA和NREL数据集上对多种深度学习架构进行了全面评估。此外,我们还针对不同的训练配置和数据处理技术(包括用于训练的目标变量选择以及图像与辐照测量之间时间戳对齐的调整)进行了消融实验。特别指出,我们注意到Folsom数据集中天空图像时间戳可能存在的误差,并讨论了潜在的解决方法。所有结果均以均方根误差和平均绝对误差两种指标报告,并借助三个数据集证明了我们的发现具有一致性。
量子Chernoff界的新估计
关于寻找区分两个量子态时错误概率的可能上界,众所周知,对于每一个正值矩阵单调函数 $ f $,其中 $ g(x)=x/f(x) $,以及所有正定矩阵 $ A $ 和 $ B $,有不等式 $\mathrm{tr}(A+B) - \mathrm{tr}|A-B|\leq 2\, \mathrm{tr}\big(f(A)g(B)\big)$ 成立。本文引入了一类新的满足上述不等式的函数,并由此推导出量子Chernoff界的全新估计。此外,我们刻画了矩阵递减函数,并建立了视角函数的Powers-Störmer型不等式。
基于NeRF的农业应用点云重建方法:利用固定相机
本文提出了一种基于NeRF的点云(PCD)重建框架,专门设计用于室内高通量植物表型设施。传统的基于NeRF的重建方法需要相机围绕静止物体移动,但在高通量环境中,这种方法不切实际,因为物体通常在传送带或旋转底座上快速移动进行成像。为了解决这一限制,我们开发了一种基于NeRF的PCD重建变体,该方法使用单个固定相机捕捉物体在底座上旋转时的图像。我们的工作流程包括COLMAP基础的姿态估计、简单的姿态变换以模拟相机运动,然后进行标准的NeRF训练。定义的感兴趣区域(ROI)排除了无关的场景数据,从而生成高分辨率点云(10M点)。实验结果表明,重建保真度极佳,在所有评估的植物对象上的精确度-召回率分析得出的F分数接近100.00。尽管固定相机设置下的姿态估计仍然计算密集,但整体训练和重建时间具有竞争力,验证了该方法在实际高通量室内表型应用中的可行性。我们的研究结果表明,使用固定相机可以实现高质量的基于NeRF的3D重建,无需复杂的相机运动或昂贵的成像设备。这种方法特别适用于使用昂贵且精密的仪器(如高光谱相机)进行3D植物表型研究。未来的工作将集中在优化姿态估计技术并进一步简化方法,以便无缝集成到自动化、高通量的3D表型流水线中。
随机化在大型场馆反恐中的应用
对于大型场馆(如体育场或娱乐场所)的安全保障工作,随机化方法是否比固定时间表更有效?令人惊讶的是,从多个角度来看答案是肯定的。本文综述了一项广泛研究的结果,包括对选定场馆安保主管的访谈和问卷调查。研究表明:随机化具有多重目标;许多安保主管认可其潜在价值;但实际采用随机化的很少。一些人担心如果敌人突破安全防线,他们无法为其随机方法辩护。另一些人则担忧员工可能无法有效执行随机化策略。我们讨论了随机化如何提高效率、如何向需要批准安保流程的相关人员有效证明其合理性,以及一些潜在的研究或监管进展。
RiboGen:基于等变多流模型的RNA序列与结构联合生成方法
核糖核酸(RNA)在生物系统中扮演着基础角色,从携带遗传信息到执行酶功能均有重要作用。理解和设计RNA能够推动新型治疗手段的应用以及生物技术的创新。为提升RNA设计能力,本文介绍了一种名为RiboGen的深度学习模型,这是首个能够同时生成RNA序列及其全原子三维结构的模型。RiboGen结合了标准流匹配与离散流匹配的多模态数据表征方式。该模型基于欧几里得等变神经网络,以高效处理和学习三维几何结构。实验结果显示,RiboGen可以高效生成化学上合理且自洽的RNA样本。我们的研究结果表明,序列与结构的联合生成是一种有竞争力的RNA建模方法。
结构MRI数据中深灰质核团的全面分割
动机:缺乏一种单一软件工具,能够实现深灰质核团的全面且完整的分割,以保证可重复性和再现性。目标:提出一种快速、准确且稳健的方法,用于从常规磁场强度下的结构T1 MRI数据中分割深灰质核团(丘脑核团、基底神经节、屏状核、红核)。方法:通过利用最近提出的基于直方图的多项式合成(HIPS)技术,从标准T1图像合成类似于去白质(WMn)的图像,并结合多图谱分割与联合标签融合技术来分割深灰质核团。结果:该方法在所有磁场强度(1.5/3/7特斯拉)下表现稳健,与手动分割的真实数据相比,所有结构的Dice系数均达到0.7或更高。影响:此方法通过使常规T1数据能够用于大型公共数据库的研究,促进了对深灰质核团功能的深入研究,而这之前由于缺乏稳健且可重现的分割工具而无法实现。
DOF-GS:用于捕获后重新聚焦、散焦渲染和去模糊的可调景深三维高斯点投射框架
近年来,三维高斯点投射(3DGS)技术实现了高质量的三维场景重建和实时新视图合成。然而,这些方法受限于针孔相机模型且缺乏对散焦效应的有效建模。为此,我们提出了DOF-GS——一种基于新的3DGS框架,采用有限孔径相机模型并具有明确且可微分的散焦渲染功能,使其能够作为捕获后的控制工具。通过训练带有适度散焦模糊的多视图图像,DOF-GS学习内在的相机特性,并重建底层场景的清晰细节,特别是通过按需控制光圈和焦距实现不同景深效果的渲染。此外,我们的框架在优化过程中提取弥散圆线索,以识别输入视图中的对焦区域,从而增强重建的三维场景细节。实验结果表明,DOF-GS支持捕获后的重新聚焦、可调节的散焦以及从未经校准的散焦模糊的多视图图像中进行高质量的全对焦渲染。
关于具有给定曲线段的copula集合的上确界
利用特定函数的全变差,我们给出了具有给定曲线段的所有copula的逐点上确界的显式公式。当逐点上确界为copula时进行了刻画。我们还刻画了逐点上确界与具有相同曲线段的最大拟copula重合的情况。
奇偶性问题的平均情况复杂度:正交向量、k-SUM及更多
本文通过条件假设证明了 $k$-XOR、$k$-SUM 和 $k$-OV 的奇偶计数版本在平均情况下的下界。主要贡献是一组针对这些问题的自归约方法,提供了第一个特定分布下的结果:在 $k$-OV 假设(以及由此推导出的 SETH)下,$\mathsf{parity}\text{-}k\text{-}OV$ 在平均情况下具有 $n^{\Omega(\sqrt{k})}$ 的下界;在 $k$-SUM 假设下,$\mathsf{parity}\text{-}k\text{-}SUM$ 具有 $n^{\Omega(\sqrt{k})}$ 的平均情况下界;在 $k$-XOR 假设下,$\mathsf{parity}\text{-}k\text{-}XOR$ 具有 $n^{\Omega(\sqrt{k})}$ 的平均情况下界。假设至少有一个 $k$-OV、$k$-SUM、$k$-XOR 或 $k$-Clique 假设为真,则我们证明了 $\mathsf{parity}\text{-}k\text{-}XOR$、$\mathsf{parity}\text{-}k\text{-}SUM$ 和 $\mathsf{parity}\text{-}k\text{-}OV$ 在特定分布下需要至少 $n^{\Omega(k^{1/3})}$(有时甚至更多)的时间。为了实现这些结果,我们提出了一种改进的最坏情况到平均情况的精细归约框架,基于 Dalirooyfard、Lincoln 和 Vassilevska Williams 在 FOCS 2020 中的工作。
朱诺号任务视角下的射电与微波天空
我们利用朱诺卫星在飞往木星的5年任务期间由辐射计采集的数据,制作了六幅接近全天覆盖的地图。这些地图代表了约4%带宽内的综合辐射,这些带宽大致以倍频程为间隔,范围从600 MHz到21.9 GHz。所有频段均去除了长时间尺度的偏移漂移,在最低两个频段还通过类似于普朗克合作组使用的NPIPE流程的自校准算法去除了增益漂移。我们表明,在应用此解决方案后,地图中的统计噪声与热辐射计噪声以及预期的相关噪声水平一致。我们通过多种一致性测试和端到端模拟验证了地图解算结果。我们还通过模拟估算了系统性的像素化噪声和偏振泄漏水平。
多模态多语言模块化互惠排名融合:MMMORRF
视频本质上包含多种模态,包括视觉事件、文本叠加、声音和语音,这些模态对于检索都非常重要。然而,最先进的多模态语言模型(如VAST和LanguageBind)基于视觉-语言模型(VLMs),因此过度优先考虑视觉信号。检索基准进一步强化了这种偏见,专注于视觉查询而忽视其他模态。我们构建了一个名为MMMORRF的搜索系统,该系统从视觉和音频模态中提取文本和特征,并通过一种新颖的模态感知加权互惠排名融合方法进行整合。MMMORRF既有效又高效,在基于用户信息需求而非视觉描述性查询搜索视频时表现出实用性。我们在MultiVENT 2.0和TVR两个针对更具体信息需求设计的多模态基准数据集上评估了MMMORRF,发现其在nDCG@20上的表现比领先的多模态编码器提高了81%,比单模态检索提高了37%,证明了整合多样化模态的价值。
大型语言模型生成结构逼真的社会网络但高估政治同质性
生成社会网络对于流行病建模和社会模拟等诸多应用至关重要。生成式人工智能,尤其是大型语言模型(LLMs)的出现为社会网络生成提供了新的可能性:LLMs可以在无需额外训练或定义网络参数的情况下生成网络,并且用户可以灵活地通过自然语言定义网络中的个体。然而,这种潜力引发了两个关键问题:1)LLMs生成的社会网络是否具有现实性?2)鉴于人口统计学在形成社会关系中的重要性,是否存在偏见风险?为了解答这些问题,我们开发了三种用于网络生成的提示方法,并将生成的网络与一系列真实社会网络进行比较。我们发现,采用“局部”方法(LLMs一次构建一个个体的关系)比“全局”方法(一次性构建整个网络)生成的网络更加现实。同时,我们发现生成的网络在许多特性上与真实网络相匹配,包括密度、聚类、连通性和度分布。然而,我们还发现,LLMs强调政治同质性,而忽视其他类型的同质性,并且显著高估了政治同质性与真实社会网络之间的差异。
共 13511 条搜索结果
共 13511 条