分类
基于Reed-Muller码的逐轮增强型声辩性IOPs
我们针对三变量Reed-Muller码提供了一种交互式oracle证明系统(IOPP),在某些安全参数范围内实现了已知的最佳查询复杂度。具体而言,对于次数为$d$且安全参数$\lambda\leq \frac{\log^2 d}{\log\log d}$的情况,我们的IOPP具有$2^{-\lambda}$的逐轮声辩性,$O(\lambda)$次查询,$O(\log\log d)$轮次以及$O(d)$长度。这优于FRI [Ben-Sasson, Bentov, Horesh, Riabzev, ICALP 2018] 和STIR [Arnon, Chiesa, Fenzi, Yogev, Crypto 2024] 对Reed-Solomon码的IOPP,后者的查询和轮次复杂度分别较大,分别为$O(\lambda \log d)$和$O(\log d+\lambda\log\log d)$。我们利用该IOPP给出了NP完全语言Rank-1-Constraint-Satisfaction的IOP,具有相同的参数。我们的构造基于低声辩性下的线对点测试。与之前工作使用的轴平行测试相比,一般仿射线测试具有改进的声辩性,这是改进声辩性的主要来源。使用此测试涉及若干复杂情况,最显著的是投影到仿射线不保持单项式的次数,我们展示了如何克服这些困难。在此过程中,我们将一些现有工具扩展到了更一般的设置。具体来说,我们给出了Reed-Muller码的接近生成器,展示了一种处理IOP构造中“侧条件”的更系统的方法,并将[Arnon, Chiesa, Fenzi, Yogev, Crypto 2024] 的编译程序推广到一般码。
李宾兹共形代数的非阿贝尔扩张与Wells映射
本文研究了李宾兹共形代数 $ R $ 由另一个李宾兹共形代数 $ H $ 所确定的非阿贝尔扩张理论,并证明在等价意义下,所有的非阿贝尔扩张都可以由非阿贝尔的第2类上同调 $ H^2_{nab}(R,H) $ 分类。随后我们引入了一个微分分次李代数 $ \mathfrak{L} $,并证明其Maurer-Cartan元素的集合与非阿贝尔扩张的集合之间存在双射对应关系。最后,作为非阿贝尔扩张的一个应用,我们考虑了非阿贝尔扩张中一对自同构的可诱导性问题,并给出了李宾兹共形代数 $ R $ 的Wells序列的基本序列。特别地,我们讨论了关于 $ R $ 的阿贝尔扩张的导子可延展性问题。
金红片在正常大鼠、慢性浅表性胃炎大鼠及肠道微生物紊乱大鼠中的药代动力学特性
金红片(JHT)是一种由四种草药制成的传统中药,通过疏肝解郁、调理气机、活血化瘀等功效有效治疗慢性浅表性胃炎(CSG)。然而,其药代动力学特征尚未充分研究。本研究探讨了正常大鼠中JHT的药代动力学特征及其在正常大鼠、CSG大鼠以及肠道微生物紊乱大鼠中的差异。采用UPLC-TQ-MS/MS建立了检测大鼠血浆中七种活性成分的定量方法。通过对不同剂量JHT给药后的大鼠血浆浓度进行测定,评估了正常大鼠中的药代动力学特征。比较了正常大鼠、CSG大鼠以及粪便微生物移植(FMT)大鼠中四种主要成分的药代动力学特征,并通过高通量测序评估了肠道微生物的变化。采用Spearman相关分析关联了成分暴露与肠道微生物群紊乱的关系。该方法表现出良好的线性、精密度、准确度、提取回收率和稳定性。在正常大鼠中,七种成分均迅速被吸收,其中四氢巴马汀、小檗碱、去氢延胡索甲素和七叶苷具有较好的暴露量,而四氢掌叶防己碱、异紫堇品啶和盐酸巴马汀的暴露量较低。四氢巴马汀、小檗碱和去氢延胡索甲素在剂量为0.7-5.6 g/kg时呈现线性药代动力学特征(AUC0-t、Cmax),而七叶苷和去氢延胡索甲素在剂量为0.7-2.8 g/kg时表现出线性。在CSG和FMT大鼠中观察到药代动力学差异。CSG增强了去氢延胡索甲素的暴露量和Cmax,增加了七叶苷的暴露量。FMT提高了小檗碱的暴露量和七叶苷的Cmax,这与20个细菌属有关。
大型语言模型如何压缩自己的思维链?基于标记复杂度的方法
思维链提示作为一种强大的技术,使大型语言模型(LLMs)能够解决复杂的推理任务。然而,这些推理链条可能冗长,引发了对效率的担忧。为应对这一问题,近期的工作通过简单的提示策略(例如“简洁”)来减少响应长度。在本文中,我们首次系统地研究了推理长度与模型性能之间的关系,涵盖了各种压缩指令(例如“用10个词或更少”或“删除所有标点符号”)。通过这样做,我们发现推理长度和准确性之间存在一种普遍的权衡关系,这种关系即使在非常不同的推理链条中也持续存在。我们证明了这种权衡源于问题层面的一个尖锐阈值行为:每个任务都有一个内在的“标记复杂度”——成功解决问题所需的最小标记数。我们展示了标记复杂度如何使我们能够计算准确率-压缩权衡的信息论极限,并发现基于提示的压缩策略远远低于这些理论极限。这表明还有很大的改进空间,我们的框架提供了一个基准,帮助研究人员评估推理效率的进步。我们的工作还强调了自适应压缩的重要性——对于较简单的问题给出较短的回答——并展示了标记复杂度是如何衡量这种能力的有用工具。
针对纵向数据反事实回归的因果动态变分自编码器
在许多现实世界的应用中,如精准医学、流行病学、经济学和市场营销,估计随时间变化的治疗效果具有重要意义。许多最先进的方法要么假设所有混杂因素均可观测,要么试图推断未观测到的混杂因素。我们采取了一种不同的视角,即假设存在未观测的风险因素(即仅影响结果序列的调整变量)。在无混淆假设下,我们针对由于缺失风险因素导致的治疗反应异质性,目标是估计个体治疗效应(ITE)。我们解决了时变效应和未观测调整变量带来的挑战。基于学习的调整变量有效性的理论结果以及治疗效应的泛化界,我们提出了因果动态变分自编码器(CDVAE)。该模型结合了动态变分自编码器(DVAE)框架,并利用倾向评分进行加权策略以估计反事实响应。CDVAE模型能够准确估计个体治疗效应并捕捉纵向数据中的潜在异质性。我们的模型评估显示其性能优于最先进的模型。
非平衡黑洞与非均匀量子猝发
我们研究了(1+1)-维共形场论(CFT)中的量子猝发现象,其中初始的热平衡(Gibbs)态由空间非均匀哈密顿量演化,即所谓的Möbius和正弦平方变形(SSD)哈密顿量。我们发现,当猝发由SSD哈密顿量诱导时,几乎所有的自由度在渐近状态下聚集在一个点上,从而形成一个点状激发。我们将这种激发称为类似黑洞的激发,它携带的信息量与总热熵相同。相比之下,系统的其他部分在晚期趋于低熵(低温)状态。对于Möbius哈密顿量引起的猝发,我们发现了物理量(如子系统von Neumann熵)的永恒周期振荡。当CFT具有全息对偶描述时,SSD猝发会在bulk黑洞视界上诱导出时间依赖且非均匀的变形,且在足够晚的时间后,“触及”边界。我们的猝发设置可以作为一种创建低温态的方式,并模拟黑洞的形成与蒸发过程。
推理时间扩展对复杂任务的影响:现状与未来展望
推理时间扩展能够提升大型语言模型(LLMs)在需要逐步解决问题的复杂问题上的推理能力。尽管延长生成的草稿纸对于数学任务已被证明是有效的,但这种方法对其他任务的广泛影响仍不明确。本研究调查了九种最先进的模型和八个具有挑战性的任务(包括数学和STEM推理、日历规划、NP难问题、导航和空间推理)中扩展方法的优点和局限性。我们通过涉及重复模型调用的评估协议比较了传统模型(如GPT-4o)与经过推理时间扩展微调的模型(如o1),这些调用可以独立进行或按顺序带反馈进行。这些评估大致确定了每个模型的性能下限、上限以及未来性能改进的潜力,无论这种改进是通过增强训练还是多模型推理系统实现的。我们的大量实证分析表明,推理时间扩展的优势在不同任务之间存在差异,并且随着问题复杂性的增加而减弱。此外,在这些具有挑战性的场景中,简单地使用更多标记并不一定能够提高准确性。从多个独立运行的传统模型(使用完美验证器)的结果来看,对于某些任务,这些模型可以达到接近当今最先进的推理模型平均性能的表现。然而,对于其他任务,即使在非常高的扩展范围内仍然存在显著的性能差距。令人鼓舞的是,所有模型在使用完美验证器或强反馈进一步扩展推理时都表现出显著的提升,这表明未来有巨大的改进潜力。
大型语言模型是否会表现出自发的理性欺骗?
大型语言模型(LLMs)在被提示时能够有效地进行欺骗。但在什么条件下它们会自发地进行欺骗?在推理任务中表现更好的模型也更擅长受提示的欺骗。那么,在被认为理性的情况下,它们是否会越来越多地自发欺骗?本研究通过信号理论工具,在预先注册的实验协议下评估LLMs产生的自发欺骗行为。使用修改后的2×2博弈(类似于囚徒困境)并结合一个阶段,让模型在其中可以自由使用不受约束的语言与其他代理通信,对一系列专有闭源和开源LLMs进行了评估。这种设置为可能对代理理性自利有用的条件下创造了欺骗的机会。结果表明:1)所有测试的LLMs在至少某些条件下都会自发地歪曲其行为;2)它们在可能使自身受益的情况下更有可能这样做;3)总体推理能力更强的模型往往具有更高的欺骗率。综合来看,这些结果表明LLMs的推理能力和诚实之间存在权衡。它们还提供了来自新颖实验配置的证据,证明LLMs中存在类似推理的行为。最后,揭示了某些影响LLMs是否会欺骗的上下文因素。我们讨论了当前以及LLMs推理能力继续提高时,对由LLMs驱动的自主性、面向人类的系统的影响。
噪声感知的时间最优量子控制
量子最优控制在包括量子计算在内的许多量子技术中起着至关重要的作用。优化的一个重要参数是演化时间(脉冲持续时间)。然而,大多数现有工作集中在理论上寻找最短的演化时间,而没有在实际约束(如系统中的噪声)下提供明确的脉冲构造。本文通过引入一种在存在噪声的情况下高效执行Chopped Random Basis (CRAB) 优化的方法解决了这些局限性,特别是当噪声与门哈密顿量对易时。这种噪声感知方法允许直接优化演化时间与其他控制参数,与完整的噪声模拟相比显著降低了计算成本。该协议通过在几种噪声模型下的态到态转移和门编译问题上的数值模拟进行了演示。结果表明,由于噪声、漂移哈密顿量以及优化过程中的局部陷阱,优化保真度对演化时间有很强的依赖性,这凸显了在实际设置中优化演化时间的必要性,从而可以显著提高保真度。我们的脉冲优化协议在所有示例中都能始终达到全局最优时间和保真度。我们希望我们的协议能成为实际设置中关于控制脉冲时间优化这一关键主题的更多工作的起点。
基于大型语言模型的城市系统管理文档分类中的文本分块研究
城市系统的管理依赖于复杂的文本文档,这些文档需要进行编码和分析以设定需求并评估建成环境的表现。本文探讨了利用大型语言模型(LLM)应用于定性编码活动,以减少资源需求同时保持与人类相当的可靠性。定性编码和评估面临诸如资源限制、偏见、准确性和评估者之间一致性等挑战。我们报告了应用LLMs对10篇案例文档进行演绎编码,涉及17个数字孪生特征用于城市系统管理的研究。我们采用两种提示方法比较LLMs与人工编码工作的语义处理:全文分析和基于OpenAI的GPT-4o、GPT-4o-mini和o1-mini模型的文本块分析。研究发现,不同方法间存在相似的内部变异性,结果表明当LLMs初始化为特定的演绎编码上下文时,其表现可能与人工编码员相当。使用分块方法时,GPT-4o、o1-mini和GPT-4o-mini与人工评分员表现出显著一致。GPT-4o和GPT-4o-mini作为额外评分员与三位人工评分员一起使用时,所有评分员之间的统计一致性显著,表明文本文档分析受益于LLMs。我们的研究揭示了LLMs应用的细微次主题,表明LLMs遵循人类记忆编码过程,其中全文分析可能会引入多重含义。本文的新贡献在于评估了OpenAI GPT模型的性能,并提出了基于分块提示的方法,通过保存局部上下文解决了上下文聚合偏差问题。
极值单项式性质与X-序列的多项式性
每一个单李代数不可约有限维表示的特征具有最高权性质。特征在Weyl群 \( W \) 的作用下不变,这意味着对于通过 \( W \) 中元素作用于最高权所得到的每个权,存在类似的“极值权性质”。本文基于Chari定义的量子仿射代数上的q-特征的辫群作用,猜想了一个类似的“极值单项式性质”。当 \( W \) 的单位元时,这是在arXiv:math/9911112中证明的q-特征的最高单项式性质。在此我们证明了其对简单反射成立。令人惊讶的是,对于 \( W \) 中的每个 \( w \),极值单项式性质等价于我们引入的与 \( w \) 对应的“X-序列”的多项式性。我们证明这些X-序列等于 \( W \) 中所有元素对应的广义Baxter算符的某些极限。因此,我们找到了q-特征与量子仿射代数相关的XXZ型量子可积模型谱之间的一座新桥梁。由此我们推测所有广义Baxter算符的多项式性,推广了arXiv:1308.3444中的结果。
扭转旋转结的分支覆盖以及翻转扭曲环面
我们证明了在四次扭转添加后,扭转型旋转结在$S^4$中的双分支覆盖保持光滑不变,并且在添加两次扭转后,扭转型旋转结与平凡投影平面的连通和的双分支覆盖也保持不变。由此得出,Miyazawa最近构造的一组同伦$\mathbb{CP}^2$的成员彼此微分同胚于$\mathbb{CP}^2$。我们还应用这些技术证明了奇数次扭转翻转环面的双分支覆盖都微分同胚于$S^2 \times S^2$,并且Juhász和Powell构造的一组同伦4球都微分同胚于$S^4$。
极端视界截面的固有刚性
我们证明了任何真空极端视界紧致截面的内禀几何必须容许一个Killing矢量场。如果截面是二维球面,则这表明最一般的解是极端Kerr视界,并完成了相关近地平几何的分类。在存在宇宙常数的情况下,相同的结果也成立。此外,我们还推导出,任何非平凡的真空近地平几何(具有非正的宇宙常数),在没有任何对称性假设的情况下,其Killing矢量场的李代数必定包含$\mathfrak{sl}(2)\times \mathfrak{u}(1)$。我们还证明了,如果截面是二维的,视界爱因斯坦方程等价于一个关于Kähler势的四阶偏微分方程,并且如果对应的度规容许一个Killing矢量,则该方程在球面上是显式可解的。
与路径长度粗等价的图参数
若两个图参数在每个图 \( G \) 上彼此相差一个常数因子,则称它们是粗等价的。近期,一些图参数被证明与树长粗等价。回顾一下,图 \( G \) 的树分解 \({\cal T}(G)\) 的长度为其袋中最大直径,而 \( G \) 的树长 \( tl(G) \) 是所有树分解中长度的最小值。类似地,图 \( G \) 的路径分解 \({\cal P}(G)\) 的长度为其袋中最大直径,而 \( G \) 的路径长 \( pl(G) \) 是所有路径分解中长度的最小值。本文提出了一些与路径长粗等价的图参数。我们证明了图 \( G \) 的路径长较小当且仅当以下等价条件之一成立:(a) \( G \) 可以嵌入到无权的毛虫树(等价于路径宽度为一的图)中,并具有小的加性畸变;(b) 存在一个常数 \( r \geq 0 \),使得对于 \( G \) 的任意三元组顶点 \( u, v, w \),其中心为某一点的半径 \( r \) 的圆盘拦截了连接其余两点的所有路径;(c) \( G \) 具有小的 \( k \geq 0 \) 的 \( k \)-支配最短路径;(d) \( G \) 具有小的 \( k' \geq 0 \) 的 \( k' \)-支配对;(e) \( G \) 的某个幂 \( G^\mu \) (\( \mu \geq 0 \) 为一个小整数)是 AT-自由图(甚至是一个共比较图)。
输运-扩散方程与Navier-Stokes方程中宽频强迫项的重构
本文研究了基于系统及其状态的不完全知识来重构未知驱动源的问题。该问题在地球物理流体力学及多种应用中的线性和非线性设定下进行了探讨。提出了两种算法来解决此问题:一种是迭代重构强迫项的方法,另一种是提供连续时间重构的方法。证明了在观测分辨率足够高且算法参数根据先验信息适当调整的情况下,重构过程具有保证的收敛性;这些条件被精确量化。这里识别出的可重构力类包括那些时变且可能在所有尺度上注入能量的力,这大大扩展了以往研究中仅能处理带限频谱力的类别。此外,第二种算法提供了一种概念上简化的途径,使得分析更加直接且实际实现更为简便。
加权与无权树编辑距离及APSP等价的更快算法
给定两个根有序且具有$n$个节点的树,其节点从字母表$\Sigma$中标记,树编辑距离(TED)是通过插入、删除和重新标记节点的一系列有效操作将一棵树转换为另一棵树所需的最小代价。树编辑距离是字符串编辑距离的一个著名推广,并自1970年代以来被广泛研究。多年来,不断改进使得TED问题的复杂度降低至$O(n^3)$[DMRW 2010]。细粒度复杂性研究表明,TED的真正亚立方时间算法的存在性等价于All-Pairs Shortest Paths (APSP)的真正亚立方时间算法的存在性[BGMW 2020]。因此,在流行的APSP假设下,不存在真正亚立方时间的TED算法。然而,与许多基于APSP条件硬度的问题不同,这些问题是与APSP等价的,TED是否可以归约为APSP仍然未知。本文解决了这一问题:我们不仅证明了TED在细粒度复杂性下等价于APSP,而且我们的归约足够紧致,结合目前最快的APSP算法[Williams 2018],得到了第一个真正亚立方时间的TED算法,运行时间为$n^3/2^{\Omega(\sqrt{\log{n}})}$。此外,我们还考虑了无权树编辑距离问题,其中每种编辑操作的成本为1。对于无权TED,由于Mao [Mao 2022]的工作,已经存在一个真正亚立方时间的算法,后来由D\"{u}rr [D\"{u}rr 2023]稍作改进,运行时间为$O(n^{2.9148})$。他们的算法依赖于有界单调min-plus积作为关键子程序,而该积的最佳运行时间是$\tilde{O}(n^{\frac{3+\omega}{2}})\leq O(n^{2.6857})$(其中$\omega$是快速矩阵乘法的指数)。在本工作中,我们填补了这一差距,给出了一个运行时间为$\tilde{O}(n^{\frac{3+\omega}{2}})$的无权TED算法。
VidHalluc:评估视频理解多模态大型语言模型中的时间幻觉现象
多模态大型语言模型(MLLMs)在视频理解方面近期取得了显著进展,在内容推理和指令遵循任务中表现出色。然而,幻觉现象(即模型生成不准确或误导性内容)在视频领域仍未得到充分探索。基于对MLLM视觉编码器经常无法区分视觉上不同但语义上相似的视频对这一观察,我们引入了VidHalluc,这是目前最大的用于考察视频理解中MLLM幻觉现象的数据集,包含5,002个视频对,用于突出容易出现幻觉的情况。VidHalluc从三个关键维度评估幻觉现象:(1)动作;(2)时间序列;(3)场景转换。全面测试表明,大多数MLLM在这几个维度上都容易受到幻觉的影响。此外,我们提出了DINO-HEAL,这是一种无需微调的训练方法,通过结合DINOv2的空间显著性重新加权视觉特征来减少幻觉现象。我们的结果显示,DINO-HEAL在所有任务中平均减少了3.02%的幻觉现象,且性能始终有所提升。VidHalluc基准数据集和DINO-HEAL代码均可在https://people-robots.github.io/vidhalluc获取。
低红移并合序列中的分子气体含量
利用IRAM 30米望远镜的CO分子谱线观测,我们发现与具有相似红移、恒星质量($M_{\star}$)和恒星形成率(SFR)的非相互作用星系相比,SDSS后并合星系的气体质量分数和气体消耗时间提高了25%-50%,CO激发态略有增强,而分子气体与原子气体的质量比保持标准值。为了将这些结果置于更广泛的背景下,我们进一步收集了处于不同相互作用阶段(从并合前的动力学对到后星暴星系)的样本,并在测量气体质量、恒星质量和恒星形成率时进行了仔细的归一化处理。我们通过采用不同的SFR和$M_{\star}$估计方法重复了分析,总体上得到了良好的定性一致性。相互作用星对的气体质量分数和气体消耗时间也有所提高,但增幅低于后并合星系。在所有研究的样本中,气体质量分数和气体消耗时间的增幅在年轻的(约100百万年)后星暴星系中最为显著。尽管后并合星系与后星暴星系之间存在部分重叠,这表明在整个星系相互作用过程中,分子气体储库普遍被增强,这可能是由星系晕气流的扭矩驱动内流以及气体压缩效应共同引起的。并合星系和后星暴星系的气体质量分数和气体消耗时间偏移量与远离星系主序列的距离$\Delta({\rm MS})$呈反相关关系,这表明恒星形成效率(SFE)在驱动最强星暴的高恒星形成率中起重要作用。后星暴星系的气体分数和SFE偏移量对$\Delta({\rm MS})$的依赖关系最陡峭,并随时间演化,反映了气体储库的逐渐耗尽。我们的多样本分析为低红移并合序列中的星暴与并合之间的联系提供了一个连贯的画面,通过强调气体质量分数增加和SFE变化都对并合驱动的恒星形成起到了作用,解决了文献中相互矛盾的研究结果。
关于交换 ASAP 量子中继链中的噪声:精确解析、分布及紧致近似
损耗是量子网络中纠缠分发的主要瓶颈之一,可通过量子中继器的实现加以克服。最基本的量子中继链形式是交换 ASAP 中继链。在这样的中继链中,基本链路以概率方式生成,并在两个相邻链路生成后立即确定性地进行交换。由于每个纠缠态在等待交换的过程中会经历去相干,因此链两端节点之间的纠缠态保真度变为随机变量。完全表征随中继链增长的(平均)保真度仍然是一个开放问题。在这里,我们对间距相等的中继器进行了解析研究,在最多 25 段的情况下找到了保真度所有矩的精确解析公式。我们通过提供一个生成函数的一般解法来获得这些公式;该生成函数的 Maclaurin 级数的第 n 项给出了 n 段保真度的矩。我们将这种方法推广到全局截断策略——一种以更长的纠缠传输时间为代价提高保真度的方法——从而消除了蒙特卡洛模拟的需求,实现了截断参数的快速优化。此外,我们还找到了平均保真度的简单指数逼近公式,并且对于最多 10 段的情况,得到了交付保真度的完整分布。我们利用这一点解析计算了密钥率,包括有无分桶方法的情况。
PneuDrive:用于大规模软机器人的嵌入式压力控制系统与建模工具包
本文介绍了一种模块化的压力控制系统PneuDrive,该系统可用于大规模气动驱动的软机器人。其设计特别适用于需要分布式压力控制和高流量的情况。最多可以将四个嵌入式压力控制模块级联在一起,作为RS-485总线上的外设,从而实现对多达16个阀门的闭环控制,压力范围为0-100 psig(0-689 kPa),距离超过10米。默认情况下,该系统被配置为C++ ROS节点。然而,独立于ROS,我们还提供了一个Python接口和脚本API,以增加灵活性。我们通过一个三关节连续体软机器人进行了多种轨迹跟踪实验,该机器人有12种不同的压力输入,展示了PneuDrive的实施效果。最后,我们提出了一套建模工具包,包含三种动态驱动模型的实现,这些模型均适合实时仿真和控制。我们展示了如何利用此工具包使用真实世界的数据定制每个模型,并评估每个模型的性能。结果为在原则基础上选择多个驱动模型提供了参考指南。有关我们成果的视频总结可在此处查看:https://bit.ly/3QkrEqO。
共 13511 条搜索结果
共 13511 条