分类
涂鸦即所需:基于问题特定涂鸦的LLM代码评估增强方法
自GPT-3和ChatGPT发布以来,LLM技术带来了颠覆性的变革,LLMs在编程相关任务中展现出非凡的潜力。尽管代码生成仍然是研究的热门领域,但基于LLMs的代码评估仍是一个尚未解决的问题。本文专注于基于LLMs的代码评估,并试图填补现有空白。我们提出了多智能体的新方法,采用针对具体问题的涂鸦,论证这些方法在逻辑评估方面比现有的通用涂鸦方法表现更佳。为了解决缺乏合适的评估数据集的问题,我们引入了两个数据集:一个包含150名学生的提交数据的数据结构与算法数据集,来自一个流行的在线数据结构与算法练习网站;另一个包含80名学生的提交数据的面向对象编程数据集,来自本科计算机科学课程。除了使用标准指标(斯皮尔曼相关系数、科恩的kappa系数),我们还提出了一种新的度量标准,称为宽容度,用于量化相对专家评估的评价严格程度。我们的综合分析表明,问题特定涂鸦显著提升了教育环境中代码的逻辑评估,提供了更好的反馈,这不仅限于语法正确性,还与教学目标保持一致。
ModelRadar: 基于方面的预测评估方法
对预测模型进行准确评估对于确保可靠预测至关重要。目前评估和比较预测模型的做法主要集中在通过单一分数总结性能,常用的指标如对称平均绝对百分比误差(SMAPE)。虽然这种方法方便,但对所有样本进行平均会淡化关于模型在不同条件下的行为的相关信息。这一局限性在时间序列预测中尤为突出,因为多层平均(跨时间步长、预测时长以及数据集中的多个时间序列)可能会掩盖性能的变化。为解决这一问题,我们提出了ModelRadar框架,用于从多个方面(例如平稳性、异常存在与否或预测时长)评估单变量时间序列预测模型。我们通过对比24种预测方法(包括经典方法和不同的机器学习算法)展示了该框架的优势。最先进的神经网络架构NHITS总体表现最佳,但在不同预测条件下其优越性有所差异。例如,针对预测时长,我们发现NHITS(以及其他神经网络)仅在多步预测时优于经典方法。另一个重要的见解是,诸如ETS或Theta的经典方法在存在异常值的情况下表现出更高的鲁棒性。这些和其他发现强调了基于方面的模型评估对从业者和研究人员的重要性。ModelRadar已作为Python包发布。
自由永续过程I:存在性、次序化及尾部渐近性
我们研究经典仿射不动点(或永续)方程的自由类似物 \[ \mathbb{X} \stackrel{d}{=} \mathbb{A}^{1/2}\mathbb{X}\,\mathbb{A}^{1/2} + \mathbb{B}, \] 其中假设 $\mathbb{X}$ 与对 $(\mathbb{A},\mathbb{B})$ 是 $*$-自由的,且 $\mathbb{A}\ge 0$ 和 $\mathbb{B}=\mathbb{B}^*$。我们的分析涵盖了次临界情形($\tau(\mathbb{A})<1$)以及临界情形($\tau(\mathbb{A})=1$),在后者中解 $\mathbb{X}$ 必然无界。当 $\tau(\mathbb{A})=1$ 时,我们证明定义 $\mathbb{X}$ 的级数几乎一致双边收敛(在额外尾部假设下为几乎一致收敛),而永续过程即使 $\mathbb{A}$ 和 $\mathbb{B}$ 的所有矩都存在,也不存在更高矩。我们的方法依赖于自由乘积卷积下矩渐近行为的详细研究,揭示了与经典情形明显不同的行为。通过非交换随机变量的次序化技术,我们在单边和对称情形下推导出 $\mathbb{X}$ 分布尾部的精确渐近估计。有趣的是,在临界情形下,自由永续过程表现出幂律尾部行为,这一现象与著名的 Kesten 定理中的观察结果相呼应。
导向树宽在蝴蝶子式下是封闭的
蝴蝶子式是将无向图的子式包含关系推广到有向图的一种方法。在有向图结构理论的许多结果中,除了有向树宽(树宽这一宽度度量在有向图上的推广)外,蝴蝶子式常作为一个中心工具。Adler [JCTB'07] 曾证明有向树宽在取蝴蝶子式时不是封闭的。多年来,文献中出现了许多有向树宽的替代定义,这些定义在小函数范围内等价于原始定义。本文考虑了其中主要的几种,并证明它们并非都存在Adler所指出的问题。
双部分嫁接中奇割的II:去首距离分量的结构与普适性
本文是关于双部分嫁接中\( T \)-割最大装填问题系列论文的第二篇,延续了第一篇(北村直树,“双部分嫁接中紧缩割I:资本距离分量”,{arXiv:2202.00192v2}, 2022)的工作。给定一个嫁接\((G, T)\),最小连接\( F \)以及称为根的指定顶点\( r \),嫁接\((G, T)\)的距离分量被定义为由\( F \)诱导的距离所确定的\( G \)的子图。如果一个距离分量包含根,则称其为“资本”;否则称为“去首”。在我们的第一篇论文中,我们研究了双部分嫁接中资本距离分量的典型结构,该结构可以用嫁接版本的Kotzig–Lovász分解来描述。在本文中,我们提供了去首距离分量的对应结构。我们还建立了两个顶点\( r \)和\( r' \)的一个必要且充分条件,使得关于根\( r \)的去首距离分量也是关于根\( r' \)的去首距离分量。由此得出结论,在双部分嫁接中,遍历所有根的选择时,去首距离分量的总数等于嫁接最小连接中边数的两倍。
LHC固定靶实验中开放和隐藏粲夸克的产生
我们讨论了LHCb固定靶实验中质子-核子碰撞过程中$D$介子和$J/\psi$类夸克偶素的产生。我们考虑了$kt$-因子化中的胶子-胶子融合过程、由核子中固有粲夸克引发的过程以及扰动重组机制。所有这些机制似乎都是描述LHCb实验数据所必需的。我们得到了核子中大$x$区域$c\bar{c}$Fock组分概率的上限,该值略小于1%。重组机制能够解释LHCb合作组观测到的$D^0$和$\bar{D}^0$不对称性。此外,我们还讨论了$J/\psi$类夸克偶素的产生,包括色单态机制。我们在$kt$-因子化方法中包含了$g^* g^* \to J/\psi g$和$g^* g^* \to \chi_c(1^+,2^+)(\to J/\psi \gamma)$过程。使用了文献中的不同非积分胶子分布,与某些文献中的分布达成了合理的一致。
星辰之约:你的论文与钢笔如何决定arXiverse的命运
我们都享受向期刊或arXiv提交论文带来的喜悦,有人将其形容为将自己艰苦劳动的成果投向虚空,希望再也不要见到它们。向arXiv投递论文的行为实际上推动了arXiverse的扩张;然而,我们尚未量化对这一事业的贡献。本文利用1992年至现在的arXiv astro-ph投稿数据,研究arXiverse的扩张情况。我提出了“arXiverse常数”$a_0$这一术语,用于量化arXiverse的扩张速率。我发现astro-ph整体具有正的$a_0$,但并非所有astro-ph的六个子类别都如此。随后,我调查了从1992年至今astro-ph各子类别以及astro-ph整体的$a_0$随时间的变化,并由此推断arXiverse的命运。
波-热耦合网络的能量多项式稳定性
我们研究了一类拓扑非平凡的波方程与热方程耦合网络的长时间渐近行为。通过对仅含波方程和仅含热方程的网络分别进行分析,并结合最近关于抽象耦合系统的成果,我们证明了对于所有经典解,当时间趋于无穷时,能量衰减速度为\(t^{-4}\)。
自适应多模态融合与全同态加密:AMB-FHE
生物识别系统致力于在安全性和易用性之间取得平衡。对于高安全性应用,通常推荐结合多种生物识别模态的多模态生物识别系统。然而,呈现多种生物识别模态可能会影响整体系统的用户友好性,并且在某些情况下未必必要。本文提出了一种简单但灵活的方法,用于提高同态加密多模态参考模板的隐私保护,同时实现在运行时对安全需求的适应:即基于全同态加密的自适应多模态融合(AMB-FHE)。通过深度神经网络从CASIA虹膜数据集和MCYT指纹数据集组成的双模态生物识别数据库进行基准测试,证明了该方法的有效性。我们的贡献易于实现,提高了生物特征认证的灵活性,同时通过联合加密多种模态的模板提供了更高的隐私保护。
代数数域的膨胀G-扩张
Legrand和Paran在2018年证明了对于所有Hilbert域以及所有有限群,逆伽罗瓦问题的一个较弱形式:即对于给定的Hilbert基域,存在可能不是伽罗瓦扩张且具有给定有限群为固定基域的场自同构群的情形。对于$\mathbf{Q}$,M. Fried在之前已经证明。本文的目标是比较此类扩张的次数与自同构群阶数的大小。我们的结果的一个特殊情况表明,如果$\bq$上的逆伽罗瓦问题对于有限群$G$(阶为$n$)有解,则对任意$m\geq3$,存在次数为$nm$的代数数域,其自同构群仍为$G$。
基于交换哈密顿量的QAOA算法Choco-Q用于约束二元优化问题
约束二元优化旨在寻找一种最优分配方式,以在满足约束条件的同时最小化或最大化目标函数,这是包括交通、调度和经济等领域中具有代表性的NP难题。量子近似优化算法(QAOA)通过利用量子纠缠的并行性为解决此类问题提供了一种有前景的方法。然而,现有基于惩罚项或哈密顿量模拟的QAOA方法未能完全编码约束条件,导致成功率极低且搜索延迟较长。本文提出了一种名为Choco-Q的形式化通用框架,用于解决约束二元优化问题,该框架全面涵盖了所有约束条件,并在当前量子设备上表现出较高的可部署性。Choco-Q的主要创新在于将交换哈密顿量嵌入为驱动哈密顿量,从而形成一种更通用的编码公式,能够处理任意线性约束。利用交换哈密顿量的算术特性,我们提出了三种优化技术以压缩整体电路复杂度,包括哈密顿量序列化、等效分解和变量消除。序列化机制将原始哈密顿量转化为更小的部分,我们的分解方法仅需线性时间复杂度,实现了端到端加速。实验表明,与先前的QAOA设计相比,Choco-Q在成功找到最优解方面提升了超过235倍的算法性能,并实现了4.69倍的端到端加速。
模p和阶q全面对的离散对数问题的Shor算法模拟
在有限域上的离散对数问题(DLP)是经典密码学中的常用工具,但在经典计算机上尚未发现其多项式时间算法。然而,Shor提出了一种在量子计算机上解决该问题的多项式时间算法。尽管如此,目前仅存在少量针对一般模p和阶q对的量子电路仿真的例子。本文构建了此类量子电路,并利用PRIMEHPC FX700量子模拟器解决了多达32个量子比特的所有1,860对可能的p和q的DLP。通过这一工作,我们得到了并验证了成功概率的值,这些值之前曾被Eker\r{a}基于启发式方法分析过。结果表明,Shor算法解决DLP的成功概率呈现出由阶q确定的具有不对称波形的周期性。此外,我们还为更大的p和q对生成了1,015个量子电路,外推了所获得的电路规模,并比较了当p为2048位时安全素数群组与Schnorr群组之间的电路规模。虽然在经典密码学中,若p相等,则安全素数群组与Schnorr群组的加密强度相同,但我们定量地展示了当使用Shor的量子算法时,后者的强度相对于前者如何随p的比特长度降低。特别是,实验和理论研究表明,当使用ripple carry加法器时,在Shor算法下,p为2048位的Schnorr群组的加密强度几乎等同于p为1024位的安全素数群组的加密强度。
基于高斯场的动力学网络建模
提出了一种新颖的场论方法,用于复杂系统中动态网络建模。采用利用高斯场的平衡网络形式化方法,以模拟能够相互结合或解离的粒子动力学。此处,“网络”指的是瞬时共定位约束的引入,并不要求形成明确的瞬态或持久网络。通过将此形式化方法与Martin-Siggia-Rose生成泛函相结合,获得了网络系统的加权生成泛函。网络形式化方法通过统计权重将空间和时间约束引入朗之万动力学,从而考虑了粒子之间可能的所有配置。布朗粒子之间可结合和解离的一个简单示例展示了该工具,并表明这可以对集体描述中的物理量得出结果。将网络形式化方法应用于混合物中交联聚合物的动力学建模,我们可以计算网络实例的平均数量。如预期所示,每种聚合物的动态结构因子显示,一旦引入网络,系统就会坍塌,但添加一个超过最小强度的排斥时变势可以防止这种现象。本文所呈现的例子表明,这种新颖的动态网络建模方法可以应用于多种合成和生物系统,以获得可用于实验验证的理论预测。
CoMatch:动态共可见性感知Transformer用于双边亚像素级半稠密图像匹配
本文提出了一种名为CoMatch的新颖半稠密图像匹配器,具有动态共可见性感知能力和双边亚像素精度。首先,观察到在整个粗特征图上建模上下文交互会由于标记之间的邻近表示相似性而引发高度冗余的计算,因此引入了共可见性引导的标记压缩器,根据动态估计的共可见性分数自适应地聚合标记,从而在提高聚合标记表征能力的同时确保计算效率。其次,考虑到与大量非共可见区域的特征交互可能会分散注意力并降低特征的区分度,部署了共可见性辅助的注意力机制,有选择地抑制来自非共可见减少标记的无关消息广播,从而实现对相关而非全部标记的鲁棒且紧凑的注意力。第三,我们发现当前方法仅将目标视图的关键点调整到亚像素级别,而源视图中的关键点仍限制在粗粒度级别,不够信息丰富,不利于关键点位置敏感的应用。为此开发了一个简单但强大的精细相关模块,用于同时优化源视图和目标视图中的匹配候选对象至亚像素级别,显著提升了性能。在多个公开基准数据集上的广泛实验验证了CoMatch在准确性、效率和泛化能力方面的优势。
欧洲自动车辆部署情景分析
自动驾驶车辆(Automated Vehicles, AVs)的推广有望解决道路交通外部性问题(如安全、交通流量、环境影响等)。为此,欧盟正在制定一个法律框架,以实现其大规模市场引入与部署。尽管道路运输自动化已迈出第一步,但完全自动化的时间表及其潜在的经济效益仍不确定。本文旨在实现两个目标:首先,提出一种方法论框架,以确定欧盟27国及英国到2050年的五个自动化等级部署路径,聚焦于乘用型车辆,并基于三种情景(即缓慢、中等基准和快速)进行分析;其次,通过计算增加值评估自动驾驶车辆的经济影响。定义假设和采用轨迹的方法包括全面的文献回顾、专家访谈以及预测不同自动化水平新注册量的模型。通过这种方式,访谈提供了补充文献的见解,并为假设设计和部署轨迹提供了信息。增加值评估显示,在所有采用情景下,由于自动驾驶技术的引入,都带来了额外的经济活动。
HumanAesExpert:迈向多模态基础模型的人类图像美学评估
图像美学评估(IAA)是一项长期且具有挑战性的研究任务。然而,其子集——人类图像美学评估(HIAA),尽管在社交媒体、AI工作流及相关领域广泛应用,却鲜有深入探索。为填补这一研究空白,我们的工作开创性地提出了一套针对HIAA的整体实施框架。具体而言,我们引入了HumanBeauty数据集,这是首个专为HIAA设计的数据集,包含10.8万张高质量的人类图像及人工标注。为了实现全面且细致的HIAA,我们通过严格的筛选流程手动收集了5万张人类图像,并利用开创性的12维美学标准进行标注,同时从公开数据集中系统性筛选出剩余的5.8万张带有总体美学标签的图像。基于HumanBeauty数据库,我们提出了HumanAesExpert,这是一种用于评估人类图像美学的强大视觉语言模型。我们创新性地设计了一个专家头模块,整合了人类对美学子维度的知识,同时结合语言建模(LM)和回归头模块共同发挥作用。这种方法使我们的模型在整体及细粒度HIAA方面表现出色。此外,我们引入了MetaVoter,它聚合了三个头模块的评分,有效平衡了每个头模块的能力,从而实现了更精确的评估。大量实验表明,我们的HumanAesExpert模型在HIAA任务中的表现显著优于其他最先进的模型。我们的数据集、模型和代码已公开发布,以推动HIAA社区的发展。项目网页:https://humanaesexpert.github.io/HumanAesExpert/
欧氏最小权完美匹配的快速近似算法
我们研究了在平面内对$n$个点求解欧氏最小权完美匹配的问题。已知该问题的确定性近似算法必须至少具有$\Omega(n \log n)$的时间复杂度。我们提出了一种时间复杂度为$O(n\log n)$的欧氏最小权完美匹配问题的近似算法,并证明其近似比为$O(n^{0.206})$,改进了目前最佳的近似比$n/2$。此外,我们还开发了固定维度下高维空间中的一个$O(n \log n)$时间复杂度的算法,并证明其在所有固定维度下的近似比为$O(n^{0.412})$。
量子退火中的隐私保护. 密码分析中自旋反转变换攻击的研究
本文证明了在利用量子退火解决的问题中,广泛认为足以增强隐私的自旋反转变换(SRT)方法并不能保证所有情况下的隐私性。我们展示了当通过SRT得到的Ising形式问题代表对$E_0$流密码的代数攻击时,如何从应用SRT变换后的Ising问题中恢复原始问题。一个小例子说明了如何从经过SRT变换的问题中提取原始问题。此外,我们还表明,我们的方法对于全规模问题同样有效。
基于双曲Floquet码的分布式量子纠错
量子计算能够提供显著的速度提升,但量子误差校正所需的大量物理比特给单一架构带来了工程挑战。一种解决方案是将逻辑量子计算分布在多个小型量子计算机之间,通过分布式的贝尔态实现非局域操作。先前对分布式量子误差校正的研究主要集中在表面码上,尽管表面码具有良好的误差抑制能力,但其编码率较低,每个表面码实例只能编码一个逻辑量子比特。在这项工作中,我们提出双曲Floquet码特别适合于分布式量子误差校正,原因有两个。首先,其双曲结构能够高效地存储大量逻辑量子比特。其次,所有测量都是在一对量子比特之间进行的事实意味着每次测量仅需要一个贝尔态。通过模拟,我们展示了分布式双曲Floquet码在局部和非局域电路级噪声下的良好性能。这表明分布式量子误差校正是不仅可行而且可以高效实现的。
小麦哲伦云中演化的致密大质量双星群体I:基于详细演化模型的预测
背景。大多数大质量恒星是以紧密的双星系统形式诞生的。它们的演化和命运如何受此影响仍很大程度上不确定,特别是在低金属丰度条件下。目标。我们推导出大质量相互作用后双星产物的综合群体,并将其与小麦哲伦云(SMC)对应的观测群体进行比较。方法。我们分析了用MESA计算的53298个详细的双星演化模型。我们的模型包括旋转物理、物质和角动量转移、内部磁性角动量传输以及潮汐自旋轨道耦合。它们涵盖了初始主星质量为5至100倍太阳质量、初始质量比为0.3至0.95的所有预期初始周期。这些模型从首次质量转移开始,追踪供体星死亡、可能随后的Be/X射线双星阶段,直到质量增益者离开主序阶段为止。结果。在我们的标准合成群体中,SMC中的8%的OB星是质量转移后的系统,7%是合并产物。在许多模型中,质量增益者被加速并形成Oe/Be星。尽管我们的模型低估了SMC中Be/X射线双星的数量,但它再现了它们轨道周期分布的主要特征和观测到的SMC双星WR星的数量。我们预计约有50个OB+黑洞双星位于20天轨道周期以下,约170个位于20天轨道周期以上。后者可能会产生合并的双黑洞。然而,其前身——预测的长周期WR+OB双星并未被观测到。结论。虽然与观测到的SMC恒星的对比支持了我们高质量双星模型中的许多物理假设,但更好地匹配大量观测到的OBe星和Be/X射线双星可能需要较低的合并率和/或更高的首次质量转移效率。最初宽轨道O星双星的命运仍然不确定。
共 13511 条搜索结果
共 13511 条