Research

arXiv

分类

对大型语言模型（LLMs）进行有效评估仍然是一个关键瓶颈，因为传统的静态基准测试存在饱和和污染问题，而人工评估则成本高昂且耗时较长。这阻碍了及时或特定领域的评估，而这对于实际应用至关重要。我们提出了YourBench，这是一种新颖的开源框架，通过动态、自动化地生成可靠、最新的、领域定制化的基准测试，解决了这些局限性，并且无需人工标注即可廉价实现。用户仅需提供文档即可直接生成这些基准测试。我们通过使用极少量源文本复制了7个不同的MMLU子集，总推理成本低于15美元，同时完美保留了在原始基准测试中观察到的相对模型性能排名（Spearman相关系数=1）。为了确保YourBench生成的数据基于提供的输入而非依赖于模型后验参数知识，我们还引入了Tempora-0325，这是一个包含超过7000份多样化文档的新数据集，这些文档均发布于2025年3月之后。我们的综合分析涵盖了来自7个主要家族的26种最先进的模型（参数规模从3亿到6710亿不等），通过严格的算法检查（例如引用定位）和人工评估验证了生成评估的质量。我们发布了YourBench库、Tempora-0325数据集、基于Tempora的150,000多个问答对以及所有评估和推理跟踪，以促进可重复研究并赋予社区能力，按需生成定制化的基准测试，从而推动更相关和可信的LLM评估。

计算与语言

人工智能

I.2.1

2025-04-02 发布

加性特征解释主要依赖于合作博弈论中的概念，例如将特征视为合作玩家的Shapley值。由于公理上的唯一性，Shapley值在可解释人工智能领域内外都广受欢迎。然而，其计算复杂度严重限制了实际应用。大多数研究集中在对所有特征Shapley值的均匀近似，对于不重要的特征而言，这种做法无谓地消耗了样本资源。相比之下，识别最重要的k个特征已经足够有洞察力，并且可以利用多臂老虎机领域的算法机会。我们提出了一个名为“可比边际贡献采样”(CMCS)的方法，用于解决顶-k识别问题，该方法利用了一种新的采样方案，考虑到了相关观察的影响。我们通过实验展示了我们的方法相对于竞争基准的有效性。我们的实证结果表明，近似所有特征的问题的估计质量并不一定适用于顶-k识别，反之亦然。

我们提出了一种基于神经网络的星系红移空间功率谱仿真器，它在星系聚类参数推断中实现了几个数量级的加速，同时在ΛCDM模型中保持了高达$k_{\mathrm{max}}$ = 0.25 $h^{-1}$ Mpc时优于0.5%的3σ精度，并在$w_0$-$w_a$CDM模型中保持了约0.5%的精度。我们的代理模型仅对一阶扰动理论预测中的星系偏差不变项进行仿真，然后将这些项与星系偏差项、反项以及随机项解析结合，以获得非线性红移空间星系功率谱。这种方法避免了在仿真器训练中使用任何星系偏差公式，使其更加灵活。此外，我们在训练中包含了红移$z \in [0, 1.4]$，进一步避免了重新训练仿真器的需求。我们展示了该仿真器在恢复ΛCDM宇宙学参数方面的性能，通过分析模仿DESI亮红星系在$z=0.5$和$z=0.8$以及$z=0.8$处的发射线星系的25个AbacusSummit模拟数据集，得到了一致的结果，证明了该仿真器在$0 < z < 1.4$范围内适用于任何星系样本的可靠性。

宇宙学和非星系天体物理学

2025-04-02更新2024-03-29 发布

分析并实验验证了利用时延谐振器实现原位调谐的非共置振动吸收（NCVA）概念。该研究有两个重要贡献：一是提出了验证谐振次结构作为理想振动吸收基础的可扩展分析路径；二是首次通过实验验证了NCVA结构的空间与频谱可调性。针对这两个创新点，考虑了任意大尺寸的相互连接的质量-弹簧-阻尼链系统。在现有NCVA理论基础上，对包含时延谐振器及其参与振动吸收的部分主结构进行了控制综合设计。基于机电实验平台，采用三个相互连接的滑块系统验证了所提出的NCVA概念，通过频谱分析选择了一个激励频率，在该频率下实现了对三个滑块（一个共置、两个非共置）的稳定振动抑制。实验结果与完全振动抑制的仿真结果高度吻合，从而验证了其关键的空间可调性和传统的频谱可调性特征。

大型语言模型（LLM）的实际使用者普遍注意到，在预期为确定性的设置下，相同输入会产生不同的输出。然而，这种现象的普遍程度及其对结果的影响，据我们所知尚未经过系统的调查。我们在五种被配置为确定性的LLM上，针对八项常见任务，在零样本和少样本设定下进行了10次运行，研究了其非确定性问题。结果显示，准确率在不同自然发生的运行之间变化可达15%，而最佳可能性能与最差可能性能之间的差距高达70%。实际上，没有一款LLM能够在所有任务中始终提供可重复的准确率，更不用说相同的输出字符串。与内部人士分享初步结果后发现，非确定性可能是通过输入缓冲区中的混合数据高效利用计算资源的必要条件，因此这一问题短期内不会消失。为了更好地量化我们的观察结果，我们引入了衡量确定性的指标：TARr@N（原始输出在N次运行中的总一致率）和TARa@N（解析答案在N次运行中的总一致率）。我们的代码和数据已在https://github.com/breckbaldwin/llm-stability公开发布。

2025-04-02更新2024-08-06 发布

设$m$为正整数，$\mathcal{C}$为$L^2(\mathbb{R})$中的闭子空间集合。给定未知函数集$\mathcal{F} = \{f_1, \ldots, f_m\} \subset L^2(\mathbb{R})$的测量值$\mathcal{F}_Y = \{\{\{y_k^1\}_{k \in \mathbb{Z}}, \ldots, \{\{y_k^m\}_{k \in \mathbb{Z}}\} \subset \ell^2(\mathbb{Z})$，本文研究在集合$\mathcal{C}$中寻找一个“最接近”测量值$\mathcal{F}_Y$的最优空间$S$的问题。由于有限生成平移不变空间（FSIS）广泛用于信号建模，我们假设$\mathcal{C}$由FSIS组成。我们将考虑三种情况：第一种情况下，$\mathcal{C}$由无额外不变性的FSIS组成；第二种情况下，假设$\mathcal{C}$由具有额外不变性的FSIS组成；第三种情况下，假设$\mathcal{C}$由平移不变的FSIS组成。在以上三种情况下，我们都证明了最优空间的存在性。

信息论

2025-04-02 发布

设$G$为具有有限中心的非紧致型半单连通李群。设$K<G$为极大紧致子群，$P<G$为极小抛物子群。对于任意一对$(F,x)$，其中$F$为$G/K$中的极大平坦区域，$x \in G/P$与由$F$确定的Weyl扇区相反，我们定义一个投影$\Phi(F, x) \in F$，该投影是连续且$G$-等变的。此外，若$q \geq 3$，我们在$(G/P)^q$空间的某个几乎处处满测度开子集上构造一个$G$-等变连续映射，其像位于$G/K$中。当$G$为实双曲空间的保向等距变换群且$q = 3$时，我们恢复相应理想三角形的几何重心。我们的所有证明均是构造性的。

我们提出了进化选择器（EVOS），这是一种加速隐式神经表征（INR）训练的有效训练范式。与传统INR训练在每次迭代中对所有样本进行神经网络处理的方法不同，我们的方法仅针对经过策略性选择的点进行训练，通过消除冗余的前向传递来减少计算开销。具体而言，我们将每个样本视为进化过程中的一个个体，只有适应度最高的个体才能存活并被纳入训练中，从而与神经网络的动力学自适应演化。尽管这在概念上类似于进化算法，但由于其目标的不同（选择用于加速而非迭代优化求解），需要为我们的应用场景重新定义进化机制。为此，我们设计了稀疏适应度评估、频率引导的交叉操作以及增强的无偏突变操作来构成EVOS。这些组件分别以较低的计算成本指导样本选择，通过频域平衡提升性能，并缓解缓存评估带来的选择偏差。大量实验表明，该方法能够在确保优越收敛性的前提下，将训练时间减少约48%-66%，且无需额外成本，在基于采样的最新策略中达到了最先进的加速效果。

计算机视觉与模式识别

多媒体

神经与进化计算

2025-04-02更新2024-12-13 发布

远程光电容积脉搏图（rPPG）通过面部光反射分析实现非接触式生理监测，在深度学习带来性能提升的同时也面临着巨大的计算资源需求瓶颈。本文提出了一种名为ME-rPPG的记忆高效算法，该算法基于时域-空域状态空间对偶性，解决了模型可扩展性、跨数据集泛化能力和实时约束之间的三难问题。利用可迁移的状态空间，ME-rPPG能够高效捕捉面部帧中微妙的周期性变化，同时保持极低的计算开销，支持在长视频序列上的训练并实现低延迟推理。在MMPD、VitalVideo和PURE三个数据集上的测试结果表明，ME-rPPG的平均绝对误差（MAE）分别为5.38、0.70和0.25，相较于现有方法提升了21.3%到60.2%。我们的方案实现了仅需3.6 MB内存占用和9.46毫秒延迟的实时推理能力，相比现有方法在真实场景部署中的准确率提升了19.5%-49.7%，用户满意度提升了43.2%。代码和演示已发布于https://github.com/Health-HCI-Group/ME-rPPG-demo以供复现。

计算机视觉与模式识别

2025-04-02 发布

在组合设置下计算近似最优合同的问题最近引起了计算机科学界极大的兴趣。之前的研究为该问题提供了丰富的结构化和算法见解。然而，大多数这些结果依赖于假设委托人有无限预算激励代理人，而这一假设在实践中往往不现实。这促使人们研究在预算约束下的最优合同问题。我们研究了在二元和组合行动下的多代理合同的预算约束问题。对于二元行动，我们的贡献有三个方面。首先，我们将之前已知的所有关于委托人收入的近似保证推广到预算设定中。其次，通过预算约束的视角，我们揭示了委托人收入的标准目标与其他目标之间的有益联系。我们确定了一个广泛的对象类别，我们称之为BEST对象，包括奖励、社会福利和收入，并证明它们都是等价的（至多一个常数因子），从而为所有BEST对象提供近似保证。第三，我们引入了节俭的价格，量化了由于预算约束导致的损失，并对这一度量建立了接近紧的界限，从而更深入地洞察了预算和激励之间的权衡。对于组合行动，我们得到了一个强烈的负面结果。具体来说，我们证明在具有次模奖励的预算设定下，无法对任何BEST目标进行有限的近似。这与具有次模奖励的无预算设定形成对比，在无预算设定下，对于收入已经知道存在多项式时间的常数因子近似。从积极的方面来看，对于总替代品奖励，我们恢复了二元行动的结果，为所有BEST目标获得了常数因子近似。

计算机科学与博弈论

2025-04-02 发布

凌星长周期系外行星是下一代仪器最有趣的后续观测目标，其观测依赖于最先进的观测技术。然而，这些行星的凌星事件稀少，常常导致已知星历存在更大的不确定性，并进一步导致许多情况下已知物理特性的偏差较大。本文利用来自TESS和CHEOPS的最新公开观测数据，结合之前报道的数据，对五个非常有趣的长周期凌星系外行星（即HD95338 b、TOI-2134 c、K2-290 c、TOI-1898 b和TOI-813 b）的凌星特性进行了重新分析，并估算了更新后的星历。分析中还引入了一种关键的噪声处理算法，该算法采用经过充分测试的技术如小波去噪和高斯过程回归，有效减少了光变曲线中的各种噪声成分对参数估计的影响。研究结果使得所有目标的星历估算更加精确，除了TOI-813 b外，其余目标估算的周期精度优于5秒，而TOI-813 b的周期精度也优于21秒。其他凌星参数也得到了更新，大多数情况下统计上有显著改进，其中TOI-1898 b的冲击参数、TOI-2134 c的轨道半长轴以及HD95338 b的半径的估算值有显著提升。尽管在存在未探测到的具有行星质量天体的情况下，长周期系外行星预计会显示出更显著的凌星时间变化，但这些目标并未记录到此类变化。

地球与行星天体物理学

2025-04-02 发布

金融领域的大规模语言模型（LLMs）在推动金融任务及特定领域的应用方面具有巨大潜力，但其发展受到语料稀缺、弱多模态能力以及评估范围狭窄等问题的限制，难以满足真实世界的应用需求。为解决这些问题，我们提出了\textit{Open-FinLLMs}，这是首个开源的多模态金融领域大模型系列，旨在处理文本、表格、时间序列以及图表等多种数据形式下的多样化任务，并在零样本、少样本及微调设置下表现出色。该系列包括基于520亿标记全面预训练的FinLLaMA模型，以及通过57.3万条金融指令进行微调的FinLLaMA-Instruct模型；此外，FinLLaVA模型还通过143万个多模态调优对齐样本增强了跨模态推理能力。我们在14项金融任务、30个数据集以及四种多模态任务中，采用零样本、少样本和监督微调设置对Open-FinLLMs进行了全面评估，并引入了两个新的多模态评估数据集。结果表明，Open-FinLLMs在金融自然语言处理、决策制定以及多模态任务中超越了先进的金融领域模型如GPT-4，展示了其应对现实世界挑战的巨大潜力。为了促进学术界与工业界之间的创新与合作，我们在OSI认可的许可协议下公开了所有代码（https://anonymous.4open.science/r/PIXIU2-0D70/B1D7/LICENSE）和模型。

计算与语言

计算工程、金融与科学

计算金融

2025-04-02更新2024-08-20 发布

本文研究了协变量存在测量误差条件下条件分位数回归函数（CQRF）的非参数估计及其一致推断问题。我们考虑测量误差分布未知且可能是普通光滑或超光滑的情形。通过重复测量估计测量误差密度，并提出CQRF的去卷积核估计量。我们得到了所提出估计量的均匀Bahadur表示形式，并构造了CQRF的均匀置信带，这些置信带在所有协变量及一组分位数指数的意义上一致成立，同时建立了所提出的推断方法的理论有效性。此外，文中还包含了一种数据驱动的调参方法。蒙特卡洛模拟和真实数据分析展示了所提出方法的有效性。

方法论

计量经济学

2025-04-02 发布

最近，我们引入了一种关于角动量结构的对称性，该对称性互换了内部和外部自由度。自旋-轨道对偶性是一种全息映射，它将四维平坦时空中的质量理论投影到三维$\mathbb{S}^2\times\mathbb{R}$的光锥无穷远处。这个圆柱体的半径为$R\sim1/m$，在量子力学中，其真空态为模糊球面。研究表明，首先，这种对偶性实现了Hopf映射，这一点在超粒子上表现得非常明显。其次，广义相对论中的庞加莱群转化为圆柱面上的共形群。事实上，这种对偶性表明，对偶对称性包括BMS群，这是在光锥无穷远处适当的对称性。例如，在$\mathbb{R}^3$中展示的朗道能级与对偶$\mathbb{S}^2$上的狄拉克单极子的朗道能级在热力学极限下匹配。这个对偶系统实际上被识别为一个三维临界Ising模型。然后，该映射在平坦空间中的$N_f$个质量费米子上实现，这些费米子确实是圆柱面上$2N_f$个无质量费米子的全息图。然而，对偶空间实际上是$\mathbb{S}^2\times\mathbb{R}$的共形类，自然包含了共形紧致化AdS$_4$时空的通用覆盖。我们论证了，在没有相互作用的情况下，共形边界的无质量费米子反过来与AdS$_4$中的$N_f$个质量费米子对偶。对于自由费米子，$\mathbb{R}^4$、$\mathbb{S}^2\times\mathbb{R}$和AdS$_4$中的所有路径积分都被证明是一致的。因此，AdS/CFT对偶性被纳入了一个更大的框架中，其中一个全息论嵌套在另一个全息论之中，暗示了平坦空间场与AdS超弦之间存在完整的全息桥梁。

高能物理-理论

2025-04-02更新2024-12-24 发布

我们引入了凸锥的一个性质，称为“良好剪裁”，这一性质受到多位复代数几何学家在莫里森-川又锥体猜想工作中启发。该性质被满足于各种Calabi-Yau型复射影簇的可动锥，例如阿贝尔簇和射影超凯勒流形。良好剪裁的性质具有在有限群作用下保持不变以及对直和封闭的优势。在良好剪裁锥体类中，我们还给出了那些在某些自然群作用下具有有理多面体基本域的锥体的一个简单刻画。利用这一框架，我们证明了对于多种Calabi-Yau型射影簇的有限商，可动锥体猜想成立，特别是对于射影原始辛簇的乘积、阿贝尔簇以及基础为klt Calabi-Yau对的光滑有理曲面。这包括Enriques流形。由此得出，这些有限商簇仅有有限多个无标记的小$\mathbb{Q}$-因子化修改，并且nef锥体猜想对其成立。

代数几何

2025-04-02 发布

联邦学习（FL）允许分布式设备在保护数据隐私的同时协作训练共享的机器学习（ML）模型。然而，资源受限的移动设备面临模型参数密集的计算和通信开销问题。本文观察到，在训练过程中，模型参数往往在收敛之前就趋于稳定。基于这一观察，我们提出了一种通过联合优化冻结稳定参数和控制不稳定参数的发送功率的双时间尺度FL框架，以平衡能耗与收敛性能。首先，我们分析了模型参数冻结和不可靠传输对收敛率的影响。接着，我们构建了一个以最小化模型收敛误差为目标，同时满足能量预算约束的参数冻结比例和发送功率的双时间尺度优化问题。为了解决该问题，我们将其分解为并行子问题，并利用Lyapunov优化方法将每个子问题进一步分解为两个不同时间尺度的问题。在线推导出最优的参数冻结和功率控制策略。实验结果表明，所提出的方案相较于基准方案具有优越性。

机器学习

2025-04-02 发布

一个遗传原子的冯·诺依曼代数 $ A $ 可以看作是矩阵代数的 $ W^* $ 积，被视为量子集的基础函数代数。在 $ A\overline{\otimes}A^{\circ} $ 中的投影被解释为 $ A $ 上的量子二元关系，其中所有 $ p\otimes(1-p) $ 的上确界表示量子不等式。我们证明了所有这些量子不等式投影的对称化弱*闭线性包恰好是乘法和反向乘法联合核的对称和，这一结果对于普通矩阵代数在不对称化条件下也成立。该证明利用了 $ A $ 的紧酉群作用下的空间对称性，相关结果包括对那些（遗传原子或非遗传原子）冯·诺依曼代数的分类，其酉群在弱*拓扑下关于乘法运算共同连续。

17B10, 22E47, 18M05, 22D10, 46L05, 46L10, 16D25, 03G12

2025-04-02 发布

许多贝叶斯网络结构学习算法存在不稳定性，所学到的图对数据集的任意特征（如变量顺序）非常敏感。PC-Stable试图解决广泛应用的PC算法中的这一问题，促使研究者改用“稳定”版本。然而，这一问题似乎在基于评分的算法中被忽视了。在这项研究中，我们表明一些广泛使用的基于评分的算法，包括混合算法和约束条件算法（如PC-Stable），都存在相同的问题。我们提出了一种新的解决方案，通过确定稳定的节点顺序来消除基于评分的贪婪爬山算法的不稳定性，从而无论变量顺序如何都能得到一致的结果。介绍了两种实现方式：HC-Stable和Tabu-Stable。Tabu-Stable在所有网络中获得了最高的BIC评分，并且在分类网络中达到了最高的准确性。这些结果突显了解决结构学习中不稳定性的重要性，并为未来应用提供了一个稳健实用的方法。这项工作通过引入连续变量，扩展并增强了我们在2024年Probabilistic Graphical Models会议上展示的工作的影响。该实现及其使用说明已免费发布在GitHub上，网址为https://github.com/causal-iq/discovery。

机器学习

2025-04-02 发布

我们引入了一种名为分裂式遗忘（Split Unlearning）的新颖机器学习遗忘技术，该技术专为分裂式学习（Split Learning, SL）设计，实现了在SL框架中首次提出的分片化（Sharded）、隔离化（Isolated）、切片化（Sliced）和聚合化（Aggregated）遗忘（SISA）。特别地，现有SL框架中客户端与服务器之间的紧密耦合导致频繁的双向数据流以及针对所有客户端的迭代训练，这违反了“隔离化”的原则，使得它们难以实现独立且高效的SISA遗忘。为了解决这一问题，我们提出了SplitWiper，采用一种新的单向一次性传播方案，利用SL固有的“分片化”结构，解耦客户端与服务器之间的神经信号传播，从而即使在存在缺失客户端的情况下也能实现有效的SISA遗忘。我们进一步设计了SplitWiper+以增强客户端标签隐私，通过集成差分隐私和标签扩展策略，防御服务器和其他潜在对手对客户端标签隐私的攻击。实验结果表明，在不同数据分布和任务下，SplitWiper对被遗忘标签达到了0%的准确率，并且相比非SISA遗忘方法，在保留标签上的准确率提高了8%。此外，单向一次性传播保持了恒定开销，计算和通信成本降低了99%。SplitWiper+在与服务器共享掩码标签时仍能保留90%的标签隐私。

密码学与安全

2025-04-02更新2023-08-21 发布

我们研究了双组分玻色-哈伯德模型在无穷大排斥相互作用下的超流体拖拽效应。在这个系统中，所有的传输都由空位（或称“空穴”）的运动介导，且很难单独移动一个组分而不影响另一个组分。我们通过解析和数值技术相结合的方法证明，空位的运动导致两个组分的电流之间存在强烈的无耗散耦合。这种行为归因于自旋电流存在时出现的极化子关联，这些关联可以在实验中观测到。我们推导出在各种晶格以及任意空间维度下该耦合的闭式表达，并通过二维晶格上的数值模拟验证了这一结果。

量子气体

强关联电子体系

2025-04-02更新2025-02-01 发布

共 13511 条搜索结果

共 13511 条

YourBench：人人可用的自定义评估数据集

顶-k Shapley值识别的反向采样方法

基于神经网络的星系功率谱模型：快速全形状星系功率谱分析

基于时延谐振器的非共置振动吸收：频谱与空间调谐分析及实验验证

“确定性”LLM设置中的非确定性现象

均匀测量下的最优平移不变空间

从Furstenberg边界到极大平坦区域的投影以及重心映射

EVOS: 通过进化选择器实现高效的隐式神经网络训练

基于时域-空域状态空间对偶性的高效低延迟远程光电容积脉搏波图技术

预算可行的合同

利用TESS和CHEOPS更新五个长周期凌星系外行星的星历和物理特性

开放式金融大型语言模型：面向金融应用的开放式多模态大模型

测量误差下条件分位数回归函数的非参数估计与一致推断

层次嵌套全息论

被良好剪裁的锥体在所有有限商下表现良好，锥体猜想在大多数情况下成立

基于参数冻结与功率控制的双时间尺度无线联邦学习方法

量子不等式投影的张量

基于HC-Stable和Tabu-Stable算法的稳定结构学习

分裂式遗忘技术

空位辅助的超流体拖拽效应