分类
条件边际效应估计的实用指南:现代方法
本文献提供了一个关于如何使用现代统计方法估计条件边际效应(即治疗效果如何随调节变量变化)的实用指南。常用的线性交互模型方法常常存在未明确的目标估计量、重叠性有限以及函数形式过于限制等问题。本指南首先清晰定义了目标估计量并介绍了主要的识别结果,随后回顾并改进了现有的解决方案,例如半参数核估计器,并引入了稳健的估计策略,包括带Lasso选择的逆概率加权法(AIPW-Lasso)和基于现代算法的双机器学习(DML)。每种方法都通过模拟研究和经验实例进行评估,并根据样本量和研究背景提供了实用建议。所有工具均可在附带的interflex R包中实现。
SOLAR:面向推理的大规模架构可扩展优化
大型语言模型在推理方面表现出色,但往往依赖于链式思维提示,这限制了其在需要更复杂拓扑结构的任务中的表现。我们提出了SOLAR(面向推理的大规模架构可扩展优化),一个能够动态优化链式思维(CoT)、树状思维(ToT)和图状思维(GoT)拓扑结构的框架,从而提升准确性和效率。我们的拓扑标注生成(TAG)系统实现了数据集创建、标注以及难度分段的自动化,显著提升了训练后和测试时的表现。此外,我们还提出了基于课程学习的拓扑缩放(Topological-Scaling)方法,该方法能够根据任务自适应地结合训练后和推理缩放。在MATH和GSM8K数据集上,SOLAR取得了显著的性能提升:通过拓扑调优(Topological Tuning)提高了+5%的准确率,通过拓扑奖励(Topological Rewarding)提高了+9%,通过混合缩放(Hybrid Scaling)提高了+10.02%,同时减少了超过5%的响应长度并降低了推理延迟。为进一步提高效率,我们引入了多任务拓扑奖励模型(M-TRM),它能够在单次推断中选择最优的推理拓扑和最终答案,消除了多个单一任务拓扑奖励模型(TRMs)。令人印象深刻的是,M-TRM不仅优于所有单一任务TRMs,还提升了+10%的准确率和+9%的相关度排名。总体而言,SOLAR为可扩展的高精度大型语言模型推理设立了新的基准,并引入了全自动化的动态拓扑竞争机制。
典型钙钛矿自旋液体图集
钙钛矿晶格磁体中的磁性阻挫被证明是寻找自旋液体实验和理论研究的一个非常有成效的环境。除了自旋冰的经典案例外,近期的研究已经识别出由该晶格的通用最近邻各向异性自旋哈密顿量产生的多种新的经典和量子自旋液体。然而,对于这些物质的奇异状态,缺乏一个全面且系统的分类和表征框架,也缺乏该模型所能支持的所有可能自旋液体的详尽列表,或许最有趣的是它们对应的新兴场论描述结构。在这项工作中,我们开发了一个理论框架,用于识别稳定不同经典自旋液体的相互作用参数,并在低温下推导其对应的广义高斯定律。结合蒙特卡洛模拟,我们系统地确定了钙钛矿晶格上一般最近邻各向异性自旋哈密顿量的所有经典自旋液体。在此过程中,我们发现了具有奇异形式的广义高斯定律和多极守恒定律的新自旋液体模型。我们的方法使我们能够编制所有出现在相图中的自旋液体图集,提供参数空间中它们之间的相互联系及其转变的整体图像。我们的工作将为未来对钙钛矿晶格上的经典和量子自旋液体的理论和实验研究提供指导,并有助于解释钙钛矿磁体的奇异特性。
针对程序性任务错误检测的多重正常动作表示建模
在增强现实辅助系统和机器人系统中,程序性活动中的错误检测对于确保一致且正确的结果至关重要。现有方法通常专注于时序顺序错误或依赖静态原型来表示正常动作。然而,这些方法往往忽略了这样一个常见场景:在给定的一系列已执行动作之后,存在多个不同的有效动作。这导致了两个问题:(1)当推理环境或动作执行分布与训练数据不同时,模型无法通过静态原型有效地检测错误;(2)如果正在进行的动作标签与预测的动作标签不同,模型可能会使用错误的原型来检测错误。为了解决这些问题,我们提出了自适应多重正常动作表示(AMNAR)框架。AMNAR预测所有有效的下一个动作,并重构其对应的正常动作表示,然后将这些表示与正在进行的动作进行比较以检测错误。广泛的实验表明,AMNAR达到了最先进的性能,凸显了AMNAR的有效性以及在错误检测中建模多个有效下一个动作的重要性。代码可在https://github.com/iSEE-Laboratory/AMNAR获取。
Biased-Annotator Competence Estimation(BACE)模型应用于COVID-19疫苗Twitter数据的人类注释:潜在信息特征的人工标注
传统的定量内容分析方法(人工编码法)存在不足,例如在训练过程中一旦达到信度阈值就假定所有人工编码员同样准确。我们应用了Biased-Annotator Competence Estimation(BACE)模型(Tyler,2021),该模型基于贝叶斯建模改进人工编码。该模型的一个重要贡献在于考虑每位编码员可能存在的偏见和可靠性,并将每条信息的“真实”标签视为潜在参数,具有可量化的估计不确定性。相比之下,在传统人工编码中,每条信息会获得固定标签,而没有测量不确定性的估计。本文首先总结了传统人工编码的不足之处;然后将BACE模型应用于COVID-19疫苗的Twitter数据,并与其他统计模型进行比较;最后讨论了如何利用BACE模型改进对潜在信息特征的人工编码。
分析Besov函数、预Schwarz导数与可积Teichmüller空间
考虑通过预Schwarz导数将可积Teichmüller空间 $ T_p $ 嵌入到分析Besov空间的问题。与由Schwarz导数给出的Bers嵌入情况不同,当 $ p>1 $ 和 $ p=1 $ 时存在显著差异。本文聚焦于 $ p=1 $ 的情形,并推广了针对 $ p>1 $ 已有的结果。这为统一处理所有 $ p \geq 1 $ 的可积Teichmüller空间 $ T_p $ 的复解析理论提供了一种方法。
高温格点QCD中(u, d, s, c, b)最优域墙夸克的对称性研究
我们研究了在八种温度范围从325到3250 MeV的$N_f=2+1+1+1$格点QCD中,采用最优域墙夸克的介子算符的空间$z$-关联函数。这些介子算符包括十种味组合的所有Dirac双线性。我们的发现揭示了具有$(u, d, s, c, b)$夸克的QCD中手征对称性的分层恢复过程,随着温度升高,依次从$SU(2)_L \times SU(2)_R \times U(1)_A$进展到$SU(3)_L \times SU(3)_R \times U(1)_A$,再到$SU(4)_L \times SU(4)_R \times U(1)_A$,最后到$SU(5)_L \times SU(5)_R \times U(1)_A$。此外,我们探讨了$SU(2)_{CS}$手征自旋对称性的出现,并比较了所有味组合的温度窗口。结果表明,新兴的$SU(2)_{CS}$对称性的温度窗口主要由$\bar{u}b$和$\bar{s}b$扇区主导。
自动日志记录基准AL-Bench
日志记录,即在源代码中插入日志语句的实践,对于提高软件可靠性至关重要。近年来,基于语言模型的技术已开发出来,可以根据输入代码自动生成日志语句。尽管这些工具在先前的研究中显示出有前景的结果,但由于使用了临时数据集,其结果比较的公平性无法得到保证。此外,现有的仅依赖代码相似性度量的评估方法无法捕捉代码差异对运行时日志行为的影响,因为细微的代码修改可能会导致程序不可编译以及日志输出语义的重大差异。为了增强日志记录评估的一致性和可重复性,我们引入了AL-Bench,这是一个专门针对自动日志记录工具设计的综合基准。AL-Bench包含一个大规模、高质量、多样化的数据集,该数据集从10个具有不同日志需求的广泛认可的项目中收集而来。此外,它还引入了一种新颖的动态评估方法,除了传统的源代码层面的静态评估外,还提供了运行时的日志质量视角。具体而言,AL-Bench不仅评估源代码中理想日志语句与预测日志语句之间的相似性,还评估运行时由这两种日志语句打印的日志文件之间的差异。AL-Bench揭示了现有静态评估的重大局限性,所有日志工具在预测日志位置、级别和消息时的平均准确率分别比其报告结果低37.49%、23.43%和15.80%。此外,通过动态评估,AL-Bench显示有20.1%-83.6%的生成日志语句无法编译。并且,表现最好的工具在理想日志语句与生成日志语句的日志文件之间仅达到21.32%的余弦相似性。
中度软势均匀Boltzmann-Fermi-Dirac方程解趋于平衡的均匀收敛性
我们研究了空间均匀的Boltzmann-Fermi-Dirac方程在中度软势下温和解的长时间行为。基于文献[X-G. Lu, J. Stat. Phys., 105, (2001), 353-388]中的适定性结果,我们证明了温和解以明确的速率代数衰减至Fermi-Dirac统计。在De Giorgi的能级分析框架下,我们推导出了一个关于量子参数$\varepsilon$一致的$L^\infty$估计。所有的定量估计均独立于$\varepsilon$,这表明它们在经典极限(即Boltzmann方程)下也成立。
APPLS:评估普通语言摘要评估指标的研究
虽然普通语言摘要(PLS)模型取得了显著进展,但其评估仍面临挑战。由于涉及独特的变换(如添加背景解释、去除专业术语),PLS缺乏专用的评估指标,现有文本生成评估指标的适用性尚不明确。为解决这些问题,本研究引入了一个细粒度的元评估测试平台APPLS,用于评估PLS的评估指标。我们从先前的工作中确定了四个PLS标准——信息性、简化性、连贯性和忠实性,并定义了一组与这些标准对应的扰动,敏感的指标应能够检测到这些扰动。我们将这些扰动应用于两个PLS数据集的抽取式假设,构建了我们的测试平台。利用APPLS,我们评估了14种指标的表现,包括自动评分、词汇特征以及基于大型语言模型提示的评估方法。分析表明,尽管某些现有指标对特定标准表现出一定的敏感性,但没有一种单一的方法能同时涵盖所有四个标准。因此,我们建议采用一套自动化指标,以全面捕捉PLS质量。这项工作贡献了首个PLS元评估测试平台,并对现有指标进行了全面评估。APPLS及其评估代码可在https://github.com/LinguisticAnomalies/APPLS获取。
基于二元决策图计算时变网络可靠性的高效算法
考虑动态特性计算时变网络的可靠性,对于如空间网络、车载自组网络及无人机网络等随时间变化的网络至关重要。这些网络通过时态图建模,其中每条边标注了存在的时间点。时变网络可靠性定义为从源顶点到目标顶点传输数据包的概率,遵循时间标签递增的路径(即旅程),同时考虑网络链路失效的可能性。目前,计算该可靠性的现有方法涉及显式枚举源顶点到目标顶点的所有可能旅程,然后利用不相交积求和法计算可靠性,但其计算复杂度较高。相比之下,已有针对拓扑不变网络可靠性的高效算法基于二元决策图(BDD)进行评估。本文提出了一种基于BDD的高效精确算法,用于计算时变网络可靠性。实验结果表明,所提方法在计算速度上比现有方法快四个数量级。
档案截断时机的选择:多目标优化中截断频率的影响
在多目标进化算法(MOEA)的搜索过程中,使用档案存储非支配解是一种有用的做法。然而,由于多目标优化问题的非支配解可能是巨大的甚至是无限多的,因此希望仅向决策者提供档案中所有非支配解的一个小而有代表性的部分,这就需要进行截断操作。此时,一个重要的问题是何时进行档案截断。这可以在生成新解时进行,也可以在一批新解生成后进行,甚至可以使用无界档案保存所有生成的非支配解并在之后进行截断。直观上,最后一种方法可能会得到更好的结果,因为在截断之前我们已经掌握了所有的信息。本文研究了这一问题,并探讨了截断档案时机对结果的影响。我们应用了在MOEA的人口维护过程中常用的截断标准(例如,拥挤距离、超体积指标和分解)。有趣的是,我们发现每次生成新解时就进行截断往往是最优的,而考虑无界档案通常是效果最差的。我们分析并讨论了这一现象。我们的结果显示,在使用大档案时,开发有效的子集选择技术(而非采用MOEA中的种群维护方法)的重要性。
具有可调带隙的等离子体晶体在光栅门晶体管结构中的研究
我们开发了一种水动力学模型,用于描述在电流驱动的光栅门晶体管结构中形成的等离子体晶体。该模型表明,通过使用高电子密度的无栅区域连接多个等离子体腔室,可以提高等离子体共振的质量因子。对带等离子体电磁辐射吸收的解析和数值计算表明,驱动电流通过破坏等离子体振荡的对称性,使所有等离子体模式在光学上变得活跃。这一效应导致等离子体共振吸收峰分裂,并揭示了由电流可调的等离子体带谱中的带隙。所分析的设计能够在多种材料系统(包括石墨烯、III-V族、III-N族材料以及p-金刚石)中实现室温下的等离子体晶体共振行为。我们进一步指出,这种在太赫兹范围内的双峰光谱线也促进了在通常为微波范围的带隙频率处的吸收。在带隙频率下的功率泵浦能够激发间隙等离子体,从而促进微波到太赫兹范围的频率转换。对于所研究的结构,无栅区域长度的灵活性允许其与太赫兹辐射进行有效耦合,其中金属光栅充当分布式谐振天线。本文提出的结果应用范围涵盖太赫兹通信系统、太赫兹传感与成像、频率转换系统以及其他先进的太赫兹等离子体器件。
基于EEG的阿尔茨海默病分类的灵活且可解释的图分析
阿尔茨海默病是一种进行性神经系统障碍疾病,是最常见的痴呆形式之一。它会导致记忆力、推理能力和行为能力的下降,尤其是在老年人中更为常见。尽管阿尔茨海默病的具体病因仍在探索之中,尚无一种全面的理论能够解释每个个体患者的病理变化,但早期干预已被证明在管理症状和减缓疾病进展方面有效。近年来的研究利用脑电图(EEG)数据识别区分阿尔茨海默病患者与健康个体的生物标志物。先前的研究采用了多种机器学习方法,包括深度学习和图神经网络,来分析基于EEG的信号以识别阿尔茨海默病患者。在我们的研究中,我们提出了一种具有多目标树结构Parzen估计器(MOTPE)超参数调优的灵活且可解释的门控图卷积网络(GGCN)。该模型提供了一种灵活的解决方案,高效地确定最佳的GGCN块数,从而实现优化的精确度、特异性和召回率结果,以及受试者工作特征曲线下的优化面积(AUC)。我们的研究结果显示,使用不同频段的EEG信号功率谱密度(PSD),在区分轻至重度痴呆中的阿尔茨海默病患者与健康对照组时,接收者操作特征(ROC)得分超过0.9,同时具有较高的精度、特异性和召回率。此外,我们的研究提高了嵌入邻接矩阵的可解释性,揭示了阿尔茨海默病患者与健康个体之间额叶和顶叶大脑区域的连接差异。
关于视觉抽象推理的数据合成与后训练方法
本文是一项开创性的工作,尝试解决大型视觉-语言模型(VLM)在视觉抽象推理(AVR)问题上的挑战。我们使一个常见的LLaVA-NeXT 7B模型能够感知并推理特定的AVR问题,显著超越了开源模型(例如Qwen-2-VL-72B)和闭源的强大VLM(例如GPT-4o)。这是一个重要的突破,因为几乎所有先前的VLM在代表性AVR基准测试中都失败或表现出几乎随机的性能。我们的成功关键在于创新的数据合成和后训练过程,旨在逐步减轻任务难度并激发模型的学习能力。我们的7B模型不仅在AVR方面表现良好,同时也没有牺牲多模态理解的一般能力。我们希望本文能成为该领域的早期努力,并激励进一步研究抽象视觉推理。
隐式关系:低秩微调与 differential privacy
自然语言处理中的一个重要方法是通过在通用领域数据上的大规模预训练模型,然后针对特定任务或领域进行适应性调整。随着模型规模的增长,对所有参数进行全面微调变得越来越不切实际。为了解决这一问题,已经提出了一些用于语言模型低秩任务适应的方法,例如 LoRA 和 FLoRA。这些方法保持预训练模型权重不变,并在 Transformer 架构的一些层中引入可训练的低秩分解矩阵,称为适配器。与全参数微调相比,这种方法显著减少了下游任务所需的可训练参数数量。在这项工作中,我们从数据隐私的角度审视低秩适应。我们理论上表明,LoRA 和 FLoRA 中使用的低秩适应会在适配器参数的批量梯度中注入一些随机噪声。我们量化了注入噪声的方差,并表明适应秩越小,噪声方差越大。通过建立注入噪声分布与具有相同方差的高斯分布之间总变差距离的 Berry-Esseen 型界,我们证明了低秩适应的动力学接近于适配器的差分隐私微调动力学。最后,利用 Johnson-Lindenstrauss 引理,我们表明当结合梯度缩放时,低秩适应非常接近于使用固定噪声尺度的 DPSGD 算法来微调适配器。根据我们的理论发现和实验结果,我们展示了低秩适应不仅减轻了空间和计算复杂性,还隐式地提供了对微调数据的隐私保护,而不会引发 DPSGD 的高空间复杂性。
生物网络动力学:Poincaré-Lindstedt 级数与时滞的影响
本文聚焦于无扩散的激活-抑制系统中的Hopf分岔,该系统可以建模为时滞微分方程。本文的主要结果是证明了分岔周期解的Poincaré-Lindstedt级数在任意阶次下存在。尽管模型的非线性项是非多项式的,但我们仍能够利用Fourier-Taylor级数进行逐阶计算,从而得到Poincaré-Lindstedt级数系数的线性递推关系。作为应用,我们实现了任意有限阶次下这些级数系数的计算,并利用伪弧长延拓方法计算周期解的分支。
LR²Bench:通过约束满足问题评估大型语言模型长链反射推理能力的基准测试
类似于o1的大规模语言模型(LLMs)近期进展显著提升了其推理能力,使其能够通过假设、回溯和自我优化等反射能力处理日益复杂的任务。然而,由于缺乏适当的基准测试,有效评估这些反射能力仍面临挑战。为弥合这一差距,我们引入了LR²Bench,这是一个旨在评估LLMs长链反射推理能力的新基准。LR²Bench包含来自六个约束满足问题(CSPs)的850个样本,在这些问题中,反射推理对于得出满足所有给定约束的解决方案至关重要。每种任务类型专注于不同的约束模式,例如基于知识、逻辑和空间的约束,提供了对多样化问题解决场景的全面评估。我们在传统模型和类似o1的模型上进行了广泛的评估。实验结果表明,即使是最先进的专用推理模型,如DeepSeek-R1和OpenAI o1-preview,在LR²Bench的任务中也表现不佳,平均精确匹配得分分别仅为20.0%和23.6%。这些发现强调了当前LLMs在反射推理能力方面存在的巨大改进空间。我们的基准排行榜可在https://huggingface.co/spaces/UltraRonin/LR2Bench获取。
通过测量潮汐形变和自旋诱导四极矩对GWTC-2事件的引力波约束
来自致密双星并合的引力波提供了一个独特的实验室,用于检验致密天体的属性。作为广义相对论普通黑洞的替代物,各种奇异致密天体被提出。其中一些天体的潮汐形变和自旋诱导四极矩值与黑洞有很大不同,它们的双星系统可以通过在并合过程中发射的引力波与二黑洞系统区分开来(排除了高度模型依赖的合并和环振阶段)。我们重新分析了由高级LIGO和高级Virgo探测到的GWTC-2中的低质量并合事件的引力波。重点关注潮汐形变和自旋诱导四极矩对并合波形的影响,我们提供了对标准二黑洞情况偏差的模型无关限制。我们发现,所有分析的事件都与广义相对论中二黑洞的波形一致。贝叶斯模型选择表明,双星系统由奇异致密天体组成的假设被所有事件所排斥。
一种评估网络安全能力成熟度的新框架
在当今快速发展的数字环境中,组织面临着日益严重的网络威胁,这些威胁可能扰乱运营、泄露敏感数据,并造成财务和声誉损失。其主要原因是组织对其网络安全能力缺乏清晰认识,导致防御措施无效。为解决这一问题,网络安全能力成熟度模型(CCMM)通过关注能力成熟度而非单纯实施控制措施,提供了一种系统性的方法来评估和提升组织的网络安全状况。然而,这些模型存在一些局限性,如结构僵化、一刀切的方法、复杂性、安全范围的不足(即技术、组织和人员方面)以及缺乏量化指标,这阻碍了它们的有效性。因此,在不同情境下实施CCMM具有挑战性,且可能导致碎片化和不全面的评估结果。为此,我们提出了一种新的网络安全能力成熟度框架,该框架具有整体性、灵活性和可测量性,旨在为组织提供更相关和有影响力的评估,从而提升其网络安全水平。
共 13511 条搜索结果
共 13511 条