Research

arXiv

分类

模型校准对于确保深度神经网络在实际分类任务中的预测准确反映真实概率至关重要。然而，深度网络往往会产生过自信或欠自信的预测，导致校准不良。为解决此问题，已提出了多种方法，通过设计有效的损失函数（如焦点损失）进行校准。本文分析了这些方法的有效性，并提出了一种统一的损失框架，将焦点损失及其变体纳入其中，主要归因于其估计样本不确定性时使用的加权因子。基于我们的分析，现有损失函数由于两个主要问题未能实现最优校准性能：优化过程中存在不对齐以及不确定性估计精度不足。具体而言，焦点损失无法使样本不确定性与梯度缩放对齐，单个logit也无法指示不确定性。为了解决这些问题，我们从梯度的角度重新构建优化过程，重点关注不确定样本。同时，我们建议使用布赖尔分数作为损失权重因子，通过所有logits提供更精确的不确定性估计。在各种模型和数据集上的广泛实验表明，我们的方法达到了最先进的性能。

机器学习

2025-03-26 发布

我们研究一维高斯位置混合模型的非参数最大似然估计量$\widehat{\pi}$。自(Lindsay, 1983)以来已知，给定一个$n$点数据集，该估计量始终返回最多具有$n$个成分的混合模型，并且最近(Wu-Polyanskiy, 2020)为次高斯数据提供了尖锐的$O(\log n)$界。在本文中，我们研究了$\widehat{\pi}$的计算方面。我们提供了一种算法，对于足够小的$\varepsilon>0$，可以在时间$K+Cnk^2\log\log(1/\varepsilon)$内以Wasserstein距离计算$\widehat\pi$的$\varepsilon$-近似值。这里$K$是与数据相关的常数但独立于$\varepsilon$，而$C$是一个绝对常数，$k=|supp(\widehat{\pi})|\leq n$是$\widehat\pi$中的原子数。我们还能够在有限时间内认证地计算$|supp(\widehat\pi)|$的确切值。这些保证在数据集$(x_1,\dots,x_n)\in [-cn^{1/4},cn^{1/4}]$由独立点从具有密度的概率分布（相对于Lebesgue测度）生成时几乎总是成立。我们还表明，条件为$k$-原子的$\widehat\pi$的分布在相应的$2k-1$维参数空间上具有密度，且EM算法几乎处处局部线性收敛。一个关键工具是经典傅里叶分析对非退化曲线的估计。

本研究将Blackwell（1953）对信息的比较扩展到一个序贯社会学习模型中，其中代理人基于私有信号和个人观察到的他人行为依次做出决策。在此背景下，我们引入了一种新的关于信息结构的二元关系：如果一种信息结构能使所有代理人在无论其偏好如何的情况下获得更高的预期收益，则该信息结构比另一种更具社会价值。首先，我们证明了这种二元关系严格强于Blackwell序。其次，我们给出了这一二元关系的充要条件，并提出了一种更易验证的充分条件。

理论经济学

社会与信息网络

2025-03-26更新2025-03-06 发布

关于用户生成的文本密码的研究已经取得了很多进展。然而，令人惊讶的是，这类密码中的语义信息仍然研究不足，尤其是对英语和/或汉语用户的密码研究，其语义信息的利用非常有限。本文通过提出一个基于语义增强的概率上下文无关文法（Probabilistic Context-Free Grammars, PCFG）的一般框架——SE#PCFG，填补了这一空白。该框架使我们能够考虑迄今为止最丰富的43种语义信息集，用于密码分析。我们将SE#PCFG应用于来自四种语言（英语、汉语、德语和法语）用户的17个大型泄露密码数据库，展示了其有用性，并报告了关于密码语义在不同层次上的广泛新见解，例如跨网站密码相关性。此外，基于SE#PCFG和一种新的系统平滑方法，我们提出了语义增强的密码破解架构（SEPCA），并从密码覆盖率的角度将其性能与三个最先进的基准进行了比较：两种其他PCFG变体以及神经网络。实验结果表明，在包含重复密码的用户级别上，SEPCA相对于这三个基准分别提高了高达21.53%、52.55%和7.86%；而在唯一密码级别上，SEPCA也分别领先这三个对手高达43.83%、94.11%和11.16%。

密码学与安全

计算与语言

2025-03-26更新2023-06-12 发布

高光谱相机在固有的低光子条件下在空间、光谱和时间分辨率之间面临严峻的权衡问题。计算成像系统通过压缩感知突破了这些限制，但需要复杂的光学元件和/或大量的计算资源。我们提出了离焦获取光谱（Spectrum from Defocus, SfD），这是一种基于色差的焦距扫描方法，能够利用现成的简单光学元件并耗时不到1秒即可恢复最先进的高光谱图像。我们的相机使用两个透镜和一个灰度传感器，在保持色差的焦平面堆栈中几乎保留了所有入射光线。基于物理的迭代算法高效地对模糊的灰度焦平面堆栈进行分离、去卷积和降噪，从而生成清晰的光谱图像。光子效率、光学简单性和物理建模的结合使SfD成为快速、紧凑且可解释的高光谱成像的一个有前景的解决方案。

计算机视觉与模式识别

图像与视频处理

2025-03-26 发布

深度神经网络（DNN）近年来因其卓越的表现而受到广泛关注。然而，训练这些复杂模型的成本高昂，导致许多人将DNN视为模型所有者的知识产权（IP）。在云计算时代，高性能的DNN经常部署在互联网上，供公众访问。因此，近年来针对保护专有权利的DNN水印方案，特别是基于后门的水印方案得到了积极发展。然而，现有基于后门的水印方案在对抗攻击以及无意操作（如微调神经网络模型）下的鲁棒性仍存在许多不确定性。其中一个原因是，在基于后门的水印背景下无法完全保证鲁棒性。本文在微调场景下对近期提出的基于后门的水印持久性进行了广泛评估，并提出了一种新颖的数据驱动方法，在不暴露触发集的情况下恢复微调后的水印。我们的实验结果表明，仅通过在微调后引入训练数据，如果模型参数在微调过程中没有发生显著变化，则可以恢复水印。根据所使用的触发样本类型的不同，触发准确率可以恢复到高达100%。我们的研究进一步探讨了利用损失曲面可视化技术分析恢复过程的工作原理，以及在微调阶段引入训练数据以缓解水印消失的方法。

机器学习

多媒体

2025-03-26更新2025-01-06 发布

文档结构分析（又称文档版面分析）对于理解文档的物理布局和逻辑结构至关重要，服务于信息检索、文档摘要、知识提取等领域。层次化文档结构分析（HDSA）特别旨在恢复通过具有层次化模式的创作软件创建的文档的层次化结构。以往的研究主要遵循两种方法：一种专注于孤立地解决HDSA的特定子任务，例如表格检测或阅读顺序预测；另一种采用统一框架，使用多个分支或模块，每个模块专门用于处理不同的任务。在本文中，我们提出了一种面向HDSA的统一关系预测方法，称为UniHDSA，该方法将各种HDSA子任务视为关系预测问题，并将关系预测标签整合到一个统一的标签空间中。这使得单一的关系预测模块能够同时处理多个任务，无论是页面级还是文档级结构分析。为验证UniHDSA的有效性，我们基于Transformer架构开发了一个多模态端到端系统。广泛的实验结果表明，我们的方法在层次化文档结构分析基准Comp-HRDoc上达到了最先进的性能，并在大规模文档版面分析数据集DocLayNet上取得了具有竞争力的结果，有效展示了我们方法在所有子任务中的优越性。Comp-HRDoc基准和UniHDSA的配置可在https://github.com/microsoft/CompHRDoc公开获取。

计算机视觉与模式识别

2025-03-26更新2025-03-20 发布

本文中，我们对Sudakov、Szemerédi和Vu在2005年提出的超图版本的Balog-Szemerédi-Gowers定理进行了定量改进。此外，我们还证明了Balog-Szemerédi-Gowers定理“几乎所有”版本的超图变体。

组合学

数论

2025-03-26更新2025-01-10 发布

大型视觉-语言模型（LVLMs）在理解和描述视觉内容方面表现出色，在各种视觉-语言任务中达到了最先进的性能。然而，这些模型常常生成包含输入图像中不存在的对象或细节的描述，这种现象通常被称为幻觉。我们的工作通过分析Transformer层中的自注意力模式，探讨了这一问题的关键原因。我们发现，幻觉通常源于LLM较深层对视觉标记的注意力权重的逐步减弱。一些先前的工作简单地增强所有视觉标记的注意力以缓解这一问题，导致幻觉减少的效果不佳。为了解决这个问题，我们确定了两个关键的视觉标记集，它们有助于将视觉信息从视觉编码器传递到LLM。局部标记编码关于图像中存在的对象的接地信息，而摘要标记捕捉图像的整体聚合表示。重要的是，这两个标记集需要不同程度的权重增强。为此，我们提出了\textbf{PAINT}（\textbf{P}aying \textbf{A}ttention to \textbf{IN}formed \textbf{T}okens），这是一种即插即用框架，干预LLM的自注意力机制，选择性地提升局部和摘要标记的注意力权重，使用实验学习到的边界值。在MSCOCO图像描述数据集上的评估表明，与基线模型相比，我们的方法可将幻觉率降低多达62.3%，同时保持准确性。代码可在\href{https://github.com/hasanar1f/PAINT}{https://github.com/hasanar1f/PAINT}获取。

计算机视觉与模式识别

计算与语言

2025-03-26更新2025-01-21 发布

我们证明了对于一个具有至少 $\left(\frac{1}{2} + \varepsilon \right)n$ 最小半度数的 $n$ 阶有向图 $D$，当 $n \geq C m$ 时，它包含所有不含孤立点的 $m$ 弧有向图的细分结构。这里的 $C$ 是仅依赖于 $\varepsilon$ 的常数。这是可能的最佳结果，并以更强的形式解决了 Pavez-Sign\'{e} 提出的一个猜想。

组合学

2025-03-26更新2023-06-11 发布

深度卷积神经网络已被证明是图像分类中最有效的方法之一，但其严重缺陷在于较差的可解释性。在许多实际应用中，用户需要理解深度卷积神经网络预测背后的原因，以决定是否信任这些预测。为了解决这一问题，首次提出了一种基于遗传算法的新方法，用于自动生成能够帮助用户评估预测合理性的局部解释。此外，该方法具有模型无关性，即可以用于解释任何深度卷积神经网络模型。实验中，以ResNet为例模型进行解释，并选用ImageNet数据集作为基准数据集。进一步通过DenseNet和MobileNet展示了所提方法的模型无关特性。从ImageNet中随机选取的四张图像的演化局部解释表明，这些解释易于被人类识别。并且，所提出的解释成功捕获了样本图像的有意义的可解释特征，能够很好地解释深度卷积神经网络在这四张图像上的预测结果。基于30次实验运行的进一步分析显示，演化出的局部解释还可以提高深度卷积神经网络模型进行预测的概率/置信度。所提出的方法可以在一分钟内获得局部解释，比最先进的方法LIME快十倍以上。

计算机视觉与模式识别

机器学习

2025-03-26更新2022-11-28 发布

对于给定图 $H$，若图 $G$ 包含一组互不相交且覆盖 $G$ 所有顶点的 $H$ 的细分结构，则称 $G$ 具有完美的 $H$-细分镶嵌。令 $\delta_{\mathrm{sub}}(n, H)$ 表示最小整数 $k$，使得任意具有 $n$ 个顶点且最小度数至少为 $k$ 的图 $G$ 都具有完美的 $H$-细分镶嵌。对于每个图 $H$，我们渐近确定了 $\delta_{\mathrm{sub}}(n, H)$ 的值。更具体地说，对于每个具有至少一条边的图 $H$，存在一个整数 $\mathrm{hcf}_{\xi}(H)$ 和一个常数 $1 < \xi^*(H) \leq 2$（可通过 $H$ 的结构性质显式确定），使得当 $\mathrm{hcf}_{\xi}(H) \neq 2$ 或 $n$ 为偶数时，$\delta_{\mathrm{sub}}(n, H) = \left(1 - \frac{1}{\xi^*(H)} + o(1) \right)n$ 成立；而当 $\mathrm{hcf}_{\xi}(H) = 2$ 且 $n$ 为奇数时，我们证明 $\delta_{\mathrm{sub}}(n, H) = \left(\frac{1}{2} + o(1) \right)n$。

组合学

2025-03-26更新2023-02-18 发布

单点登录（SSO）允许用户仅凭身份提供者（IdP）的凭证登录多个依赖方（RP）。然而，SSO引入了隐私威胁，因为（a）好奇的IdP可能跟踪用户访问所有RP的行为，以及（b）合谋的RP可以通过链接这些RP中的用户身份来获取用户的在线档案。本文提出了一种名为UPPRESSO的隐私保护SSO方案，以保护诚实用户的在线档案免受（a）诚实但好奇的IdP和（b）与其他用户合谋的恶意RP的侵害。UPPRESSO提出了身份转换的方法，为RP和用户生成不可追踪的临时伪身份，目标RP从中为用户推导出永久账户，同时转换也提供了不可链接性。此方法在登录流程中保护了用户和目标RP的身份，同时与广泛部署的SSO协议兼容，并在商用现成浏览器中提供服务，无需插件或扩展。我们在MITREid Connect（一个开源SSO系统）之上构建了UPPRESSO的原型。广泛的评估表明，它以合理的开销满足了SSO的安全性和隐私性需求。

密码学与安全

2025-03-26更新2021-10-20 发布

可再生能源渗透率的提高为现代电力系统引入了显著的可变性和不确定性，使得准确的状态预测对于可靠电网运行至关重要。传统的预测方法往往忽略了电网固有的拓扑结构，限制了其捕捉复杂时空依赖关系的能力。本文提出了一种拓扑感知的图神经网络（GNN）框架，用于在高比例可再生能源集成条件下预测电力系统状态。我们构建了基于图的电力网络表示形式，将母线和输电线路建模为节点和边，并引入了一种专门的GNN架构，将GraphSAGE卷积与门控循环单元（GRU）相结合，以模拟系统动态中的空间和时间相关性。该模型在NREL 118测试系统上使用现实的时间同步可再生能源发电曲线进行训练和评估。结果表明，所提出的GNN在预测准确性方面优于基准方法，包括全连接神经网络、线性回归和滚动均值模型，平均均方根误差（RMSE）在所有预测变量中达到0.13至0.17，并在不同空间位置和运行条件下表现出一致的性能。这些结果凸显了拓扑感知学习在未来高比例可再生能源电力系统中实现可扩展且稳健的预测潜力。

诊断和治疗皮肤病需要跨领域的高级视觉技能以及从多种成像模式合成信息的能力。尽管当前的深度学习模型在特定任务（如通过表皮图像诊断皮肤癌）方面表现出色，但它们难以满足临床实践中复杂的多模态需求。本文介绍了一种名为PanDerm的多模态皮肤病基础模型，该模型通过自监督学习在来自四个成像模式的11家临床机构的超过200万张真实世界皮肤病图像上进行预训练。我们在28个不同的基准测试中评估了PanDerm的表现，包括皮肤癌筛查、风险分层、常见和罕见皮肤病的鉴别诊断、病灶分割、纵向监测以及转移预测和预后。PanDerm在所有评估的任务中均达到了最先进的性能，通常在仅使用10%标记数据的情况下就超过了现有的模型。我们进行了三项读者研究以评估PanDerm的潜在临床实用性。通过纵向分析，PanDerm在早期黑色素瘤检测中比临床医生高出10.2%，在表皮图像上的皮肤癌诊断准确率提高了11%，并且在临床照片上对128种皮肤病的非皮肤科医护人员的鉴别诊断能力提升了16.5%。这些结果表明PanDerm有潜力改善各种临床场景下的患者护理，并为其他医学专科开发多模态基础模型提供了范例，可能加速AI支持在医疗保健中的整合。

计算机视觉与模式识别

人工智能

2025-03-26更新2024-10-19 发布

鲁棒回归旨在开发在存在异常值、重尾分布或污染数据时估计未知回归函数的方法，这些因素可能严重影响性能。大多数现有鲁棒回归的理论结果假设噪声具有有限的绝对均值，但某些分布（如柯西分布和某些帕累托分布）违反了这一假设。本文引入了一个广义柯西噪声框架，该框架可以容纳所有具有任意阶有限矩的噪声分布，即使绝对均值为无穷大。在此框架下，我们研究了“核柯西岭回归器”（KCRR），通过最小化正则化的经验柯西风险来实现鲁棒性。为了推导KCRR的$L_2$-风险界，我们建立了当柯西损失的尺度参数足够大时，超额柯西风险与$L_2$-风险之间的联系，揭示了这两种风险是等价的。此外，在回归函数满足Hölder光滑性的假设下，我们推导了KCRR的超额柯西风险界，表明随着尺度参数减小，性能得到改善。通过考虑尺度参数对超额柯西风险的双重影响及其与$L_2$-风险的等价性，我们得到了KCRR在$L_2$-风险下的几乎最优收敛率，强调了柯西损失在处理各种类型噪声方面的鲁棒性。最后，我们在合成数据集和真实数据集的多种噪声污染场景下通过实验验证了KCRR的有效性。

机器学习

2025-03-26 发布

我们给出了交换环的某些性质与其Witt向量环的其他性质之间的等价关系。其中包括刻画了所有其Witt向量环为Noether环的交换环。我们定义了一个新的交换环的范畴称为预约化环，并解释了它是那些Witt向量环无$p$-挠的环的范畴。然后我们将这一刻画扩展到de Rham-Witt复形的挠上。

分析平均运动共振的传统方法是基于典范摄动理论。尽管这是一种强大的方法，但其普适性导致变量组合复杂且难以解释，同时需要查阅针对每种不同共振的具体数值系数。本文在轨道周期比 $\lesssim 2$ 且行星间相互作用可近似为每次内行星与外行星会合时的近距离交会的情况下，发展了更简单的标度关系。我们通过几何论证推导出几个重要结果：(i) 同阶 $q$ 的 $p$:$p-q$ 共振都是彼此的缩放版本；(ii) 两个质量较大的行星在接近、偏心、共面轨道上的情况可以近似映射到一个偏心测试粒子受共面圆形轨道上大质量行星摄动的简单情况；(iii) 对于一阶 ($p$:$p-1$) 共振，连续会合的影响是相干叠加的，而对于高阶 ($p$:$p-q$，$q>1$) 共振，这些影响部分抵消，从而从物理上解释了为何高阶共振较弱且常可忽略不计。最后，在摆动近似下，我们给出了所有给定阶数 $q$ 的紧密间距共振的宽度及其相关振荡频率的通用表达式。

地球与行星天体物理学

2025-03-25更新2024-10-29 发布

杀猪盘诈骗（Sha Zhu Pan）作为一种复杂的网络支持型金融欺诈形式，结合了浪漫、投资诈骗以及高级社会工程学手段，系统性地剥削受害者。本文基于对26名受害者的深入半结构化访谈，首次对杀猪盘诈骗进行了定性分析。我们收集了来自多个地区的受害者的细致、第一手叙述，揭示了杀猪盘诈骗的生命周期及其涉及的情感和财务操纵的复杂性。通过系统分析每个诈骗阶段，我们发现犯罪者采用了一系列策略，包括伪造的信任建立、虚假的金融平台、虚构的投资回报以及持续高压的手段，旨在长时间内剥削受害者的信任和财务资源。研究结果表明，这种诈骗具有组织化的生命周期特征，包括情感操控、伪装的财务剥削以及持续的再接触努力，从而加剧了受害者的损失。此外，我们还发现，受害者面临复杂的心理和财务影响，包括对二次诈骗的高度易感性。最后，我们提出了社交媒体和金融平台可以采取的具体干预措施，以遏制此类诈骗的蔓延，并强调了使用非污名化术语的重要性，以鼓励受害者报告并寻求帮助。

密码学与安全

计算机与社会

2025-03-25 发布

虽然大型语言模型受到关注，但由于实际限制，许多服务开发者仍依赖基于嵌入的模型。在此情况下，微调数据的质量直接影响性能，而英语数据集常被用作训练非英语模型的种子数据。本研究提出LANGALIGN方法，在语言模型与任务头之间通过对齐英语嵌入向量与目标语言嵌入向量，增强目标语言的处理能力。在韩语、日语和汉语上的实验表明，LANGALIGN显著提升了这三种语言的性能。此外，我们还展示了LANGALIGN可以反向应用，将目标语言数据转换为英语模型可处理的格式。

计算与语言

2025-03-25更新2025-03-24 发布

共 13511 条搜索结果

共 13511 条

不确定性加权梯度用于模型校准

高斯位置混合模型的非参数MLE：认证计算与通用行为

信息在社会学习中的价值

基于语义增强PCFG的密码分析与破解：SE#PCFG

离焦获取光谱：基于色差的快速光谱成像

基于后门的神经网络水印持久性的全面评估

UniHDSA: 面向层次化文档结构分析的统一关系预测方法

超图Balog-Szemerédi-Gowers定理的定量改进

PAINT：关注有信息量的标记以减轻大型视觉-语言模型中的幻觉现象

密度有向图中的生成细分

基于演化局部可解释性模型无关解释的图像分类深度卷积神经网络解析

关于完美细分镶嵌

UPPRESSO：不可追踪且不可链接的隐私保护单点登录服务

PowerGNN：一种针对电力系统的拓扑感知图神经网络

临床皮肤科的多模态视觉基础模型

基于柯西损失函数的核岭回归的鲁棒性研究

利用Witt向量刻画交换环的性质

平均运动共振的统一物理框架

“你好，是安娜吗？”：杀猪盘诈骗初步研究

LANGALIGN：通过跨语言嵌入对齐提升非英语语言模型