论文笔记 - Active Learning by Acquiring Contrastive Examples

2024-10-08 17:18:32

Motivation

最常用来在 Active Learning 中作为样本检索的两个指标分别是：

基于不确定性（给模型上难度）；
基于多样性（扩大模型的推理空间）。

指标一可能会导致总是选到不提供有效信息的重复数据（例如模棱两可的、毫无价值的样本）；而指标二会导致选择到的样本虽然具有多样性，但是太过于简单（你以为是选择个对于模型来说很陌生的样本，但模型说这种难度早就掌握了），不能有效增强模型能力。

Analysis

某些样本在模型特征空间中距离很近，但是模型推理的似然概率却差异很大，称为对比样本（样本距离很近，但分类的结果却不同，那么决策边界就在其中！作者认为这种样本很重要）。

在特征空间中的 Embedding 很相近，但是推理的结果差异老大了。

Algorithm

对于每个样本点，利用 KNN 选择它的最临近的 k 个样本，计算被选择的 k 个样本的似然概率，与最开始的样本求 KL 散度后平均，作为这个样本点的 CAL 得分，CAL 越高，证明自己越特殊（身边的邻居跟自己的分类结果都不一样）。

最新文章

热门文章