问答媒体

 找回密码
 立即注册
快捷导航
搜索
热搜: 活动 交友 discuz
查看: 100|回复: 1

顶刊TIP2022!领域迁移Adaboost,让模型“选择”学哪些数据!

[复制链接]

1

主题

5

帖子

9

积分

新手上路

Rank: 1

积分
9
发表于 2023-1-9 17:10:04 | 显示全部楼层 |阅读模式
关注“FightingCV”公众号
回复“AI”即可获得超100G人工智能的教程
点击进入→FightingCV交流群
作者:郑哲东 | (源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/593571554
论文:https://zdzheng.xyz/files/TIP_Adaboost.pdf
备份:https://arxiv.org/abs/2103.15685
作者:Zhedong Zheng,Yi Yang
代码:http://github.com/layumi/AdaBoost_Seg

What:


  • “难”样本对于Domain Adaptation 语意分割模型来说特别重要,比如 Cityscapes中 “train”这种类别出现的场景比较少,自然在“Cityscapes”上的火车预测也特别差。这就导致,每次训练,模型的抖动特别大, 有时候不同epoch(如data shuffle顺序不同等因素),就会在测试集上 就有 较大的performance gap。
  • 所以考虑到 难样本挖掘,一个很自然的想法就是 用Adaboost, 这个是我的人脸检测老本行中一个最work的策略。具体可见(郑哲东:AdaBoost 笔记) 大概意思是,每次根据之前的“弱分类器”决定下一轮 我们应该学什么。在人脸检测上,就是根据前一个分类器分错的样本,做针对性的优化。
  • 故本文基于Adaboost 的概念,做了一个很简单的事情,针对 Domain Adapation 这个任务 做 Adaptative Boosting。根据训练过程中的snapshot(可以看成弱分类器),来针对性“选择”难样本,提高他们采样到的概率,如下图。


How:

  • 其实思路是 还是按照以前模型训练方式,有source domain上的 Segmentation loss 和 一些正则 Regularization (比如 adversarial loss 拉近两个 domain的gap)
  • 通过这种方法 我们可以每轮训练一个模型,得到weak models (这都是在一次训练中的),我们通过 weight moving average的方式 得到 Student Aggregation 也就是 “臭皮匠们组成的诸葛亮”。
  • 我们根据“诸葛亮” 主分类器和辅助分类器意见不同的样本来估计 样本难度。如下图,



4. 通过估计出来的预测KL差异(样本难度) Vkl 我们去更新 目标领域采样器,给难样本多采一些。如下更新采样方式:(这里Vkl 我们做了 softmax确保 所有样本的概率和是1。)


5. 其实“臭皮匠们组成的诸葛亮”的方式 就很简单 ,就是 平均模型参数,在训练过程中,我们用了一个简单的动态 公式。进来一个之前臭皮匠就往下来,新来的给一个平均权重。




实验:

  • 要注意的是:单纯使用 难样本采样策略,是不能保证单个模型能训练得更好的。因为就像Adaboost一样,我们让模型overfit难样本,为了获得一个互补的模型,这个单模型在单独使用的情况下,不一定能更好。我们得到了一个类似的结论,单用难样本只能到 48.1,但结合了模型组合 可以到 49.0 。同时如果只能模型组合嫩到 48.4左右的 准确率。


2. 归功于弱模型组合,我们的训练过程也比较稳定。相比虚线的 传统方案,显然我们组合后的模型较为稳定。



3. 同时我们在 几个 benchmarks 也体现出了相对的提升(以及不是sota了。。最新的sota可以关注我们的另一个工作:GitHub - chen742/PiPa: Official Implementation of PiPa: Pixel- and Patch-wise Self-supervised Learning for Domain Adaptative Semantic Segmentation )






4. 另外我们提出的方法在传统 像VGG16backbone上也work。


5. 我们也与 MeanTeacher做了一些比较。我们没有引入 teacher student distillation loss 所以 这样反而保证了单个模型 的 互补性。在Cifar10上 基于同一个网络结构,我们也比 MeanTeacher更高一些。





往期回顾

基础知识
【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇
【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇 (超多图警告)

【CV知识点汇总与解析】| 技术发展篇 (超详细!!!)


最新论文解析
NeurIPS2022 Spotlight | TANGO:一种基于光照分解实现逼真稳健的文本驱动3D风格化
ECCV2022 Oral | 微软提出UNICORN,统一文本生成与边框预测任务
NeurIPS 2022 | VideoMAE:南大&腾讯联合提出第一个视频版MAE框架,遮盖率达到90%
NeurIPS 2022 | 清华大学提出OrdinalCLIP,基于序数提示学习的语言引导有序回归

SlowFast Network:用于计算机视觉视频理解的双模CNN
WACV2022 | 一张图片只值五句话吗?UAB提出图像-文本匹配语义的新视角!
CVPR2022 | Attention机制是为了找最相关的item?中科大团队反其道而行之!
ECCV2022 Oral | SeqTR:一个简单而通用的 Visual Grounding网络
如何训练用于图像检索的Vision Transformer?Facebook研究员解决了这个问题!
ICLR22 Workshop | 用两个模型解决一个任务,意大利学者提出维基百科上的高效检索模型

See Finer, See More!腾讯&上交提出IVT,越看越精细,进行精细全面的跨模态对比!
MM2022|兼具低级和高级表征,百度提出利用显式高级语义增强视频文本检索
MM2022 | 用StyleGAN进行数据增强,真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022|只能11%的参数就能优于Swin,微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍!人大提出交互协同的双流视觉语言预训练模型COTS,又快又好!

CVPR2022 Oral|通过多尺度token聚合分流自注意力,代码已开源

CVPR Oral | 谷歌&斯坦福(李飞飞组)提出TIRG,用组合的文本和图像来进行图像检索
回复

使用道具 举报

1

主题

4

帖子

7

积分

新手上路

Rank: 1

积分
7
发表于 2025-5-23 11:28:59 | 显示全部楼层
支持你哈...................................
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver| 手机版| 小黑屋| 问答媒体

GMT+8, 2025-7-10 16:52 , Processed in 0.082406 second(s), 23 queries .

Powered by Discuz! X3.4

Copyright © 2020, LianLian.

快速回复 返回顶部 返回列表