FightingCV-Paper-Reading

Hello，大家好，我是小马🚀🚀🚀

作为研究生，读论文一直都是都是一件非常费时费脑的事情，因为帮助大家用5分钟的时间就能知道某篇论文的大致内容，我会把我看过的论文做好解析分享在这里。**项目持续更新，每周至少更新三篇！**⭐⭐⭐

本项目的宗旨是🚀让世界上没有难读的论文🚀，论文主题包括但不限于检测、分类、分割、Backbone、多模态等等，论文来源包括但不限于最新的arXiv论文、ICCV2021、CVPR2021、MM2021。**(项目会保持持续更新，每周至少三篇)**⭐⭐⭐

（最新还更新了【Attention、MLP、Conv、MLP、Backbone的代码复现项目】，欢迎大家学习交流）

公众号 & 微信交流群

欢迎大家关注公众号：FightingCV

公众号每天都会进行论文、算法和代码的干货分享哦~

已建立机器学习/深度学习算法/计算机视觉/多模态交流群微信交流群！

（加不进去可以加微信：775629340，记得备注【公司/学校+方向+ID】）

每天在群里分享一些近期的论文和解析，欢迎大家一起学习交流哈~~~

强烈推荐大家关注知乎账号和FightingCV公众号，可以快速了解到最新优质的干货资源。

总结性文章

从多篇2021年顶会论文看多模态预训练模型最新研究进展
从2019年-2021年的各大顶会论文，看动态神经网络的发展
深度学习中的重参数机制总结与代码实现
深度学习中的Attention总结（一）
深度学习中的Attention总结（二）
思考NLP和CV中的Local和Global建模
怎么用图文预训练模型CLIP做视频任务？

NeurIPS2021

Transformer

NeurIPS2021-《HRFormer》-HRNet又出续作啦！国科大&北大&MSRA提出高分辨率Transformer，代码已开源！
【HRFormer: High-Resolution Transformer for Dense Prediction】
NeurIPS2021-ViT现在可以做目标检测任务啦！华科提出目标检测新方法YOLOS
【You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection】
NeurIPS2021-没有残差连接的ViT准确率只有0.15%！！！北大&华为提出用于Vision Transformer的Augmented Shortcuts，涨点显著！
【Augmented Shortcuts for Vision Transformers】
NeurIPS2021- Transformer部署难？北大&华为诺亚提出Vision Transformer的后训练量化方法
 【Post-Training Quantization for Vision Transformer】
Multi-Scale Densenet续作？动态ViT
【Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length】
微软新作Focal Self-Attention：具备Local和Global交互能力的Transformer
【Focal Self-attention for Local-Global Interactions in Vision Transformers】

多模态

NeurIPS2021-《MBT》-多模态数据怎么融合？谷歌提出基于注意力瓶颈的方法，简单高效还省计算量
 【Attention Bottlenecks for Multimodal Fusion】
NeurIPS2021-快来刷榜吧！微软提出新的视频多模态benchmark，同时包含检索、caption、QA等多个任务！
【VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation】
NeurIPS 2021-《ALBEF》-先对齐再融合，Salesforce Research提出ALBEF，用动量蒸馏进行多模态表示学习！多个下游任务性能SOTA！
【Align before Fuse: Vision and Language Representation Learning with Momentum Distillation】

动态网络

NeurIPS2021-用多大分辨率的图像做分类更适合？浙大&华为&国科大提出Dynamic Resolution Network，降低计算量还能提性能！
【Dynamic Resolution Network】

ICCV2021

多模态（Multi-Modal）

ICCV2021 Oral-MDETR：图灵奖得主Yann LeCun的团队&Facebook提出端到端多模态理解的目标检测器
 【MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding】
ICCV2021-NTU用多样性的query生成，涨点基于文本的实例分割（已开源）
【Vision-Language Transformer and Query Generation for Referring Segmentation】
ICCV2021-如何高效视频定位？北大&Adobe&QMUL强强联手提出弱监督CRM，性能SOTA
【Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation】
ICCV2021-TACo-微软&CMU提出Token感知的级联对比学习方法，在视频文本对齐任务上“吊打”其他SOTA方法
 【TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment】
ICCV2021 Oral-新任务！新数据集！康奈尔大学提出了类似VG但又不是VG的PVG任务
 【Who’s Waldo? Linking People Across Text and Images】
ICCV2021-新任务！NTU&港中文提出以对话的方式进行细粒度的图片编辑【Talk-to-Edit: Fine-Grained Facial Editing via Dialog】
ICCV2021-用DETR的方法做Dense Video Captioning！港大&南科大提出端到端PDVC，简化训练流程。【End-to-End Dense Video Captioning with Parallel Decoding】
ICCV2021-北大&FAIR&自动化所&快手提出基于动量对比学习的层次Transformer——HiT，用于视频文本检索！代码已开源！
【HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval】
ICCV2021 视频领域的纯Transformer方案！谷歌提出ViViT，在多个视频分类基准上SOTA！代码已开源！
【ViViT: A Video Vision Transformer】

对比学习（Contrastive Learning）

ICCV2021-DetCo：性能优于何恺明等人提出的MoCo v2，为目标检测定制任务的对比学习。
【DetCo: Unsupervised Contrastive Learning for Object Detection】

可解释性（Interpretability）

ICCV2021 Oral-TAU&Facebook提出了通用的Attention模型可解释性
 【Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers】
ICCV2021 -为什么深度学习模型能够分类正确？SCOUTER能够“正”“反”两个方面说服你。
【SCOUTER: Slot Attention-based Classifier for Explainable Image Recognition】

主干网络（Backbone，CNN，Transformer）

ICCV2021-iRPE-还在魔改Transformer结构吗？微软&中山大学提出超强的图片位置编码，涨点显著
 【Rethinking and Improving Relative Position Encoding for Vision Transformer】
ICCV2021 | 池化操作不是CNN的专属，Vision Transformer说：“我也可以”；南大提出池化视觉Transformer（PiT）
【Rethinking Spatial Dimensions of Vision Transformers】
ICCV2021 | CNN+Transformer=Better，国科大&华为&鹏城实验室出Conformer，84.1% Top-1准确率
 【Conformer: Local Features Coupling Global Representations for Visual Recognition】
ICCV2021 | MicroNets-更小更快更好的MicroNet，三大CV任务都秒杀MobileNetV3
【MicroNet: Improving Image Recognition with Extremely Low FLOPs】
ICCV2021-MIT-IBM AI Lab开源CrossViT，Transformer开始走向多分支、多尺度（附目前多尺度ViT的异同点对比）
【CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification】

多任务（Multi-Task）

ICCV2021-MuST-还在特定任务里为刷点而苦苦挣扎？谷歌的大佬们都已经开始玩多任务训练了
 【Multi-Task Self-Training for Learning General Representations】
ICCV2021-CV多任务新进展！一节更比三节强的MultiTask CenterNet，用一个网络同时完成目标检测、语义分割和人体姿态估计三个任务
 【MultiTask-CenterNet (MCN): Efficient and Diverse Multitask Learning using an Anchor Free Approach】

数据增强

ICCV 2021｜“白嫖”性能的MixMo，一种新的数据增强or模型融合方法
 【MicroNet: Improving Image Recognition with Extremely Low FLOPs】
ICCV2021 Oral-简单高效的数据增强！华为提出了一种简单的鲁棒目标检测自适应方法
 【SimROD: A Simple Adaptation Method for Robust Object Detection】

其他

ICCV'21 Oral｜拒绝调参，显著提点！检测分割任务的新损失函数RS Loss开源
 【Rank & Sort Loss for Object Detection and Instance Segmentation】
ICCV21 | 大道至简，仅需4行代码提升多标签分类性能！南大提出Residual Attention
【Residual Attention: A Simple but Effective Method for Multi-Label Recognition】
ICCV2021 Oral-UNO-用于Novel Class Discovery 的统一目标函数，简化训练流程！已开源！
【A Unified Objective for Novel Class Discovery】
ICCV2021-别魔改网络了，模型精度不高，是你Resize的方法不够好！Google提出基于DL的调整器模型学习更好的Resize方法
 【Learning to Resize Images for Computer Vision Tasks】
ICCV2021-《GroupFormer》-商汤&港理工提出基于聚类的联合建模时空关系的GroupFormer用于解决群体活动识别问题，性能SOTA
【GroupFormer: Group Activity Recognition with Clustered Spatial-Temporal Transformer】
ICCV2021-去除冗余token的DETR效果怎么样？NUS颜水成大佬团队给出了答案！
【PnP-DETR: Towards Efficient Visual Analysis with Transformers】
ICCV2021-还在用大量数据暴力train模型？主动学习，教你选出数据集中最有价值的样本
 【Active Learning for Deep Object Detection via Probabilistic Modeling】
ICCV2021-比MoCo更通用的对比学习范式，中科大&MSRA提出对比学习新方法MaskCo
【Self-Supervised Visual Representations Learning by Contrastive Mask Prediction】

ACM MM2021

主干网络（Backbone，CNN，Transformer）

ACM MM2021-还在用ViT的16x16 Patch分割方法吗？中科院自动化所提出Deformable Patch-based方法，涨点显著！
【DPT: Deformable Patch-based Transformer for Visual Recognition】
ACMMM 2021-多模态宝藏！京东梅涛团队重磅开源第一个适用于多个任务的多模态代码库x-modaler！
【X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics】
ACMMM 2021-性能SOTA！用GNN和GAN的方式来强化Video Captioning的学习！
【Discriminative Latent Semantic Graph for Video Captioning】

多模态

ACM MM2021-从局部到整体的检索！阿里提出用于视频文本检索的分层对齐网络HANet！代码已开源！
【HANet: Hierarchical Alignment Networks for Video-Text Retrieval】
CLIP还能做视频字幕任务！腾讯&清华提出CLIP4Caption，ACM MM2021挑战赛第二名！
【CLIP4Caption: CLIP for Video Caption】

ICML2021

预训练（pre-train）

ICML2021-《ALIGN》-大力出奇迹，谷歌用18亿的图像-文本对训练了一个这样的模型。
【Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision】

CVPR2021

多模态（Multi-Modal）

Less is More-CVPR2021最佳学生论文提名
 【Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling】
CVPR2021-RSTNet：自适应Attention的“看图说话”模型
 【RSTNet: Captioning With Adaptive Attention on Visual and Non-Visual Words】
CVPR2021 Oral《Seeing Out of the Box》北科大&中山大学&微软提出端到端视觉语言表征预训练方法
 【Seeing Out of the Box: End-to-End Pre-Training for Vision-Language Representation Learning】
CVPR2021-开放式的Video Captioning，中科院自动化所提出基于“检索-复制-生成”的网络
 【Open-book Video Captioning with Retrieve-Copy-Generate Network】
CVPR2021-多模态任务新进展！哥大&Facebook提出VX2TEXT模型，实现了“视频+X”到“文本”的任务
 【VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs】
CVPR2021-人大提出新模型，将Two Stage的Video Paragraph Captioning变成One Stage，性能却没下降
 【Towards Diverse Paragraph Captioning for Untrimmed Videos】
CVPR2021-用更好的目标检测器提取视觉特征！微软提出VinVL，基于更好的视觉特征，达到更强的多模态性能。
【VinVL: Revisiting Visual Representations in Vision-Language Models】
CVPR2021 Oral-不再需要后处理步骤！Kakao提出端到端的Human-Object交互检测模型
 【HOTR: End-to-End Human-Object Interaction Detection with Transformers】
CVPR2021-《T2VLAD》-浙大&百度&悉尼科技提出用局部全局对齐来进行视频文本检索！效果优于MMT！
【T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval】

主干网络（Backbone，CNN，Transformer）

谷歌新作HaloNet：Transformer一作用Self-Attention的方式进行卷积
 【Scaling Local Self-Attention for Parameter Efficient Visual Backbones】
Involution（附对Involution的思考）：港科大、字节跳动、北大提出“内卷”神经网络算子，在CV三大任务上提点明显
 【Involution: Inverting the Inherence of Convolution for Visual Recognition】
CVPR2021-比CNN和Transformer更好的Backbone？UC Berkeley&Google Research,提出BoTNet，ImageNet上精度达84.7%
【Bottleneck Transformers for Visual Recognition】

目标检测（Detection）

CVPR2021 Oral-收敛更快！精度更高！南科大&腾讯微信团队重磅开源无监督预训练的UP-DETR
【UP-DETR: Unsupervised Pre-training for Object Detection with Transformers】

SIGIR 2021

多模态（Multi-Modal）

SIGIR 2021 最佳学生论文-图像文本检索的动态模态交互建模
 【Dynamic Modality Interaction Modeling for Image-Text Retrieval】
SimVLM-拒绝各种花里胡哨！CMU&Google提出弱监督极简VLP模型，在多个多模态任务上性能SOTA
【SimVLM: Simple Visual Language Model Pretraining with Weak Supervision】

EMNLP2021

多模态（Multi-Modal）

多模态Transformer真的多模态了吗？论多模态Transformer对跨模态的影响
 【Vision-and-Language or Vision-for-Language? On Cross-Modal Inflfluence in Multimodal Transformers】
EMNLP2021-“Transformer+预训练”再下一城，港科大开源高效的多模态摘要总结网络
 【Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization】

TPAMI

压缩加速

TPAMI2021-华为诺亚&悉尼大学陶大程团队提出多功能卷积，助力轻量级网络
 【Learning Versatile Convolution Filters for Efficient Visual Recognition】

ArXiv

主干网络（Backbone，CNN，Transformer）

OutLook Attention：具有局部信息感知能力的ViT
【VOLO: Vision Outlooker for Visual Recognition】
CoAtNet：卷积+注意力=？？？
【CoAtNet: Marrying Convolution and Attention for All Data Sizes】
CSWin-T：微软、中科大提出十字形注意力的CSWin Transformer
【CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows】
Circle Kernel：清华黄高团队、康奈尔大学提出圆形卷积，进一步提升卷积结构的性能
 【Integrating Circle Kernels into Convolutional Neural Networks】
视觉解析器ViP：牛津大学&字节跳动提出Visual Parser，显式建模高级语义信息
 【Visual Parser: Representing Part-whole Hierarchies with Transformers】
LG-Transformer：全局和局部建模Transformer结构新作
 【Local-to-Global Self-Attention in Vision Transformers】
CoTNet-重磅开源！京东AI Research提出新的主干网络CoTNet,在CVPR上获得开放域图像识别竞赛冠军
 【Contextual Transformer Networks for Visual Recognition】
S²-MLPv2-百度提出目前最强的视觉MLP架构，超越MLP-Mixer、Swin Transformer、CycleMLP等，达到83.6% Top-1准确率
 【S²-MLPv2: Improved Spatial-Shift MLP Architecture for Vision】
更深和更宽的Transformer，那个比较好？NUS团队给出了给出“Go Wider Instead of Deeper”的结论
 【Go Wider Instead of Deeper】
在目标检测任务上怒涨8.6 AP，微软新作MobileFormer
【Mobile-Former: Bridging MobileNet and Transformer】
又简单又好用的Transformer变体！清华&MSRA开源线性复杂度的Fastformer！
【Fastformer: Additive Attention Can Be All You Need】
《Visformer》-对视觉任务更友好的Transformer，北航团队开源Visformer！
【Visformer: The Vision-friendly Transformer】
《CrossFormer》-简单高效！浙大CAD&腾讯&哥大开源跨尺度的Transformer，显著涨点检测、分割、分类三大CV任务
 【CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention】
你见过长得像CNN的MLP吗？UO&UIUC提出了用于视觉任务的层次卷积MLP
【ConvMLP: Hierarchical Convolutional MLPs for Vision】
Self-Attention真的是必要的吗？微软&中科大提出Sparse MLP，降低计算量的同时提升性能！
【Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?】
目标检测再次革新！图灵奖得主Hinton团队提出Pix2Seq，将Detection变成了Image Captioning
【Pix2seq: A Language Modeling Framework for Object Detection】
它来了！轻量、通用、适用于移动设备的Transformer！苹果公司提出了MobileViT
【MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer】
《UFO-ViT》-Transformer可以不需要Softmax？Kakao提出了UFO-ViT，性能高，计算量还小
 【UFO-ViT: High Performance Linear Vision Transformer without Softmax】
McGill&微软将卷积操作加入到Vision Transformer中，捕获更详细的局部信息！预训练下ImageNet Top-1准确率达到87.7%！代码已开源！
【CvT: Introducing Convolutions to Vision Transformers】

分割（Segmentation）

MaskFormer：语义分割、实例分割“大一统”：Facebook&UIUC提出MaskFormer
【Per-Pixel Classification is Not All You Need for Semantic Segmentation】
新的通道和空间注意力建模结构Polarized Self-Attention，霸榜COCO人体姿态估计和Cityscapes语义分割
 【Polarized Self-Attention: Towards High-quality Pixel-wise Regression】
全景分割第一名！南大&港大&NVIDIA提出Panoptic SegFormer，霸榜全景分割
 【Panoptic SegFormer】
中科院&西交&旷视（孙剑团队）提出用于语义分割的动态路由网络，精确感知多尺度目标，代码已开源！
【Learning Dynamic Routing for Semantic Segmentation】

检测（Detection）

《Anchor DETR》-加了Anchor Point能够让DETR又快又好？旷视孙剑团队提出Anchor DETR
【Anchor DETR: Query Design for Transformer-Based Detector】
加了Anchor Point能够让DETR又快又好？旷视孙剑大佬团队提出Anchor DETR
【Anchor DETR: Query Design for Transformer-Based Detector】

增量学习（Incremental Learning）

让模型实现“终生学习”，佐治亚理工学院提出Data-Free的增量学习
 【Always Be Dreaming: A New Approach for Data-Free Class-Incremental Learning】

多模态（Multi-Modal）

国科大提出用于VideoQA的跨模态交互时间金字塔Transformer
【Temporal Pyramid Transformer with Multimodal Interaction for Video Question Answering】
10亿参数！别只玩GPT，来看看这个已经落地的国产模型BriVL！人大&中科院联手打造第一个大规模多模态中文预训练模型
 【WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training】
CLIP对视觉和语言任务有多大的好处？UC Berkeley&UCLA团队给出了答案！
【How Much Can CLIP Benefit Vision-and-Language Tasks?】
消除预训练模型的语言限制！Google提出跨语言的多模态、多任务检索模型MURAL
【MURAL: Multimodal, Multitask Retrieval Across Languages】
微软提出VLMO，用“模态混合专家”进行统一的视觉语言预训练！即将开源！
【VLMO: Unifified Vision-Language Pre-Training with Mixture-of-Modality-Experts】

视频（Video）

Video Swin Transformer-既Swin Transformer之后，MSRA开源Video Swin Transformer，在视频数据集上SOTA
【Video Swin Transformer】
基于时空混合attention的视频Transformer，大幅度降低计算复杂度
 【Space-time Mixing Attention for Video Transformer】
视频动作识别不是分类问题，而是检索问题？基于CLIP，浙大提出ActionCLIP，用检索的思想做视频动作识别！性能SOTA！代码已开源！
【ActionCLIP: A New Paradigm for Video Action Recognition】

压缩加速

DynamicViT-还在用全部token训练ViT？清华&UCLA提出token的动态稀疏化采样，降低inference时的计算量
 【DynamicViT: Effificient Vision Transformers with Dynamic Token Sparsifification】
加速了DeiT-S 60%+的吞吐量！自动化所&上交&优图提出Evo-ViT，用Slow-Fast的方式更新token
【Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer】
压缩之后神经网络忘记了什么？Google研究员给出了答案
 【What Do Compressed Deep Neural Networks Forget?】

动态网络

浙大&华为诺亚&西湖大学提出用于目标检测的动态特征金字塔DyFPN，减少40%的FLOPs！
【Dynamic Feature Pyramid Networks for Object Detection】
《Dynamic Routing》-中科院&西交&旷视（孙剑团队）提出用于语义分割的动态路由网络，精确感知多尺度目标，代码已开源！
【Learning Dynamic Routing for Semantic Segmentation】
普林斯顿大学&英伟达&Facebook提出基于深度神经网络的全动态推理，助力轻量级网络！
【Fully Dynamic Inference with Deep Neural Networks】

多模态检索

CLIP再创辉煌！西南交大&MSRA提出CLIP4Clip，进行端到端的视频文本检索！
【CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval】
腾讯PCG提出CLIP2Video，基于CLIP解决视频文本检索问题，性能SOTA！代码已开源！
【CLIP2Video: Mastering Video-Text Retrieval via Image CLIP】
视频预训练界的HERO！微软提出视频-语言全表示预训练模型HERO，代码已开源！
【HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training】
同时利用字幕、音频、视频进行检索！Inria&谷歌提出MMT用于高效跨模态视频检索，代码已开源！
【Multi-modal Transformer for Video Retrieval】
《CLIP2TV》-用CLIP和动量蒸馏来做视频文本检索！腾讯提出CLIP2TV，性能SOTA，涨点4.1%！
【CLIP2TV: An Empirical Study on Transformer-based Methods for Video-Text Retrieval】

其他

拒绝Prompt Engineering，NTU提出CoOp，自适应学习不同下游任务的Prompt，性能碾压手工设计的Prompt
【Learning to Prompt for Vision-Language Models】
深度神经网络其实并不需要那么深！普林斯顿大学&Intel提出ParNet，12层的网络就能达到80%以上的准确率！
【Non-deep Networks】
NeurIPS2021-港大&腾讯AI Lab&牛津大学提出CARE，让CNN和Transformer能在对比学习中“互帮互助”！
【Revitalizing CNN Attentions via Transformers in Self-Supervised Visual Representation Learning】
FAIR三神Kaiming，Piotr，Ross新作，MAE才是YYDS！仅用ImageNet1K，Top-1准确率87.8%，封神！
【Masked Autoencoders Are Scalable Vision Learners】
Swin Transformer V2！MSRA原班人马探究了Swin在超大参数下的拓展！提出了30亿参数版本的Swin Transformer！
【Swin Transformer V2: Scaling Up Capacity and Resolution】
《BEIT》-基于图像重建进行预训练！微软提出BEIT，Top-1准确率达86.3%！代码已开源！
【BEIT: BERT Pre-Training of Image Transformers】
RANet：MSDNet加强版！清华黄高团队提出分辨率自适应的高效推理网络RANet！
【Resolution Adaptive Networks for Efficient Inference】
字节&约翰斯·霍普金斯&上交提出iBOT框架，基于MIM进行自监督训练，在ImageNet-1K上达到86.3%的微调精度！
【iBOT: Image BERT Pre-Training with Online Tokenizer】
清华&MBZUAI&CMU&牛津提出DenseCLIP，用上下文感知的提示进行语言引导密集预测！
【DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting】
微软提出第一个端到端的Video Captioning方法：SWIN BERT，涨点显著！
【SWIN BERT: End-to-End Transformers with Sparse Attention for Video Captioning】
用CLIP增强视频语言的理解，在VALUE榜单上SOTA！
【A CLIP-Enhanced Method for Video-Language Understanding】
中科大&快手提出多模态交叉注意力模型：MMCA，促进图像-文本多模态匹配！
【Multi-Modality Cross Attention Network for Image and Sentence Matching】
【】

Files

README.md

Latest commit

History

README.md

File metadata and controls

FightingCV-Paper-Reading

公众号 & 微信交流群

总结性文章

NeurIPS2021

Transformer

多模态

动态网络

ICCV2021

多模态（Multi-Modal）

对比学习（Contrastive Learning）

可解释性（Interpretability）

主干网络（Backbone，CNN，Transformer）

多任务（Multi-Task）

数据增强

其他

ACM MM2021

主干网络（Backbone，CNN，Transformer）

多模态

ICML2021

预训练（pre-train）

CVPR2021

多模态（Multi-Modal）

主干网络（Backbone，CNN，Transformer）

目标检测（Detection）

SIGIR 2021

多模态（Multi-Modal）

EMNLP2021

多模态（Multi-Modal）

TPAMI

压缩加速

ArXiv

主干网络（Backbone，CNN，Transformer）

分割（Segmentation）

检测（Detection）

增量学习（Incremental Learning）

多模态（Multi-Modal）

视频（Video）

压缩加速

动态网络

多模态检索

其他