Hello,大家好,我是小马🚀🚀🚀
作为研究生,读论文一直都是都是一件非常费时费脑的事情,因为帮助大家用5分钟的时间就能知道某篇论文的大致内容,我会把我看过的论文做好解析分享在这里。**项目持续更新,每周至少更新三篇!**⭐⭐⭐
本项目的宗旨是🚀让世界上没有难读的论文🚀,论文主题包括但不限于检测、分类、分割、Backbone、多模态等等,论文来源包括但不限于最新的arXiv论文、ICCV2021、CVPR2021、MM2021。**(项目会保持持续更新,每周至少三篇)**⭐⭐⭐
(最新还更新了【Attention、MLP、Conv、MLP、Backbone的代码复现项目】,欢迎大家学习交流)
欢迎大家关注公众号:FightingCV
公众号每天都会进行论文、算法和代码的干货分享哦~
已建立机器学习/深度学习算法/计算机视觉/多模态交流群微信交流群!
(加不进去可以加微信:775629340,记得备注【公司/学校+方向+ID】)
每天在群里分享一些近期的论文和解析,欢迎大家一起学习交流哈~~~
强烈推荐大家关注知乎账号和FightingCV公众号,可以快速了解到最新优质的干货资源。
-
NeurIPS2021-《HRFormer》-HRNet又出续作啦!国科大&北大&MSRA提出高分辨率Transformer,代码已开源!
【HRFormer: High-Resolution Transformer for Dense Prediction】 -
NeurIPS2021-ViT现在可以做目标检测任务啦!华科提出目标检测新方法YOLOS
【You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection】 -
NeurIPS2021-没有残差连接的ViT准确率只有0.15%!!!北大&华为提出用于Vision Transformer的Augmented Shortcuts,涨点显著!
【Augmented Shortcuts for Vision Transformers】 -
NeurIPS2021- Transformer部署难?北大&华为诺亚提出Vision Transformer的后训练量化方法
【Post-Training Quantization for Vision Transformer】 -
Multi-Scale Densenet续作?动态ViT
【Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length】 -
微软新作Focal Self-Attention:具备Local和Global交互能力的Transformer
【Focal Self-attention for Local-Global Interactions in Vision Transformers】
-
NeurIPS2021-《MBT》-多模态数据怎么融合?谷歌提出基于注意力瓶颈的方法,简单高效还省计算量
【Attention Bottlenecks for Multimodal Fusion】 -
NeurIPS2021-快来刷榜吧!微软提出新的视频多模态benchmark,同时包含检索、caption、QA等多个任务!
【VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation】 -
NeurIPS 2021-《ALBEF》-先对齐再融合,Salesforce Research提出ALBEF,用动量蒸馏进行多模态表示学习!多个下游任务性能SOTA!
【Align before Fuse: Vision and Language Representation Learning with Momentum Distillation】
- NeurIPS2021-用多大分辨率的图像做分类更适合?浙大&华为&国科大提出Dynamic Resolution Network,降低计算量还能提性能!
【Dynamic Resolution Network】
-
ICCV2021 Oral-MDETR:图灵奖得主Yann LeCun的团队&Facebook提出端到端多模态理解的目标检测器
【MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding】 -
ICCV2021-NTU用多样性的query生成,涨点基于文本的实例分割(已开源)
【Vision-Language Transformer and Query Generation for Referring Segmentation】 -
ICCV2021-如何高效视频定位?北大&Adobe&QMUL强强联手提出弱监督CRM,性能SOTA
【Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation】 -
ICCV2021-TACo-微软&CMU提出Token感知的级联对比学习方法,在视频文本对齐任务上“吊打”其他SOTA方法
【TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment】 -
ICCV2021 Oral-新任务!新数据集!康奈尔大学提出了类似VG但又不是VG的PVG任务
【Who’s Waldo? Linking People Across Text and Images】 -
ICCV2021-新任务!NTU&港中文提出以对话的方式进行细粒度的图片编辑 【Talk-to-Edit: Fine-Grained Facial Editing via Dialog】
-
ICCV2021-用DETR的方法做Dense Video Captioning!港大&南科大提出端到端PDVC,简化训练流程。 【End-to-End Dense Video Captioning with Parallel Decoding】
-
ICCV2021-北大&FAIR&自动化所&快手提出基于动量对比学习的层次Transformer——HiT,用于视频文本检索!代码已开源!
【HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval】 -
ICCV2021 视频领域的纯Transformer方案!谷歌提出ViViT,在多个视频分类基准上SOTA!代码已开源!
【ViViT: A Video Vision Transformer】
- ICCV2021-DetCo:性能优于何恺明等人提出的MoCo v2,为目标检测定制任务的对比学习。
【DetCo: Unsupervised Contrastive Learning for Object Detection】
-
ICCV2021 Oral-TAU&Facebook提出了通用的Attention模型可解释性
【Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers】 -
ICCV2021 -为什么深度学习模型能够分类正确?SCOUTER能够“正”“反”两个方面说服你。
【SCOUTER: Slot Attention-based Classifier for Explainable Image Recognition】
-
ICCV2021-iRPE-还在魔改Transformer结构吗?微软&中山大学提出超强的图片位置编码,涨点显著
【Rethinking and Improving Relative Position Encoding for Vision Transformer】 -
ICCV2021 | 池化操作不是CNN的专属,Vision Transformer说:“我也可以”;南大提出池化视觉Transformer(PiT)
【Rethinking Spatial Dimensions of Vision Transformers】 -
ICCV2021 | CNN+Transformer=Better,国科大&华为&鹏城实验室 出Conformer,84.1% Top-1准确率
【Conformer: Local Features Coupling Global Representations for Visual Recognition】 -
ICCV2021 | MicroNets-更小更快更好的MicroNet,三大CV任务都秒杀MobileNetV3
【MicroNet: Improving Image Recognition with Extremely Low FLOPs】 -
ICCV2021-MIT-IBM AI Lab开源CrossViT,Transformer开始走向多分支、多尺度(附目前多尺度ViT的异同点对比)
【CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification】
-
ICCV2021-MuST-还在特定任务里为刷点而苦苦挣扎?谷歌的大佬们都已经开始玩多任务训练了
【Multi-Task Self-Training for Learning General Representations】 -
ICCV2021-CV多任务新进展!一节更比三节强的MultiTask CenterNet,用一个网络同时完成目标检测、语义分割和人体姿态估计三个任务
【MultiTask-CenterNet (MCN): Efficient and Diverse Multitask Learning using an Anchor Free Approach】
-
ICCV 2021|“白嫖”性能的MixMo,一种新的数据增强or模型融合方法
【MicroNet: Improving Image Recognition with Extremely Low FLOPs】 -
ICCV2021 Oral-简单高效的数据增强!华为提出了一种简单的鲁棒目标检测自适应方法
【SimROD: A Simple Adaptation Method for Robust Object Detection】
-
ICCV'21 Oral|拒绝调参,显著提点!检测分割任务的新损失函数RS Loss开源
【Rank & Sort Loss for Object Detection and Instance Segmentation】 -
ICCV21 | 大道至简,仅需4行代码提升多标签分类性能! 南大提出Residual Attention
【Residual Attention: A Simple but Effective Method for Multi-Label Recognition】 -
ICCV2021 Oral-UNO-用于Novel Class Discovery 的统一目标函数,简化训练流程!已开源!
【A Unified Objective for Novel Class Discovery】 -
ICCV2021-别魔改网络了,模型精度不高,是你Resize的方法不够好!Google提出基于DL的调整器模型学习更好的Resize方法
【Learning to Resize Images for Computer Vision Tasks】 -
ICCV2021-《GroupFormer》-商汤&港理工提出基于聚类的联合建模时空关系的GroupFormer用于解决群体活动识别问题,性能SOTA
【GroupFormer: Group Activity Recognition with Clustered Spatial-Temporal Transformer】 -
ICCV2021-去除冗余token的DETR效果怎么样?NUS颜水成大佬团队给出了答案!
【PnP-DETR: Towards Efficient Visual Analysis with Transformers】 -
ICCV2021-还在用大量数据暴力train模型?主动学习,教你选出数据集中最有价值的样本
【Active Learning for Deep Object Detection via Probabilistic Modeling】 -
ICCV2021-比MoCo更通用的对比学习范式,中科大&MSRA提出对比学习新方法MaskCo
【Self-Supervised Visual Representations Learning by Contrastive Mask Prediction】
-
ACM MM2021-还在用ViT的16x16 Patch分割方法吗?中科院自动化所提出Deformable Patch-based方法,涨点显著!
【DPT: Deformable Patch-based Transformer for Visual Recognition】 -
ACMMM 2021-多模态宝藏!京东梅涛团队重磅开源第一个适用于多个任务的多模态代码库x-modaler!
【X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics】 -
ACMMM 2021-性能SOTA!用GNN和GAN的方式来强化Video Captioning的学习!
【Discriminative Latent Semantic Graph for Video Captioning】
-
ACM MM2021-从局部到整体的检索!阿里提出用于视频文本检索的分层对齐网络HANet!代码已开源!
【HANet: Hierarchical Alignment Networks for Video-Text Retrieval】 -
CLIP还能做视频字幕任务!腾讯&清华提出CLIP4Caption,ACM MM2021挑战赛第二名!
【CLIP4Caption: CLIP for Video Caption】
- ICML2021-《ALIGN》-大力出奇迹,谷歌用18亿的图像-文本对训练了一个这样的模型。
【Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision】
-
Less is More-CVPR2021最佳学生论文提名
【Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling】 -
CVPR2021-RSTNet:自适应Attention的“看图说话”模型
【RSTNet: Captioning With Adaptive Attention on Visual and Non-Visual Words】 -
CVPR2021 Oral《Seeing Out of the Box》北科大&中山大学&微软提出端到端视觉语言表征预训练方法
【Seeing Out of the Box: End-to-End Pre-Training for Vision-Language Representation Learning】 -
CVPR2021-开放式的Video Captioning,中科院自动化所提出基于“检索-复制-生成”的网络
【Open-book Video Captioning with Retrieve-Copy-Generate Network】 -
CVPR2021-多模态任务新进展!哥大&Facebook提出VX2TEXT模型,实现了“视频+X”到“文本”的任务
【VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs】 -
CVPR2021-人大提出新模型,将Two Stage的Video Paragraph Captioning变成One Stage,性能却没下降
【Towards Diverse Paragraph Captioning for Untrimmed Videos】 -
CVPR2021-用更好的目标检测器提取视觉特征!微软提出VinVL,基于更好的视觉特征,达到更强的多模态性能。
【VinVL: Revisiting Visual Representations in Vision-Language Models】 -
CVPR2021 Oral-不再需要后处理步骤!Kakao提出端到端的Human-Object交互检测模型
【HOTR: End-to-End Human-Object Interaction Detection with Transformers】 -
CVPR2021-《T2VLAD》-浙大&百度&悉尼科技提出用局部全局对齐来进行视频文本检索!效果优于MMT!
【T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval】
-
谷歌新作HaloNet:Transformer一作用Self-Attention的方式进行卷积
【Scaling Local Self-Attention for Parameter Efficient Visual Backbones】 -
Involution(附对Involution的思考):港科大、字节跳动、北大提出“内卷”神经网络算子,在CV三大任务上提点明显
【Involution: Inverting the Inherence of Convolution for Visual Recognition】 -
CVPR2021-比CNN和Transformer更好的Backbone?UC Berkeley&Google Research,提出BoTNet,ImageNet上精度达84.7%
【Bottleneck Transformers for Visual Recognition】
- CVPR2021 Oral-收敛更快!精度更高!南科大&腾讯微信团队重磅开源无监督预训练的UP-DETR
【UP-DETR: Unsupervised Pre-training for Object Detection with Transformers】
-
SIGIR 2021 最佳学生论文-图像文本检索的动态模态交互建模
【Dynamic Modality Interaction Modeling for Image-Text Retrieval】 -
SimVLM-拒绝各种花里胡哨!CMU&Google提出弱监督极简VLP模型,在多个多模态任务上性能SOTA
【SimVLM: Simple Visual Language Model Pretraining with Weak Supervision】
-
多模态Transformer真的多模态了吗?论多模态Transformer对跨模态的影响
【Vision-and-Language or Vision-for-Language? On Cross-Modal Inflfluence in Multimodal Transformers】 -
EMNLP2021-“Transformer+预训练”再下一城,港科大开源高效的多模态摘要总结网络
【Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization】
- TPAMI2021-华为诺亚&悉尼大学陶大程团队提出多功能卷积,助力轻量级网络
【Learning Versatile Convolution Filters for Efficient Visual Recognition】
-
OutLook Attention:具有局部信息感知能力的ViT
【VOLO: Vision Outlooker for Visual Recognition】 -
CoAtNet:卷积+注意力=???
【CoAtNet: Marrying Convolution and Attention for All Data Sizes】 -
CSWin-T:微软、中科大提出十字形注意力的CSWin Transformer
【CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows】 -
Circle Kernel:清华黄高团队、康奈尔大学提出圆形卷积,进一步提升卷积结构的性能
【Integrating Circle Kernels into Convolutional Neural Networks】 -
视觉解析器ViP:牛津大学&字节跳动提出Visual Parser,显式建模高级语义信息
【Visual Parser: Representing Part-whole Hierarchies with Transformers】 -
LG-Transformer:全局和局部建模Transformer结构新作
【Local-to-Global Self-Attention in Vision Transformers】 -
CoTNet-重磅开源!京东AI Research提出新的主干网络CoTNet,在CVPR上获得开放域图像识别竞赛冠军
【Contextual Transformer Networks for Visual Recognition】 -
S²-MLPv2-百度提出目前最强的视觉MLP架构,超越MLP-Mixer、Swin Transformer、CycleMLP等,达到83.6% Top-1准确率
【S²-MLPv2: Improved Spatial-Shift MLP Architecture for Vision】 -
更深和更宽的Transformer,那个比较好?NUS团队给出了给出“Go Wider Instead of Deeper”的结论
【Go Wider Instead of Deeper】 -
在目标检测任务上怒涨8.6 AP,微软新作MobileFormer
【Mobile-Former: Bridging MobileNet and Transformer】 -
又简单又好用的Transformer变体!清华&MSRA开源线性复杂度的Fastformer!
【Fastformer: Additive Attention Can Be All You Need】 -
《Visformer》-对视觉任务更友好的Transformer,北航团队开源Visformer!
【Visformer: The Vision-friendly Transformer】 -
《CrossFormer》-简单高效!浙大CAD&腾讯&哥大开源跨尺度的Transformer,显著涨点检测、分割、分类三大CV任务
【CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention】 -
你见过长得像CNN的MLP吗?UO&UIUC提出了用于视觉任务的层次卷积MLP
【ConvMLP: Hierarchical Convolutional MLPs for Vision】 -
Self-Attention真的是必要的吗?微软&中科大提出Sparse MLP,降低计算量的同时提升性能!
【Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?】 -
目标检测再次革新!图灵奖得主Hinton团队提出Pix2Seq,将Detection变成了Image Captioning
【Pix2seq: A Language Modeling Framework for Object Detection】 -
它来了!轻量、通用、适用于移动设备的Transformer!苹果公司提出了MobileViT
【MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer】 -
《UFO-ViT》-Transformer可以不需要Softmax?Kakao提出了UFO-ViT,性能高,计算量还小
【UFO-ViT: High Performance Linear Vision Transformer without Softmax】 -
McGill&微软将卷积操作加入到Vision Transformer中,捕获更详细的局部信息!预训练下ImageNet Top-1准确率达到87.7%!代码已开源!
【CvT: Introducing Convolutions to Vision Transformers】
-
MaskFormer:语义分割、实例分割“大一统”:Facebook&UIUC提出MaskFormer
【Per-Pixel Classification is Not All You Need for Semantic Segmentation】 -
新的通道和空间注意力建模结构Polarized Self-Attention,霸榜COCO人体姿态估计和Cityscapes语义分割
【Polarized Self-Attention: Towards High-quality Pixel-wise Regression】 -
全景分割第一名!南大&港大&NVIDIA提出Panoptic SegFormer,霸榜全景分割
【Panoptic SegFormer】 -
中科院&西交&旷视(孙剑团队)提出用于语义分割的动态路由网络,精确感知多尺度目标,代码已开源!
【Learning Dynamic Routing for Semantic Segmentation】
-
《Anchor DETR》-加了Anchor Point能够让DETR又快又好?旷视孙剑团队提出Anchor DETR
【Anchor DETR: Query Design for Transformer-Based Detector】 -
加了Anchor Point能够让DETR又快又好?旷视孙剑大佬团队提出Anchor DETR
【Anchor DETR: Query Design for Transformer-Based Detector】
- 让模型实现“终生学习”,佐治亚理工学院提出Data-Free的增量学习
【Always Be Dreaming: A New Approach for Data-Free Class-Incremental Learning】
-
国科大提出用于VideoQA的跨模态交互时间金字塔Transformer
【Temporal Pyramid Transformer with Multimodal Interaction for Video Question Answering】 -
10亿参数!别只玩GPT,来看看这个已经落地的国产模型BriVL!人大&中科院联手打造第一个大规模多模态中文预训练模型
【WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training】 -
CLIP对视觉和语言任务有多大的好处?UC Berkeley&UCLA团队给出了答案!
【How Much Can CLIP Benefit Vision-and-Language Tasks?】 -
消除预训练模型的语言限制!Google提出跨语言的多模态、多任务检索模型MURAL
【MURAL: Multimodal, Multitask Retrieval Across Languages】 -
微软提出VLMO,用“模态混合专家”进行统一的视觉语言预训练!即将开源!
【VLMO: Unifified Vision-Language Pre-Training with Mixture-of-Modality-Experts】
-
Video Swin Transformer-既Swin Transformer之后,MSRA开源Video Swin Transformer,在视频数据集上SOTA
【Video Swin Transformer】 -
基于时空混合attention的视频Transformer,大幅度降低计算复杂度
【Space-time Mixing Attention for Video Transformer】 -
视频动作识别不是分类问题,而是检索问题?基于CLIP,浙大提出ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!
【ActionCLIP: A New Paradigm for Video Action Recognition】
-
DynamicViT-还在用全部token训练ViT?清华&UCLA提出token的动态稀疏化采样,降低inference时的计算量
【DynamicViT: Effificient Vision Transformers with Dynamic Token Sparsifification】 -
加速了DeiT-S 60%+的吞吐量!自动化所&上交&优图提出Evo-ViT,用Slow-Fast的方式更新token
【Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer】 -
压缩之后神经网络忘记了什么?Google研究员给出了答案
【What Do Compressed Deep Neural Networks Forget?】
-
浙大&华为诺亚&西湖大学提出用于目标检测的动态特征金字塔DyFPN,减少40%的FLOPs!
【Dynamic Feature Pyramid Networks for Object Detection】 -
《Dynamic Routing》-中科院&西交&旷视(孙剑团队)提出用于语义分割的动态路由网络,精确感知多尺度目标,代码已开源!
【Learning Dynamic Routing for Semantic Segmentation】 -
普林斯顿大学&英伟达&Facebook提出基于深度神经网络的全动态推理,助力轻量级网络!
【Fully Dynamic Inference with Deep Neural Networks】
-
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
【CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval】 -
腾讯PCG提出CLIP2Video,基于CLIP解决视频文本检索问题,性能SOTA!代码已开源!
【CLIP2Video: Mastering Video-Text Retrieval via Image CLIP】 -
视频预训练界的HERO!微软提出视频-语言全表示预训练模型HERO,代码已开源!
【HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training】 -
同时利用字幕、音频、视频进行检索!Inria&谷歌提出MMT用于高效跨模态视频检索,代码已开源!
【Multi-modal Transformer for Video Retrieval】 -
《CLIP2TV》-用CLIP和动量蒸馏来做视频文本检索!腾讯提出CLIP2TV,性能SOTA,涨点4.1%!
【CLIP2TV: An Empirical Study on Transformer-based Methods for Video-Text Retrieval】
-
拒绝Prompt Engineering,NTU提出CoOp,自适应学习不同下游任务的Prompt,性能碾压手工设计的Prompt
【Learning to Prompt for Vision-Language Models】 -
深度神经网络其实并不需要那么深!普林斯顿大学&Intel提出ParNet,12层的网络就能达到80%以上的准确率!
【Non-deep Networks】 -
NeurIPS2021-港大&腾讯AI Lab&牛津大学提出CARE,让CNN和Transformer能在对比学习中“互帮互助”!
【Revitalizing CNN Attentions via Transformers in Self-Supervised Visual Representation Learning】 -
FAIR三神Kaiming,Piotr,Ross新作,MAE才是YYDS!仅用ImageNet1K,Top-1准确率87.8%,封神!
【Masked Autoencoders Are Scalable Vision Learners】 -
Swin Transformer V2!MSRA原班人马探究了Swin在超大参数下的拓展!提出了30亿参数版本的Swin Transformer!
【Swin Transformer V2: Scaling Up Capacity and Resolution】 -
《BEIT》-基于图像重建进行预训练!微软提出BEIT,Top-1准确率达86.3%!代码已开源!
【BEIT: BERT Pre-Training of Image Transformers】 -
RANet:MSDNet加强版!清华黄高团队提出分辨率自适应的高效推理网络RANet!
【Resolution Adaptive Networks for Efficient Inference】 -
字节&约翰斯·霍普金斯&上交提出iBOT框架,基于MIM进行自监督训练,在ImageNet-1K上达到86.3%的微调精度!
【iBOT: Image BERT Pre-Training with Online Tokenizer】 -
清华&MBZUAI&CMU&牛津提出DenseCLIP,用上下文感知的提示进行语言引导密集预测!
【DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting】 -
微软提出第一个端到端的Video Captioning方法:SWIN BERT,涨点显著!
【SWIN BERT: End-to-End Transformers with Sparse Attention for Video Captioning】 -
用CLIP增强视频语言的理解,在VALUE榜单上SOTA!
【A CLIP-Enhanced Method for Video-Language Understanding】 -
中科大&快手提出多模态交叉注意力模型:MMCA,促进图像-文本多模态匹配!
【Multi-Modality Cross Attention Network for Image and Sentence Matching】