[ 分享 ]  Multiscale Vision Transformers(MViT)介紹
  回覆文章總數:

Multiscale Vision Transformers(MViT)介紹

  By : Leadtek AI Expert     63

麗臺AI專家好文分享

Facebook AI Research (FAIR)在近期推出Multiscale Vision Transformers (MViT),一種基於Vision Transformer(ViT)進行改良的架構,加上了Multi-Head Pooling Attention (MHPA)層。而之所以加上這個架構如它的名稱,是為了讓原本只能在同一個scale上做運算的ViT能像一般CNN base的模型,在不同層間的運算透過down sampling得到不同scale的特徵,因為淺層的特徵會有比較高的空間訊息,但較低的語意訊息,相反深層的特徵具有更高的語意訊息,但較低的空間訊息。較新的CNN base model都有這樣的能力,建構multi-scale的featrue map去建模。

實際做法便是在transformer計算Q,K,V以及skip connection時加入pooling層去降低sequence的長度,也就是降低feature的scale,但同時增加channel的深度,以免丟失過多特徵中的訊息。在論文設計的一系列實驗中,可以看到在不同的數據集達到很好的效果,尤其是對於video recognition這樣高度相關於時序特徵的任務,對於robust, safe, 這類應用有很大的加分效果。


原文網址

https://ai.facebook.com/blog/multiscale-vision-transformers-an-architecture-for-modeling-visual-data/



以下是回覆文