A Silent Revolution and a New Wild West di ComputerVision

Tampaknya telah ada revolusi dengan Computer Vision. Pada tahun 2012, algoritme yang didasarkan pada jaringan saraf konvolusional diluncurkan . Dari 2014 mereka mencapai produksi, dan dari 2016 mereka mengisi semuanya . Namun, di penghujung tahun 2020, babak baru telah berlangsung. Kali ini bukan dalam 4 tahun, tapi dalam satu tahun. mari kita bicara tentang Transformers di ComputerVision. Artikel ini akan memberikan gambaran umum tentang produk baru yang muncul pada tahun lalu. Jika lebih nyaman bagi seseorang, maka artikel tersebut tersedia sebagai video di youtube.

Transformer adalah jenis jaringan saraf yang dibuat pada tahun 2017. Awalnya, mereka digunakan untuk terjemahan :

Tapi, ternyata, mereka bekerja hanya sebagai model bahasa universal. Dan kita berangkat. Sebenarnya GPT-3 yang terkenal itu merupakan produk trafo.

ComputerVision?

. , . - , . . , . CV.

DETR

2020. . ? . , DETR (End-to-End Object Detection with Transformers), 2020 . , :

, ReInspect 2015 - , BackBone . - ReInspect Detr. .

, , DETR ( , ). .

, DETR ComputerVision. ? ? :

- , . Deformable DETR.
DETR . . iterdet. - ( - https://paperswithcode.com/sota/panoptic-segmentation-on-coco-panoptic ).

DETR Visual Transformer ( + ) . Feature map backbone:

Visual Transformer , . backbone .

VIT

. ViT:

2020 (). -. . - 16*16. “”, .

, , . ( state-of-art). 14 - .

. FaceBook - Deit. .

- https://paperswithcode.com/paper/going-deeper-with-image-transformers

- . , ~2-3 , . ResNet .

CLIP

. CLIP. . CLIP . , . , - :

, . . :

:

, - :

ResNet50. , 100 .

, /. CLIP . CLIP . . , :

Vision Transformers for Dense Prediction

, , - “Vision Transformers for Dense Prediction”, . Vit/Detr. , .

/, / . State-of-art , RealTime. @AlexeyAB ( Yolov4 ), . , , . - , :

---------------------------------------

. - :

1-2

- / . .

PoseFormer

Pose3D. , , :

3 . CherryLabs ( ) 3 , , . , , . - 3D, :

- . ( ). .

, . / .

TransPose

, . TransPose - :

. . , , :

SWIN

Intel. SWIN Microsoft , RealTime. VIT/Deit, :

, , - https://paperswithcode.com/paper/swin-transformer-hierarchical-vision

LOFTR

. . SIFT/SURF+RANSAK ( + ). SuperGlue- Graph Neural Network ComputerVision. SuperGlue . , LOFTR End-To-End:

, :

, , , . : (Video Transformer Network, ActionBert). MMAction.

. , . , - STARK:

, . . , , . , , . . BBOX + , ,

TransTrack

TransT

.

ReID

, . 20 ReID - .

:

. VIT (1,2):

(1,2):

- OCR . , - :

state-of-art . . - 2 . - .

, . , , :

ComputerVision. , , .

. . , - , 2 . , -

, . . - . / - https://t.me/CVML_team ( https://vk.com/cvml_team ).

, , youtube:

All Articles