ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

ViBERTgrid: A Jointly Trained Multi-Modal 2DDocument Representation for Key Information Extraction from Documents (0)	2022.05.23
LayoutLMv3: Pre-training for Document AIwith Unified Text and Image Masking (0)	2022.05.23
DocFormer End-to-End Transformer for Document Understanding (0)	2022.02.11
VL-BERT: Pre-training of Generic Visual-Linguistic Representations / UNITER: UNiversal Image-TExt Representation Learning (0)	2020.08.18

티스토리툴바