'Paper Reading/Document Information Extratction' 카테고리의 글 목록

DiT: Self-supervised Pre-training for Document Image Transformer

2024.02.18· Paper Reading/Document Information Extratction

논문을 깊게 읽고 만든 자료가 아닙니다. 참고만 해주세요. 얉은 지식으로 핵심 위주로만 파악한 자료로, 없는 내용이 많습니다. 부가적인 의견 환영입니다. 댓글 부탁드립니다. Paper / GitHub 1. Introduction self-supervised pre-trained Document Image Transformer model, DiT를 제안 ⇒ 다양한 포맷의 문서와 대규모 unlabeled 문서 데이터에 대해서 학습되어야만 human-labeled document image에 의존적이지 X, 다양한 AI task를 잘 다룰 수 있다. 본 논문에서는 DiT를 Image classification, Document Layout Analysis, Table Detection, STD 등 다양한 Do..

Vision Grid Transformer for Document Layout Analysis(VGT)

2024.02.11· Paper Reading/Document Information Extratction

Paper 논문을 깊게 읽고 만든 자료가 아닙니다. 참고만 해주세요. 얉은 지식으로 핵심 위주로만 파악한 자료로, 없는 내용이 많습니다. 부가적인 의견 환영입니다. 댓글 부탁드립니다. Abstract DLA(Document Layout Analysis) task는 multi-modality document pre-trained model이더라도 text feature, visual feature에 많이 영향을 받는 경향이 있음. DLA를 위한 Grid-based model도 사전학습 효과가 크게 나타나지 않음. multi-modal 정보를 최대한 활용하고, pre-trained 기술도 최대한 사용하기 위해서 VGT라는 DLA task를 위한 모델을 소개. VGT : 2D token level, Segme..

SelfDocSeg: A Self-Supervised vision-based approach towards Document Segmentation

2024.02.10· Paper Reading/Document Information Extratction

Paper 논문을 깊게 읽고 만든 자료가 아닙니다. 참고만 해주세요. 얉은 지식으로 핵심 위주로만 파악한 자료로, 없는 내용이 많습니다. 부가적인 의견 환영입니다. 댓글 부탁드립니다. Abstract 기존의 DLA task는 데이터에 대한 부담으로 인해 접근법이 어려운 task였고, 이를 해결하기 위해 오로지 GT가 따로 없는 상태에서도 self-supervision이 가능한 vision based pre-trained model을 제안. 각 문서 별 GT Layout dataset 을 만들기보다, 문서 내 pseudo-layout을 만들어 image encoder가 문서 내 요소를 선행학습 하도록 하고, self-supervised framework로 각 요소 간 localization을 학습함, 그 ..

TGRNet: A Table Graph Reconstruction Network for Table Structure Recognition

2022.02.14· Paper Reading/Document Information Extratction

PAPER : https://arxiv.org/abs/2106.10598 TGRNet: A Table Graph Reconstruction Network for Table Structure Recognition A table arranging data in rows and columns is a very effective data structure, which has been widely used in business and scientific research. Considering large-scale tabular data in online and offline documents, automatic table recognition has attracted i arxiv.org GITHUB: https..

티스토리툴바