Paper Reading

논문을 깊게 읽고 만든 자료가 아니므로, 참고만 해주세요. 얕은 지식으로 모델의 핵심 위주로만 파악한 자료이다 보니 없는 내용도 많습니다. 혹시 사용하실 경우 댓글 부탁드립니다.
논문을 깊게 읽고 만든 자료가 아닙니다. 참고만 해주세요. 얉은 지식으로 핵심 위주로만 파악한 자료로, 없는 내용이 많습니다. 부가적인 의견 환영입니다. 댓글 부탁드립니다. Paper / GitHub 1. Introduction self-supervised pre-trained Document Image Transformer model, DiT를 제안 ⇒ 다양한 포맷의 문서와 대규모 unlabeled 문서 데이터에 대해서 학습되어야만 human-labeled document image에 의존적이지 X, 다양한 AI task를 잘 다룰 수 있다. 본 논문에서는 DiT를 Image classification, Document Layout Analysis, Table Detection, STD 등 다양한 Do..
Paper 논문을 깊게 읽고 만든 자료가 아닙니다. 참고만 해주세요. 얉은 지식으로 핵심 위주로만 파악한 자료로, 없는 내용이 많습니다. 부가적인 의견 환영입니다. 댓글 부탁드립니다. Abstract DLA(Document Layout Analysis) task는 multi-modality document pre-trained model이더라도 text feature, visual feature에 많이 영향을 받는 경향이 있음. DLA를 위한 Grid-based model도 사전학습 효과가 크게 나타나지 않음. multi-modal 정보를 최대한 활용하고, pre-trained 기술도 최대한 사용하기 위해서 VGT라는 DLA task를 위한 모델을 소개. VGT : 2D token level, Segme..
Paper 논문을 깊게 읽고 만든 자료가 아닙니다. 참고만 해주세요. 얉은 지식으로 핵심 위주로만 파악한 자료로, 없는 내용이 많습니다. 부가적인 의견 환영입니다. 댓글 부탁드립니다. Abstract 기존의 DLA task는 데이터에 대한 부담으로 인해 접근법이 어려운 task였고, 이를 해결하기 위해 오로지 GT가 따로 없는 상태에서도 self-supervision이 가능한 vision based pre-trained model을 제안. 각 문서 별 GT Layout dataset 을 만들기보다, 문서 내 pseudo-layout을 만들어 image encoder가 문서 내 요소를 선행학습 하도록 하고, self-supervised framework로 각 요소 간 localization을 학습함, 그 ..
Sequence based approach LayoutLM, LAMBERT와 같이 2D positional embedding을 input token에 추가한 BERT기반 모델 접근법 단점) 데이터셋 의존도가 높고, 컴퓨팅 파워도 요구함 Graph based approach BERTGrid, Chargrid, 각 문서를 Graph화 하고, 텍스트나 텍스트라인을 노드화, 관련 RoI visual 정보나 positional 정보까지 노드화 하여 그래프를 구성할 수 있고, GCN이나 attention network을 통해 각 이웃 노드간의 관계를 학습할 수 있음 단점) sequence based approach보다 성능이 다소 떨어짐 BERT와 같은 강력한 token embedding이 불가능함 (BERTGri..
LayoutLMv3 to pre-train multimodal Transformers for Document AI with unified text and image masking LayoutLMv3 is pre-trained with a word-patch alignment objective to learn cross-modal alignment by predicting whether the corresponding image patch of a text word is masked. Contribution LayoutLMv3 : first multimodal model that doesn’t rely on a pre-trained CNN or Faster R-CNN backbone → save param..
https://arxiv.org/abs/2103.06495 Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition Linguistic knowledge is of great benefit to scene text recognition. However, how to effectively model linguistic rules in end-to-end deep networks remains a research challenge. In this paper, we argue that the limited capacity of language models comes from arxiv..
PAPER : https://arxiv.org/abs/2106.10598 TGRNet: A Table Graph Reconstruction Network for Table Structure Recognition A table arranging data in rows and columns is a very effective data structure, which has been widely used in business and scientific research. Considering large-scale tabular data in online and offline documents, automatic table recognition has attracted i arxiv.org GITHUB: https..
PAPER DocFormer: End-to-End Transformer for Document Understanding We present DocFormer -- a multi-modal transformer based architecture for the task of Visual Document Understanding (VDU). VDU is a challenging problem which aims to understand documents in their varied formats (forms, receipts etc.) and layouts. In additio arxiv.org GitHub GitHub - shabie/docformer: Implementation of DocFormer: E..
논문 논문을 깊게 읽고 만든 자료가 아니므로, 참고만 해주세요. 얕은 지식으로 모델의 핵심 위주로만 파악한 자료이다 보니 없는 내용도 많습니다. 혹시 사용하실 경우 댓글 부탁드립니다. - 참고 블로그 RNN, OCR , Scene Text 2021.03.11 Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for ... blog.naver.com
논문 논문을 깊게 읽고 만든 자료가 아니므로, 참고만 해주세요. 얕은 지식으로 모델의 핵심 위주로만 파악한 자료이다 보니 없는 내용도 많습니다. 혹시 사용하실 경우 댓글 부탁드립니다. 참고 자료 : https://jhtechblog.tistory.com/m/11
논문 PAN++: Towards Efficient and Accurate End-to-End Spotting of Arbitrarily-Shaped Text Scene text detection and recognition have been well explored in the past few years. Despite the progress, efficient and accurate end-to-end spotting of arbitrarily-shaped text remains challenging. In this work, we propose an end-to-end text spotting framew arxiv.org 논문을 깊게 읽고 만든 자료가 아니므로, 참고만 해주세요. 얕은 지식으로 모델..
논문 Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network Scene text detection, an important step of scene text reading systems, has witnessed rapid development with convolutional neural networks. Nonetheless, two main challenges still exist and hamper its deployment to real-world applications. The first problem arxiv.org 논문을 깊게 읽고 만든 자료가 아니므로, 참고만 해주세요. 얕은 지식으로 모델..
논문 Shape Robust Text Detection with Progressive Scale Expansion Network Scene text detection has witnessed rapid progress especially with the recent development of convolutional neural networks. However, there still exists two challenges which prevent the algorithm into industry applications. On the one hand, most of the state arxiv.org 논문을 깊게 읽고 만든 자료가 아니므로, 참고만 해주세요. 얕은 지식으로 모델의 핵심 위주로만 파악한 자료..
Js.Y
'Paper Reading' 카테고리의 글 목록