728x90
반응형
논문을 깊게 읽고 만든 자료가 아닙니다. 참고만 해주세요.
얉은 지식으로 핵심 위주로만 파악한 자료로, 없는 내용이 많습니다.
부가적인 의견 환영입니다. 댓글 부탁드립니다.
Abstract
- DLA(Document Layout Analysis) task는 multi-modality document pre-trained model이더라도 text feature, visual feature에 많이 영향을 받는 경향이 있음. DLA를 위한 Grid-based model도 사전학습 효과가 크게 나타나지 않음.
- multi-modal 정보를 최대한 활용하고, pre-trained 기술도 최대한 사용하기 위해서 VGT라는 DLA task를 위한 모델을 소개.
- VGT : 2D token level, Segment-level 으로 선행학습된 GiT(Grid Transformer)기반의 two-stream Vision Grid Transformer
- $D^4LA$ : 문서 layout analysis를 위해서 만든 benchmark dataset 발표.
- VGT 모델이 SoTA (PubLayNet, DocBank, $D^4LA$)달성.
- 기존의 다른 모델들과 다르게 접근
1. Introduction
- DLA task를 document image에 대한 object detection & segmentation task로 보는 연구 有
- CNN으로 단순히 Visual feature만 인코딩 해서 layout unit을 탐지하려 하거나
- ViT 기반의 image pre-training을 시도한 경우
- Multi modal pretrained Transformer 기반 접근방식
⇒ 1, 2, 3은 Visual 정보만 활용하는 경향 존재, DLA task를 일반화하지는 못함 - Grid based method는 vision, textual 정보 모두 사용
- text feature를 2d semantic representation(charGrid, sentence-grid)으로 대응하여 layout feature를 탐지하면 해당 정보를 visual 정보와 함께 사용.
- 그러나 pre-trained model의 장점을 못살리기 때문에 VGT는 이 3가지 모두를 다 합친 모델을 제안
- DLA를 위한 benchmark dataset 대표적으로 2가지(PubLayNet, DocBank)를 소개
- 과학 논문 등에 대해서 제목, 문단, 요약 등으로 나뉘어져 있는데 이게 너무 실 생활에서 필요한 문서와는 동떨어져 있다는 단점 有
- VGT : DLA task를 위한 two-stream multi-modal Vision Grid Transformer를 제안.
- GiT(Grid Transformer) : 2D language information을 모델링
- Document image를 2D token level grid로 임베딩하고, 이를 GiT 모델에 grid로 전달
- token-level, segment-level 의 semantic GiT를 위한 두가지 신규 pre-training(like BERT의 pre-training task) 제안.
- 1) MGLM(Masked Grid Language Modeling) : 2D grid input feature 일부를 masking하고 2D spatial context를 토대로 text token을 유추하는 방식
- 2) SLM(Segment Language Modeling)
- language model에서 생성된 feature와 segment level semantic feature 간 정렬(정합)을 목표로 하는 task.
- grid feature 내 segment level의 semantic 이해를 위함.
- token level의 feature, segment-level feature 둘 다 GiT에서 인코딩한 2D grid feature(text 위치 좌표 및 RoIAlign)로부터 얻을 수 있다.
- D^4LA(Diverse and Detailed Dataset ever for Document Layout Analysis) : 신규 데이터셋 제안
- 상단 PubLayNet, DocBank처럼 12개의 문서 타입을 포함.
- 27개의 layout 카테고리를 제안. 하단은 여기서 제안하는 더 어려운 category
- 다방면의 DLA dataset에서 SoTA를 달성.
2. Vision Grid Transformer
- ViT(Visual feature)와 GiT(textual feature)를 둘 다 차용한 모델
- GiT는 MGLM, SLM pre-trained task로 미리 선행학습 되어있는 모델
2.1 Vision Transformer
- 일반 Transformer 를 사용한 ViT 모델들 처럼 이미지 받아서 일정 사이즈로 리사이징 해준 후, P*P 2D 사이즈의 패치로 자른 후, 1D로 시퀀셜하게 flatten 적용, Positional Embedding함께 적용해서 입력으로 넣는다.
2.2 Grid Transformer
- Grid feature는 문서를 구성하는 Text 정보와 해당 Text가 어디있는지를 종합적으로 보는 feature라 생각하면 간단.
- Open source OCR engine으로 이미지 내 글자를 읽고(PDF의 경우엔 PdfMiner라는 오픈소스로 글자를 긁어옴)
- word단위 토큰을 sub-word 단위 토큰으로 분리,
- 각 sub-word 단위 토큰을 LayoutLM(or BROS, BERT )인코딩을 하여, Token Embedding을 수행.
- 해당 글자가 있는 영역(text bbox)내 에 token embedding 값을 동일하게 넣어서 마치 semantic segmentation feature처럼 구현
2.3 Pre-training for GiT(Grid Transformer)
Masked Grid Language Modeling(MGLM)
- 랜덤하게 GiT의 input G중 일부를 마스킹. 마스킹 된 token의 region feature는 box $C_k$에서 RoIAlign을 사용해서 가장 큰 feature map을 크롭한게 $C_k$
- 실제로 region feature랑 마스킹 된 token간 유사도를 찾아 나가도록 학습.
⇒ token과 region feature간의 context를 학습
Segment Language Modeling(SLM)
- layout 영역 탐지를 위해선 text로부터 segment level의 feature도 학습해야 함
- PDFMiner 를 사용해서 텍스트 라인(bbox)을 추출, 해당 라인을 segment로 봄.
- line box( $l_i$) 정보에 RoIAlign을 통해서 segment feature $e_{l_i}$ 생성.
- 이미 있는 BERT나 LayoutLM에서 만든 feature를 pseudo target feature $e_{l_i}^*$라 간주하고.
- segment feature $e_{l_i}$ 간의 유사도를 학습? 최대한 segment feature를 target feature에 잘 맞도록 학습한다는 의미인듯? GiT를 다른 잘하는 모델(BERT, LayoutLM)의 성능에 맞도록?
2.4 Multi-modal feature fusion
- Object Detection task에서 처럼 multi-scale feature를 추출하기 위해 FPN framework를 차용
- (multi scale pyramid feature를 얻기 위함)
- ViT, GiT는 single scale인데 multi-scale을 적용하기 위해서 4개의 해상도가 다른 transformer block을 각각 적용. 여기서 나온 각 단계 별 feature를 element wise sum(⊕) 함수로 융합.
- (Same with FPN framework)
- 최종적인 FPN으로 pyramid feature를 얻고, 이로써 서로 다른 레벨의 RoI feature를 얻을 수 있음.
3. Implementation Detail
- 최종적으로 Finetuning할 때는 VGT를 Cascade R-CNN detector의 backbone으로 사용하여 layout analysis를 수행하게끔 구현. 이 과정에서 detectron2를 사용하여 구현.
- Cascade R-CNN의 H/P나 구성은 DiT 논문의 구현 방식을 따라갔다고 함.
4. Experiments
728x90
반응형