728x90
반응형
논문을 깊게 읽고 만든 자료가 아닙니다. 참고만 해주세요.
얉은 지식으로 핵심 위주로만 파악한 자료로, 없는 내용이 많습니다.
부가적인 의견 환영입니다. 댓글 부탁드립니다.
Abstract
- 기존의 DLA task는 데이터에 대한 부담으로 인해 접근법이 어려운 task였고, 이를 해결하기 위해 오로지 GT가 따로 없는 상태에서도 self-supervision이 가능한 vision based pre-trained model을 제안.
- 각 문서 별 GT Layout dataset 을 만들기보다, 문서 내 pseudo-layout을 만들어 image encoder가 문서 내 요소를 선행학습 하도록 하고, self-supervised framework로 각 요소 간 localization을 학습함, 그 이후에 object detection model로 finetuning.
- DLA task를 위한 image encoder pre-training 방식의 vision-based self-supervised framework 제안
- 문서 segmentation을 위해 관심 영역을 self-supervision 전략을 사용해 학습하는 pseudo physical layout guided strategy
- 다방면의 문서에 대응하기 위한 data efficient pre-training strategy 제안.
1. Introduction
- self-supervised framework 제안
- encoder의 pre-training 단계에서 self-supervision 방식을 사용, 문서 내 object location, category 등에 대한 GT labeled data가 불필요.
- 대신에 cv2와 같은 클래식한 이미지 처리로 각 문서 이미지 안에 있는 rough physical layout mask(하단 그림 내 mask image)를 사용하여 object localization과 representation을 학습
- image encoder를 backbone으로 써서 feature map을 추출하고, 이 feature와 mask pooling operation을 써서 관련있는 physical layout 객체들에 대한 encoding을 수행. 또한, negative cosine similarity로 self-supervised representation learning을 하도록 함
- layout predictor 모듈을 두어, encoding된 feature map 내 각 픽셀 별로 document object에 속하는지 안 속하는지 classification task를 진행. (trained using focal loss with the supervision of the generated physical layout mask.)
(Related work는 생략)
2. Methodology
2.1 문제 정의
- 기존의 DLA처럼 각 문서 안에 등장하는 레이아웃 GT segment(or bbox) labeling된 데이터 없이, 단순히 원본 이미지 $x$와 그에 대응되는 binary 마스크 $m$(원본 문서이미지의 물리적 레이아웃을 묘사한 마스킹)를 토대로 Dataset을 구성. ⇒ 3.2절에서 다룸
- 이미지 인코더의 pre-training 전략을 포함한 self-supervised framework로 SelfDocSeg를 소개 ⇒ 3.3절
- self supervised 기법으로 문서 내 물체 인식기능을 제공하기 위해 이미지 인코더를 학습하였으며, pre-training이 마무리되면 이 weight를 object detector의 backbone으로 셋팅 후 document object segmentation을 위한 finetuning을 수행 ⇒ 3.4절
2.2 Layout Mask Generation
- 전형적인 이미지 전처리 방식으로 물리적인 레이아웃에 대한 마스킹을 제작.
- Grayscale 단계 : 원본 RGB이미지를 grayscale image $x_{gray}$ 형태로 변경.
- Threshold를 주어서 binarization image $x_{bin}$
- Erosion(침식) 전처리로 각 글자, 이미지, 플롯 라인, 등을 두껍게 만들어 큰 틀의 레이아웃 마스킹 $\bar{m}$ 구성
- Inversion적용해서 거꾸로 된 mask $m$ 생성
2.3 Encoder Pre-training
- Object detection 문제는 image encoder가 다양한 논리적으로 서로 다른 레이아웃 구성요소 간에 내재되어 있는 특징정보도 학습해야 하고, 동시에 각 물체 영역에 대한 localizing도 해야 하기 때문에 이를 위한 image encoder 선행학습이 꽤 어려운 문제임. 이를 해결하기 위해 layout mask라는 시각적인 가이드를 사용.
- SelfDocSeg는 BYOL self-supervised framework에서 디벨롭 된 아키텍쳐.+) BYOL reading link
- two branch(online and momentum)network로 구성. 같은 input에 서로 다른 view 또는 variation을 주어 추출된 각각의 feature간 내재된 유사성을 학습 시키는 방식 ⇒ 실질적으로 BYOL 학습방법과 동일
- input x에 대해서 서로 다른 형태의 두 input을 만들어야 하기 때문에 augmentation 기법을 적용해 각 branch에 서로 다른 값$(v_1, v_2)$ 을 주었고, 각 branch는 mask pooling operation을 통해 의미있는 semantic embedding을 학습하도록 함. ⇒ input image $x$ 와 layout mask $m$으로 동시에 모든 layout embedding을 추출
- Augmentation :
- random cropping, random horizontal flip 제외하고 simCLR에서 사용된 augmentation을 사용.
- 상단 외에 추가로 Gaussian blurring, color jittering, color dropping, solarization 추가
- 이와 동시에 layout prediction module은 Online network가 문서 이미지 feature map에서 RoI 영역을 찾는 방법을 학습. v1, v2 feature map 둘 다 layout prediction module에 제공, 해당 픽셀이 어떤 문서 object에 해당하는지 pixel-wise 확률 점수를 생성.
- ⇒ 이 전체 모듈은 focal loss와 m(마스킹)을 사용해서 학습함.
- Loss function
- $L_{total}$ = $L_{Det}$(come from Layout Predictino Module) + $L_{Sim}$ (come from Layout Object Representation Learning)
- Layout Object Representation Learning : 기존의 BYOL 학습 방법과 동일
- Layout Prediction Module : Layout Object localization을 용이하게(detection task에서 encoder 보조)하는 보조 모듈
- feature map $f_1, f_2$ 둘 다 입력받아서 mask layout $m_{pred}$를 예측하여 mask $m$ 이랑 Focal loss로 비교.
- Layout Prediction Module : Layout Object localization을 용이하게(detection task에서 encoder 보조)하는 보조 모듈
2.4 Finetuning
- 학습된 모델을 Task에 맞는 Detection모델의 Backbone으로 활용, 원하는 Detection task에 맞춰 fientuning
3. Experiments
3.1 Dataset & Implementation
- Dataset
- (pre-train)DocLayNet dataset (6 different domains, with annotated ground-truth labels for 11 seperate classes)
- (finetuning)PRImA dataset, Historic Japanese, PubLaynet, DocLayNet
- Implementation
- Image encoder : standard ResNet50
- projectors $Z_{\theta}, Z_{\xi}$ and predictor $Q_{\theta}$ : two-layer MLP with 4096 hidden, 256 output dimens
- auxiliary layout prediction module L : 1 x 1 Convolution block
- Focal Loss
- 그 외 Finetuning 관련
3.2 Experiments (결론)
- Multi-modal pre-trained model보다 좋다고 할 순 없으나 시각 정보만 사용한 것 치고는 mask RCNN보다 높았음.
728x90
반응형