논문을 깊게 읽고 만든 자료가 아닙니다. 참고만 해주세요. 얉은 지식으로 핵심 위주로만 파악한 자료로, 없는 내용이 많습니다. 부가적인 의견 환영입니다. 댓글 부탁드립니다.
Abstract
기존의 DLA task는 데이터에 대한 부담으로 인해 접근법이 어려운 task였고, 이를 해결하기 위해 오로지 GT가 따로 없는 상태에서도 self-supervision이 가능한 vision based pre-trained model을 제안.
각 문서 별 GT Layout dataset 을 만들기보다, 문서 내 pseudo-layout을 만들어 image encoder가 문서 내 요소를 선행학습 하도록 하고, self-supervised framework로 각 요소 간 localization을 학습함, 그 이후에 object detection model로 finetuning.
DLA task를 위한 image encoder pre-training 방식의 vision-based self-supervised framework 제안
문서 segmentation을 위해 관심 영역을 self-supervision 전략을 사용해 학습하는 pseudo physical layout guided strategy
다방면의 문서에 대응하기 위한 data efficient pre-training strategy 제안.
1. Introduction
self-supervised framework 제안
encoder의 pre-training 단계에서 self-supervision 방식을 사용, 문서 내 object location, category 등에 대한 GT labeled data가 불필요.
대신에 cv2와 같은 클래식한 이미지 처리로 각 문서 이미지 안에 있는 rough physical layout mask(하단 그림 내 mask image)를 사용하여 object localization과 representation을 학습
image encoder를 backbone으로 써서 feature map을 추출하고, 이 feature와 mask pooling operation을 써서 관련있는 physical layout 객체들에 대한 encoding을 수행. 또한, negative cosine similarity로 self-supervised representation learning을 하도록 함
layout predictor 모듈을 두어, encoding된 feature map 내 각 픽셀 별로 document object에 속하는지 안 속하는지 classification task를 진행. (trained using focal loss with the supervision of the generated physical layout mask.)
Compare with other task
(Related work는 생략)
2. Methodology
2.1 문제 정의
기존의 DLA처럼 각 문서 안에 등장하는 레이아웃 GT segment(or bbox) labeling된 데이터 없이, 단순히 원본 이미지 $x$와 그에 대응되는 binary 마스크 $m$(원본 문서이미지의 물리적 레이아웃을 묘사한 마스킹)를 토대로 Dataset을 구성. ⇒ 3.2절에서 다룸
이미지 인코더의 pre-training 전략을 포함한 self-supervised framework로 SelfDocSeg를 소개 ⇒ 3.3절
self supervised 기법으로 문서 내 물체 인식기능을 제공하기 위해 이미지 인코더를 학습하였으며, pre-training이 마무리되면 이 weight를 object detector의 backbone으로 셋팅 후 document object segmentation을 위한 finetuning을 수행 ⇒ 3.4절
2.2 Layout Mask Generation
전형적인 이미지 전처리 방식으로 물리적인 레이아웃에 대한 마스킹을 제작.
Grayscale 단계 : 원본 RGB이미지를 grayscale image $x_{gray}$ 형태로 변경.
Threshold를 주어서 binarization image $x_{bin}$
Erosion(침식) 전처리로 각 글자, 이미지, 플롯 라인, 등을 두껍게 만들어 큰 틀의 레이아웃 마스킹 $\bar{m}$ 구성
Inversion적용해서 거꾸로 된 mask $m$ 생성
2.3 Encoder Pre-training
Object detection 문제는 image encoder가 다양한 논리적으로 서로 다른 레이아웃 구성요소 간에 내재되어 있는 특징정보도 학습해야 하고, 동시에 각 물체 영역에 대한 localizing도 해야 하기 때문에 이를 위한 image encoder 선행학습이 꽤 어려운 문제임. 이를 해결하기 위해 layout mask라는 시각적인 가이드를 사용.
SelfDocSeg는 BYOL self-supervised framework에서 디벨롭 된 아키텍쳐.+) BYOL reading link
Model Architecture
two branch(online and momentum)network로 구성. 같은 input에 서로 다른 view 또는 variation을 주어 추출된 각각의 feature간 내재된 유사성을 학습 시키는 방식 ⇒ 실질적으로 BYOL 학습방법과 동일
input x에 대해서 서로 다른 형태의 두 input을 만들어야 하기 때문에 augmentation 기법을 적용해 각 branch에 서로 다른 값$(v_1, v_2)$ 을 주었고, 각 branch는 mask pooling operation을 통해 의미있는 semantic embedding을 학습하도록 함. ⇒ input image $x$ 와 layout mask $m$으로 동시에 모든 layout embedding을 추출
Augmentation :
- random cropping, random horizontal flip 제외하고 simCLR에서 사용된 augmentation을 사용. - 상단 외에 추가로 Gaussian blurring, color jittering, color dropping, solarization 추가
이와 동시에 layout prediction module은 Online network가 문서 이미지 feature map에서 RoI 영역을 찾는 방법을 학습. v1, v2 feature map 둘 다 layout prediction module에 제공, 해당 픽셀이 어떤 문서 object에 해당하는지 pixel-wise 확률 점수를 생성.
⇒ 이 전체 모듈은 focal loss와 m(마스킹)을 사용해서 학습함.
Loss function
$L_{total}$ = $L_{Det}$(come from Layout Predictino Module) + $L_{Sim}$ (come from Layout Object Representation Learning)
Layout Object Representation Learning : 기존의 BYOL 학습 방법과 동일