기존의 DLA task는 데이터에 대한 부담으로 인해 접근법이 어려운 task였고, 이를 해결하기 위해 오로지 GT가 따로 없는 상태에서도 self-supervision이 가능한 vision based pre-trained model을 제안.
각 문서 별 GT Layout dataset 을 만들기보다, 문서 내 pseudo-layout을 만들어 image encoder가 문서 내 요소를 선행학습 하도록 하고, self-supervised framework로 각 요소 간 localization을 학습함, 그 이후에 object detection model로 finetuning.
DLA task를 위한 image encoder pre-training 방식의 vision-based self-supervised framework 제안
문서 segmentation을 위해 관심 영역을 self-supervision 전략을 사용해 학습하는 pseudo physical layout guided strategy
다방면의 문서에 대응하기 위한 data efficient pre-training strategy 제안.
encoder의 pre-training 단계에서 self-supervision 방식을 사용, 문서 내 object location, category 등에 대한 GT labeled data가 불필요.
대신에 cv2와 같은 클래식한 이미지 처리로 각 문서 이미지 안에 있는 rough physical layout mask(하단 그림 내 mask image)를 사용하여 object localization과 representation을 학습
image encoder를 backbone으로 써서 feature map을 추출하고, 이 feature와 mask pooling operation을 써서 관련있는 physical layout 객체들에 대한 encoding을 수행. 또한, negative cosine similarity로 self-supervised representation learning을 하도록 함
layout predictor 모듈을 두어, encoding된 feature map 내 각 픽셀 별로 document object에 속하는지 안 속하는지 classification task를 진행. (trained using focal loss with the supervision of the generated physical layout mask.)
기존의 DLA처럼 각 문서 안에 등장하는 레이아웃 GT segment(or bbox) labeling된 데이터 없이, 단순히 원본 이미지 $x$와 그에 대응되는 binary 마스크 $m$(원본 문서이미지의 물리적 레이아웃을 묘사한 마스킹)를 토대로 Dataset을 구성. ⇒ 3.2절에서 다룸
이미지 인코더의 pre-training 전략을 포함한 self-supervised framework로 SelfDocSeg를 소개 ⇒ 3.3절
self supervised 기법으로 문서 내 물체 인식기능을 제공하기 위해 이미지 인코더를 학습하였으며, pre-training이 마무리되면 이 weight를 object detector의 backbone으로 셋팅 후 document object segmentation을 위한 finetuning을 수행 ⇒ 3.4절
Object detection 문제는 image encoder가 다양한 논리적으로 서로 다른 레이아웃 구성요소 간에 내재되어 있는 특징정보도 학습해야 하고, 동시에 각 물체 영역에 대한 localizing도 해야 하기 때문에 이를 위한 image encoder 선행학습이 꽤 어려운 문제임. 이를 해결하기 위해 layout mask라는 시각적인 가이드를 사용.
SelfDocSeg는 BYOL self-supervised framework에서 디벨롭 된 아키텍쳐.+) BYOL reading link
Model Architecture
two branch(online and momentum)network로 구성. 같은 input에 서로 다른 view 또는 variation을 주어 추출된 각각의 feature간 내재된 유사성을 학습 시키는 방식 ⇒ 실질적으로 BYOL 학습방법과 동일
input x에 대해서 서로 다른 형태의 두 input을 만들어야 하기 때문에 augmentation 기법을 적용해 각 branch에 서로 다른 값$(v_1, v_2)$ 을 주었고, 각 branch는 mask pooling operation을 통해 의미있는 semantic embedding을 학습하도록 함. ⇒ input image $x$ 와 layout mask $m$으로 동시에 모든 layout embedding을 추출
Augmentation :
- random cropping, random horizontal flip 제외하고 simCLR에서 사용된 augmentation을 사용. - 상단 외에 추가로 Gaussian blurring, color jittering, color dropping, solarization 추가
이와 동시에 layout prediction module은 Online network가 문서 이미지 feature map에서 RoI 영역을 찾는 방법을 학습. v1, v2 feature map 둘 다 layout prediction module에 제공, 해당 픽셀이 어떤 문서 object에 해당하는지 pixel-wise 확률 점수를 생성.
⇒ 이 전체 모듈은 focal loss와 m(마스킹)을 사용해서 학습함.
Loss function
$L_{total}$ = $L_{Det}$(come from Layout Predictino Module) + $L_{Sim}$ (come from Layout Object Representation Learning)
Layout Object Representation Learning : 기존의 BYOL 학습 방법과 동일
기존의 DLA task는 데이터에 대한 부담으로 인해 접근법이 어려운 task였고, 이를 해결하기 위해 오로지 GT가 따로 없는 상태에서도 self-supervision이 가능한 vision based pre-trained model을 제안.
각 문서 별 GT Layout dataset 을 만들기보다, 문서 내 pseudo-layout을 만들어 image encoder가 문서 내 요소를 선행학습 하도록 하고, self-supervised framework로 각 요소 간 localization을 학습함, 그 이후에 object detection model로 finetuning.
DLA task를 위한 image encoder pre-training 방식의 vision-based self-supervised framework 제안
문서 segmentation을 위해 관심 영역을 self-supervision 전략을 사용해 학습하는 pseudo physical layout guided strategy
다방면의 문서에 대응하기 위한 data efficient pre-training strategy 제안.
encoder의 pre-training 단계에서 self-supervision 방식을 사용, 문서 내 object location, category 등에 대한 GT labeled data가 불필요.
대신에 cv2와 같은 클래식한 이미지 처리로 각 문서 이미지 안에 있는 rough physical layout mask(하단 그림 내 mask image)를 사용하여 object localization과 representation을 학습
image encoder를 backbone으로 써서 feature map을 추출하고, 이 feature와 mask pooling operation을 써서 관련있는 physical layout 객체들에 대한 encoding을 수행. 또한, negative cosine similarity로 self-supervised representation learning을 하도록 함
layout predictor 모듈을 두어, encoding된 feature map 내 각 픽셀 별로 document object에 속하는지 안 속하는지 classification task를 진행. (trained using focal loss with the supervision of the generated physical layout mask.)
기존의 DLA처럼 각 문서 안에 등장하는 레이아웃 GT segment(or bbox) labeling된 데이터 없이, 단순히 원본 이미지 x와 그에 대응되는 binary 마스크 m(원본 문서이미지의 물리적 레이아웃을 묘사한 마스킹)를 토대로 Dataset을 구성. ⇒ 3.2절에서 다룸
이미지 인코더의 pre-training 전략을 포함한 self-supervised framework로 SelfDocSeg를 소개 ⇒ 3.3절
self supervised 기법으로 문서 내 물체 인식기능을 제공하기 위해 이미지 인코더를 학습하였으며, pre-training이 마무리되면 이 weight를 object detector의 backbone으로 셋팅 후 document object segmentation을 위한 finetuning을 수행 ⇒ 3.4절
Object detection 문제는 image encoder가 다양한 논리적으로 서로 다른 레이아웃 구성요소 간에 내재되어 있는 특징정보도 학습해야 하고, 동시에 각 물체 영역에 대한 localizing도 해야 하기 때문에 이를 위한 image encoder 선행학습이 꽤 어려운 문제임. 이를 해결하기 위해 layout mask라는 시각적인 가이드를 사용.
SelfDocSeg는 BYOL self-supervised framework에서 디벨롭 된 아키텍쳐.+) BYOL reading link
Model Architecture
two branch(online and momentum)network로 구성. 같은 input에 서로 다른 view 또는 variation을 주어 추출된 각각의 feature간 내재된 유사성을 학습 시키는 방식 ⇒ 실질적으로 BYOL 학습방법과 동일
input x에 대해서 서로 다른 형태의 두 input을 만들어야 하기 때문에 augmentation 기법을 적용해 각 branch에 서로 다른 값(v1,v2) 을 주었고, 각 branch는 mask pooling operation을 통해 의미있는 semantic embedding을 학습하도록 함. ⇒ input image x 와 layout mask m으로 동시에 모든 layout embedding을 추출
Augmentation :
- random cropping, random horizontal flip 제외하고 simCLR에서 사용된 augmentation을 사용. - 상단 외에 추가로 Gaussian blurring, color jittering, color dropping, solarization 추가
이와 동시에 layout prediction module은 Online network가 문서 이미지 feature map에서 RoI 영역을 찾는 방법을 학습. v1, v2 feature map 둘 다 layout prediction module에 제공, 해당 픽셀이 어떤 문서 object에 해당하는지 pixel-wise 확률 점수를 생성.
⇒ 이 전체 모듈은 focal loss와 m(마스킹)을 사용해서 학습함.
Loss function
Ltotal = LDet(come from Layout Predictino Module) + LSim (come from Layout Object Representation Learning)
Layout Object Representation Learning : 기존의 BYOL 학습 방법과 동일