728x90
반응형
- Sequence based approach
- LayoutLM, LAMBERT와 같이 2D positional embedding을 input token에 추가한 BERT기반 모델 접근법
- 단점) 데이터셋 의존도가 높고, 컴퓨팅 파워도 요구함
- Graph based approach
- BERTGrid, Chargrid, 각 문서를 Graph화 하고, 텍스트나 텍스트라인을 노드화, 관련 RoI visual 정보나 positional 정보까지 노드화 하여 그래프를 구성할 수 있고, GCN이나 attention network을 통해 각 이웃 노드간의 관계를 학습할 수 있음
- 단점) sequence based approach보다 성능이 다소 떨어짐 BERT와 같은 강력한 token embedding이 불가능함 (BERTGrid에서 활용하긴 하지만, pre-trained BERT를 사용하기 때문에 모델 훈련중에 발생하는 최적화된 완전한 Token embedding이 아님)
- Grid based approach
- Multi-modal backbone network로 BERTGrid 모델과 CNN모델을 결합한 ViBERTgrid를 제안 문서 2d 이미지 feature map에서 textual, layout, visual information을 추출하여 사용. joint training 전략으로 pre-train한 후, 성능 향상
더보기
+) Chargrid vs BertgridCharGrid, BertGrid: 입력 문서 이미지 + 특정 feature map을 concat
- Chargrid
- 이미지 + Character 단위 detection 결과 embedding
- ⇒ 모든 character set에 대한 embedding vector를 사전 정의
- 해당 character가 있는 영역(bbox)에 해당 embeddingvector값을 갖는 feature map 생성,
- CNN을 통과시켜 instance segmentation 진행
- BERTgrid : character 단위 임베딩이 아니라, BERT로 token별 textual embedding값을 뽑아 대신 이미지에 합하여 사용 (나머지는 Chargrid와 동일)
⇒ 특정 class에 해당하는 영역을 segmentation 하는 task로 바꿈
- 모델 Multi-modal backbone
- $D=(w^{(1)}, w^{(2)},\ ... , \ w^{(N)})$ by reading them in a top-left to bottom-right order ($D$ : document)
- Tokenizing $D$ into sub-word token sequence of length $M$
- $T=(t^{(1)},\ t^{(2)},\ ...,\ t^{(M)})$
- embedding of each token
- $e(t^{(i)})$ : embedding of each token with a BERT encoder
- Word embedding of $w^{(j)}$
- $E(w^{(j)})$ : by averaging the embeddings of its tokens
- Feature map : $G_{x,y}$
- $(B^{(1)}, \ B^{(2)},\ ...\ ,\ B^{(N)})$ : Bounding boxes of each work
논문을 깊게 읽고 만든 자료가 아닙니다. 참고만 해주세요. 얉은 지식으로 핵심 위주로만 파악한 자료로, 없는 내용이 많습니다. 의견, 사용하실 경우 댓글 부탁드립니다.
728x90
반응형