LayoutLM, LAMBERT와 같이 2D positional embedding을 input token에 추가한 BERT기반 모델 접근법
단점) 데이터셋 의존도가 높고, 컴퓨팅 파워도 요구함
Graph based approach
BERTGrid, Chargrid, 각 문서를 Graph화 하고, 텍스트나 텍스트라인을 노드화, 관련 RoI visual 정보나 positional 정보까지 노드화 하여 그래프를 구성할 수 있고, GCN이나 attention network을 통해 각 이웃 노드간의 관계를 학습할 수 있음
단점) sequence based approach보다 성능이 다소 떨어짐 BERT와 같은 강력한 token embedding이 불가능함 (BERTGrid에서 활용하긴 하지만, pre-trained BERT를 사용하기 때문에 모델 훈련중에 발생하는 최적화된 완전한 Token embedding이 아님)
Grid based approach
Multi-modal backbone network로 BERTGrid 모델과 CNN모델을 결합한 ViBERTgrid를 제안 문서 2d 이미지 feature map에서 textual, layout, visual information을 추출하여 사용. joint training 전략으로 pre-train한 후, 성능 향상