通过在预训练语言模型基础上引入文档图表示技术,可以发现基于 mmLayout 的 base 模型,文档图的表示在抽取任务上效果可以超过大部分不带图结构的预训练模型的 large 版本。更重要的一点是通过对比实验可以发现一层的 Transformer 结构的粗粒度编码层即可以使模型效果得到大幅度提升,甚至超过 large 模型。从模型大小上来看,比 base 模型提升不到 5%,不到 large 模型的一半。从消融实验来看,跨粒度的特征融合和聚合、粗粒度的特征编码以及基于文本常识增强的机制均可以带来稳定收益。
-- 03/开放文档抽取问答模型 DocPrompt