論文まとめ DEPLOT: One-shot visual language reasoning by plot-to-table translation

URL

https://arxiv.org/pdf/2212.10505.pdf

組織

概要

  • チャートやプロットのような視覚言語は、人間の世界ではいたるところに存在
    • チャートやプロットから情報を得る= 視覚言語推論(visual language reasoning)
  • 本論文では、視覚言語推論に対するone-shotでのsolutionを提示
  • 2つのステップに分解
    • (1) プロットからテキストへの変換→DEPLOT
    • (2) 翻訳されたテキストに対する推論→LLMs
  • 28k以上のデータでfine-tuningしたSOTAモデルと比較して、DEPLOT+LLMは24.0%の改善を達成

Intro

  • プロット/チャートの質問応答(QA)のような下流のタスクでは、モデルはまず画像から関連情報を抽出し、それらを整理・推論を実行する必要がある。
  • 既存研究では、エンドツーエンドモデルによる解決策が提示
    • (Leeら、2022;Liuら、2022a)
  • エンドツーエンドの手法は大量のタスクデータでfine-tuningする必要があり、fine-tuning後も複雑な推論を必要とするクエリでは遅れをとっている
      • 現在のSOTAモデルMATCHA (Liu et al., 2022a)は、ChartQA (Masry et al., 2022) タスクにおける人間が書いたクエリではわずか38.2%の精度
  • GPT-3やPaLMは凄いけれど、マルチモーダル推論タスクがLLMからどのように恩恵を受けるかは未解決の問題
  • 本研究では、マルチモーダル視覚言語推論問題を、下記で解くことを提案
    • (1)入力されたプロット画像をリニアライズされたテーブルに変換
    • (2)線形化テーブルをLLMに渡してone-shotを行う問題に分解する

DEPLOT + LLMメソッド

  • 貢献
    • (1) plot-to-table taskを標準化し、テーブル比較のための統一的で有益な指標を提案する。
    • (2) マルチモーダルタスクを言語のみのタスクに変換し、LLMを利用してワンショットで解くモデルDEPLOTを提案する。
    • (3) DEPLOT+LLMはChartQAにおいてone-shotでSOTAを達成し、人間が書いたクエリにおいて2番目に良い方法(fully supervised)を24.0%上回った。

Background

  • 視覚的言語推論(visual language reasoning)は自然画像推論(natural image reasoning)とは異なる課題を提起する。
    • 第一に、複雑な視覚的言語データ(本研究ではプロットとチャート)から正確で詳細な情報抽出(IE)を必要とする
    • 第二に、抽出された情報に基づいてクエリに答える非常に強力な数値推論スキルが必要である。

Trainingの手法

  • SOTAモデルMATCHA(Liu et al.、2022a)のアーキテクチャと重みを持つ、image-to-text encode-decoder Transformer modelを初期化します。
  • プロットをその基礎となるデータテーブルにマッピングするタスクで、MATCHAチェックポイントのfine-tuningを続ける。
  • 表は、セルを区切る|と行を区切る \n を持つテキストシーケンス(マークダウンフォーマット)として線形化される。
    • 例:

表の例

  • DEPLOTは、左から右へ自己回帰的に表を生成するように訓練されています。

学習用コーパス

  • (1) Liuら(2022a)が生成した合成データ
  • (2) Methaniら(2020)が生成した合成データ(PlotQAデータセットでも使用)、
  • (3) Masryら(2022)がクロールした実世界のデータ(ChartQAでも使用)。
  • (1), (2), (3)を1:1:1で混ぜたもの

Traninngの手法を、学習用コーパスに対して適用したものをDEPLOTと呼ぶ

メトリック

  • Relative Mapping Similarity
    • precisionとrecall

メトリック

  • N: predict tableの数, M: target tableの数
  • X: 最小コストマッチングX∈R N×M
    • コスト関数1 - NLτ (p r ||p c , tr ||t c ) を用いて、PとTの鍵間のペアワイズ類似度を計算したもの
  • Dθ(p,t): min(1,||p - t|| / ||t||)
    • 相対距離

LLMによるprompt

  • 最初にテーブルの情報を与えて、その後のQAをCoTで解かせている模様

プロンプトの例

Experiment

性能

  • 赤は人間が書いたquery、青は合成query
  • 人間が書いたqueryについては、DEPLOT + LLMsの方が強い
  • DEPLOT + LLMsが弱い部分に関しての考察
    • augは、テンプレート化されたqueryが多く、MATCHAのようにfine-tuneしたモデルは解ける
    • しかしDEPLOT + LLMはone-shotのみで学習しており、解くことができない

Limitation

  • DEPLOTの強みは、plot-to-table(画像をテーブルに変換するタスク)の精度に大きく依存
  • 効果的なplot-to-tableのためには、多様なデータが大量に必要。DEPLOTがどの程度out-of-domainのplot-to-tableが可能かは未知数。今後調査予定。
  • DEPLOTは、教科書の図版のように、明確な潜在的なテキスト表現を持たない視覚的言語に対しては機能しない
    • 図版は専用のソフトウェアで作成され、明確な構造化表現を持たない
  • 現在のDEPLOTアプローチは、視覚的要素やオブジェクトの向きや色などのレイアウト情報を無視している。将来的には、これらをデコード対象に含めることで、考慮したい。