Leveraging HTML in Free Text Web Named Entity Recognition 論文まとめ

URL

メタ情報

  • 8 December 2020
  • COLING2020のポスター発表
  • 著者
    • Colin Ashby and David Weir
      • TAG Lab, Department of Informatics, University of Sussex, Brighton, UK

概要

  • HTMLタグを含むフリーテキストにおける固有表現抽出(NER)の性能について調査
  • 5つの英語データセットを使用し、BERTとLSTM+CRFモデルで評価を行い、HTMLタグの含有がNERの性能向上に寄与することを示した。
  • また、HTMLタグを含めた文ベースのNERが効率的に行えることも示した。

詳細

導入

  • Webページの情報(HTML)は読みやすくするために書かれており、抽出しやすいわけではない
  • そのため、HTMLタグはNERにおいて破棄されることが多いが、NERの性能を向上させるために有用な可能性があるかどうかを調査

貢献

  • フリーテキストにHTMLタグを含めると、NERの性能にどの程度影響するのか?
  • この効果の原因は何か、またどのウェブページが最も恩恵を受けるか。
  • HTMLタグは文ベースのNERに効率よく含めることができるか?

テキスト処理

下記3つのテキストを使う

  1. free text
  2. Set1: <p>タグのみを含む
  3. Set2: <p>, <h…>タグを含む

前処理

  • HTML要素は内部のみを取得し、commentとscriptは削除
  • table, list, option要素は無視
  • nltkにて一つのsentenceにまとめ、text + tag化
  • sentenceの例 <h3> <a> Australia </a> and the world </h3>
  • text onlyの場合は、上記からtextのみを取り出す

データセット

データセット

  • Types:
    • Entityの数(labelの数)
  • Categories:

    • サイトの種類
  • OrgPersons

    • Persons + 組織
  • Persons
    • ウェブサイトから人物属性を抽出するタスクのために、Distant Supervision (Mintz et al., 2009) をテストDBpedia (Bizer et al., 2009)から全人物を抽出し、各人物名から上位10位までのWeb検索結果をページコーパスとして利用する
    • annotationsは著者が行い、一致率は98.5%
  • RE3D
    • 防衛・安全保障情報分析官の役割に関連するエンティティ
  • SWDE, WEIR
    • Webページからの情報抽出のためのデータ

モデル

  • Bi-LSTM+CNN+CRF
    • GloVe
    • W2V(100 dimension, 20 iter, window size=5)
  • BERT
    • bert-base-cased
    • fine-tuneした(具体的には書かれていない)

結果

結果

  • 1, 2はそれぞれset1, set2

考察

  • 文章
    • Table1のTag Densityと性能向上が相関している(Pearson correlation: 0.72)
    • Tag Densityの分布を分析すると、いくつかのタグを含む自然言語文と、例えば<h1> John Smith </h1>のような繰り返しタグの密なパターンの2種類の文が明らかになった。(?)
    • また、WEIR.2では、Text+Tagsの方が、文の種類が混在するバリエーションで若干性能が良く、パターンが支配的であることがわかった。(?)
  • Entityの区切り
    • LSTMの結果を分析し、成功・失敗したEntity labelを区切るタグの出現比率を調べた
    • まず、HTMLタグで区切られるEntityは16%~31%
    • Closing Tagで区切られる場合は、Opening Tagで区切られる場合よりも、122~251%成功率が高い
    • 良い成績のtag
      • opening tag
        • </em>, <h・・・>, <em>, <strong>, <a>, <br/>, <span>, <div>
      • closing tag
        • <br/>, <em>, <span>, </h・・・>, </span>, <img>, </a>, </p>, </div>
    • 悪い成績のtag
      • opening tag
        • <i>, <p>, <br>
      • closing tag
        • <br>, </strong>
    • Interesting point
      • <br>, <br/>が種類により性能が変わる
      • イタリック体(<i>)だと性能が悪化
      • 性能の悪いタグに対する前処理が今後は必要
  • model
    • BERTは文のタグ密度に依存せず、安定してText+Tagsにて性能が向上している
    • LSTM W2V Text+Tagsは BERTを4/10回上回る
    • Personにおいては、W2VよりもGloveの方が性能が良かった

結論

  • NERにおいて、HTMLタグがText+Tags文とText-Only文を比較
  • Text+Tagsでは、0.9%から13.2%のF1向上
  • 前処理に必要な時間は3%から11%増加
  • データセットは多様なため、今回の手法の柔軟性と適応性は高い