URL

https://aclanthology.org/2020.coling-main.36/

メタ情報

8 December 2020
COLING2020のポスター発表
著者
- Colin Ashby and David Weir
  - TAG Lab, Department of Informatics, University of Sussex, Brighton, UK

概要

HTMLタグを含むフリーテキストにおける固有表現抽出（NER）の性能について調査
5つの英語データセットを使用し、BERTとLSTM+CRFモデルで評価を行い、HTMLタグの含有がNERの性能向上に寄与することを示した。
また、HTMLタグを含めた文ベースのNERが効率的に行えることも示した。

詳細

導入

Webページの情報(HTML)は読みやすくするために書かれており、抽出しやすいわけではない
そのため、HTMLタグはNERにおいて破棄されることが多いが、NERの性能を向上させるために有用な可能性があるかどうかを調査

貢献

フリーテキストにHTMLタグを含めると、NERの性能にどの程度影響するのか？
この効果の原因は何か、またどのウェブページが最も恩恵を受けるか。
HTMLタグは文ベースのNERに効率よく含めることができるか？

テキスト処理

下記3つのテキストを使う

free text
Set1: <p>タグのみを含む
Set2: <p>, <h…>タグを含む

前処理

HTML要素は内部のみを取得し、commentとscriptは削除
table, list, option要素は無視
nltkにて一つのsentenceにまとめ、text + tag化
sentenceの例 <h3> <a> Australia </a> and the world </h3>
text onlyの場合は、上記からtextのみを取り出す

データセット

Types:
- Entityの数(labelの数)
Categories:
- サイトの種類
OrgPersons
- Persons + 組織
Persons
- ウェブサイトから人物属性を抽出するタスクのために、Distant Supervision (Mintz et al., 2009) をテストDBpedia (Bizer et al., 2009)から全人物を抽出し、各人物名から上位10位までのWeb検索結果をページコーパスとして利用する
- annotationsは著者が行い、一致率は98.5%
RE3D
- 防衛・安全保障情報分析官の役割に関連するエンティティ
SWDE, WEIR
- Webページからの情報抽出のためのデータ

モデル

Bi-LSTM+CNN+CRF
- GloVe
- W2V(100 dimension, 20 iter, window size=5)
BERT
- bert-base-cased
- fine-tuneした(具体的には書かれていない)

結果

1, 2はそれぞれset1, set2

考察

文章
- Table1のTag Densityと性能向上が相関している(Pearson correlation: 0.72)
- Tag Densityの分布を分析すると、いくつかのタグを含む自然言語文と、例えば<h1> John Smith </h1>のような繰り返しタグの密なパターンの2種類の文が明らかになった。（？）
- また、WEIR.2では、Text+Tagsの方が、文の種類が混在するバリエーションで若干性能が良く、パターンが支配的であることがわかった。（？）
Entityの区切り
- LSTMの結果を分析し、成功・失敗したEntity labelを区切るタグの出現比率を調べた
- まず、HTMLタグで区切られるEntityは16%~31%
- Closing Tagで区切られる場合は、Opening Tagで区切られる場合よりも、122~251%成功率が高い
- 良い成績のtag
  - opening tag
    - </em>, <h・・・>, <em>, <strong>, <a>, <br/>, <span>, <div>
  - closing tag
    - <br/>, <em>, <span>, </h・・・>, </span>, <img>, </a>, </p>, </div>
- 悪い成績のtag
  - opening tag
    - <i>, <p>, <br>
  - closing tag
    - <br>, </strong>
- Interesting point
  - <br>, <br/>が種類により性能が変わる
  - イタリック体(<i>)だと性能が悪化
  - 性能の悪いタグに対する前処理が今後は必要
model
- BERTは文のタグ密度に依存せず、安定してText+Tagsにて性能が向上している
- LSTM W2V Text+Tagsは　BERTを4/10回上回る
- Personにおいては、W2VよりもGloveの方が性能が良かった

結論

NERにおいて、HTMLタグがText+Tags文とText-Only文を比較
Text+Tagsでは、0.9%から13.2%のF1向上
前処理に必要な時間は3%から11%増加
データセットは多様なため、今回の手法の柔軟性と適応性は高い

sinchir0のブログ

Leveraging HTML in Free Text Web Named Entity Recognition 論文まとめ

URL

メタ情報

概要

詳細

導入

貢献

テキスト処理

データセット

モデル

結果

考察

結論