Leveraging HTML in Free Text Web Named Entity Recognition 論文まとめ
URL
メタ情報
- 8 December 2020
- COLING2020のポスター発表
- 著者
- Colin Ashby and David Weir
- TAG Lab, Department of Informatics, University of Sussex, Brighton, UK
- Colin Ashby and David Weir
概要
- HTMLタグを含むフリーテキストにおける固有表現抽出(NER)の性能について調査
- 5つの英語データセットを使用し、BERTとLSTM+CRFモデルで評価を行い、HTMLタグの含有がNERの性能向上に寄与することを示した。
- また、HTMLタグを含めた文ベースのNERが効率的に行えることも示した。
詳細
導入
- Webページの情報(HTML)は読みやすくするために書かれており、抽出しやすいわけではない
- そのため、HTMLタグはNERにおいて破棄されることが多いが、NERの性能を向上させるために有用な可能性があるかどうかを調査
貢献
- フリーテキストにHTMLタグを含めると、NERの性能にどの程度影響するのか?
- この効果の原因は何か、またどのウェブページが最も恩恵を受けるか。
- HTMLタグは文ベースのNERに効率よく含めることができるか?
テキスト処理
下記3つのテキストを使う
- free text
- Set1:
<p>
タグのみを含む - Set2:
<p>, <h…>
タグを含む
前処理
- HTML要素は内部のみを取得し、commentとscriptは削除
- table, list, option要素は無視
- nltkにて一つのsentenceにまとめ、text + tag化
- sentenceの例
<h3> <a> Australia </a> and the world </h3>
- text onlyの場合は、上記からtextのみを取り出す
データセット
- Types:
- Entityの数(labelの数)
Categories:
- サイトの種類
OrgPersons
- Persons + 組織
- Persons
- ウェブサイトから人物属性を抽出するタスクのために、Distant Supervision (Mintz et al., 2009) をテストDBpedia (Bizer et al., 2009)から全人物を抽出し、各人物名から上位10位までのWeb検索結果をページコーパスとして利用する
- annotationsは著者が行い、一致率は98.5%
- RE3D
- 防衛・安全保障情報分析官の役割に関連するエンティティ
- SWDE, WEIR
- Webページからの情報抽出のためのデータ
モデル
- Bi-LSTM+CNN+CRF
- GloVe
- W2V(100 dimension, 20 iter, window size=5)
- BERT
- bert-base-cased
- fine-tuneした(具体的には書かれていない)
結果
- 1, 2はそれぞれset1, set2
考察
- 文章
- Table1のTag Densityと性能向上が相関している(Pearson correlation: 0.72)
- Tag Densityの分布を分析すると、いくつかのタグを含む自然言語文と、例えば
<h1> John Smith </h1>
のような繰り返しタグの密なパターンの2種類の文が明らかになった。(?) - また、WEIR.2では、Text+Tagsの方が、文の種類が混在するバリエーションで若干性能が良く、パターンが支配的であることがわかった。(?)
- Entityの区切り
- LSTMの結果を分析し、成功・失敗したEntity labelを区切るタグの出現比率を調べた
- まず、HTMLタグで区切られるEntityは16%~31%
- Closing Tagで区切られる場合は、Opening Tagで区切られる場合よりも、122~251%成功率が高い
- 良い成績のtag
- opening tag
</em>, <h・・・>, <em>, <strong>, <a>, <br/>, <span>, <div>
- closing tag
<br/>, <em>, <span>, </h・・・>, </span>, <img>, </a>, </p>, </div>
- opening tag
- 悪い成績のtag
- opening tag
<i>, <p>, <br>
- closing tag
<br>, </strong>
- opening tag
- Interesting point
<br>, <br/>
が種類により性能が変わる- イタリック体(
<i>
)だと性能が悪化 - 性能の悪いタグに対する前処理が今後は必要
- model
- BERTは文のタグ密度に依存せず、安定してText+Tagsにて性能が向上している
- LSTM W2V Text+Tagsは BERTを4/10回上回る
- Personにおいては、W2VよりもGloveの方が性能が良かった
結論
- NERにおいて、HTMLタグがText+Tags文とText-Only文を比較
- Text+Tagsでは、0.9%から13.2%のF1向上
- 前処理に必要な時間は3%から11%増加
- データセットは多様なため、今回の手法の柔軟性と適応性は高い