お品書き
論文概要
- published: Sep 2019
- Arxiv ID: 1909.03186
- 論文リンク: http://arxiv.org/abs/1909.03186
- GitHub(非公式):https://github.com/Bread-and-Code/Text-Summarization
著者は何を達成したの?
- 長文要約に対するtransformer language modelsの有効性を示した
- 既存手法よりも高性能な文章要約手法を提案した
この手法のキーポイントは何?
- Extractive SummarizerとTransformer Language Modelsを組み合わせたモデル
自分の研究にどう役立つか?
- 論文を書くとき
次に読む論文は?
- Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting
- Language models are unsupervised multitask learners
結果
下の文章は、この論文の概要であり、提案された手法の結果でもあります。
つまり、提案手法によりabstractが生成されています。
実際の評価用データセットでの実験でも、多くの指標で既存手法の記録を上回っています。
We present a method to produce abstractive summaries of long documents that exceed several thousand words via neural abstractive summarization. We perform a simple extractive step before generating a summary, which is then used to condition the transformer language model on relevant information before being tasked with generating a summary. We show that this extractive step significantly improves summarization results. We also show that this approach produces more abstractive summaries compared to prior work that employs a copy mechanism while still achieving higher rouge scores.
手法
提案手法は大きく2つの独立した要素から構成されています。
1つは「Extractive Summarizer」で、文章中から重要な文を抜き出します。
このときの情報をまとめて、第2モジュールのための学習データを作ります。
2つ目は「Transformer Language Model」で、対象論文のIntroductionと抽出された文章を元に論文の概要を生成します。
次節からそれぞれの詳細を示します。
Extractive Summarizer
上の図は、Fast Abstractive Summarization with Reinforce-Selected Sentence Rewritingという論文で、提案された文章抽出モデルです。
今回の論文では、このモデルを元にExtractive Summarizerが作成されています。
今回の論文と違う部分は、図の左側の「Convolutional Sentence Encoder」です。
図中では畳み込みニューラルネットワークを使われていますが、
今回の論文ではエンコーダーとして、「hierarchical bidirectional LSTM」が使われています。
またこのとき、エンコード後の表現ベクトルに対して、2層ニューラルネットワークを用いて、文章の種類分類をしています。
Transformer Language Models
ここには、Language models are unsupervised multitask learnersという論文で提案された言語モデルが使用されています。
これは要するに、OpenAIが開発した超有名言語モデルGPT-2です。
ただし、この論文ではこの言語モデルは一から学習しなおしています。
まとめ
いかがだってしょうか?
僕がこの論文に興味をもったのは、PFNの岡野原さんのツイートがきっかけです。
いよいよ要約生成の論文の要約が提案手法で書かれる時代が来た。重要文をPointerNetworkで抜き出した後、導入、重要文、要約、本文の順に並べた文書生成を自己注意機構ベース言語モデルで学習。推論時は導入、重要文で条件付して要約を生成する。https://t.co/BzQFcPMZdc
— Daisuke Okanohara (@hillbig) September 11, 2019
今回の論文でも使われたGPT-2は、言語処理分野では非常に有名な手法で、
この論文の結果からも、その重要性が認識できます。
実はGPT-2の論文は、まだしっかりと読めていないので、
この機会にちゃんと読もうと思います。
誤解や記述ミスなどもあるかと思いますが、コメント欄から指摘してもらえるとありがたいです!