ROUGE(英: Recall-Oriented Understudy for Gisting Evaluation) [1]は、自然言語処理において自動要約や機械翻訳を評価するために使用される指標。システムにより自動生成された要約や翻訳と、人間が作成した要約や翻訳を比較し、その質を評価する。
主に以下の5つの評価指標が利用される。
- ROUGE-N:システムと参照の要約の間のn-gram [2]
- ROUGE-1は、システム要約と正解要約の間の1-gram(単語)の共起を評価する。
- ROUGE-2は、システム要約と正解要約の間の2-gramの共起を評価する。
- ROUGE-L:最長共通部分列(LCS) [3]ベースの評価。システム要約と正解要約間で文の順番に沿って共起している単語の個数で評価するため、文単位の類似性を自然に評価できる。
- ROUGE-W:重み付けされたLCSベースの指標。
- ROUGE-S:Skip-bigram[3]ベースの共起指標。
- ROUGE-SU:Skip-bigramと1-gramベースの共起指標。
- ^ Lin, Chin-Yew. 2004. ROUGE: a Package for Automatic Evaluation of Summaries. In Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004), Barcelona, Spain, July 25 - 26, 2004.
- ^ Lin, Chin-Yew and E.H. Hovy 2003. Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics. In Proceedings of 2003 Language Technology Conference (HLT-NAACL 2003), Edmonton, Canada, May 27 - June 1, 2003.
- ^ a b Lin, Chin-Yew and Franz Josef Och. 2004. Automatic Evaluation of Machine Translation Quality Using Longest Common Subsequence and Skip-Bigram Statistics. In Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL 2004), Barcelona, Spain, July 21 - 26, 2004.
- BLEU
- F値
- METEOR
- NIST(評価指標)
- 単語誤り率(WER)