2024-02-01から1ヶ月間の記事一覧

大規模言語モデル（LLM）における日本語評価の概観

LLM 評価

大規模言語モデル（LLM）の日本語運用性能を評価するための内容をまとめました。評価方法を人手評価・LLM-as-a-judge・自動評価指標に分類し、JGLUEやMT-Benchなどのツールの利点や課題を解説します。