評価/テスト
LLMプロダクトにおける評価、テストに関する記事
こんにちは。NEO(x) 機械学習エンジニアの宮脇(@catshun_)です。 LLM から望ましい出力を得るための評価については、評価セットを用いた定量評価などが挙げられますが、本記事では システムへのLLM導入 という側面から動作検証に焦点を当てた話をコラムと…
こんにちは。Algomatic NEO(x) の宮脇(@catshun_)です。 本記事では弊社 podcast の「Algomaticで話題になった生成AIニュースまとめ」という回で用意している会話ネタの一つとして "Claude 3.5 Sonnet Model Card Addendum" を読んだので、その備忘を共有…
LLM やプロンプトの性能評価を気軽に行うことができる評価ツール promptfoo を解説します。特にアサーションタイプの種類に着目してまとめます。
大規模言語モデル(LLM)の日本語運用性能を評価するための内容をまとめました。評価方法を人手評価・LLM-as-a-judge・自動評価指標に分類し、JGLUEやMT-Benchなどのツールの利点や課題を解説します。