Algomatic Tech Blog

Algomaticの開発チームによる Tech Blog です

評価

LLM評価ツールpromptfooとアサーションの解説

LLM やプロンプトの性能評価を気軽に行うことができる評価ツール promptfoo を解説します。特にアサーションタイプの種類に着目してまとめます。

大規模言語モデル(LLM)における日本語評価の概観

大規模言語モデル(LLM)の日本語運用性能を評価するための内容をまとめました。評価方法を人手評価・LLM-as-a-judge・自動評価指標に分類し、JGLUEやMT-Benchなどのツールの利点や課題を解説します。