Algomatic Tech Blog

Algomaticの開発チームによる Tech Blog です

評価/テスト

LLMプロダクトにおける評価、テストに関する記事

LLMのシステム導入時に行いたい動作検証について

こんにちは。NEO(x) 機械学習エンジニアの宮脇(@catshun_)です。 LLM から望ましい出力を得るための評価については、評価セットを用いた定量評価などが挙げられますが、本記事では システムへのLLM導入 という側面から動作検証に焦点を当てた話をコラムと…

Claude 3.5 Sonnet の評価に関する備忘録

こんにちは。Algomatic NEO(x) の宮脇(@catshun_)です。 本記事では弊社 podcast の「Algomaticで話題になった生成AIニュースまとめ」という回で用意している会話ネタの一つとして "Claude 3.5 Sonnet Model Card Addendum" を読んだので、その備忘を共有…

LLM評価ツールpromptfooとアサーションの解説

LLM やプロンプトの性能評価を気軽に行うことができる評価ツール promptfoo を解説します。特にアサーションタイプの種類に着目してまとめます。

大規模言語モデル(LLM)における日本語評価の概観

大規模言語モデル(LLM)の日本語運用性能を評価するための内容をまとめました。評価方法を人手評価・LLM-as-a-judge・自動評価指標に分類し、JGLUEやMT-Benchなどのツールの利点や課題を解説します。