Algomatic Tech Blog

Algomaticの開発チームによる Tech Blog です

評価/テスト

LLMプロダクトにおける評価、テストに関する記事

OpenAI o3, Claude 3.7 Sonnet , Gemini 2.5 Proの評価と解釈[2025年4月版]

AI/LLMエージェント評価/テスト論文紹介

OpenAI o3, Claude 3.7 Sonnet , Gemini 2.5 Proの評価と解釈[2025年4月版]

#LLM #生成 AI #OpenAI #Anthropic #gemini

LLMのシステム導入時に行いたい動作検証について

AI/LLMプロダクト開発評価/テスト

こんにちは。NEO(x) 機械学習エンジニアの宮脇（@catshun_）です。 LLM から望ましい出力を得るための評価については、評価セットを用いた定量評価などが挙げられますが、本記事ではシステムへのLLM導入という側面から動作検証に焦点を当てた話をコラムと…

#生成AI #評価 #LLM

Claude 3.5 Sonnet の評価に関する備忘録

AI/LLMプロダクト開発評価/テスト論文紹介

こんにちは。Algomatic NEO(x) の宮脇（@catshun_）です。本記事では弊社 podcast の「Algomaticで話題になった生成AIニュースまとめ」という回で用意している会話ネタの一つとして "Claude 3.5 Sonnet Model Card Addendum" を読んだので、その備忘を共有…

#Claude #Claude 3.5 Sonnet #Anthropic #LLM

LLM評価ツールpromptfooとアサーションの解説

AI/LLMプロダクト開発評価/テスト

LLM やプロンプトの性能評価を気軽に行うことができる評価ツール promptfoo を解説します。特にアサーションタイプの種類に着目してまとめます。

#promptfoo #LLM評価 #LLMOps

大規模言語モデル（LLM）における日本語評価の概観

AI/LLMプロダクト開発評価/テスト論文紹介

大規模言語モデル（LLM）の日本語運用性能を評価するための内容をまとめました。評価方法を人手評価・LLM-as-a-judge・自動評価指標に分類し、JGLUEやMT-Benchなどのツールの利点や課題を解説します。

#LLM評価 #LLMOps #JGLUE #MT-Bench #HHH

お問い合わせはこちら採用応募情報はこちら

https://algomatic.jp/