Algomatic Tech Blog

Algomaticの開発チームによる Tech Blog です

LLM評価ツールpromptfooとアサーションの解説

こんにちは、Algomatic LLM STUDIO インターンのなべ(@_h0jicha)です。

前回の記事では、LLM の日本語性能を評価するための様々なベンチマークを紹介しました。

tech.algomatic.jp

しかし、こうしたベンチマークには以下のような課題が存在します。

  • ベンチマークの導入に負担がかかってしまうため、もっと 気軽に評価したい
  • 既存のベンチマークによる評価が難しく独自実装が必要なとき、あらかじめ基本的な機能が搭載されている評価ツールを利用したい
  • LLM の評価とともに、LLM を使用する際の プロンプトの評価も同時に行いたい

そこで本記事では、LLM の出力品質を評価する際に活用できる promptfoo について紹介します。

目次

  • promptfoo とは?
  • 導入方法
    • 環境構築
    • 実験設定
    • 評価実行
  • アサーションについて
    • アサーションタイプの概要
    • 決定的評価指標(Deterministic eval metrics)
      • 文字列一致系
      • JSON 形式系
      • 閾値
      • 自作系
    • モデルグレード評価指標(Model-graded eval metrics)
      • 埋め込み・分類
      • LLM-as-a-judge 系
      • RAG 系
  • おわりに
  • 参考
  • 筆者情報
続きを読む

Devin を含むAIソフトウェアエンジニアと周辺技術のざっくり紹介

こんにちは。LLM STUDIO 機械学習エンジニアの宮脇(@catshun_)です。 本記事では最近注目を集めている AI ソフトウェアエンジニアに関するプロダクトについてざっくりと紹介します。

社内勉強会に向けたキャッチアップ資料として作成しており、加筆修正する可能性がありますが、本記事を読んだ方の議論のネタ程度になってくれれば幸いです。

続きを読む

生成AIで毎日がちょっと楽しくなる?LLM STUDIOの「今日の一言のお題」自動生成の舞台裏

こんにちは、Algomaticのnaotoota(@OTA57)です。現在はChief of Staffとして横断的にさまざまなカンパニーの支援を実施しています。 LLM STUDIOにおいてはPOの役割を担っているのですが、今日はLLM STUDIOのチーム運営における生成AIを活用したちょっとした取り組みをご紹介します。

LLM STUDIOではリモートのメンバーもいるため、メンバーが毎日の勤怠ややること、相談事項等をSlackにて毎日投稿(dailyスレッドと呼んでいます)しているのですが、 そこに生成AIを絡めてちょっとした楽しみを加えてみたという事例です。

【この記事に書いてあること】

  • 「今日の一言のお題」自動生成開発の経緯
  • 生成AIの得意、不得意について
  • 「今日の一言のお題」自動生成の具体的な仕組み
  • 生成AIの使い所を見極めて、業務に組み込むことの重要性

【この記事の想定読者】

  • 生成AIを業務に活用したいと考えているエンジニアの方
  • LLMの特性について興味がある方
続きを読む

3月24日 (日) Object Oriented Conference 2024 ランチスポンサーのお知らせ

こんにちは、Algomatic シゴラクAIカンパニーCTOの菊池 (@_pochi)です。

Algomaticは、3月24日 (日) 開催の Object-Oriented Conference 2024 (OOC2024) にて、ランチスポンサーとして参加させていただきます!

ooc.dev

ランチセッションの登壇に加えまして、ノベルティアプリの配布や、公式ガイドブックへの技術記事の寄稿もさせていただいておりますので、その内容についてご紹介させていただきます!

続きを読む

LangGraph を用いた LLM エージェント、Plan-and-Execute Agents の実装解説

はじめに

こんにちは。Algomatic LLM STUDIO 機械学習エンジニアの宮脇(@catshun_)です。

エージェント概要
Wang+’23 - A Survey on Large Language Model Based Autonomous Agents

ChatGPT が発表されてからおよそ 1 年が経ち、AutoGPT, BabyAGI, HuggingGPT, Generative Agents, ChatDev, Mind2Web, Voyager, MetaGPT, Self-Recovery Prompting, OpenCodeInterpreter, AutoAgents などなど、大規模言語モデル (LLM) の抱負な知識および高度な推論能力を活用した LLM エージェント (AIエージェント) が発表されています。

続きを読む

計画に基づく LLM 推論において並列実行可能な計画編成を行う LLM Compiler の解説

こんにちは。Algomatic LLM STUDIO 機械学習エンジニアの宮脇です(@catshun_)。

本記事では LLM を用いたエージェントシステムの基盤となる「計画実行機能」について、ユーザ要求を構成的に分解して立案されたタスク系列(=計画)を並列実行する LLM Compiler (Kim+'23) について紹介します。

Kim+’23 - An LLM Compiler for Parallel Function Calling arxiv.org

続きを読む