Algomatic Tech Blog

Algomaticの開発チームによる Tech Blog です

LLM

LLM評価ツールpromptfooとアサーションの解説

LLM 評価

LLM やプロンプトの性能評価を気軽に行うことができる評価ツール promptfoo を解説します。特にアサーションタイプの種類に着目してまとめます。

#promptfoo #LLM評価 #LLMOps

Devin を含むAIソフトウェアエンジニアと周辺技術のざっくり紹介

LLM エージェント論文紹介

Devinの公開から注目を浴びているAIソフトウェアエンジニアについての紹介です。Devika, Open Devin, SWE-agent, AutoDev の他、MetaGPT, ChatDev, Data Interpreter などの関連情報を紹介しています。

#AIエンジニア #Devin #Open Devin #Code Interpreter #Data Interpreter

LangGraph を用いた LLM エージェント、Plan-and-Execute Agents の実装解説

エージェント LLM LangGraph

はじめにこんにちは。Algomatic LLM STUDIO 機械学習エンジニアの宮脇（@catshun_）です。 Wang+’23 - A Survey on Large Language Model Based Autonomous Agents ChatGPT が発表されてからおよそ 1 年が経ち、AutoGPT, BabyAGI, HuggingGPT, Generative A…

#LangGraph #LLM Agent #PS Prompting #ReWOO #LLM Compiler

計画に基づく LLM 推論において並列実行可能な計画編成を行う LLM Compiler の解説

LLM エージェント論文紹介

LLM エージェントにおける基本機能の一つである計画立案について、タスクリストを並列に実行する LLM Compiler について解説します。逐次的にタスクを処理する ReAct よりも高いトークン効率とレイテンシを実現しつつ、ReAct よりも一貫して高い正解率を達成…

#LLM Compiler #LLM #LLM Agent #エージェント #LLMOps

計画立案による思考と行動の切り分けによってトークン効率の良い推論を実現する ReWOO の論文紹介

論文紹介 LLM エージェント

LLM エージェントにおける基本機能の一つである計画立案について、計画と実行の2段階による推論を行う ReWOO について解説します。ReWOO では Decomposed-first な推論を行うため ReAct よりもトークン消費の効率が良く、同程度の正解率を実現します。

#ReWOO #LLM #LLM Agent #エージェント #LLMOps

Let's think step by step を超える？計画立案を伴う Plan-and-Solve Prompting の論文紹介

論文紹介 LLM

LLM エージェントにおける基本機能の一つである計画立案について、その先駆けとなる Plan-and-Solve Prompting について解説します。Zero-shot Prompting (step-by-step に答えて）よりも一貫して正解率の高いプロンプトを提案しています。

#PS Prompting #LLM #プロンプト #エージェント #LLMOps

大規模言語モデル（LLM）における日本語評価の概観

LLM 評価

大規模言語モデル（LLM）の日本語運用性能を評価するための内容をまとめました。評価方法を人手評価・LLM-as-a-judge・自動評価指標に分類し、JGLUEやMT-Benchなどのツールの利点や課題を解説します。

#LLM評価 #LLMOps #JGLUE #MT-Bench #HHH