LLM
LLM やプロンプトの性能評価を気軽に行うことができる評価ツール promptfoo を解説します。特にアサーションタイプの種類に着目してまとめます。
Devinの公開から注目を浴びているAIソフトウェアエンジニアについての紹介です。Devika, Open Devin, SWE-agent, AutoDev の他、MetaGPT, ChatDev, Data Interpreter などの関連情報を紹介しています。
はじめに こんにちは。Algomatic LLM STUDIO 機械学習エンジニアの宮脇(@catshun_)です。 Wang+’23 - A Survey on Large Language Model Based Autonomous Agents ChatGPT が発表されてからおよそ 1 年が経ち、AutoGPT, BabyAGI, HuggingGPT, Generative A…
LLM エージェントにおける基本機能の一つである計画立案について、タスクリストを並列に実行する LLM Compiler について解説します。逐次的にタスクを処理する ReAct よりも高いトークン効率とレイテンシを実現しつつ、ReAct よりも一貫して高い正解率を達成…
LLM エージェントにおける基本機能の一つである計画立案について、計画と実行の2段階による推論を行う ReWOO について解説します。ReWOO では Decomposed-first な推論を行うため ReAct よりもトークン消費の効率が良く、同程度の正解率を実現します。
LLM エージェントにおける基本機能の一つである計画立案について、その先駆けとなる Plan-and-Solve Prompting について解説します。Zero-shot Prompting (step-by-step に答えて)よりも一貫して正解率の高いプロンプトを提案しています。
大規模言語モデル(LLM)の日本語運用性能を評価するための内容をまとめました。評価方法を人手評価・LLM-as-a-judge・自動評価指標に分類し、JGLUEやMT-Benchなどのツールの利点や課題を解説します。