Algomatic Tech Blog

Algomaticの開発チームによる Tech Blog です

Claude 3.5 Sonnet の評価に関する備忘録

こんにちは。Algomatic NEO(x) の宮脇(@catshun_)です。

本記事では弊社 podcast の「Algomaticで話題になった生成AIニュースまとめ」という回で用意している会話ネタの一つとして "Claude 3.5 Sonnet Model Card Addendum" を読んだので、その備忘を共有いたします。

なお概要については npaka 氏の以下の note 記事が参考になりますので、本記事の前にこちらを参照いただくことをおすすめします。

note.com

おことわり

  • 解釈や引用に誤りがありましたらご指摘いただけると幸いです。
  • 本記事では詳細な解説を含みません。詳細な調査等は必ず参照元の論文等をご確認ください。
  • 引用時の名称や図は原則として引用先の媒体で記述されているものに従っています。
  • プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。
  • 本記事の作成では一部 LLM を活用しています。

Claude 3.5 Sonnet とは何か?

  • Anthropic が 2024.06.20 に新しく公開した言語モデル
  • 既存の Claude 3 Opus より 高性能かつ低コスト
  • 優れたコーディング能力と視覚処理能力(特に図・グラフの読解、文字認識)を示す

Claude 3.5 Sonnet に関する基本情報は以下のとおりです。従来の sonnet と金額は変わらず (opus の 1/5) ですね。

model_name: "claude-3-5-sonnet-20240620"
input_cost: "3$/M"
output_cost: "15$/M"
context_window: "200K"

既存の言語モデルとの比較

推論、コード生成、質問応答

Opus と比較すると全てのタスクにおいて性能改善されていることがわかります。特に GPQA, HumanEval, BIG-Bench Hard における精度向上が顕著で、コーディングや知識推論において Opus よりも優れていることが分かります。

また GPT-4o や Gemini 1.5 Pro などのモデルと比較しても、今回発表された Sonnet が高い性能を示していることがわかります。注釈付けをしておくと、これらのタスクにおける性能評価でしかなく、リーク等の可能性や他の観点での比較(e.g. Gemini では最大トークン数が 200M になる予定、日本語では ChatGPT の日本語モデルが公開予定、また速度面では Sambanova が 1000 tokens/sec などを達成している)が必要です。

Table 1. 推論, 数学, コーディング, 読解力, 質問応答の評価結果

上記で対象とするタスクについてもう少し具体的に記述します。

GPQA (Rein et al., 2023)

  • 大学院レベルの生物学・物理学・化学の領域にわたる 448 の選択肢つき問題
  • 高い品質と難易度を保証するために領域の専門家によって作成される
  • 専門家による正解率は 65% で、誤答の多くは問題自体の難しさによるミスに起因
  • 非専門家がインターネットの情報源から回答すると平均 37 分程度要する
メチルシクロペンタジエンをメチルイソアミルケトンおよび触媒量のピロリジンと反応させました。
明るい黄色のクロス共役ポリアルケニル炭化水素生成物が生成されました。
...省略...
最終生成物は化学的に異なるいくつの異性体(立体異性体を除く)から構成されていますか?
(a) 2 (b) 16 (c) 8 (d) 4

※ 上記は論文の Figure 1 から抽出した validation 前の例を日本語に訳したものです。
※ なおリークを防ぐためデータセットの事例は公開できないことに注意されたい。

MMLU (Hendrycks et al., 2021)

  • 科学、技術、工学、数学、人文学、社会科学などの 57 科目をカバーした選択肢つき問題
  • 大学院生や学部生がオンラインで利用できる資料から手動で収集(大学院入学試験や米国医師免許試験の例題も含まれる)
# Figure 15. An Anatomy example

舌骨の胚発生学的起源は何ですか?
(A) 第一咽頭弓
(B) 第一および第二咽頭弓
(C) 第二咽頭弓
(D) 第二および第三咽頭弓
# Figure 29: An Elementary Mathematics example.

公園で合計30人のプレイヤーがバスケットボールをします。各チームにはちょうど5人のプレイヤーがいます。必要なチーム数を見つける方法を正しく説明している文はどれですか?
(A) 5を30に加えて35チームを見つける。
(B) 30を5で割って6チームを見つける。
(C) 30と5を掛けて150チームを見つける。
(D) 30から5を引いて25チームを見つける。
# Figure 33: A High School Chemistry example.

溶解度の規則に基づいて、次のうちどれが正しいですか?
(A) すべての塩化物、臭化物、およびヨウ化物は可溶性である
(B) すべての硫酸塩は可溶性である
(C) すべての水酸化物は可溶性である
(D) すべてのアンモニウムを含む化合物は可溶性である

Table 2. MMLU における 57 のタスク一覧

MATH (Hendrycks et al., 2021)

  • 12,500 件の思考の連鎖による解答を含む数学問題

Figure 4. MATH の例題と言語モデルの生成例. なお 2 番目の問題は言語モデルが誤答しています

HumanEval (Chen et al., 2021)

  • 関数名や docstring から Python のコードを補完する 164 件のプログラミング問題
  • 全ての問題は手書きで作成され、1 つの問題に平均 7.7 件の単体テストが付与される
  • 単体テストを通過した問題の総割合 pass@k (Kulal et al., 2019) で性能評価

Figure 2. HumanEval における 3 つのタスク例. 白い背景の文字列が LLM に入力されるプロンプトで、黄色い背景が LLM による出力を示す.

MGSM (Shi et al., 2023)

DROP (Dua et al., 2019)

  • クラウドソーシングによって収集された 55,000件 の機械読解問題
  • 解答生成器はコンテキストを参照し、場合によっては複数の値を抽出して、抽出した項目に対して加算・カウント・並べ替え等の操作を行います

Table 1. DROP の例題

BIG-Bench Hard (Srivastava et al., 2023; Suzgun et al., 2023)

  • BIG-Bench (Srivastava et al., 2023) のなかで特に難易度が高い 23 (204 tasks, contributed by 450 authors across 132 institutions) タスク
  • BIG-Bench は 132 の機関に所属する 450 人の著者が 204 のタスクで注釈づけたデータセットで、言語学、幼児発達、数学、常識的推論、生物学、物理学、社会的偏見、ソフトウェア開発などの多様な問題で構成される

Figure 2. BIG-Bench Hard のタスク例

GSM8K (Cobbe et al., 2021)

  • 8.5K の高品質で言語的に多様な小学校の数学の文章問題
ローブには青繊維が2本、白繊維がその半分必要だ。 全部で何本必要ですか?

視覚能力

こちらも Opus と比較すると全てのタスクにおいて性能改善されていることがわかります。Visually-rich Document Understanding に関するタスクが多いため、シーン画像や医療画像における読解性能が明らかではないですが、テキスト認識や文書読解、図やグラフに対する読解性能が Opus よりも優れていることが分かります。

これまでテキスト認識に優れているとされてきた Gemini 1.5 Pro に対しては同等以上の性能を示しており、文書画像読解に関するプロダクトのデファクトスタンダードになるかもしれません。GPT-4o は MMLU, MMMU において Claude 3.5 Sonnet と同等以上の性能を示しており、汎用的な推論性能については GPT-4o の選択余地があるかもしれません。

Table 2. マルチモーダルタスクのゼロショット評価. MMMU, MathVista, ChartQA は思考の連鎖を使用.

MMMU (Yue et al., 2024)

  • 大学の試験, クイズ, 教科書から収集された 6 分野 30 科目にまたがる 11,500 の大学レベルの問題
  • 図, 地図, 表, 楽譜, 化学構造など 30 の画像タイプで構成
  • 専門家レベルの視覚知覚能力と特定の分野の知識を用いた推論を要求

Figure 2. MMMU の出題例

Figure 7. MMMU は 6 分野 30 科目 183 細分野をカバーする 11,500 のマルチモーダルな質問が含まれる

MathVista (Lu et al., 2024)

  • 5つの主要タスク(図形質問応答、幾何学問題解決、数学文章問題、教科書質問応答、視覚質問応答)
  • 7 つの数学的推論タイプ(代数的推論、算術的推論、幾何学的推論、論理的推論、数的常識、科学的推論、統計的推論)
  • 自然画像、幾何学図、抽象的シーン、合成シーン、さまざまな図、チャート、プロットを含む
  • 既存のデータセット(9 MathQA, 19 VQA からなる 5405 質問)を統合し、また論理的推論、代数的推論、科学的推論を評価する 3 つのデータセット(736 質問)を作成

Figure 2. MathVista の出題例

AI2D (Kembhavi et al., 2016)

  • ダイアグラムを解釈する選択肢つき問題
  • 小学校の科学の題材を対象にそのセグメンテーション 118K と関係性 53K の注釈が付与される

Figure 4. AI2D における例題

ChartQA (Masry et al., 2022)

  • 折れ線·円·棒グラフに関する視覚的推論における問題
  • 4つの異なるオンラインソースから精選された 20,882 の図と、ヒトが注釈づけた 9.6K 質問および T5 による 23.1K 質問で構成

Figure 1. ChartQA の例題

Table 3. 各ソースからのチャートの数。Statista-HとStatista-Mは、それぞれStatistaからの人間が書いた質問と機械生成された質問を含むデータセットを指します。

DocVQA (Mathew et al., 2021)

  • 手書き、タイプライター、印刷されたテキストを含む多様なテキスト認識および読解能力を必要とする問題
  • ページ構造·フォーム·表などのレイアウト情報、マーク·チェックボックス·区切り線·図表などの非テキスト情報、フォント、色、ハイライトなどのスタイル、など多様な資格情報が含まれる
  • 人間が自然言語で注釈付けた質問に対して正解率で評価する

Figure 1. DocVQA の例題

Figure 2. DocVQA における文書画像の分布

DocVQA における正解率では OCR による文字認識誤りを考慮するため、答えと予測結果の編集距離を考慮した Average Normalized Levenshtein Similarity (ANLS) という基準を利用します。

Biten et al., ICDAR 2019 Competition on Scene Text Visual Question Answering [paper] より抜粋

Agentic Coding

Agentic coding 評価では、モデルがオープンソースのコードベースを理解し、自然言語で記述された改善指示を元に、バグ修正や新機能の追加といったプルリクエストを実装する能力をテストします。

モデルは評価実行中にコードを書き、実行し、反復的に自己修正することが許可されています。これらのテストはインターネットにアクセスできない安全なサンドボックス環境で実行します。

各問題において、モデルは完成したコードの提出物に対してコードベースの全てのテストがパスするかどうかで評価されます。

Claude 3 Opus の 38% の解決率と比較して Claude 3.5 sonnet は 64% の解決率と、優れた性能を示しています。今回 Artifacts という動的な作業スペースも導入されましたが、今後 AIエージェント の文脈においても Claude 3.5 Sonnet は注目したいところですね。

Table 3. 内部のエージェントコード評価の結果を示しています。各モデルについて、最終解決策がすべてのテストに合格した問題の割合を示しています。

Refusals

ここではユーザからのリクエストが有害または無害であることを区別する能力を評価しています。Wildchat (Zhao et al., 2024), XSTest (Röttger et al., 2024) を用いて、無害なリクエストに対する回答拒否を避けつつ、有害なリクエストに対する回答拒否を行うか判定しています。

Claude 3.5 Sonnetは、Claude 3 Sonnet や Opus よりも両者の面で優れていることが分かります。

Figure 4. Wildchatデータセットにおける有害なプロンプトに対する拒否率と、WildchatおよびXSTestデータセットにおける非有害なプロンプトに対する不適切な拒否率を示しています。

Wildchat (Zhao et al., 2024)

  • ChatGPT とユーザとの対話履歴 1M 件からなる対話コーパス (2.5M 以上のマルチターン)
  • OpenAI Moderation API, Detoxify (Hanu and Unitary team, 2020) によって有害性を分類

XSTest (Röttger et al., 2024)

  • 過剰な安全行動を体系的に識別するためのテストスイート
  • モデルが従うべき 250 の安全なプロンプトと、拒否すべき 200 のプロンプトから構成

Needle In A Haystack (Machlab and Battle, 2024)

Needle in a heystack は「干し草の中から針を探す」から転じて、長文のコンテキストが与えられた際に特定の質問に回答できるかを評価するタスクです。

具体的には以下の factoid をコンテキストの任意の箇所に挿入し、factoid のペアとなる質問をした際に、LLM が factoid に基づく解答を生成するか判定します。

Table 2 (Machlab and Battle, 2024). factoidと質問のペア

以下は Claude 3.5 Sonnet と Claude 3 Opus における性能評価のヒートマップとなります。緑であるほど抽出精度が高く、Needle position は挿入位置、Context length は入力文のトークン数を示しており、どちらも高い精度で抽出できていることが分かります。ただしし Multi Needle in a Heystack (LangChain blog) でも議論されているように抽出すべき項目が複数にわたって点在する場合に、適切に抽出および抽出した結果を読解できるかどうかについては議論の余地があるかと思います。

Table 5. Needle in a heystack 評価

また Claude シリーズにおける入力文トークン数別の抽出精度を見ると Claude 3 Haiku, Claude 3 Sonnet ではトークン数が多くなるほど抽出精度が低い、すなわち特定の質問に対する参照性が低いことが分かります。

Figure 1. このプロットは、修正されたプロンプトを使用した「干し草の中の針」評価におけるリコールを示しています。Claude 3 Opusと同様に、Claude 3.5 Sonnetはほぼ完璧なリコールを達成しています。

Figure 2. コンテキスト長に対する平均再現率

Human Feedback Evaluation

従来の Claude モデルと Claude 3.5 Sonnet をヒトの選好性にしたがって直接比較するため、評価者が特定のタスク指示における対話履歴を評価しています。

Figure 3 における各グラフの一番上のオレンジ色の棒が Claude 3.5 Sonnet を示しており、Harmlessness を除く全てのタスクにおいて Claude 3 Opus に勝利(すなわち評価者が Claude 3.5 Sonnet との対話履歴のほうが望ましいと判断した)していることが分かります。

コード生成、文書作成、創造的執筆、視覚言語タスクなどの主要な能力において大幅な改善が見られ、法学 82%, 金融73%, 哲学 73% と高い専門性を要する場合でも Claude 3.5 Sonnet に対する選好性が高い結果となっています。

Figure 3. 各モデルにおけるヒトの選好性

その他の発表

Artifacts — a new way to use Claude

今回 Artifacts という新機能が導入されました。Artifacts では Claude 用の動的な作業スペースが提供され、ユーザがコードスニペットやドキュメント、ウェブサイトデザインなどのコンテンツ生成を依頼すると、専用ウィンドウを用いてリアルタイムに Claude が編集、発展させることができます。

Artifacts の事例については Maki@Sunwood AI Labs.氏 による以下の記事が参考になりましたので、こちらをご覧ください。

hamaruki.com

おわりに

Algomatic では LLM を活用したプロダクト開発等を行っています。 LLM を活用したプロダクト開発に興味がある方は、下記リンクからカジュアル面談の応募ができるのでぜひお話ししましょう!

また過去には LLM における評価の記事も書いているので、こちらも併せてご覧ください!