Algomatic Tech Blog

Algomaticの開発チームによる Tech Blog です

GPT-4oで広がる新しいAI活用シーン(OpenAI Spring Update)

はじめに

2024/5/14 日本時間の午前2:00にOpenAI社が「Spring Update」と評した発表を行いました。
その中ではGPT-4oという新しいモデルや、無料ユーザー向け機能の拡充、デスクトップアプリ等についての発表がありました。
今回、それを受けて、弊社の機械学習エンジニア宮脇(@catshun_)とCoSの大田(@OTA57)が緊急でpodcastを収録しました。
この記事はその内容をLLMによってQ&A記事風にまとめ直したものになります。
※速度優先で手直しをそこまでできていないので、日本語が一部おかしかったり、記事の内容が一部話した内容と違ったり、漏れていたりしますのでご了承ください。
気になる方はぜひPodcastを聴いてみてください。

podcasters.spotify.com


GPT-4oで広がる新しいAI活用シーン

——今回のOpenAIの発表について、全体の印象をお聞かせください。
大田: 第一印象は、音声や文章の生成の速度がかなり速くなったってことですかね。本当に魔法のようだっていうのを言ってましたけど、今までって性能が上がると速度が落ちるみたいな流れだったのが、なんか一気に違うところに来たなみたいな感じですよね。

宮脇: そうですね。groqっていうLPU使ったものが以前からあって、それだいたい500 tokens/sec くらいで出力できるものがあったんですけど、それと同等くらいになるんですかね。

GPT-4oのOは「Omni(全ての)」という意味

——今回発表されたGPT-4oについて、どんな特徴がありますか?

大田: GPT-4oのOは、Omni(オムニ)って読むそうです。Omniはすべてのっていうのを意味するそうで、すべてのっていう名前だそうです。

GPT-4oはテキスト・音声・画像のあらゆる入出力の組み合わせが可能に

大田: GPT-4oについて簡単に解説してください。

宮脇: GPT-4oはテキスト、音声、画像のあらゆる組み合わせの入力が可能で、かつこれらのモダリティをそれぞれ出力できるモデルになります。特徴としてはかなり高性能なモデルになりましたよっていうところと、テキスト生成だけじゃなくて、音声合成みたいなところでもかなり高速に生成できるようになりましたよっていうところですね。他言語のトークナイザーが改善されたので、いろんな言語のタスクで改善が期待できます。

エンドツーエンドのマルチモーダル学習により自然なAIコミュニケーションが可能に

大田: 音声画像の入力が可能になったっていうのは、もともとGPT-4とか3.5でもGPTのアプリとかだと音声入力ができたと思うんですけど、そこと違うんですか?

宮脇: 今回、OpenAIからエンドツーエンドにモデルを学習している。以前は音声認識してテキストに書き起こして、それを元にGPTが応答生成して、生成された応答文を音声合成して返すみたいな。各モジュール別に処理を行うっていうのが以前の話です。

今回のモデルではマルチモーダルな言語モデルをエンドツーエンドに学習したと言及されているので、テキストや音声、画像を一つの入力系列として入力可能になりましたっていうところと、あとは生成の部分も複数のモダリティを出力できるようになったっていうところで、例えば複数の話し方だったり背景の雑音みたいなところとか、あと笑い声、感情表現みたいなところをうまく考慮した応答生成ができるようになったっていうところが特徴かなと思っております。

GPT-4oの精度向上はデータ形式の工夫によるところが大きい

——GPT-4oの精度向上を実現した要因は何だと思いますか?

宮脇: 一番大きいところで言うとデータかなと思います。最近だとYouTubeから情報収集してるんじゃないかみたいな指摘もあった気がしたんですけど、Webから大量のデータを収集しているというのは一つの側面としてあるかなと思います。

宮脇: もう一つはモデルアーキテクチャの部分はあるかなと思っていて、公開されている訳ではなので憶測ですが、結構OpenAIってアライメントというキーワードをあらゆるところで言ってるような気がしていて、モデルの内部アーキテクチャの部分でも視覚情報と言語情報と音声の波形の情報っていうのをいかにアライメントするかっていうところは、モデルの内部アーキテクチャの側面で工夫してる一つかもしれないです。

大田: 基本この大規模言語モデルっていうのは最近のやつは概ね Transformer のアーキテクチャがベースになってるというところまでは知っていて、このGPT-4oにおいては、Transformer レベルで違うものが使われている可能性もあるのか、それともそこのベースが変わらずにもうちょっと若い部分での工夫っぽいのか、どっちですか?

宮脇: モデルのアーキテクチャと学習どうするかみたいな2つの側面があるかなと思ってます。例えばモデルのアーキテクチャの側面では、アテンション機構のここを変えましたという話はあるんですけど、それによる影響は十二分なインパクトを与えるものではないかなと思っていて、どちらかというと学習どうするかみたいなところが工夫になっているんじゃないかなと思ってます。

段階的学習の順序がGPT-4oの性能に大きく影響している可能性

宮脇: 具体的にはLLaVAとかそうなんですけど、一番最初のタスクにVision&Langageの feature alignment タスクを行って、その次にVisual Instraction Tuningして最後に微調整するみたいな、そういうフェーズごとの学習が行われるんですけど、今回でいうと一番最初のタスクにOCRだとか視覚言語読解みたいなタスクを取り入れている可能性はあるんじゃないかなと。

大田: その順序で変わってくる。最初に学習したやつの方が影響力強いよねみたいなのがあるって感じなんですかね。

宮脇: 多分うまく調整するゲーだと思うんですけど、例えば一番最初に学習したものが、その後段の学習によって一番最初に獲得した能力が消えちゃうっていう、Catastrophic Forgettingみたいな話もあったりします。なので一番最初のタスクも重要だし、2番目の Instruction Tuning も重要だしっていう感じかなと思ってますね。

GPT-4oの学習プロセスではヒューマン・フィードバックも考慮か

宮脇: ChatGPTのアプリケーションでいうと、アプリケーションを使ったときにフィードバックできたり、また最近でいうとA/Bテストみたいな形でフィードバック求められたりするっていうのがあったかなと思うんですけど、そういう人による選好性だとか、ネガティブフィードバックを踏まえた、RLHF (Reinforcement Learning Human Feedback) みたいなところも、もしかしたら Instruction Tuning の後段タスクとしてやってるかもしれないかなと。

GPT-4oはVision&Langageタスクの新たなベンチマークモデルに

——GPT-4oのVision&Langageタスクにおける性能はどうですか?

宮脇: 今回のGPT-4oは、視覚と言語の理解、例えばDocVQAとかChatVQAとかMMMUとかいくつかあるんですけど、そういうタスクでもClaudeOpusだとかGPT-4ターボとかGeminiUltraよりも同等以上の性能を叩き出しているっていうのは今回の特徴的なところかなと思ってます。

行政資料や手紙など、文書を画像化した文章画像読解タスク DocVQA や、スライド等のインフォグラフィック、図表の読解タスク ChartQA というところで、Claudeよりも5ポイントから3ポイントぐらい性能改善したっていうのは、かなりインパクト大きいかなと思いました。

宮脇: インパクトでいうとVision&Langageのタスクを解く上での一つのベンチマークモデルになる、ビジネスの側面で言うと、初手に試すようなモデルとしてGPT-4oが来るようにはなるんじゃないかなと思ってますね。

無料ユーザーへのGPT-4o提供など、無料ユーザー向けの魅力も

大田: 他の発表に目を向けるとGPT-4oの無料解放の話がありました。さらにGPTsの利用が、今まで有料ユーザーだけだったのが無料ユーザーにも開放されました。GPTsの作成は無料ではできないと言う点はこれまでと変わらないという感じですね。

この辺もさっきちょっと話した、OpenAIがデバイス作ってGPTsストアをApple Storeとかみたいな、GPTsストアをプラットフォームにしていこうとしているみたいなのが若干あるのかな、なんとなく個人的には思ってはいるんですけど分からないので憶測でしかないです。

宮脇: 今回の発表とは違うのですが、1,2週間くらい前にOpenAIがgithubに openai-assistants-quickstart というコードを公開したっていうのがあって、そういうのが今後増えると嬉しいなと思います。

GPT-4oを活用した自然な音声UIの普及に期待

——最後に、GPT-4oの登場でこれから期待される変化についてお聞かせください。

宮脇: 音声で入力するかテキストで入力するかは、是々非々な部分があるかなと思うんですけど、ユーザ視点においてテキストをタイピングするよりは遥かに音声入力によるコストが低いので今後のUIとかUXみたいなところで言うと、音声入力というのは今後普及していくかなとは思いますね。

大田: もともとOpenAIがデバイス作るぜみたいなニュースというか、リーク情報なのか分からないですけど、それが半年くらい前にあった気もするんで、その辺はまだアップデートない気がするんで、そこと組み合わさるとすごい楽しみな感じな気がしますね。

宮脇: そうですね、個人的にはウェアラブルバイスと組み合わさって、XRみたいなところでどんどん拡張していってほしいなという気持ちはあったりします。

大田: そうなるとなんかあれなんですかね、ちょっとこれはもう完全に妄想というか憶測の範囲を過ぎないですけど、やっぱGPTsがOpenAIが作ってくるデバイスの上に乗っかるアプリとして、アプリケーションストアとして位置するみたいな、Apple StoreGoogle Storeみたいな感じがGPTsStoreみたいな感じになってくるみたいな可能性もありそうですよね。それも面白いですね。