Algomatic Tech Blog

Algomaticの開発チームによる Tech Blog です

マルチモーダル

画像・動画・音声などのマルチモーダルなプロダクトに関する記事

12 Days of OpenAI の対抗馬となる Google からの発表まとめ

こんにちは。NEO(x) の宮脇(@catshun_)です。 先日 OpenAI から 12 Days of OpenAI がありましたが、同時に Google のリリースも注目されていたのでこちらにまとめます。 Gemini 2.0 1. パフォーマンスの大幅な改善 2. マルチモーダル I/O の対応 3. ネイ…

LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介

本記事では LLM を用いたブラウザ操作を目的とした WEBエージェントとその周辺記述について紹介します。