Googleが生成AIの大規模言語モデル「Gemini」を改良した「Gemini1.5」を提供開始

一度に処理できる情報量を大幅に増やすとともに効率を向上、まず「1.5Pro」を公開

Googleは、生成AI(人工知能)の基盤技術となる大規模言語モデル「Gemini(ジェミニ)」を改良した「Gemini1.5」の提供を始めた、と2月16日発表した。一度に処理できる情報量を大幅に増やすとともに、効率を高めた。Geminiは最高性能の「Ultra」、幅広い用途の「Pro」、スマートフォン向け「Nano」があるが、まず「1.5Pro」を一部の開発者と企業に公開した。

Geminiはテキスト、画像、音声など複数の種類の要素を同時に扱えるマルチモーダルAIとして構築され、2023年12月に提供開始。その後機能テスト、改良・強化を重ねた。最初のGemini1.5のGemini1.5Proは、コンテキストウインドウ(入力できる情報量)を拡張。これまでのGeminiの3万2000トークン(情報処理に使用する構成要素)が約30倍の100万トークンに増えた。

これによって1.5Proは1時間の動画、11時間の音声、3万行以上のコードまたは70万字以上のコードベース(ソースコードの集まり)など膨大な量の情報の処理が一度に可能。44分の無声映画ではプロットや出来事を正確に分析して見逃しがちなシーンを見付け、アポロ11号の月面着陸に関する402ページの記録では文書内の会話、出来事、画像、詳細について推論する。

コンテキストウインドウが増えても1.5Proは高い水準でパフォーマンスを発揮する。少ないコンピューティングでも従来の最上位「Gemini1.0Ultra」と同等の質を確保。与えられた入力の種類に応じて関連性が最も高い部分だけを選択して使用する「Mixture-of-Experts (MoE)」と呼ぶ手法で効率を大幅に向上させる。生成AIの課題とされる消費電力量が抑えられる。

この記事が役に立ったらシェア!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

勝手広告
企業広告を消費者や第三者が勝手に作って公開する自主制作の広告。 ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]