Googleが生成AIの大規模言語モデル「Gemini」を改良した「Gemini1.5」を提供開始

一度に処理できる情報量を大幅に増やすとともに効率を向上、まず「1.5Pro」を公開

山川健（Web担編集部） 2024/2/19 7:00 マーケティング／広告 | 便利ツール／サービス

3 7 0

Googleは、生成AI(人工知能)の基盤技術となる大規模言語モデル「Gemini(ジェミニ)」を改良した「Gemini1.5」の提供を始めた、と2月16日発表した。一度に処理できる情報量を大幅に増やすとともに、効率を高めた。Geminiは最高性能の「Ultra」、幅広い用途の「Pro」、スマートフォン向け「Nano」があるが、まず「1.5Pro」を一部の開発者と企業に公開した。

Geminiはテキスト、画像、音声など複数の種類の要素を同時に扱えるマルチモーダルAIとして構築され、2023年12月に提供開始。その後機能テスト、改良・強化を重ねた。最初のGemini1.5のGemini1.5Proは、コンテキストウインドウ(入力できる情報量)を拡張。これまでのGeminiの3万2000トークン(情報処理に使用する構成要素)が約30倍の100万トークンに増えた。

これによって1.5Proは1時間の動画、11時間の音声、3万行以上のコードまたは70万字以上のコードベース(ソースコードの集まり)など膨大な量の情報の処理が一度に可能。44分の無声映画ではプロットや出来事を正確に分析して見逃しがちなシーンを見付け、アポロ11号の月面着陸に関する402ページの記録では文書内の会話、出来事、画像、詳細について推論する。

コンテキストウインドウが増えても1.5Proは高い水準でパフォーマンスを発揮する。少ないコンピューティングでも従来の最上位「Gemini1.0Ultra」と同等の質を確保。与えられた入力の種類に応じて関連性が最も高い部分だけを選択して使用する「Mixture-of-Experts (MoE)」と呼ぶ手法で効率を大幅に向上させる。生成AIの課題とされる消費電力量が抑えられる。