Googleは、開発者向けカンファレンス「Google I/O 2024」において、同社のGeminiモデルの中で最小のGemini NanoをChromeに導入することで、オンデバイスでの大規模言語モデルのサポート実現に向けた取り組みを発表した。
Chromeの開発者であるKenji Baheux氏とAlexandra Klepper氏によれば、生成AIでは、ウェブページの中央サイズの約1000倍、10メガバイトから100メガバイトの大きなモデルを使用する必要があるという。
このため、AIモデルをオンデバイスでローカルにデプロイして実行するのはかなり難しいが、そうすることで得られるメリットは多岐にわたる。ユーザーのデバイスから離れる必要のない機密データのプライバシーの向上、ユーザーエクスペリエンスを向上させる待ち時間の短縮、AI機能へのオフラインアクセスとリモートモデルが利用できない場合のグレースフルフォールバック、プレビューとしてAIをオンデバイスで実行したり、頻繁なユーザーフローでリモート推論コストを削減したりするハイブリッド計算アプローチの可能性などだ。
モデルのサイズと配信の問題を回避するために、Chromeのエンジニアは以下のことを行っている。
大規模言語モデル(LLM)を含むAIモデルをブラウザに直接統合するためのウェブプラットフォームAPIとブラウザ機能を開発している。これには、Gemini Nanoが含まれる。Gemini Nanoは、LLMのGeminiファミリーの最も効率的なバージョンで、ほとんどの最新のデスクトップおよびラップトップコンピュータでローカルに実行できるように設計されている。
さらに、ブラウザは、利用可能なハードウェアに基づいて、GPU、NPU、またはCPUを使用できる。
これらすべてを可能にするために、chromeの開発者は、デバイス上で基礎モデルとエキスパートモデルにアクセスするための特定のインフラを構築した。このインフラストラクチャーは現在、Help me write experimental機能で使用されており、Geminiモデルを使ってユーザーが文章を書き始めたり、既存の文章に加筆修正をしたりするを手助けを目的としている。
組み込みのAI機能には、主に翻訳APIや要約APIなどのタスクAPIを使ってアクセスすることになる。タスクAPIは、課題に最適なモデルに対して推論を実行するように設計されている。
Chromeの開発者によると、Gemini Nanoは要約、言い換え、分類などの言語関連のユースケースに最適だが、APIは微調整をサポートするという。微調整とは、特定のタスクのために特別に作られた全く新しいモデルを使用することなく、与えられたモデルを特定のタスクのために「特化」するために使用できるテクニックである。ChromeのAPIは、モデルの重みを調整してパフォーマンスを向上させるLow-Rank Adaptation(LoRA)をサポートする。自然言語で表現された任意のタスクをGemini Nanoに送信可能だ。
Chromeの新機能を試すには、開発者は早期プレビュープログラムに参加する必要がある。