Mistral AIは先日、スパース混合エキスパート(SMoE)大規模言語モデル(LLM)であるMixtral 8x7Bをリリースした。このモデルは総パラメータ46.7Bを含むが、その3分の1のサイズのモデルと同じスピードとコストで推論を処理できる。いくつかのLLMベンチマークでは、Llama 2 70BとGPT-3.5の両方を上回った。
Mistral 8x7Bは32kトークンのコンテキストの長さを持ち、スペイン語、フランス語、イタリア語、ドイツ語、英語に対応している。Mistral AIは、ベースとなるMixtral 8x7Bモデルの他に、Mixtral 8x7B Instructと呼ばれるモデルもリリースしており、こちらは直接優先最適化(DPO)を使って命令追従用にファインチューニングされている。両モデルのウェイトはApache 2.0ライセンスで公開されている。また、Mistral AIはvLLMオープンソースプロジェクトにこのモデルのサポートを追加した。Mistral AIによると、
Mistral AIは、最高のオープンモデルを開発者コミュニティに提供するという使命を続けています。AIを前進させるには、よく知られたアーキテクチャや学習パラダイムを再利用するだけでなく、新たな技術的転回が必要です。もっとも重要なことは、コミュニティがオリジナルのモデルから恩恵を受け、新たな発明や利用法を育むことです。
混合エキスパート(MoE)モデルは、学習と推論にかかる時間を抑えながらモデルサイズを大きくする方法として、LLMでよく使われる。このアイデアは1991年に遡り、Googleは2021年にTransformerベースのLLMへ適用した。2022年、InfoQはGoogleの画像テキストMoEモデルLIMoEを取り上げており、その性能はCLIPを上回った。同年末、InfoQはMetaの翻訳モデルであるNLB-200 MoEも取り上げた。このモデルは、200以上の言語を翻訳できる。
MoEモデルのキーポイントは、Transformerブロックのフィードフォワード層を、ルーターとエキスパート層の組み合わせに置き換えることである。推論中、Transformerブロックのルーターは、アクティブにするエキスパートのサブセットを選択する。Mixtralモデルでは、そのブロックの出力は、上位2つのエキスパートにソフトマックス関数を適用することで計算される。
モデルのファインチューニングを施したバージョンであるMistral 8x7B Instructは、ChatGPTの訓練に使用されたRLHF手法の代わりに、DPOを使用して訓練された。この手法はスタンフォード大学の研究者によって開発されたもので、RLHFと比較して「応答品質が同等または向上」しており、しかも実装がはるかに簡単である。DPOはRLHFと同じデータセット、つまり一方が他方より上位にランク付けされたペア回答のセットを使用するが、RLHF用に別の報酬関数を作成する必要はない。
Mistral AIは、コード生成、読解、数学、推論、知識を含むいくつかのタスクのベンチマークでモデルを評価した。Mistral 8x7Bは、12のベンチマークのうち9つでLlama 2 70Bを上回った。また、5つのベンチマークでGPT-3.5を上回った。Mistral AIによると、MT-BenchチャットボットベンチマークにおけるMistral 8x7B Instructのスコアは、"2023年12月現在、最高のオープンウェイトモデル "となった。LMSYSのリーダーボードでは現在(2024年1月23日時点)、GPT-3.5、Claude 2.1、Gemini Proを上回る7位にランクされている。
Hacker Newsでの議論では、このモデルの46.7BのパラメーターをすべてRAMにロードする必要があるものの、推論速度は13Bのパラメーターモデルに匹敵すると複数のユーザーが評価している。あるユーザーは以下のように述べている。
これならメモリ内蔵のMacbook Proに搭載できる。最近のローカルLLM界隈の発展により、私のラップトップのRAMを24Gbしか搭載しなかったことを後悔しています。
Mixtral 8x7Bと Mixtral 8x7B InstructモデルはHuggingFaceで購入可能だ。また、Mistral AIはmistral-small APIエンドポイントでホストされたバージョンモデルを提供している。