Pineconeはこのほど、生成AIアプリケーションの精度を向上させながらインフラ管理コストを削減するために設計された、新しいサーバーレスベクトルデータベースのパブリックプレビューを発表した。
ベクトルデータベースのスペシャリストによると、読み取り、書き込み、ストレージを分離することで、あらゆる種類と規模のワークロードのコストを大幅に削減できるという。マルチテナントのコンピュート・レイヤーにより、新しいインデックス作成と検索アルゴリズムを用いたオンデマンド検索が容易になり、その結果Blobストレージからメモリ効率の良いベクトル検索が可能となっている。
Podベースのインデックスと同様に、Pineconeサーバーレスはライブインデックス更新、メタデータフィルタリング、ハイブリッド検索、名前空間をサポートしている。新しいオプションのパフォーマンスについて、Pineconeの創設者兼CEOのEdo Liberty氏は次のように述べている。
パフォーマンスも維持されています。実際、ウォームネームスペースの場合、サーバーレスインデックスはポッドベースのインデックスと比較してレイテンシーが大幅に低く、ほぼ同レベルのリコールが得られています。Warm名前空間とは、定期的にクエリを受け取る名前空間のことで、その結果、マルチテナントのワーカーにローカルにキャッシュされます。コールドスタートのクエリはレイテンシーが高くなります。
Pineconeによると、RAG(Retrieval Augmented Generation)は、大規模言語モデル(LLM)とベクトルデータベースを組み合わせ、3つの異なる目的のために知識を組み込んでLLMを強化している。RAGは、最新の情報を提供し、領域外の知識を活用し、ハルシネーションに対処できる。
記事「Reimagining the vector database to enable knowledgeable AI」の中で、Pinecone社のエンジニアリング担当副社長であるRam Sriharsha氏は、チームがPineconeを再構築した理由と方法について説明し、ベクトルデータベースが役立つ理由について述べている。
LLMはハルシネーションを起こす傾向にあります。研究者たちは、RAGにより、モデルが学習したデータに基づく場合を含む、ハルシネーションの起きる可能性が減少することを示している。さらに、RAGシステムは情報の原典を引用できるため、ユーザーはその出典を確認でき、また別のモデルを使って、回答中の事実が出典を裏付けるものであることを確認できます。
代わりに、AmptのCEO兼創設者であるJeremy Daly氏がコメントしている。
これは、AIのハルシネーションを抑制する「画期的なもの」と宣伝されていますが、他の大手データベースも同様にベクトル機能を追加していることを考えると、買い手はほとんどいないだろうとアナリストは述べています。
サーバーレスデプロイメントでベクトルをサポートしているのはPineconeだけでなく、MongoDBやSnowflakeなど、他のデータベースやデータプラットフォームのプロバイダーもベクトルをサポートしたサーバーレスデータベースを提供している。
同社は、大半のユーザーはPineconeポッドベースのインデックスとは対照的に、Pinecone Serverlessを利用することでコストを削減できると主張しているが、現在の価格設定は高スループットのアプリケーションに完全に最適化されているわけではないことを認めている。
この新しいオプションはコミュニティから好評を得ており、開発者からはより高い読み取り上限や、ポッドからサーバーレスにワークロードを移行するオプションが求められている。これとは別に、同社は PineconeServerlessを使ってセマンティック検索を行う分散システムをデプロイするための Pulumi付きPinecone AWS Reference Architectureをリリースした。
サーバーレスオプションの最初のプレビューは、AWSの1リージョン(us-west-2)のみで利用可能だ。しかし、Pineconeは将来的に追加リージョンやAzure、GCPのサポートを導入する予定だ。
Pinecone Servelessはパブリックプレビューで利用可能で、ストレージは月額1GBあたり0.33米ドル、読み取りユニット100万個あたり8.25米ドル、書き込みユニット100万個あたり2米ドルで、100米ドルの利用クレジットでサービスを試用できる。