大規模言語モデルは高い性能を持つ一方で、そのまま運用しようとすると、推論コスト、応答速度、必要メモリ、配備環境の制約といった問題に直面しやすくなります。
RAGは、検索と生成を組み合わせることで、単体の大規模言語モデルでは扱いにくい最新情報や社内知識、ドメイン固有情報を活用できる仕組みとして広く使われるようになっています。
検索システムを設計したり評価したりするとき、多くの人はまず「正しい文書が見つかるかどうか」に注目します。しかし、検索という処理は単に文書を探し当てるだけの単純な操作ではありません。
大規模言語モデルについて調べ始めると、早い段階で「事前学習」と「ファインチューニング」という言葉に出会います。
大規模言語モデル(LLM)は高い性能を持つ一方で、モデルサイズが非常に大きく、実運用ではメモリ使用量と推論レイテンシが大きな課題になります。
EN
JP
KR