選定理由
Paper: https://arxiv.org/abs/2408.00798
Code: N/A
Blog: https://zenn.dev/knowledgesense/articles/90ac35eedf8b7c
内容詳細は上記ブログを参照。
概要
【社会課題】
あらゆる産業分野で社内外の大規模な知識データベースを効率的に活用することが求められているが、特定の業界用語や文脈を正確に解釈し、関連情報を迅速に取得できる検索・応答生成手法が必要である。
【技術課題】
従来の技術(RAG, self-RAG, CRAGなど)では業界特有の用語や文脈を正確に理解し、それに基づいて適切な情報を取得することが困難であった。これはその単語の意味をLLMが正確に把握できないことに起因している。このため、知識ベースから正確かつ効率的に情報を活用することができていなかった。
【提案】
質問の前処理段階で業界特有の用語や略語を認識し、事前に作成されたDBを参照することでその文脈に基づいて意味を明確にする。その後、明確化された質問に基づいて最も関連性の高い文書を取得するためのフレームワーク Golden-Retriever を提案した。
【効果】
Golden-Retrieverは、業界特有のデータセットを用いた評価で、従来のLLMやRAGフレームワークと比較して優れたパフォーマンスを示した。