AIがもっともらしく嘘をつく問題にどう対処するか。発生メカニズムの理解から、プロンプト設計による予防、ファクトチェックの実践まで。
モデルが学習データに存在しない情報を、あたかも事実であるかのように生成する現象。「幻覚」の名の通り、AI自身は嘘をついている自覚がない。出力の文体が自信に満ちているほど、人間は騙されやすい。
学術論文の参考文献をAIに生成させると、実在しないDOI(デジタルオブジェクト識別子)を返すことがある。形式は正しいが、リンク先は存在しない。GPT-4oでもDOIの36.2%にエラーがあるとの報告。
Scientific Reports: Fabrication and errors in bibliographic citations (2023) ↗
AIが架空のライブラリ名を提案し、攻撃者がその名前で悪意あるパッケージを登録する手口(Slopsquatting)。約20%のAI生成コードに存在しないパッケージ名が含まれるとの研究報告がある。
プロンプトに「わからない場合はわからないと答えてください」と明示する。これだけで架空の情報を生成するリスクが下がる。
「回答には出典URLを付けてください」と指示する。実在する出典を付けられない場合、AIは回答を控えるか、不確実であることを示唆しやすくなる。
「この回答の確信度を0-100で示してください」と追加する。AIに自己評価させることで、人間が判断しやすくなる。
正解データ(社内文書、公式マニュアル等)をプロンプトに添付し、その範囲内で回答させる。RAG的なアプローチを手動で実現する方法。
生成されたテキストを検証する際は、この順序で確認する。
Gem適用前と適用後で、出典の有無、[要確認]タグの付与、数値の根拠の明示がどう変わるかを確認する。プロンプト設計だけでハルシネーションのリスクを大幅に下げられることを体感してほしい。