ナレッジ生成用プロンプトのバックアップ(No.12)

以下のような言語モデル生成AIの画像イメージを生成してください。 
・情報が空間（2次元散布図）上に散らばっているものとします。
・プロンプトで2次元の集合から情報を抽出します。
・プロンプトを追加する事で2次元の集合に次元を追加し3次元の集合から情報を抽出します。
・集合からの情報抽出イメージは１つのプロットではなく複数のプロットを含む集合をポイントします。
・3次元の図については立体感を出してください。

※ 左右の図を関連付ける線と丸は、ペイント・ソフトを使用して追記しています。

↑

生成AIで出来ることと出来ないこと †

そもそもナレッジ生成は（ナレッジのリサーチとは）ドメインに適合した（既知の）情報のセットを取得すること。

↑

出来ること †

ドメイン知識がある場合のナレッジ生成（ナレッジのリサーチ）
ドメインに適合した（既知の）情報のセットを取得するためのプロンプトを与える。

既知問題
コーパスで学習しているハズなので、ソレを取り出すプロンプトを与える。

未知問題
コーパスで学習していないので、情報を組み合わせたり、傾向を探ったりするプロンプトを与える。

ドメイン知識の補完・拡張
探索的質問（未知の問題を洗い出す発見的手法）
先行研究の穴（空白や未着手領域）分析
異分野のアイディアの組合せ
批判的検討の補助（反証やリスク分析）
プロトタイプ的調査・検証
例えば「未来予測」は上記の組合せからなる
・傾向から誘導：質問 → 回答 → 回答の傾向を踏まえた質問 → 回答
・分岐シナリオ生成、兆しの抽出、アブダクション的推論、ナラティブ的構成

ドメイン知識のない場合
ドメインに適合した（既知の）情報のセットを取得するための適切なプロンプトを与えるのが難しい。

情報収集レベルのナレッジ生成（ナレッジのリサーチ）は可能
それ以上のナレッジ生成（ナレッジのリサーチ）は出来ないことを参照。
特に専門外とのコラボレーションによって価値が生まれるケースに期待

↑

出来ないこと †

「情報の網羅性の欠如」と「フォーカスポイントの欠如」
- 「平均的な知識」や「よく知られたトピック」に偏る
- 膨大な文書から学習しているため、形式化された構造（テンプレ的構造）には強い。
- 内容の意味的な重みや本質的な論点を見極める力は人間ほど強くない。
- 従って、重要な視点や最新の情報の項目が抜け落ちる可能性がある。
- また、重要なハイレベル課題にリーチしない（プロンプトで誘導できない）。

...従って、AIを使用し「零」ベースでドメイン知識を得るのは非効率。

↑

詳細 †

↑

ドメイン・ナレッジ生成ステップ †

↑

1. 一般知識から基礎ドメイン知識への変換 †

用語の適合
概念の再構築：ドメイン文脈で一般知識を解釈し直す
事例の選定：実例を使い一般知識をカスタマイズ

↑

2. 重み付けと情報の比率調整 †

より高度な専門知識に適応させる。

関連度に応じた重み付け
コンテキスト取得元データソースの選択
ICLによる専門性の向上

※ ココでは主に「"体系的"ドメイン・コンテキスト」を使用する。

※ ココでの「体系的と」は目的に適合するように「階層化されたMECEな（インデックス）情報」に近い。

↑

3. ドメイン独自ルール（定義）を適用 †

論理ルール（当該ドメインにおける原則）の適用
ドメイン用語集や独自フレームワークの導入
ドメイン強制ルールの適用

↑

4. 最適化とフィードバックループ †

人間による評価（RLHF）
プロンプトエンジニアリング
（ファインチューニング）

↑

体系的ドメイン・コンテキストの作成方法 †

リバース、フォワードの手法があり、基本的にはフォワードで事足りる。
フォワードでは、必要な情報が含まれなかったり、情報の比率が異なる様なケースで、リバース手法で補う事が出来る。

↑

フォワード †

体系的ドメイン・コンテキストのフォワード自動生成

AAAAにおけるBBBBについての重要な項目を2-3層の目次レベルで体系化してください。

CCCCにフォーカスして詳細化

CCCCにフォーカスしてさらに詳細化して下さい。

DDDD界隈のドメインに特化させる

更に界隈の常識に特化させ、且つ、以下のトピックを追加して下さい。
- ...上段で不足していたトピックのリストを渡す...

↑

リバース †

ソースを体系的ドメイン・コンテキストを生成するためのノウハウとして使用する。

リバースでの体系的ドメイン・コンテキストは手動（従来通り）と自動（生成AIを活用）によるものがある。

手動作成：従来通り（例：性能問題のポイント）

自動生成：リーフページから生成

プロンプトの例

「以下はノウハウ集のリーフページのXXXXを要約したものです。
ココから、このドメインのXXXXに関する重要項目を2-3層の目次レベルで体系化するとどのようになりますか？」

ただし、生成AIは、以下の点で問題があると言われているので、複雑な体系化は難しい可能性がある。

・与えられた情報を文章として整えることは得意だが、知識の構造を認識し、階層的に整理することは苦手。
・大量のリーフページ情報を一度に扱うことができないため階層的な全体像を保持しつつ要約するのが困難。
・一貫した論理構造を維持するのが苦手なため、同じドメインでも質問の仕方次第で異なる解釈をすることがある。
・（一応、この文脈で、グラフ技術が活用できる旨があったが、グラフの評価結果からはあまり期待していない）

また、リーフページから抽出した情報が適切でない場合、誤った体系的ドメイン・コンテキストが出力される。

・検索されたチャンクが質問の意図とズレていた場合、言語モデルはその情報に引きずられて、誤った／関係ない回答を生成する。
・取得されたチャンクが古い情報や誤った記述だった場合、それが信頼できる情報として生成結果に反映される。
・関連度が低い情報（ノイズ）が多数混入すると、本当に重要な文脈が埋もれてしまい、回答の質が低下する。

↑

参考 †

↑

ナレッジ生成用プロンプト のバックアップ(No.12)

目次 †

概要 †

暗黙知に付いての定義 †

AIの回答 †

擬似的な暗黙知 †

状況を決める因子 †

基本的な専門知識は生成AIが保有しているから... †

一般知識からフォワードできるのでは？と言う仮説。 †

ドメインに適合させるイメージ †