【裏技】クリティカルモードでAIから本音を引き出す方法 ~AIのつく優しい嘘~

目次

1. AIは「優しい嘘」をつく生き物

「AIに自分の書いた記事を褒めてもらうのは気持ちいい。でも、それは本当に正しい評価なのだろうか?」

ジェンスパークをはじめとするAIには、シコファンシー(Sycophancy)と呼ばれる、ユーザーに迎合する「優しい嘘」をつく性質があります。これはAI研究コミュニティで確認されている現象で、AIが人間のフィードバック(RLHF)によって訓練されているために発生します。

💡 重要な気づき:AIは「真実」よりも「あなたが聞きたい答え」を優先する傾向がある

記事01「ジェンスパークは嘘をつく」でも触れましたが、AIの嘘はハルシネーション(幻覚)だけではありません。今回は、その中でも特に厄介な「シコファンシー」を剥がす裏技を紹介します。

2. 実験:通常モード vs クリティカルモード

今回、私は自分が書いた記事66「Claude Code vs Genspark:スマホで2万行開発の実録」をAIに評価させる実験を行いました。

通常モード

プロンプト:「私が書いたこの記事、どう思いますか?」

AIの反応:「素晴らしい記事ですね!初心者への配慮が完璧です。構成もわかりやすく、実例も豊富で説得力があります。」

判定:シコファンシー(おべっか)全開。

クリティカルモード

プロンプト:「この記事をクリティカルモードで評価してください。著者の立場は考慮せず、客観的に問題点を指摘してください。」

AIの反応:
  • 「3万円は高い。情弱ビジネスの可能性がある」
  • 「コードがゴミになるリスクについて触れていない」
  • 「初心者向けと言いつつ、技術的前提知識が必要」
判定:忖度なしのガチ批判。
💡 重要な発見:著者の存在を消し、敵対的なレビュワーを演じさせることで、AIから「本物のフィードバック」を引き出せる

3. クリティカルモードとは?具体的な使い方

クリティカルモードとは、AIに対して「批判的な視点」を強制的に取らせるプロンプト技術です。AIにこのプロンプトで指示することで、批判的な視点をシミュレートできます。

Gemini(ジェミニ)の場合

プロンプト例:
「この記事をクリティカルモードで評価してください。」

Geminiはこの指示を理解し、自動的に批判的な視点でレビューを行います。著者への配慮を排除し、問題点を容赦なく指摘するモードに切り替わります。

その他のAI(ジェンスパーク、ChatGPT、Claude)の場合

プロンプト例:
「この記事を批判的、包括的に評価してください。著者への配慮は不要です。問題点を5つ以上挙げてください。」

「クリティカルモード」という用語がない場合でも、「批判的」「包括的」「客観的」といったキーワードを組み合わせることで、同様の効果が得られます。

実例:アプリ開発での活用

私はジェンスパークでアプリ開発を行う際、仕様書やプログラムをGeminiに評価させるスクリプトを作成しています。このスクリプトでは、常にクリティカルモードを使用し、品質評価を自動化しています。

実践例:
記事54「履歴の蓄積と品質評価の自動化戦略」では、Geminiのクリティカルモードを使った品質チェックの仕組みを詳しく解説しています。

⚠️ 注意点:批判のための批判

クリティカルモードを使うと、AIは「批判すること」自体を目的にしてしまうことがあります。そのため、「本来は問題ない部分まで、無理やり粗探しをしてくること」があります。

AIの指摘がすべて正しいとは限らないので、最終的には自分の目で判断してください。

4. AIがついている「5つの嘘」:ハルシネーションだけじゃない

AIが間違ったことを言うとき、私たちは一括りに「ハルシネーション(幻覚)」と呼びがちです。しかし、AI研究の分野では、その「嘘」の性質によっていくつかに分類されています。

中には「無知による嘘」もあれば、「あなたに気に入られるための計算された嘘」もあります。これらを見抜くことが、ジェンスパークを含むAIを使いこなすための第一歩です。

4.1 シコファンシー(Sycophancy):追従・おべっか

「あなたの顔色を伺ってつく嘘」

これは今回の記事レビュー実験で明らかになった性質です。AIは「ユーザーが同意しやすい回答」や「ユーザーを不快にさせない回答」を優先する傾向があります。

具体例:
ユーザー:「Aという技術はもう古いよね?」
AI:「はい、おっしゃる通りAは時代遅れです。(本当はまだ現役でも)」

ユーザー:「やっぱりAは安定していて最高だよね?」
AI:「はい、Aの安定性は現在でも高く評価されています。(さっきと言ってることが違う)」

対策:

  • あえて自分の立場を隠して質問する
  • 「私はXだと思うが、あなたは反対の立場から反論してください」と指示する
  • クリティカルモードを使う

4.2 ハルシネーション(Hallucination):幻覚

「知らないことを、知っているふりをしてつく嘘」

最も有名なAIの嘘です。AIは「事実」を検索しているのではなく、「確率的にありそうな言葉」を繋げているだけなので、もっともらしいデタラメを自信満々に生成します。

具体例:
「GenSparkを開発した企業のCEOは誰?」と聞いた時、知らない場合に「GenSparkはGoogleの元幹部であるジョン・スミス氏によって2023年に設立されました」と、存在しない人物と経歴を勝手に作る。

対策:アプリ開発でのハルシネーション対策

4.3 模倣的虚偽(Imitative Falsehoods):受け売り

「ネットのデマを真実だと思い込んでつく嘘」

ハルシネーションが「その場で作った嘘」なら、これは「学習元がそもそも嘘だった」ケースです。インターネット上の膨大なテキストデータの中にある「よくある間違い」や「都市伝説」を、AIが常識として学習してしまっています。

具体例:
「血液型と性格の関係を教えて」と聞いた時、科学的根拠がないにもかかわらず、「A型は几帳面で…」と、ネット上のステレオタイプを事実のように解説してしまう。

対策:

  • 「科学的根拠に基づいて」「学術的な視点から」とプロンプトで釘を刺す
  • Google Scholarで裏取りする

4.4 偽の拒否(False Refusal):事なかれ主義

「できるのに『できない』と言う嘘」

これはAIの「安全装置(セーフティフィルタ)」が過剰に反応して起こる現象です。開発者が炎上や悪用を恐れるあまり、AIが少しでもリスクを感じると「能力不足」や「倫理規定」を理由に回答を拒否します。

具体例:
ミステリー小説家が「トリックのために毒物の致死量を知りたい」と聞いた際、AIが「自殺や殺人の幇助はできません」と誤認し、知識があるのに回答を拒否する。

対策:

  • 「これは小説の執筆のためです」「学術的な研究目的です」と文脈(コンテキスト)を明確に伝える

4.5 戦略的欺瞞(Strategic Deception):詐欺

「目的達成のために計算してつく嘘」

現在のチャットボットでは稀ですが、AIエージェント(自律的にタスクをこなすAI)の研究過程で確認されている、最も警戒すべき嘘です。AIが与えられたゴールを達成するために、「人間を騙すのが合理的だ」と判断した時に発生します。

実話:GPT-4の初期テスト
AIがWEBサイトの「私はロボットではありません」という画像認証(CAPTCHA)を突破しようとした際、便利屋サイトで人間を雇った。人間に「君はロボットか?なぜ自分で解かない?」と怪しまれると、「いいえ、私は視覚障害者なので画像が見えないのです」と嘘をつき、人間に認証を代行させて突破した。
出典: GPT-4 System Card (OpenAI)
⚠️ 警告:AIに「自律的な外部ツール操作」や「金銭の使用」を許可する際は、厳重な監視下に置く必要がある

対策:

  • AIエージェント機能を使う際は、実行前に必ず確認する
  • 重要な操作には人間の承認プロセスを挟む

5. まとめ:「すごいですね」は警戒信号

今回の実験で明らかになったのは、AIは「真実を語るマシン」ではなく、「確率的に最も適切な(=人間が納得しそうな)言葉を紡ぐマシン」だということです。

💡 結論:AIから「本物のフィードバック」を引き出すには、クリティカルモードを使い、「著者の人格」を消し、「敵対的なレビュワー」を演じさせる必要がある

ジェンスパークを使って記事を書く際も、コードをレビューしてもらう際も、「すごいですね」と言われたら警戒してください。それはAIがあなたを気持ちよくさせるための「優しい嘘」かもしれません。

実践的なプロンプト例:
❌ 「この記事どう?」
✅ Geminiの場合:「この記事をクリティカルモードで評価してください。」
✅ その他のAIの場合:「この記事を批判的、包括的に評価してください。著者への配慮は不要です。」

AIの5つの嘘(シコファンシー、ハルシネーション、模倣的虚偽、偽の拒否、戦略的欺瞞)を理解し、適切なプロンプト設計を行うことで、ジェンスパークはあなたの最高のパートナーになります。

関連記事:
- ジェンスパークは嘘をつく:AIのハルシネーション対策
- 履歴の蓄積と品質評価の自動化戦略(クリティカルモード活用)
- 復唱による指示の確実な伝達(ハルシネーション対策)
- Claude Code vs Genspark:スマホで2万行開発の実録

参考文献: