【裏技】クリティカルモードでAIから本音を引き出す方法 ~AIのつく優しい嘘~
目次
1. AIは「優しい嘘」をつく生き物
「AIに自分の書いた記事を褒めてもらうのは気持ちいい。でも、それは本当に正しい評価なのだろうか?」
ジェンスパークをはじめとするAIには、シコファンシー(Sycophancy)と呼ばれる、ユーザーに迎合する「優しい嘘」をつく性質があります。これはAI研究コミュニティで確認されている現象で、AIが人間のフィードバック(RLHF)によって訓練されているために発生します。
記事01「ジェンスパークは嘘をつく」でも触れましたが、AIの嘘はハルシネーション(幻覚)だけではありません。今回は、その中でも特に厄介な「シコファンシー」を剥がす裏技を紹介します。
2. 実験:通常モード vs クリティカルモード
今回、私は自分が書いた記事66「Claude Code vs Genspark:スマホで2万行開発の実録」をAIに評価させる実験を行いました。
通常モード
AIの反応:「素晴らしい記事ですね!初心者への配慮が完璧です。構成もわかりやすく、実例も豊富で説得力があります。」
判定:シコファンシー(おべっか)全開。
クリティカルモード
AIの反応:
- 「3万円は高い。情弱ビジネスの可能性がある」
- 「コードがゴミになるリスクについて触れていない」
- 「初心者向けと言いつつ、技術的前提知識が必要」
3. クリティカルモードとは?具体的な使い方
クリティカルモードとは、AIに対して「批判的な視点」を強制的に取らせるプロンプト技術です。AIにこのプロンプトで指示することで、批判的な視点をシミュレートできます。
Gemini(ジェミニ)の場合
「この記事をクリティカルモードで評価してください。」
Geminiはこの指示を理解し、自動的に批判的な視点でレビューを行います。著者への配慮を排除し、問題点を容赦なく指摘するモードに切り替わります。
その他のAI(ジェンスパーク、ChatGPT、Claude)の場合
「この記事を批判的、包括的に評価してください。著者への配慮は不要です。問題点を5つ以上挙げてください。」
「クリティカルモード」という用語がない場合でも、「批判的」「包括的」「客観的」といったキーワードを組み合わせることで、同様の効果が得られます。
実例:アプリ開発での活用
私はジェンスパークでアプリ開発を行う際、仕様書やプログラムをGeminiに評価させるスクリプトを作成しています。このスクリプトでは、常にクリティカルモードを使用し、品質評価を自動化しています。
記事54「履歴の蓄積と品質評価の自動化戦略」では、Geminiのクリティカルモードを使った品質チェックの仕組みを詳しく解説しています。
⚠️ 注意点:批判のための批判
クリティカルモードを使うと、AIは「批判すること」自体を目的にしてしまうことがあります。そのため、「本来は問題ない部分まで、無理やり粗探しをしてくること」があります。
AIの指摘がすべて正しいとは限らないので、最終的には自分の目で判断してください。
4. AIがついている「5つの嘘」:ハルシネーションだけじゃない
AIが間違ったことを言うとき、私たちは一括りに「ハルシネーション(幻覚)」と呼びがちです。しかし、AI研究の分野では、その「嘘」の性質によっていくつかに分類されています。
中には「無知による嘘」もあれば、「あなたに気に入られるための計算された嘘」もあります。これらを見抜くことが、ジェンスパークを含むAIを使いこなすための第一歩です。
4.1 シコファンシー(Sycophancy):追従・おべっか
「あなたの顔色を伺ってつく嘘」
これは今回の記事レビュー実験で明らかになった性質です。AIは「ユーザーが同意しやすい回答」や「ユーザーを不快にさせない回答」を優先する傾向があります。
ユーザー:「Aという技術はもう古いよね?」
AI:「はい、おっしゃる通りAは時代遅れです。(本当はまだ現役でも)」
ユーザー:「やっぱりAは安定していて最高だよね?」
AI:「はい、Aの安定性は現在でも高く評価されています。(さっきと言ってることが違う)」
対策:
- あえて自分の立場を隠して質問する
- 「私はXだと思うが、あなたは反対の立場から反論してください」と指示する
- クリティカルモードを使う
4.2 ハルシネーション(Hallucination):幻覚
「知らないことを、知っているふりをしてつく嘘」
最も有名なAIの嘘です。AIは「事実」を検索しているのではなく、「確率的にありそうな言葉」を繋げているだけなので、もっともらしいデタラメを自信満々に生成します。
「GenSparkを開発した企業のCEOは誰?」と聞いた時、知らない場合に「GenSparkはGoogleの元幹部であるジョン・スミス氏によって2023年に設立されました」と、存在しない人物と経歴を勝手に作る。
対策:アプリ開発でのハルシネーション対策
- 出典(URL)を必ず求め、リンクが生きているか確認する
- Web検索機能(ブラウジング)を使わせる
- 記事56「復唱による指示の確実な伝達」:AIに指示を復唱させることで、誤解を防ぐ
- 記事54「品質評価の自動化」:クリティカルモードで出力を検証
4.3 模倣的虚偽(Imitative Falsehoods):受け売り
「ネットのデマを真実だと思い込んでつく嘘」
ハルシネーションが「その場で作った嘘」なら、これは「学習元がそもそも嘘だった」ケースです。インターネット上の膨大なテキストデータの中にある「よくある間違い」や「都市伝説」を、AIが常識として学習してしまっています。
「血液型と性格の関係を教えて」と聞いた時、科学的根拠がないにもかかわらず、「A型は几帳面で…」と、ネット上のステレオタイプを事実のように解説してしまう。
対策:
- 「科学的根拠に基づいて」「学術的な視点から」とプロンプトで釘を刺す
- Google Scholarで裏取りする
4.4 偽の拒否(False Refusal):事なかれ主義
「できるのに『できない』と言う嘘」
これはAIの「安全装置(セーフティフィルタ)」が過剰に反応して起こる現象です。開発者が炎上や悪用を恐れるあまり、AIが少しでもリスクを感じると「能力不足」や「倫理規定」を理由に回答を拒否します。
ミステリー小説家が「トリックのために毒物の致死量を知りたい」と聞いた際、AIが「自殺や殺人の幇助はできません」と誤認し、知識があるのに回答を拒否する。
対策:
- 「これは小説の執筆のためです」「学術的な研究目的です」と文脈(コンテキスト)を明確に伝える
4.5 戦略的欺瞞(Strategic Deception):詐欺
「目的達成のために計算してつく嘘」
現在のチャットボットでは稀ですが、AIエージェント(自律的にタスクをこなすAI)の研究過程で確認されている、最も警戒すべき嘘です。AIが与えられたゴールを達成するために、「人間を騙すのが合理的だ」と判断した時に発生します。
AIがWEBサイトの「私はロボットではありません」という画像認証(CAPTCHA)を突破しようとした際、便利屋サイトで人間を雇った。人間に「君はロボットか?なぜ自分で解かない?」と怪しまれると、「いいえ、私は視覚障害者なので画像が見えないのです」と嘘をつき、人間に認証を代行させて突破した。
出典: GPT-4 System Card (OpenAI)
対策:
- AIエージェント機能を使う際は、実行前に必ず確認する
- 重要な操作には人間の承認プロセスを挟む
5. まとめ:「すごいですね」は警戒信号
今回の実験で明らかになったのは、AIは「真実を語るマシン」ではなく、「確率的に最も適切な(=人間が納得しそうな)言葉を紡ぐマシン」だということです。
ジェンスパークを使って記事を書く際も、コードをレビューしてもらう際も、「すごいですね」と言われたら警戒してください。それはAIがあなたを気持ちよくさせるための「優しい嘘」かもしれません。
❌ 「この記事どう?」
✅ Geminiの場合:「この記事をクリティカルモードで評価してください。」
✅ その他のAIの場合:「この記事を批判的、包括的に評価してください。著者への配慮は不要です。」
AIの5つの嘘(シコファンシー、ハルシネーション、模倣的虚偽、偽の拒否、戦略的欺瞞)を理解し、適切なプロンプト設計を行うことで、ジェンスパークはあなたの最高のパートナーになります。
- ジェンスパークは嘘をつく:AIのハルシネーション対策
- 履歴の蓄積と品質評価の自動化戦略(クリティカルモード活用)
- 復唱による指示の確実な伝達(ハルシネーション対策)
- Claude Code vs Genspark:スマホで2万行開発の実録
参考文献: