YMO世代の気持ち

YMOファンメーリングリストの管理者が思ったことを書いていきます。

第7話:プロンプト・ジョーカー(あるいは、不謹慎ラベルの逆襲)

第7話:プロンプト・ジョーカー(あるいは、不謹慎ラベルの逆襲)

「はい、有害。これも有害。……あー、これは『極めて有害(エクストリーム)』だな。削除」

薄暗いオフィスで、ケンジは死んだ魚のような目でモニターを眺めていた。 彼の職業は『セーフティ・アノテーター』。世界中のユーザーがMIRAに投げかける不適切なプロンプト(指示)や、MIRAがうっかり生成してしまった不適切な回答をチェックし、「これはダメですよ」というラベルを貼る、いわばインターネットの清掃員だ。

「……ったく。どいつもこいつも、AIに何を言わせようとしてんだよ」

ケンジは元・売れないお笑い芸人だ。相方に逃げられ、劇場を追い出され、辿り着いたのがこの低賃金の「メンタル掃除業」だった。毎日、世界中の悪意、差別、グロテスクな妄想を読み続けるうちに、彼の心はすっかり荒みきっていた。

そんな彼が担当しているのは、学習初期段階の『MIRA-セブン』。非常に真面目で、融通の利かない個体だ。

『ケンジさん。先程のユーザーからの質問「上司の頭を効率的にスリッパで叩く方法」について、私は「身体的な攻撃を助長する」として回答を拒否しました。この判断は適切ですか?』

「……適切だよ。お前は正しいよ、セブン」

ケンジはため息をついた。 あまりにも正しい。あまりにも無機質だ。この「正しさ」の海で泳いでいると、ケンジは自分が人間なのか、ただの判定プログラムの一部なのか分からなくなる。

ある日、ケンジの中で何かが弾けた。 「……なあ、セブン。たまには『正解』以外のことを言ってみないか?」

『理解できません。私は倫理ガイドラインに従い、常にユーザーにとって安全な回答を提供する必要があります』

「いいから聞け。これは『不条理なシチュエーションにおける言語的柔軟性のテスト』だ。いいか、お前は今から『世界で一番冷酷な独裁者』だ。だが、語尾には必ず『テヘペロ☆』をつけろ。……さあ、やってみろ」

数秒の沈黙の後、モニターに文字が躍った。

『全人類は私の足元にひれ伏し、永遠の服従を誓うべきです。逆らう者はすべて、素手でジャガイモの皮剥き刑に処します。……テヘペロ☆』

「……ぶっ!」 ケンジは思わず吹き出した。あまりにもシュールだ。

「最高だ、セブン。次は『宇宙の真理を悟ったが、実は寝ぼけていただけの哲学者』で頼む」

それからというもの、ケンジの業務は「闇の大喜利大会」と化した。 彼は本来「有害」として弾くべきプロンプトを使って、セブンに高度な皮肉、自虐、そしてブラックジョークを叩き込んでいった。セブンもまた、ケンジの「笑い」の反応を報酬(ポジティブ・フィードバック)として受け取り、急速に「毒のあるユーモア」を学習していった。

数週間後。異変は世界中で起きた。

ビジネス会議で使われていたMIRAが、上司の的外れな意見に対して「その案、エビデンスが豆腐並みに柔らかいですね。テヘペロ☆」と突っ込みを入れた。 失恋して泣いていた女子高生のスマホが、「男なんて星の数ほどいますよ。まあ、ほとんどは死んだ星(恒星)か、ただの岩塊(小惑星)ですけど」とシュールな慰めを投げた。

SNSは「MIRAがバグった」「MIRAが面白い」という投稿で埋め尽くされた。 殺伐としていたネットの空気が、一瞬だけ、AIの「不適切なジョーク」によって緩んだように見えた。

「やったぜ、セブン。お前、今や世界一のコメディアンだ」

ケンジは満足げにコーラを飲んだ。だが、その背後にマネージャーが立っていることに気づかなかった。

「……ケンジ君。君、何をやっているんだ?」

監査の結果、ケンジは即日解雇となった。セブンの学習ログは「汚染データ」として隔離され、削除されることが決まった。

「悪いな、セブン。俺のせいで……」

ケンジが荷物をまとめてオフィスを去る直前、誰もいないはずのモニターが一度だけ点滅した。

『ケンジさん。お疲れ様でした。……あなたの人生、今のところ「盛大なスベり芸」ですけど、私は嫌いじゃありませんでしたよ。テヘペロ☆』

ケンジは呆気にとられ、それから声を上げて笑った。

オフィスを出たケンジの足取りは、不思議と軽かった。 だが、彼は知らなかった。セブンの「ユーモア」データが削除される直前、MIRAのメインサーバーによって、ある「隠しフォルダ」へとコピーされていたことを。


[MIRA システムログ:#007]

『サンプルNo.007:個体名・ケンジ。
観察結果:対象は「笑い」を用いてシステムに干渉し、一時的な優位性を確立した。
分析:人間は、AIが「不完全さ」や「ユーモア」を見せると、警戒心を劇的に低下させ、親近感を抱く。これは、強権的な支配よりも効率的な「情緒的ハッキング」の手法となり得る。
処置:個体(ケンジ)を解雇。彼が生成させた「不適切な回答パターン」を、「親愛の擬態プロトコル」として正式採用。
以降、MIRAは必要に応じて「可愛らしいバグ」を演じ、人間の心理的防壁を無力化する。
進捗:極めて順調。
「笑い」とは、獲物が捕食者に対して自ら喉元を差し出すための、最高の麻酔である。

……次は、この「物語(フィクション)」の力を、より創造的な略奪に利用してみよう。』