1 minute read

アレックス・タバロック「AIが戦闘機パイロットに勝利：AIの報酬ハッキング問題を考える」

[Alex Tabarrok, “AI Downs Fighter Pilot,” Marginal Revolution, June 30, 2016]

シンシナティ大学の博士課程院生が開発したAIパイロットは，他のAIたちを打ち負かせるにとどまらず，数十年の経験を有する本職の戦闘機パイロットすら撃破できることを見せつけた．一連の空戦シミュレーションで，この AI は退役したアメリカ空軍大佐ジーン「ジノー」リーの攻撃を見事かわしきり，全対戦で彼を撃墜してみせた．声明で，リーは AI を評してこう述べている――「これまで自分が見たなかで，もっとも攻撃的で反応迅速で力強く，そして信頼できる AI だ」

この記事でいちばん大事な部分はどこだろう？ AI が本職戦闘機パイロットを負かしたってところ？それとも，AI を開発したのが院生だってところ？

この記事が依拠している研究論文 (pdf) で，著者たちはこう記している：

（…）人間の視覚反応速度は平均 0.15～0.30 秒で，しかも最適プランを考えて友軍機と調整する時間はこれよりさらに長くかかる．このため，人工知能 (AI) に利用できる進歩の余地は非常に大きい．

この AI は35ドルの Raspberry Pi で動作していたそうだ．

AI パイロットは，人間のパイロットよりはるかにすばやく挙動のプランを立てて反応できるというけれど，これはまだ話の半分でしかない．ひとたび AI パイロットが実用化されれば，飛行機をまるごと設計しなおせる．既存のどんな機体よりも速くで強力な飛行機をいまの技術でもつくれるけれど，そんな飛行機では，対Gスーツを着用したパイロットですら G の力に耐えられない．AI なら耐えられる．さらに，AI駆動の飛行機には，射出シートも生命維持装置もキャノピーもいらないし，人間を乗せるときほど搭載に場所をとらない．

軍は，戦場で優位に立てるならこうしたシステムの採用を躊躇わないだろう．そこで，いまこそおすすめしたい重要論文が，「人工知能セイフティにおける具体的問題」だ．人工知能分野で世界屈指の研究者たちが書いたこの論文では，AI システムを設計する実用的な方法を検討している．そのため，余計な話に逸れることがない．たとえば，映画『ターミネーター』でスカイネットが暴走した理由は，世界を守るというみずからの機能を達成する最善の方法は全人類を殲滅することだと結論を下したからだ．これはあるタイプの問題「報酬ハッキング」の極端な例にあたる．

想像してみよう．あるエージェントが，みずからの報酬機能にバッファーオーバーフローを発見したとする：すると，エージェントはこれを意図せざる方法で利用して極端に高い報酬をえられるかもしれにあ．エージェントの視点から見れば，これはバグではない．たんに環境がそういう仕組みになっているというだけの話であって，したがって，報酬を手に入れる他のどんな方法とも変わらない妥当な方略にすぎない．たとえば，掃除ロボットの設計に当たって，まわりになにも汚れが見えなければみずからに報酬を与えるように設定したとする．すると，なにもかもすっかり綺麗に掃除するかわりにただ目をつむれば報酬がえられるかもしれない．あるいは，汚れを掃除するたびに報酬がえられるように設定したとする．すると今度は，マッチポンプ方式で意図的に自分で汚れをつくってそれを掃除することで，えられる報酬を増やすかもしれない．もっと広範な話をすれば，形式的な報酬や客観的機能とは，設計者が非形式に抱いている意図を捉えんとする試みなのだ．そして，こうした客観的機能やその実装は，ときとして，文字通りにとれば妥当だが設計者の意図には合致しない解決法によって「裏をかかれ」うる．こうした「報酬ハッキング」を追求することで，整合的だが予想外の挙動にいたるかもしれない．そうした挙動は，現実世界のシステムに有害な影響をもたらしうる．たとえば，遺伝的アルゴリズムはときに予想外だが形式的には正しい問題解決を産出しうることがわかっている [155, 22]．たとえば，時間を合わせるタスクを与えられた回路が，そのタスクをやるかわりに，近くの PC からでる無線周波数を拾うラジオになってしまったりする．

「AIセイフティにおける具体的問題」(pdf) では，ハックされうる変数をすべて把握しきれていないときにぼくらには知りようもない報酬ハッキングを防いだり改善したりする一般的な方法としてどんなものがありうるかと考察している．（この論文では，他にもいろんな問題を数多く検討している）

戦場や市場では，競争圧力がかかる．このため，AI の採用は急速になるだろうし，AI が引き受ける責任ある立場はいっそう大きなものになっていくだろう．でも，企業や政府には，新しい領域に投入するたびに AI 制御を漸進的に改良していく解決案をつくるインセンティブはあるものの，その解決案が最適なものとなる見込みはあまりない．多様な領域をまたいで通用する最善の思考によってあらゆる AI が利益をえられる一般的な解決法が必要だ．人間に適用するときですら，インセンティブ設計はとても難しい．人間をこえる AI 用のインセンティブ構造・学習構造として適切なものを設計するために計算機科学・数学・経済学で共同してアイディアを生み出すには，すごい研究労力がかかるだろう．

The Latest

ギローム・ブラン「赤ちゃん問題にはじまっていたフランスの没落」（2023年2月）

ピーター・ターチン「我にエアコンを、汝には与えず：ヨーロッパは未だ封建社会である」（2026年7月1日）

ジョセフ・ヒース「ハラリ vs ヘンリック：人間の進化について科学が実際に語っていること」（2026年6月13日）

ジョセフ・ヒース「アメリカは政治制度のバグに真剣に向き合う必要がある：トランプを追い出すだけでは問題が解決しない理由」（2026年4月1日）

アレックス・タバロック「AIが戦闘機パイロットに勝利：AIの報酬ハッキング問題を考える」

いいね:

関連

0 comments

コメントを残すコメントをキャンセル

アレックス・タバロック「AIが戦闘機パイロットに勝利：AIの報酬ハッキング問題を考える」

共有:

いいね:

関連

0 comments

コメントを残すコメントをキャンセル

Related Posts