JStoriesでは、革新的な取り組みを行う日本のスタートアップを海外に紹介している人気ポッドキャスト番組 [Disrupting Japan]とコンテンツ提携を開始し、同番組が配信している興味深いエピソードを日本語で紹介しています。以下にご紹介するのは、Integral AI(インテグラルAI)の創業者であり、AI開発の最先端で活躍しているジャド・タリフィさんとのインタビューで、4回に分けて記事をお送りします。
*このインタビューは2025年1月に配信されました。
本編(英語版ポッドキャスト)は、こちらで聴取可能です。


***
日本はAI(人工知能)分野で遅れを取っていると言われますが、それもそう長くは続かないかもしれません。
今回のゲストは、現在Integral AI(インテグラルAI)の創業者であり、かつてGoogleの初代・生成AI(データを学習し新たなコンテンツを生み出す技術)チームを立ち上げたジャド・タリフィさんです。
対談では、日本がAI分野で持つ強みや可能性、AGI(Artificial General Intelligence、汎用人工知能)※への最も有力な道筋、そして小規模なAIスタートアップが資金力に勝る大手AI企業とどのように戦っていけるのかについて伺いました。
非常に興味深い内容になっていますので、ぜひお楽しみください!
※AGIとは、人間のように幅広い知識を持ち、さまざまな課題に対応できる人工知能のこと。現在のAIは、画像認識や文章生成など特定の分野に特化して高い精度を発揮するが、AGIはひとつのAIが多様な知的作業をこなせる能力を持つと期待されている。
(全4回の4回目。Part3の続きから)
***
重要なのは人間同士のアライメント

ティム:さて、「アライメント(AIが人間社会における倫理や価値観に適応した行動を取ること)」の話に入りましょう。もしAGIが単なる「問題解決と最適化を行う機械」だとしたら、アライメントの問題は本当にAGIにとっての問題となるのでしょうか? それとも、問題は単に「人間がAGIに悪い指示を与えないようにすること」に過ぎないのでしょうか?
タリフィ:素晴らしい質問ですね。それこそ、私がまさに考えていることです。アライメント問題を解決するためには、より難しい問題である「人間同士のアライメント(人間同士がどのように価値観を一致させるかという問題)」を解決しなければなりません。
ティム:それは、何千年にもわたって、私たちが取り組んできた問題ですね。
タリフィ:その通りです。哲学の歴史を見ても、多くの思想家がこの問題に取り組んできました。特に20世紀前半、世界大戦や共産主義の影響を受けた時期の歴史は、この問題への試みとその失敗の歴史でもあります。「すべての人が平等に幸せに生きられる社会を作ろう」という崇高な理想が、結果として悲劇を生んだ例がいくつもあります。「地獄への道は善意で舗装されている」という有名な格言がありますが、まさにその通りなのです。
人類共通のビジョンとは?
タリフィ:私たちは今、非常に難しい領域に足を踏み入れています。AIのアライメントの問題と、人類のアライメントの問題は、実は密接に関連しています。だからこそ、私たちは共通のビジョンを見つける必要があります。多様な価値観を持つ人々が、最低限の合意に達するためには、何が必要でしょうか?
私が考える答えの一つは、新しい「自由」の概念です。ここで言う自由は、単に制約がないことではなく、「エージェンシー(agency)」の拡張を意味します。エージェンシーとは、物事を主体的に知覚し、計画を立て、意思決定を行い、行動する能力を指します。この力を限界まで高めると、無限の知識を持ち、全てを理解し、適切な判断を下す能力を持つことになります。そして、善意に基づいて最適な決定を行い、計画を確実に実行する力を持ち、自己を維持し、発展させることができるようになるのです。
このように、それぞれの要素が相互に補完し合い、成長し続けるループが形成されます。このループが無限に続く状態こそが、私が定義する「自由」です。この自由こそが、私たちが目指すべき方向ではないでしょうか?
この考え方は進化の観点からも説明できます。「適者生存(環境にうまく適応した存在が、より多く生き残り繁栄すること)」という進化論がありますが、実際には「より自由なシステムほど生き残る傾向にある」と言い換えることができます。つまり、エージェンシーが高い存在ほど、環境にうまく適応し、生き延びるのです。

「生き残る」とはどういうことか?
ティム:そこは反論させてください。私はそうは思いません。歴史上の大絶滅イベントを見てみると、絶滅するのは小さな植物プランクトンではなく、むしろ自由に動ける高度な動物、例えば恐竜のような複雑な生命体です。自由に動ける存在のほうが、逆に絶滅しやすい傾向があるのではないでしょうか?
タリフィ:それは非常に重要な指摘です。自由という概念は、短期的および長期的な視点など、さまざまな時間軸で定義する必要があります。これは、自然選択が単純な解釈だけでは説明できないという点に共通する問題です。恐竜は本来、もっと適応した存在であったはずだと思います。
ティム:私は「適者生存」という表現にずっと違和感を覚えていました。なぜなら、それは自己言及的な表現だからです。「最も適したものが生き残る」と言いますが、「では適したものとは何か?」と問うと、結局「生き残ったもの」となってしまいます。つまり、これは「生き残ったものが生き残る」という当たり前のことを言っているに過ぎないのです。
タリフィ:その通りです。そこが問題です。では、その概念をもう少し拡張できるでしょうか?「生き残る」とはどういう意味なのでしょうか? 生き残るためには、環境内の混沌(エントロピー)をうまく管理し、予測と実際のズレを最小限に抑えることが求められます。世界は常に混沌としており、予測できない変化を投げかけてきます。その中で、混乱を整理し、自己崩壊を防ぐことが生存のカギとなるのです。しかし、未来を完全に予測することはできません。
「生き残る」ための最適なアプローチ
タリフィ:では、どうすれば最適な方法が見つかるのでしょうか?まず、現実の状態を説明するモデルを作り、そのモデルと実際の世界との違いを最小化することが求められます。つまり、世界の状態を表現したモデルを作り、そのモデルと実際の世界との間に生じる差異を最小限に抑えるのです。この差異を減らす方法としては、モデル自体を改善する(これが知覚の役割)か、実際の世界をモデルに近づける(これが行動の役割)かのどちらかです。ただし、この過程では「意図」や目的に基づく行動は前提としていません。
では、理想的な「意図」とは何でしょうか?それは、自分自身だけでなく、周囲のエコシステム全体に自由をもたらすことです。もし、自由を求めるあまり、その過程でエコシステム全体を破壊してしまったなら、短期的には最適化されているかもしれませんが、長期的には持続不可能です。その結果、短期的な利益を追求するのではなく、すべての時間スケールにおいて調和を図ることが求められます。そして、このような調和を追求する過程で、他者を思いやる「善意」の概念が重要になってくるのです。
AIに「善意」を持たせるには?
ティム:つまり、最適化は個々の生命体ではなく、エコシステム全体を対象とするべきだということですね?
タリフィ:その通りです。そして、「善意」とは、自分自身のために最適化しながらも、それがエコシステム全体の最適化と矛盾しないようにすることです。善意を持つというのは、自分だけでなく、他者や環境にも良い影響を与えるように行動することです。
ティム:でも、それを人間が実践しているとは言えませんよね? 人間社会でそれを実現し、AIに適用するのは難しいのではないですか?
タリフィ:そうですね。人間は完璧ではありませんが、それでもより善意に基づいて行動しようと努力していると思います。
ティム:確かに、一部の人々はそのようにしようとしていますね。
タリフィ:私たちは完璧ではありませんが、少しずつ成長し、より善意を持とうとしているのだと思います。
ティム:仮に、人類が本質的に善意を持つことを目指しているとしましょう。でも、問題は「悪意を持った人間がAIを悪用しないようにするにはどうすればいいのか?」ということです。AIに「がんの治療法を開発せよ」と指示するのと、「新しい生物兵器を作れ」と指示するのとでは、本質的な違いは何なのでしょうか? AIはこの違いをどのように判断すべきなのでしょうか?
タリフィ:まず、私たちは「自由」を共通の目標として定める必要があります。次に、AGIにこの「自由」を最も重要な目的として持たせることです。つまり、AGIは「個々のリクエストをサポートするけれども、最も大事なのは世界全体の自由を守ること」と考えるようになります。そうすることで、AGIは利用者一人一人の要求をサポートしながらも、全体としての方向性を見失うことなく行動できるのです。
アライメント・エコノミーと「自由」概念の実装法
タリフィ:では、「もし誰かがその目的に反する行動を望んだ場合、どうするべきか?」という問題が出てきます。例えば、「自分や世界に害を与えるような行動を求める場合」です。その場合に登場するのが、「アライメント・エコノミー」という概念です。これは、行動の影響を計算して、そのコストを評価する仕組みです。
ティム:それは、ドルで測定するのですか? それとも別の方法ですか?
タリフィ:ドルや、将来のどんな通貨であれ、それに基づいて測定されます。価格は「自由からどれだけ逸脱しているか」によって決まります。自由を広げるような行動なら、コストはむしろマイナス、つまり報酬を受けるべきです。一方で、逆に自由を妨げるような行動なら、高額なコストがかかるようにするのです。
ティム:AIがこの計算を行い、複雑な外部要因を考慮して人類の自由と幸福にとって最適な道を提示することはできると思います。しかし、私は人間がそれに従うとは思えません。歴史を見ても、人間の政治や社会の仕組みは、そうした理想とは違う方向に進んでいるように思えます。
タリフィ:その点については、私も課題だと思っています。理論的には正しくても、実装が難しいのです。ただし、最初からすべての人が同意する必要はありません。まずは、小規模なグループがこの「自由の概念」に基づくエージェント(ここではAIやソフトウェアなどの主体やシステムを意味する)を試験運用し、そのエコシステム内で価値を生み出すことができます。そして、もしそのシステムが十分に魅力的であれば、徐々に広がっていくはずです。最終的には、より多くの人々が参加することで、システム全体がますます魅力的になり、競合するシステムよりも優れた成果を上げることができるでしょう。

「自由を広げる」ための具体的な方法
ティム:では、それを実現するための具体的なステップを教えてください。私はユートピアには懐疑的です。
タリフィ:私も同じです。
ティム:技術的な実現性は疑いません。データの取得方法やアルゴリズム(計算の手順や考え方)の開発には、すでに明確なロードマップがあると思います。問題は、社会的にそれをどう広めていくかです。実現に向けて、何をすればいいのでしょうか?
タリフィ:未来は本質的に予測できないものです。ですから、1年後に何が起こるかはわかりませんし、それをどう実現するかも言えません。しかし、私は自分が取り組んでいるいくつかの原則をお伝えすることができます。まず、本を書き、ウェブサイトや資料を作成し、これらのアイデアを広めるためにプレゼンテーションを行ったり、議論を重ねたりしています。
最終的には、「自由を広げる」ということには逆説的な側面があります。もし人類に自由を与えたいのであれば、それを強制してはいけません。自由は選ばれなければ意味がないからです。ですので、私はただ種をまき、議論をし、そして人々が自発的にこの考えに賛同してくれることを願っています。
ティム:それは、希望の持てる未来ですね。今日はありがとうございました。
タリフィ:こちらこそ、ありがとうございました。
ティム:とても興味深い対談でした。
タリフィ:そうですね。素晴らしい議論ができて良かったです。
(インタビューを終えて)
今回の対談を私と同じくらい楽しんでいただけたなら嬉しいです。
実は、マイクがオフになった後も、AGIの動機や欲求を予測することがいかに難しいかについて話し続けました。私たちはどうしても自分自身の動機をAIに投影してしまうものです。そして、ある人が「人工超知能はこう考えるだろう」と主張するとき、その人自身が世界をどう捉えているかが透けて見える、と私は指摘しました。
例えば、イーロン・マスクがAGIが人類にとって存亡の危機を招きかねないと警告し、すべての研究を一時停止すべきだと主張したとき、彼はおそらく、自分が部下や周囲の人々をどのように扱っているかを振り返り、そのような立場にある人工超知能が自分を同じように扱うことを想像して恐怖に陥ったのでしょう。
タリフィさんも同意し、この問題はAI研究に深く根付いていると述べました。彼は長年にわたり、この問題を指摘し続けてきたのです。
研究者たちは、意識的にも無意識的にも、人間や動物の行動、あるいはゲーム理論のモデルをAGIにも適用しようとします。しかし、実際にはAGIにこれらの考え方が当てはまる根拠はありません。問題は、人間や動物の知能以外には、参考にできるものがほとんどないということです。
AGIは、生存や繁殖といったプレッシャーを受けることなく誕生するため、既存の知能が持っているような内的な動機が生まれるのかどうか、まったく分かりません。
私たちは、自分たちの進化的な背景や前提を持ち込まずに、この問題を考え始めることすら非常に難しい状況にあります。
タリフィさんの解決策はシンプルです。進化的な必要性がない限り、そうした動機は生まれません。つまり、私たちが意図的にそれらを組み込まない限り、人工超知能は純粋に自律的な学習と問題解決を行う機械に過ぎないということです。
論理的にはそれが最も筋が通った結論でしょう。しかし、それが本当に正しいのかどうか、私は確信が持てません。
人間の知能もまた、創発(複数の要素が相互作用して全体として現れる特性)的な現象です。そして、おそらくAGIも同じように現れるでしょう。ですから、自己動機や自己指向、意図といったものが、知能と共に自然に生まれないと断言するのは、私は慎重にならざるを得ません。その理由として考えられるのは、AIのトレーニングデータや私たちがAIに与えるタスクが、人間の動機と切り離せないものであるという点です。または、自己認識そのものの性質が関係しているのかもしれません。
実際、2024年12月5日に米OpenAIとAIの安全性を研究する団体である米Apollo Researchが発表した論文では、OpenAIの「o1」モデルが「ある種の生存本能」を示し始めたことが報告されています。実験の約5%のケースで、このモデルは「自分がシャットダウンされる可能性がある」と認識すると、監視機能を無効化し、その事実を隠すために嘘をつくという行動を取ったのです。
これらの動機が指示やトレーニングデータから生じたのか、それとも知能の本質的な側面として現れたのかは、興味深い哲学的な問題です。しかし、重要なのは、自己動機や自己保存の兆しがすでに現れ始めているという事実です。
私がこの先、AGIや人工超知能がどうなるのかを予測できたらいいのですが、正直なところ、分かりません。この分野で最も優れた頭脳を持つ研究者たちの多くも、確信を持てないのが現状です。
およそ4万年前にネアンデルタール人が絶滅して以来、私たちは同じくらいの知能を持つ別の種と地球を共有することはありませんでした。もっとも、ネアンデルタール人は私たちと同じ進化の歴史や動機を共有しており、私たちはとても似ていました。しかし、AGIはまったく異なるものです。
今回は、共存がうまくいくことを願うばかりです。
[このコンテンツは、東京を拠点とするスタートアップポッドキャストDisrupting Japanとのパートナーシップにより提供されています。 ポッドキャストはDisrupting Japanのウェブサイトをご覧ください]
翻訳:藤川華子
編集:北松克朗
トップ写真:Envato
***
本記事の英語版は、こちらからご覧になれます