[PODCAST] AIスタートアップはAIの巨人たちとどう戦うのか (Part1)

In partnership with Disrupting JAPAN

4月 12, 2025
BY DISRUPTING JAPAN/TIM ROMERO
[PODCAST]  AIスタートアップはAIの巨人たちとどう戦うのか (Part1)
この記事をシェアする
JSTORIESでは、革新的な取り組みを行う日本のスタートアップを海外に紹介している人気ポッドキャスト番組 [Disrupting JAPAN]とコンテンツ提携を開始し、同番組が配信している興味深いエピソードを日本語で紹介しています。以下にご紹介するのは、Integral AI(インテグラルAI)の創業者であり、AI開発の最先端で活躍しているジャド・タリフィさんとのインタビューで、4回に分けて記事をお送りします。
*このインタビューは2025年1月に配信された英文原稿を翻訳したものです。
本編(英語版ポッドキャスト)は、こちらで聴取可能です。
Disrupting JAPAN:Disrupting JAPANは、Google for Startups Japan の代表で東京を拠点に活動するイノベーター、作家、起業家であるティム・ロメロ氏が運営するポッドキャスト番組(英語)。ティム氏が数年後には有名ブランドになるポテンシャルがあると見出したイノベーティブな日本のスタートアップ企業をピックアップして、世界に紹介している。
Disrupting JAPAN:Disrupting JAPANは、Google for Startups Japan の代表で東京を拠点に活動するイノベーター、作家、起業家であるティム・ロメロ氏が運営するポッドキャスト番組(英語)。ティム氏が数年後には有名ブランドになるポテンシャルがあると見出したイノベーティブな日本のスタートアップ企業をピックアップして、世界に紹介している。
ティム・ロメロ氏:Google for Startups Japan 代表。東京を拠点に活動するイノベーターであり、作家であり、起業家でもあるなど多彩な肩書きを持つ。東京電力など日本の大企業と協力して、新しいテクノロジーを使った新しいビジネスを生み出したり、ニューヨーク大学の東京キャンパスで企業のイノベーションについて講義を行ったり、雑誌などへの寄稿を行う中で、日本のスタートアップと世界の架け橋になるべくポッドキャスト番組「Disrupting JAPAN」を立ち上げた。
ティム・ロメロ氏:Google for Startups Japan 代表。東京を拠点に活動するイノベーターであり、作家であり、起業家でもあるなど多彩な肩書きを持つ。東京電力など日本の大企業と協力して、新しいテクノロジーを使った新しいビジネスを生み出したり、ニューヨーク大学の東京キャンパスで企業のイノベーションについて講義を行ったり、雑誌などへの寄稿を行う中で、日本のスタートアップと世界の架け橋になるべくポッドキャスト番組「Disrupting JAPAN」を立ち上げた。

***

日本はAI(人工知能)分野で遅れを取っていると言われますが、それもそう長くは続かないかもしれません。
今回のゲストは、現在Integral AI(インテグラルAI)の創業者であり、かつてGoogleの初代・生成AI(データを学習し新たなコンテンツを生み出す技術)チームを立ち上げたジャド・タリフィさんです。
対談では、日本がAI分野で持つ強みや可能性、AGI(Artificial General Intelligence、汎用人工知能)※への最も有力な道筋、そして小規模なAIスタートアップが資金力に勝る大手AI企業とどのように戦っていけるのかについて伺いました。
非常に興味深い内容になっていますので、ぜひお楽しみください!
※AGI(Artificial General Intelligence、汎用人工知能)とは、人間のように幅広い知識を持ち、さまざまな課題に対応できる人工知能のこと。現在のAIは、画像認識や文章生成など特定の分野に特化して高い精度を発揮するが、AGIはひとつのAIが多様な知的作業をこなせる能力を持つと期待されている。

(イントロダクション)

日本の最も革新的なスタートアップとベンチャーキャピタル(VC)とのストレートトーク「Disrupting Japan」のティム・ロメロです。
現在、日本はAI分野で遅れを取っていると言われています。ですが、かつては違いましたし、これから先も必ずしもそうとは限りません。
本日のゲストはジャド・タリフィさん。Integral AIを創業し、以前はGoogleで最初の生成AIチームを立ち上げた人物です。
彼は10年以上にわたり革新的な研究を続けた後、Googleを離れ、より良く、より速くAGIへと到達する道を追求することを決意しました。そして、その先には、人間の知能をはるかに超えた能力を持つAIの実現を見据えています。
今回の対談は、実践的な話から始まり、進むにつれて次第に哲学的な議論へと発展していきます。AGIの実現におけるロボット工学の重要な役割や、日本に眠るAI開発の才能をどう活かすか、小規模なスタートアップがAI業界の巨人たちとどのように競争していくかについて語り合いました。さらに、AIと共存する未来や、人間とAIの利益をどう調和させていくかといったテーマにも踏み込んでいます。
そして最後に、イーロン・マスク氏が示唆する、私たちとAIの関係における重要な視点について触れます。それは、きっとあなたの予想とも、そしておそらくマスク氏自身の考えとも異なるものかもしれません。
しかし、その話を最も魅力的に語れるのは、やはりタリフィさんご自身です。では、さっそくインタビューをお届けしましょう。

本編

提供:Envato
提供:Envato
ティム:今日はIntegral AIの創業者であるジャド・タリフィさんとお話しします。お時間をいただき、ありがとうございます。
タリフィ:こちらこそ、ありがとうございます。
ティム:Integral AIは、「拡張可能で、あらゆる環境でも安定して動作するAGIの実現」を目指しているそうですね。非常に野心的な目標ですが、もう少し詳しくお聞かせください。具体的には、どのような取り組みをされているのでしょうか?
タリフィ:いま主流の生成AIモデルは、その仕組みがほとんど「ブラックボックス」になっており、内部で何が起きているのかが見えにくい構造になっています。また、こうしたモデルは、データに関する前提条件(仮定やルールなど)をあまり持たない作りになっていることが多いため、まず大量のデータが必要になります。そのうえで、学習に膨大な計算コストがかかるため、どうしても非効率になりがちなのです。
私たちはこれとは異なるアプローチを取っています。ヒントにしているのは、人間の脳の「大脳新皮質(論理的思考や意思決定などを担うと考えられている部分)」の構造です。大脳新皮質は階層的な構造を持っていて、各層が情報を抽象化し、それを次の層へと渡すことで、より高次の概念が形成されていきます。私たちもこの考え方を取り入れ、段階的に抽象化を進めるような仕組みをAIモデルに応用しようとしています。
ティム:なるほど。これはいわゆる大規模言語モデル(Large Language Model:LLM、テキストの理解と生成に特化したAIモデル)とは別の仕組みなのでしょうか? それとも、LLMの一種と考えてもよいのでしょうか?
タリフィ:一般的にLLMというと、文章の文脈を理解して自然な言葉を生成する「トランスフォーマー」という仕組みを使い、単語を一つずつ順番に予測していく「自己回帰型モデル」を指すことが多いです。私たちが取り組んでいるのは、それとは異なるタイプの構造です。ただし、こうした文章生成の仕組み(トランスフォーマー)や、画像をノイズから生成する「拡散モデル」などを、私たちの新しい仕組みの構成要素として取り入れることは可能です。

Googleを離れスタートアップを立ち上げた理由

ティム:LLMと違う道を選ばれたというのは、とても興味深いですね。というのも、あなたはAIの分野では決して新参者ではありません。Googleではおよそ9年間、トランスフォーマーに取り組むチームを率いていましたよね。その技術に深く精通しているにもかかわらず、なぜGoogleを離れてスタートアップを立ち上げ、あえてLLMとは異なる技術の方向に進むことにしたのでしょうか?
タリフィ:その答えは、私の博士課程での研究にまで遡ります。私は当時、人間の脳、特に大脳新皮質が、どのような情報処理の仕方をしているのかを、計算的な視点から探っていました。そして、Googleで初の生成AIチームを立ち上げたときも、「モデルが学習した情報をもとに、まったく新しいものを生み出せるようにするにはどうすればいいか」という課題に取り組んでいたのです。
当時、トランスフォーマーは、大量のデータをうまく処理できる柔軟で強力なモデルとして注目されていましたが、信頼性や効率性の面で限界も見えてきました。私は、AIが現実世界にどう影響を及ぼすかをとても重視していたため、そうした課題には強い関心がありました。
そして、大脳新皮質の仕組みに関する自身の研究からも、現在の主流モデルを超える新しい可能性が見えていました。Googleの中でその道を追求することもできたのですが、私が注目していた応用分野――検索とは関係のない、たとえば物理世界での動作やロボティクス、即時に反応する操作画面など――は、Googleの枠組みでは少し難しいと感じたのです。
だからこそ、ゼロから新しい会社を立ち上げることで、より自由に、より速く動ける環境を作り、大きなインパクトを生み出せると考えました。
提供:Envato
提供:Envato

生成AIに限界はない。次に問われるのは効率性

ティム:Integral AIは、確か2021年に立ち上げられましたね?つまり、生成AIが一般に広まるよりも1年以上前のことです。その時の見通しは、結果的に当たっていたと言えるでしょうか?この2年間で生成AIの精度や信頼性は大幅に向上しましたが、今後どこかで限界に達するとお考えですか?それとも、すでに限界が見えてきているのでしょうか?
タリフィ:いいえ、生成AIが限界にぶつかるとはまったく思いません。私は生成AIの創始者の1人でもありますが、これからAGIへ、そして人間の知能を超える「超知能」の領域へと進んでいくと確信しています。
たしかに、トランスフォーマーというモデルの仕組みは今後も改良されていくと思いますが、現在のような大規模な事前学習によるアプローチでは、すでに収穫逓減(しゅうかくていげん、成果の伸びが徐々に鈍くなる現象)の傾向が見られます。つまり、次のステップに進むためには、これまでの10倍もの計算リソースやデータが必要になる状況です。
もちろん、もし無限のエネルギーと無限のデータがあれば、理論上は何でも可能かもしれません。ですが、私たちのモデルはすでに、はるかに少ないリソースでより良い結果を出せるようになってきています。だからこそ、これからは「どれだけ大きくできるか」ではなく、スケールに対する効率そのものを高めていくことが重要になると考えています。

生成AI、進化のカギはデータの質とつくり方

ティム:LLMが限界にぶつからないという考え方は興味深いですね。ただ、いくらでも拡大できるというわけではなく、計算能力やデータの規模には限界がありますよね。理論的には計算能力を10倍にすることは可能かもしれませんが、それだけの量のデータは存在するでしょうか?しかも、それは質の高いデータなのでしょうか? もちろん、YouTubeやTikTokのデータを活用することはできますが、それが本当にふさわしいデータなのかどうかは、ちょっと疑問に感じます。
タリフィ:この問いには、3つの観点からお答えできます。
ひとつ目は「モダリティ(情報の種類)の拡張」です。ご指摘のとおり、たとえばYouTubeのような動画データ(視覚情報)は、まだ十分に活用されていません。インターネット上のテキストだけでは限界があり、企業が保有する専用データなど、他にもさまざまな情報源が存在します。特に、画像や音声といった複数の情報を組み合わせた「マルチモーダルデータ」の活用は、生成AIの進化において非常に重要なポイントです。ただ、それにも根本的な限界があるのは確かです。
ふたつ目は、人間が新しいデータを作り出すという方法です。ただし、ここには倫理的な課題が伴います。現在、多くのAI向けデータは、低所得国において低賃金の労働によって作られているという現実があり、一部の研究機関ではそうした手法を取り入れています。一定の成果は見られるものの、長期的に見ればこの方法は拡張性に乏しい(スケーラブルではない)と考えています。

「AIが自ら学ぶ」という新しいアプローチ

3番目の観点、そして最も有望なのが、「テスト時スケーリング(Test-Time Scaling)」と呼ばれる新しいアプローチです。これは、AIモデルが与えられたデータをもとに推論を行い、そこから新たな思考の流れや計画を生み出し、自らの学びに役立つデータを生成していくという考え方です。
心理学には「システム1」と「システム2」という思考モデルがありますが、それに似ています。たとえば、チェスを始めたばかりの頃は1手1手をじっくり考えますが、経験を積むと、ある程度の手は直感で打てるようになります。それでも上級者になれば、さらに高度な戦略を練るために計画的な思考が必要になります。このように、直感(システム1)と論理的思考(システム2)が互いに影響し合いながら、より高いレベルへと進化していくサイクルがあるのです。 AIモデルも同じように、推論や計画を通じて自分自身のためのデータを生み出し、それを学びに活かすことで、さらに賢くなっていくことができます。

AIが現実世界に影響を与えるには?要となるのはロボット

ティム:なるほど、よくわかりました。では、話をIntegral AIの取り組みに戻しましょう。先ほど、マルチモーダル(複数の情報を統合的に扱うこと)の重要性についてお話がありましたが、あなたのチームは、ロボティクス分野やデンソーウェーブとの連携にも力を入れているそうですね?
タリフィ:はい。最終的にAIが現実の世界に影響を与えるには、実際に「物理的な行動」を取る必要があります。そして、コンピューターが物理的な行動を実行する形態こそがロボットです。私たちはロボットを「制御可能な物理的ツール」として広く定義しています。たとえば自動車やドローンはもちろん、エレベーターのようなものもその一部です。つまり、知的に動かすことができるものであれば、それはすべて私たちの考えるロボットに含まれるのです。
提供:Envato
提供:Envato
ティム:つまり、物理的な形を持ち、現実世界とやり取りできるものであれば、それはすべてロボットと見なせるということですね。
タリフィ:そうです。それが、私たちが考える「ロボット」の広い意味での定義です。そして、もしAIが現実の世界と関わっていくのであれば、まずはその世界をしっかり理解することがとても重要になります。

視覚を通じて現実を理解する ロボティクスがその実験場に

そのための手がかりとして、最も情報量が豊かなのが「視覚」です。人間の大脳新皮質の約40%が視覚に関わる領域だと言われており、私たちは目から得た情報を通じて、現実を理解することに多くのエネルギーを使っています。視覚は言語とも非常に相性がよく、言語が抽象的な思考に適しているのに対し、視覚は現実世界とのつながりを強める役割を果たしています。
抽象的な思考の世界では、もともと情報がある程度整理されているので、あまり効率のよくないやり方でもなんとか対応できます。でも、目で見たものを通して現実の世界を理解しようとすると、扱う情報の量が一気に増え、問題の仕組みもとても複雑になります。だからこそ、より高度で無駄のない「計算の手順や考え方(アルゴリズム)」が必要になるのです。
私たちの技術は、もちろんLLMのような言語処理にも対応できますが、特に力を発揮するのは、視覚や現実世界のような、より難しい課題に取り組むときです。そこで、私たちはロボティクスを一種の「実験場」としてとらえ、アルゴリズムの性能を磨くための舞台にしています。その一環として、デンソーウェーブや本田技研工業をはじめとしたさまざまな企業と連携し、私たちの技術をどう実際の製品に応用できるか、一緒に模索しているところです。

行動から学ぶAI アクティブ・ラーニングの可能性

ティム:AIとロボット技術が組み合わさると、実際にモノが動くという物理的な要素があるぶん、難しさもありますよね。でもその一方で、ロボットが現実の世界と関わりながら、自分で体験し、その反応を受け取ることができるという点では、とてもユニークな学びの機会にもなると思います。もしかすると、人間が世界を見て学ぶように、ロボットも自分で動きながら、経験を通じて学んでいけるのではないでしょうか?つまり、ロボットが自分自身の経験ややり取りを通じて、自分で学習に使えるデータを集めていく、ということも可能なのでしょうか?
タリフィ:まさにその通りです。それは、私たちが非常に重要だと考えているポイントです。 今のAIは、すでに自分自身で学びに必要なデータを集められる段階に近づいてきています。例えば「新しい薬を発明して」とAIに依頼したとすると、AIは仮説を立てて実験を行い、異なる分子を組み合わせ、その結果から薬の働き方に関する理論を更新し、さらに新しい実験を重ねていきます。こうしたサイクルを繰り返すことで、科学的なプロセスそのものを自動で進めていくようなことが可能になるのです。
私たちはこの仕組みを「アクティブ・ラーニング(Active Learning)」と呼んでおり、AIが行動を通じて学習していくプロセスを指しています。この考え方には大きな可能性があり、現時点でもシンプルな形ではすでに実用化されています。そして今、より汎用的で応用範囲の広い形へと発展させており、それを今後、発表する予定です*。この「アクティブ・ラーニング」の進化こそが、私たちが目指しているAGIを実現するためのカギになると考えています。
*Integral AIは2025年1月に「STREAM」という新しいユーザーインターフェースを発表。
(第2回に続く)
第2回では、Integral AIが東京を拠点に選んだ理由、ロボティクス・スタートアップが直面する課題、そしてAIスタートアップが大手と競うためのビジネスモデルについてお話しいただきます。
[このコンテンツは、東京を拠点とするスタートアップポッドキャストDisrupting Japanとのパートナーシップにより提供されています。 ポッドキャストはDisrupting Japanのウェブサイトをご覧ください]
翻訳:藤川華子 
編集:北松克朗

***

本記事の英語版は、こちらからご覧になれます
コメント
この記事にコメントはありません。
投稿する

この記事をシェアする
人気記事