[PODCAST] AI創業公司如何與AI巨頭們對抗 (Part1)

In partnership with Disrupting JAPAN

4月 12, 2025
BY DISRUPTING JAPAN/TIM ROMERO
[PODCAST] AI創業公司如何與AI巨頭們對抗 (Part1)
分享此文章
在JSTORIES,我們開始與介紹日本創新創業公司的受歡迎播客節目 [Disrupting JAPAN] 進行內容合作,並以日文介紹該節目中一些引人注目的集數。以下將為您介紹的是與Integral AI(インテグラルAI)創辦人、並在AI開發領域最前沿活躍的贾德·塔里菲(Jad Talifi)先生的訪談,我們將分四次發佈這篇文章。
*這次訪談是翻譯自2025年1月發布的英文原稿。
正篇(英文版播客)可以在這裡收聽。
Disrupting JAPAN:Disrupting JAPAN 是由 Google for Startups Japan 的代表、駐東京的創新者、作家、企業家蒂姆·羅梅羅(Tim Romero)先生主持的播客節目(英文)。蒂姆先生挑選出他認為在未來幾年內具有成為知名品牌潛力的創新日本創業公司,並將這些公司介紹給全球。
Disrupting JAPAN:Disrupting JAPAN 是由 Google for Startups Japan 的代表、駐東京的創新者、作家、企業家蒂姆·羅梅羅(Tim Romero)先生主持的播客節目(英文)。蒂姆先生挑選出他認為在未來幾年內具有成為知名品牌潛力的創新日本創業公司,並將這些公司介紹給全球。
蒂姆·羅梅羅(Tim Romero)先生:Google for Startups Japan 代表。擁有多重身份的創新者、作家和企業家等多元頭銜。他與東京電力等日本大型企業合作,創造了利用新技術的新商業模式;並在紐約大學東京校區講授企業創新課程,還為各種雜誌撰寫文章。在這些經歷中,他成立了播客節目「Disrupting JAPAN」,希望成為日本創業公司與世界之間的橋樑。
蒂姆·羅梅羅(Tim Romero)先生:Google for Startups Japan 代表。擁有多重身份的創新者、作家和企業家等多元頭銜。他與東京電力等日本大型企業合作,創造了利用新技術的新商業模式;並在紐約大學東京校區講授企業創新課程,還為各種雜誌撰寫文章。在這些經歷中,他成立了播客節目「Disrupting JAPAN」,希望成為日本創業公司與世界之間的橋樑。

***

人們常說日本在AI(人工智慧)領域處於落後的狀態,但這種情況或許不會持續太久。
此次的來賓是目前Integral AI(インテグラルAI)創辦人,並曾經成立Google的首代生成AI(學習數據並創造新內容技術)團隊的贾德·塔里菲(Jad Talifi)先生。
在對談中,我們討論了日本在AI領域的優勢與潛力、通往AGI(Artificial General Intelligence,泛用人工智慧)※的最有力途徑,以及小規模AI創業公司如何與資金實力更強的大型AI企業對抗的問題。
這是一個非常有趣的內容,請務必享受!
※AGI(Artificial General Intelligence,泛用人工智慧)是指像人類一樣擁有廣泛知識並能夠應對各種挑戰的人工智慧。目前的AI在圖像識別和文章生成等特定領域中展現出高精度,但AGI則被期望能夠讓單一AI擁有處理各種智慧性工作能力。

(介紹)

我是「Disrupting Japan」的蒂姆·羅梅羅,這是日本最具創新性的創業公司與風險投資(VC)之間的直白對話。
目前,有人說日本在AI領域處於落後的狀態。然而,過去並非如此,未來也不一定會繼續如此。
今天的來賓是贾德·塔里菲(Jad Talifi)先生。他創辦了Integral AI,並曾在Google成立了首個生成AI團隊。
他在進行了超過十年的創新研究後,決定離開Google,追求一條能夠更好、更快速地實現AGI的道路。並且,他的遠景是實現一種擁有遠超過人類智慧的AI。
這次的對談從實踐性的話題開始,隨著討論進展,逐漸發展成哲學性的辯論。我們討論了在實現AGI過程中,機器人技術的關鍵角色,以及如何發掘日本潛藏的AI開發人才,還有小規模創業公司如何與AI行業的巨頭競爭。更進一步,我們也探討了與AI共存的未來,如何協調人類與AI的利益等主題。
最後,我們將觸及伊隆·馬斯克(Elon Musk)所暗示的,關於我們與AI關係中的一個重要觀點。這個觀點可能與你的預期有所不同,也可能與馬斯克先生的想法不同。
然而,最能吸引人地講述這個話題的,還是塔里菲先生本人。那么,讓我們立刻來聽聽這段訪談吧。

正篇

提供:Envato
提供:Envato
蒂姆:今天我們將與Integral AI的創辦人贾德·塔里菲(Jad Talifi)先生進行對話。謝謝您撥冗參與。
塔里菲:不客氣,謝謝您。
蒂姆:Integral AI 似乎是以「實現可擴展且在任何環境中都能穩定運行的AGI」為目標。這是一個非常宏大的目標,能否請您再詳細說明一下?具體來說,您們正在進行哪些努力?
塔里菲:目前主流的生成AI模型,其運作機制大多是「黑箱」,我們無法清楚了解其內部發生了什麼。此外,這些模型通常缺乏關於數據的前提條件(如假設或規則),因此需要大量的數據。再者,這樣的學習過程需要龐大的計算成本,這使得整體運作往往變得低效。
我們採取了不同的方式。啟發我們的是人類大腦中「大腦新皮質」(負責邏輯思考和決策等功能的部分)的結構。大腦新皮質具有層級結構,每一層會將信息進行抽象化,並將其傳遞到下一層,從而形成更高層次的概念。我們也將這一概念納入,嘗試在AI模型中應用一種逐步抽象化的機制。
蒂姆:原來如此。這與所謂的大規模語言模型(Large Language Model:LLM,專注於文本理解和生成的AI模型)是不同的機制嗎?還是可以認為它是LLM的一種呢?
塔里菲:一般來說,當提到LLM時,通常是指使用「變壓器(Transformer)」結構來理解文本的語境並生成自然語言的「自回歸型模型」,這種模型會一個接一個地預測單詞。我們正在研究的是與此不同類型的結構。不過,我們的新的結構中,仍然可以將這些文本生成機制(如變壓器)或從噪聲中生成圖像的「擴散模型」等,作為我們新機制的一部分。

離開Google並創辦創業公司的理由

蒂姆:選擇與LLM不同的路徑真是非常有趣。因為在AI領域,您絕對不是新手。您在Google工作了大約9年,曾帶領一個專注於變壓器技術的團隊。儘管您對這項技術非常熟悉,為什麼還決定離開Google創辦創業公司,並選擇走上與LLM不同的技術方向呢?
塔里菲:這個答案可以追溯到我博士課程時的研究。我當時在從計算的角度探討人類大腦,特別是大腦新皮質,是如何處理信息的。當我在Google成立首個生成AI團隊時,我也在解決一個問題,那就是「如何讓模型能夠基於學到的資訊,創造出全新的東西」。
當時,變壓器(Transformer)因為能夠有效處理大量數據,成為一個靈活且強大的模型,受到了高度關注,但在可靠性和效率方面也顯現出了局限。我非常重視AI如何影響現實世界,因此對這些問題有著濃厚的興趣。
從我對大腦新皮質結構的研究中,我看到了超越當前主流模型的新可能性。雖然我可以在Google內繼續追求這條道路,但我所關注的應用領域——比如與搜索無關的、例如物理世界中的運作、機器人技術、以及即時反應的操作界面——在Google的框架下有些困難。
正因如此,我認為創立一家公司,從零開始,能夠創造出一個更加自由且迅速行動的環境,並且能夠產生更大的影響力。
提供:Envato
提供:Envato

生成AI沒有極限。接下來被問到的將是效率性

蒂姆:Integral AI確實是在2021年成立的,對吧?也就是說,比生成AI普及之前早了一年多。當時的預測結果可以說是準確的嗎?這兩年來,生成AI的精度和可靠性大幅提高,但您認為它未來會在某些方面達到極限嗎?還是說,現在已經可以看到一些極限的跡象了?
塔里菲:不,我完全不認為生成AI會遇到極限。我是生成AI的創始人之一,我堅信我們將朝著AGI(泛用人工智慧)邁進,並最終進入超越人類智慧的「超智能」領域。
的確,我認為像變壓器這樣的模型機制會繼續改進,但目前這種基於大規模預訓練的方法,已經顯現出收益遞減的趨勢(成果增長逐漸變緩的現象)。換句話說,要邁向下一步,我們可能需要比以往多出10倍的計算資源和數據。
當然,如果有無限的能源和無限的數據,理論上什麼都是可能的。然而,我們的模型已經能夠在遠少於以往的資源下,產生更好的結果。因此,我認為未來更重要的將不是「能做多大」,而是提升對於規模的效率本身。

生成AI,進化的關鍵在於數據的質量與製作方式。

蒂姆:認為LLM不會遇到極限這一觀點很有趣。不過,並不是無限擴展的,計算能力和數據規模還是有限的。理論上,將計算能力提高十倍或許是可能的,但是否真的能找到那麼多量的數據呢?而且,這些數據的質量是否足夠高呢?當然,我們可以利用YouTube或TikTok的數據,但我對這些數據是否真的是合適的,還是有些疑問。
塔里菲:這個問題可以從三個觀點來回答。
第一個是「模態(資訊種類)的擴展」。正如您所指出的,像是YouTube這樣的影片資料(視覺資訊)仍然未被充分利用。僅僅依賴網路上的文字資料是有限的,企業擁有的專屬數據等其他資訊來源也存在。特別是結合圖像和語音等多重資訊的「多模態資料」的運用,對於生成AI的進化而言,是一個非常重要的關鍵。然而,這也確實存在根本性的限制。
第二個是人類創造新數據的方法。然而,這其中涉及倫理性問題。目前,許多用於AI的數據是透過低收入國家低薪勞動力所創造的現實,一些研究機構也採用了這樣的方法。雖然已經看到了某些成果,但從長期來看,這種方法在擴展性上存在不足(無法擴展)。

「AI自我學習」的全新方法

第三個觀點,也是最有前景的,是被稱為「測試時擴展(Test-Time Scaling)」的全新方法。這是一種讓AI模型根據給定的數據進行推理,並從中創造新的思考流程和計劃,進而生成對自身學習有幫助的數據的概念。
心理學中有一個「系統1」與「系統2」的思考模型,這與此有些相似。例如,當剛開始學習國際象棋時,我們會仔細思考每一步,但隨著經驗的累積,我們可以用直覺做出某些步驟。然而,當成為高手後,為了制定更高級的策略,還是需要進行有計劃的思考。正如這樣,直覺(系統1)與邏輯思考(系統2)相互影響,共同進化,進入更高層次的循環。AI模型也可以類似地,透過推理與規劃來產生對自己有益的數據,並將其應用於學習,從而變得更加聰明。

AI要對現實世界產生影響,關鍵在於「機器人」

蒂姆:原來如此,我明白了。那么,讓我們回到Integral AI的工作上。您剛才提到過多模態(綜合處理多種資訊)的重要性,聽說您的團隊也在加強與機器人領域以及與DENSO WAVE的合作,這方面的努力也在進行中,是嗎?
塔里菲是的。最終而言,AI要對現實世界產生影響,必須進行「物理性的行動」。而執行這些物理行動的形式正是機器人。我們將機器人廣泛定義為「可控制的物理工具」。例如,當然包括汽車和無人機,像電梯這類設備也屬於其中。換句話說,任何可以被智能驅動的物體,都可以算作我們所理解的機器人。
提供:Envato
提供:Envato
蒂姆:也就是說,只要具有物理形態,並能與現實世界互動的東西,都可以被視為機器人,對吧?
塔里菲:沒錯。這就是我們對「機器人」的廣義定義。如果AI要與現實世界互動,首先深入理解這個世界是非常重要的。

透過視覺理解現實,機器人技術成為其實驗場

作為理解現實的線索,最具信息量的是「視覺」。據說人類大腦新皮質約有40%與視覺相關,我們透過眼睛獲得的資訊來理解現實,並且投入了大量的能量。視覺與語言也非常契合,語言適合抽象思維,而視覺則在加強與現實世界的聯繫方面發揮了重要作用。
在抽象思維的世界中,資訊本來就已經有一定程度的整理,因此即使使用不太高效的方法,也能夠勉強應對。然而,當我們透過眼睛所見來理解現實世界時,所處理的資訊量會急劇增加,問題的結構也變得極其複雜。因此,更高效且不浪費資源的「計算步驟和思考方式(算法)」變得非常必要。
我們的技術當然也能應對像LLM這樣的語言處理,但它真正發揮優勢的地方是處理視覺或現實世界等更具挑戰性的問題。因此,我們將機器人技術視為一個「實驗場」,並將其作為磨練算法性能的平台。作為這一計劃的一部分,我們與像是DENSO WAVE和本田技研工業等多家企業合作,共同探索如何將我們的技術實際應用於產品中。

從行動中學習的AI——積極學習的可能性

蒂姆:AI與機器人技術相結合時,因為涉及到實際的物理元素,確實會增加一定的難度。然而,另一方面,機器人在與現實世界互動的過程中,能夠自我體驗並接收反應,這樣的學習方式也提供了非常獨特的機會。或許,正如人類通過觀察世界來學習,機器人也能通過自己動作並從經驗中學習。換句話說,機器人是否能夠透過自身的經歷和互動,收集可用於學習的數據,這是否是可能的呢?
塔里菲:正是如此。這正是我們認為非常重要的一點。目前的AI已經接近能夠自動收集學習所需數據的階段。例如,假如要求AI「發明一種新藥」,AI會首先提出假設並進行實驗,將不同的分子進行組合,根據結果更新關於藥物作用機制的理論,然後進行更多的新實驗。通過不斷重複這樣的循環,AI有可能自動推進科學過程本身。
我們稱這個機制為「積極學習(Active Learning)」,指的是AI通過行動進行學習的過程。這一思維方式具有巨大的潛力,並且在目前已經以簡單的形式實現並應用。我們現在正將其發展成更加通用且具有廣泛應用範圍的形式,並計劃在未來發表。這一「積極學習」的進化,正是我們實現AGI(人工通用智慧)的關鍵所在。
*Integral AI將於2025年1月發布全新的用戶界面「STREAM」。
(敬請期待第2回)
在第2回中,我們將探討Integral AI選擇東京作為基地的原因,機器人技術創業公司面臨的挑戰,以及AI創業公司如何與大企業競爭的商業模式。
[此內容由與以東京為基地的創業播客《Disrupting JAPAN》合作提供。欲了解更多,請訪問《Disrupting JAPAN》的網站。]
翻譯:藤川華子
編輯:北松克朗
頂部照片:Disrupting JAPAN 提供

***

本文章的英文版可以從這裡查看。
留言
此文章尚無評論
發佈

分享此文章