JSTORIES與廣受歡迎的Podcast節目 [Disrupting JAPAN] 展開內容合作,介紹日本新創產業至全球。以下是對 Integral AI (インテグラルAI)創辦人、走在 AI 發展最前端的賈德・塔理菲 (Jad Tarifi )的專訪,文章共分成四篇。
*這次訪談是翻譯自2025年1月發布的英文原稿。
整篇(英文版Podcast)可以在這裡收聽。


***
人們常說日本在AI(人工智慧)領域落後與人,但這種情況或許不會持續太久。
此次嘉賓是賈德・塔理菲 (Jad Tarifi ),目前Integral AI(インテグラルAI)創辦人,並曾創建Google的首代生成AI(學習數據並創造新內容技術)團隊。
在對談中,我們討論了日本在AI領域的優勢與潛力、通往AGI(Artificial General Intelligence,泛用人工智慧)※的最有力途徑,以及小規模AI創業公司如何與資金實力更強的大型AI企業對抗的問題。
※AGI(Artificial General Intelligence,泛用人工智慧)是指像人類一樣擁有廣泛知識並能夠應對各種挑戰的人工智慧。目前的人工智慧專精於特定領域,例如圖像辨識與文章產生,並展現出高準確度,而 AGI 則是預期單一人工智慧有能力執行多樣化的智慧任務。
導言
我是「Disrupting Japan」的蒂姆·羅梅羅,這是日本最具創新性的創業公司與風險投資(VC)之間的直白對話。
目前,有人說日本在AI領域落後於人。然而,過去並非如此,未來也不一定會這樣。
今天的來賓是賈德・塔理菲 (Jad Tarifi )先生。他創辦了Integral AI,並曾在Google建立首個生成AI團隊。
經過十多年的創新研究,他決定離開 Google,追求更好、更快的 AGI 之路。除此之外,他也期待能實現能力遠超人類智慧的人工智能。
這次對談從實務談起,隨著討論進展,逐漸發展成哲學性的辯論。討論機器人在實現 AGI 的重要角色、如何運用沉睡在日本的 AI 開發人才,以及小型新創公司如何與 AI 產業巨頭競爭。更進一步,我們也探討了與AI共存的未來,以及如何協調人類與 AI 的利益等議題。
最後,我們將觸及伊隆·馬斯克(Elon Musk)提出的關於我們與 AI 關係的重要觀。這當然可能與您的預期不同,甚至可能與馬斯克先生自己的想法不同。
然而,能把這個故事講得最吸引人的就是塔理菲先生本人。因此,讓我們立刻來聽聽這段訪談吧。
正篇

蒂姆:今天我們將與Integral AI的創辦人賈德・塔理菲 (Jad Tarifi )先生對談。謝謝您撥冗參與。
塔里菲:不客氣,謝謝您。
蒂姆:您說 Integral AI 的目標是「實現可擴展且在任何環境中都能穩定運行的AGI」。這是一個非常宏大的目標,能否請您再詳細說明一下?具體來說,您們正在進行哪些努力?
塔里菲:目前主流的生成AI模型,其運作機制大多是「黑箱」,我們無法清楚了解其內部發生了什麼。此外,這些模型通常缺乏關於數據的前提條件(如假設或規則),因此需要大量的數據資料。再者,這樣的學習過程需要龐大的計算成本,這使得整體運作效率不高。
對此,我們採取了不同的方法。我們從新皮層的結構中得到啟發,新皮層是人腦中被認為負責邏輯思考和決策的部分。新腦皮層具有層次結構,每層都會抽象出資訊,並傳遞給下一層,以形成更高層次的概念。我們也嘗試採用這個想法,並將逐步抽象的系統應用在我們的人工智慧模型上。
蒂姆:原來如此。這與所謂的大規模語言模型(Large Language Model:LLM,專注於文本理解和產生文字的AI模型)是不同的機制嗎?還是可以認為它是LLM的一種呢?
塔里菲:一般而言,LLM 通常被稱為「自回歸模型」,它使用「轉換器(Transformer)」機制來理解文字的上下文並產生自然字詞,依次預測字彙。然而,我們正在研究的是另一種類型的結構。在新的結構中,仍然可以將這些文本生成機制(如轉換器)或從雜訊中產生影像的「擴散模型」納入為我們新的元件。
離開Google並創辦創業公司的理由
蒂姆:選擇與LLM不同的路徑真是非常有趣。因為在AI領域,您絕對不是新手。您在Google工作了大約9年,曾帶領一個專注於變壓器技術的團隊。儘管您對這項技術非常熟悉,為什麼還決定離開Google創辦創業公司,並選擇走上與LLM不同的技術方向呢?
塔里菲:這個答案可以追溯到我博士課程時的研究。我當時在從計算的角度探討人類大腦,特別是大腦新皮質,是如何處理信息的。當我在Google成立首個生成AI團隊時,我也在解決一個問題,那就是「如何讓模型能夠基於學到的資訊,創造出全新的東西」。
當時,變壓器(Transformer)因為能夠有效處理大量數據,成為一個靈活且強大的模型,受到了高度關注,但在可靠性和效率方面也顯現出了局限。我非常重視AI如何影響現實世界,因此對這些問題有著濃厚的興趣。
從我對大腦新皮質結構的研究中,我看到了超越當前主流模型的新可能性。雖然我可以在Google內繼續追求這條道路,但我所關注的應用領域——比如與搜索無關的、例如物理世界中的運作、機器人技術、以及即時反應的操作界面——在Google的框架下有些困難。
正因如此,我認為創立一家公司,從零開始,能夠創造出一個更加自由且迅速行動的環境,並且能夠產生更大的影響力。

生成AI沒有極限。接下來被問到的將是效率性
蒂姆:Integral AI確實是在2021年成立的,對吧?也就是說,比生成AI普及之前早了一年多。當時的預測結果可以說是準確的嗎?這兩年來,生成AI的精度和可靠性大幅提高,但您認為它未來會在某些方面達到極限嗎?還是說,現在已經可以看到一些極限的跡象了?
塔里菲:不,我完全不認為生成AI會遇到極限。我是生成AI的創始人之一,我堅信我們將朝著AGI(泛用人工智慧)邁進,並最終進入超越人類智慧的「超智能」領域。
的確,我認為像變壓器這樣的模型機制會繼續改進,但目前這種基於大規模預訓練的方法,已經顯現出收益遞減的趨勢(成果增長逐漸變緩的現象)。換句話說,要邁向下一步,我們可能需要比以往多出10倍的計算資源和數據。
當然,如果有無限的能源和無限的數據,理論上什麼都是可能的。然而,我們的模型已經能夠在遠少於以往的資源下,產生更好的結果。因此,我認為未來更重要的將不是「能做多大」,而是提升對於規模的效率本身。
生成AI,進化的關鍵在於數據的質量與製作方式。
蒂姆:認為LLM不會遇到極限這一觀點很有趣。不過,並不是無限擴展的,計算能力和數據規模還是有限的。理論上,將計算能力提高十倍或許是可能的,但是否真的能找到那麼多量的數據呢?而且,這些數據的質量是否足夠高呢?當然,我們可以利用YouTube或TikTok的數據,但我對這些數據是否真的是合適的,還是有些疑問。
塔里菲:這個問題可以從三個觀點來回答。
第一個是「模態(資訊種類)的擴展」。正如您所指出的,像是YouTube這樣的影片資料(視覺資訊)仍然未被充分利用。僅僅依賴網路上的文字資料是有限的,企業擁有的專屬數據等其他資訊來源也存在。特別是結合圖像和語音等多重資訊的「多模態資料」的運用,對於生成AI的進化而言,是一個非常重要的關鍵。然而,這也確實存在根本性的限制。
第二個是人類創造新數據的方法。然而,這其中涉及倫理性問題。目前,許多用於AI的數據是透過低收入國家低薪勞動力所創造的現實,一些研究機構也採用了這樣的方法。雖然已經看到了某些成果,但從長期來看,這種方法在擴展性上存在不足(無法擴展)。
「AI自我學習」的全新方法
第三個觀點,也是最有前景的,是被稱為「測試時擴展(Test-Time Scaling)」的全新方法。這是一種讓AI模型根據給定的數據進行推理,並從中創造新的思考流程和計劃,進而生成對自身學習有幫助的數據的概念。
心理學中有一個「系統1」與「系統2」的思考模型,這與此有些相似。例如,當剛開始學習國際象棋時,我們會仔細思考每一步,但隨著經驗的累積,我們可以用直覺做出某些步驟。然而,當成為高手後,為了制定更高級的策略,還是需要進行有計劃的思考。正如這樣,直覺(系統1)與邏輯思考(系統2)相互影響,共同進化,進入更高層次的循環。AI模型也可以類似地,透過推理與規劃來產生對自己有益的數據,並將其應用於學習,從而變得更加聰明。
AI要對現實世界產生影響,關鍵在於「機器人」
蒂姆:原來如此,我明白了。那么,讓我們回到Integral AI的工作上。您剛才提到過多模態(綜合處理多種資訊)的重要性,聽說您的團隊也在加強與機器人領域以及與DENSO WAVE的合作,這方面的努力也在進行中,是嗎?
塔里菲:是的。最終而言,AI要對現實世界產生影響,必須進行「物理性的行動」。而執行這些物理行動的形式正是機器人。我們將機器人廣泛定義為「可控制的物理工具」。例如,當然包括汽車和無人機,像電梯這類設備也屬於其中。換句話說,任何可以被智能驅動的物體,都可以算作我們所理解的機器人。

蒂姆:也就是說,只要具有物理形態,並能與現實世界互動的東西,都可以被視為機器人,對吧?
塔里菲:沒錯。這就是我們對「機器人」的廣義定義。如果AI要與現實世界互動,首先深入理解這個世界是非常重要的。
透過視覺理解現實,機器人技術成為其實驗場
作為理解現實的線索,最具信息量的是「視覺」。據說人類大腦新皮質約有40%與視覺相關,我們透過眼睛獲得的資訊來理解現實,並且投入了大量的能量。視覺與語言也非常契合,語言適合抽象思維,而視覺則在加強與現實世界的聯繫方面發揮了重要作用。
在抽象思維的世界中,資訊本來就已經有一定程度的整理,因此即使使用不太高效的方法,也能夠勉強應對。然而,當我們透過眼睛所見來理解現實世界時,所處理的資訊量會急劇增加,問題的結構也變得極其複雜。因此,更高效且不浪費資源的「計算步驟和思考方式(算法)」變得非常必要。
我們的技術當然也能應對像LLM這樣的語言處理,但它真正發揮優勢的地方是處理視覺或現實世界等更具挑戰性的問題。因此,我們將機器人技術視為一個「實驗場」,並將其作為磨練算法性能的平台。作為這一計劃的一部分,我們與像是DENSO WAVE和本田技研工業等多家企業合作,共同探索如何將我們的技術實際應用於產品中。
從行動中學習的AI——積極學習的可能性
蒂姆:AI與機器人技術相結合時,因為涉及到實際的物理元素,確實會增加一定的難度。然而,另一方面,機器人在與現實世界互動的過程中,能夠自我體驗並接收反應,這樣的學習方式也提供了非常獨特的機會。或許,正如人類通過觀察世界來學習,機器人也能通過自己動作並從經驗中學習。換句話說,機器人是否能夠透過自身的經歷和互動,收集可用於學習的數據,這是否是可能的呢?
塔里菲:正是如此。這正是我們認為非常重要的一點。目前的AI已經接近能夠自動收集學習所需數據的階段。例如,假如要求AI「發明一種新藥」,AI會首先提出假設並進行實驗,將不同的分子進行組合,根據結果更新關於藥物作用機制的理論,然後進行更多的新實驗。通過不斷重複這樣的循環,AI有可能自動推進科學過程本身。
我們稱這個機制為「積極學習(Active Learning)」,指的是AI通過行動進行學習的過程。這一思維方式具有巨大的潛力,並且在目前已經以簡單的形式實現並應用。我們現在正將其發展成更加通用且具有廣泛應用範圍的形式,並計劃在未來發表。這一「積極學習」的進化,正是我們實現AGI(人工通用智慧)的關鍵所在。
*Integral AI將於2025年1月發布全新的用戶界面「STREAM」。
(敬請期待第2回)
在第2回中,我們將探討Integral AI選擇東京作為基地的原因,機器人技術創業公司面臨的挑戰,以及AI創業公司如何與大企業競爭的商業模式。
[此內容由與以東京為基地的創業播客《Disrupting JAPAN》合作提供。欲了解更多,請訪問《Disrupting JAPAN》的網站。]
翻譯:藤川華子
編輯:北松克朗
頂部照片:Disrupting JAPAN 提供
***
本文章的英文版可以從這裡查看。