[PODCAST] AI創業公司如何與AI巨頭們對抗 (Part1)

JSTORIES與廣受歡迎的Podcast節目 [Disrupting JAPAN] 展開內容合作，介紹日本新創產業至全球。以下是對 Integral AI （インテグラルAI）創辦人、走在 AI 發展最前端的賈德・塔理菲（Jad Tarifi ）的專訪，文章共分成四篇。

＊這次訪談是翻譯自2025年1月發布的英文原稿。

整篇（英文版Podcast）可以在這裡收聽。

Disrupting JAPAN：Disrupting JAPAN 是由 Google for Startups Japan 的負責人蒂姆·羅梅羅（Tim Romero）主持、他有來自東京的創新者、作家和企業家等多重身份。在Podcast英語節目中，蒂姆挑選出他認為幾年後會成為知名品牌的創新日本新創企業，並將這些公司介紹給全球聽眾。

蒂姆·羅梅羅（Tim Romero）：Google for Startups Japan 代表。擁有創新者、作家和企業家等多重身份的蒂姆，常駐於東京。他與東京電力等日本大型企業合作，利用新技術創造出新的商業模式，並在紐約大學東京校區教授有關企業創新的課程。此外，他還為雜誌等媒體撰寫專欄，並為了成為日本新創企業與世界之間的橋樑，創立了Podcast節目「Disrupting JAPAN」。

***

人們常說日本在AI（人工智慧）領域落後與人，但這種情況或許不會持續太久。

此次嘉賓是賈德・塔理菲（Jad Tarifi ），目前Integral AI（インテグラルAI）創辦人，並曾創建Google的首代生成AI（學習數據並創造新內容技術）團隊。

在對談中，我們討論了日本在AI領域的優勢與潛力、通往AGI（Artificial General Intelligence，泛用人工智慧）※的最有力途徑，以及小規模AI創業公司如何與資金實力更強的大型AI企業對抗的問題。

※AGI（Artificial General Intelligence，泛用人工智慧）是指像人類一樣擁有廣泛知識並能夠應對各種挑戰的人工智慧。目前的人工智慧專精於特定領域，例如圖像辨識與文章產生，並展現出高準確度，而 AGI 則是預期單一人工智慧有能力執行多樣化的智慧任務。

導言

我是「Disrupting Japan」的蒂姆·羅梅羅，這是日本最具創新性的創業公司與風險投資（VC）之間的直白對話。

目前，有人說日本在AI領域落後於人。然而，過去並非如此，未來也不一定會這樣。

今天的來賓是賈德・塔理菲（Jad Tarifi ）先生。他創辦了Integral AI，並曾在Google建立首個生成AI團隊。

經過十多年的創新研究，他決定離開 Google，追求更好、更快的 AGI 之路。除此之外，他也期待能實現能力遠超人類智慧的人工智能。

這次對談從實務談起，隨著討論進展，逐漸發展成哲學性的辯論。討論機器人在實現 AGI 的重要角色、如何運用沉睡在日本的 AI 開發人才，以及小型新創公司如何與 AI 產業巨頭競爭。更進一步，我們也探討了與AI共存的未來，以及如何協調人類與 AI 的利益等議題。

最後，我們將觸及伊隆·馬斯克（Elon Musk）提出的關於我們與 AI 關係的重要觀。這當然可能與您的預期不同，甚至可能與馬斯克先生自己的想法不同。

然而，能把這個故事講得最吸引人的就是塔理菲先生本人。因此，讓我們立刻來聽聽這段訪談吧。

正篇

蒂姆：今天我們將與Integral AI的創辦人賈德・塔理菲（Jad Tarifi ）先生對談。謝謝您撥冗參與。

塔里菲：不客氣，謝謝您。

蒂姆：您說 Integral AI 的目標是「實現可擴展且在任何環境中都能穩定運行的AGI」。這是一個非常宏大的目標，能否請您再詳細說明一下？具體來說，您們正在進行哪些努力？

塔里菲：目前主流的生成AI模型，其運作機制大多是「黑箱」，我們無法清楚了解其內部發生了什麼。此外，這些模型通常缺乏關於數據的前提條件（如假設或規則），因此需要大量的數據資料。再者，這樣的學習過程需要龐大的計算成本，這使得整體運作效率不高。

對此，我們採取了不同的方法。我們從新皮層的結構中得到啟發，新皮層是人腦中被認為負責邏輯思考和決策的部分。新腦皮層具有層次結構，每層都會抽象出資訊，並傳遞給下一層，以形成更高層次的概念。我們也嘗試採用這個想法，並將逐步抽象的系統應用在我們的人工智慧模型上。

蒂姆：原來如此。這與所謂的大規模語言模型（Large Language Model：LLM，專注於文本理解和產生文字的AI模型）是不同的機制嗎？還是可以認為它是LLM的一種呢？

塔里菲：一般而言，LLM 通常被稱為「自回歸模型」，它使用「轉換器（Transformer）」機制來理解文字的上下文並產生自然字詞，依次預測字彙。然而，我們正在研究的是另一種類型的結構。在新的結構中，仍然可以將這些文本生成機制（如轉換器）或從雜訊中產生影像的「擴散模型」納入為我們新的元件。

離開Google並創辦創業公司的理由

蒂姆：選擇與LLM不同的路徑真是非常有趣。因為在AI領域，您絕對不是新手。因為您曾在 Google 領導研究轉換器（Transformer）的團隊將近九年。儘管您對這項技術非常熟悉，為什麼還決定離開Google創辦創業公司，並選擇走上與LLM不同的技術方向呢？

塔里菲：這個答案可以追溯到我博士課程時的研究。當時，我從計算的角度探索人腦，尤其是分析大腦新皮質是如何處理信息的。當我在Google成立首個生成AI團隊時，我也在解決一個問題，那就是「如何讓模型能夠基於學到的資訊，創造出全新的東西」。

當時，轉換器（Transformer）被視為一種靈活且功能強大的模型，可以成功處理大量資料，但也開始顯示出它在可靠性和效率方面的限制。我對這些問題有濃厚的興趣，因為我非常關注人工智能會如何影響現實世界。

從我對大腦新皮質結構的研究中，我看到了超越當前主流模型的新可能性。雖然我可以在Google內繼續追求這條道路，但我所關注的應用領域——比如與搜索無關的、例如物理世界中的運作、機器人技術、以及即時反應的操作界面——在Google的框架下有些困難。

正因如此，我認為創立一家公司，從零開始，能夠創造出一個更加自由且迅速行動的環境，並且能夠產生更大的影響力。

生成AI沒有極限。接下來被問到的將是效率性

蒂姆：Integral AI應該是在2021年成立的吧？也就是在生成式 AI 普及的一年多之前。當時的預測結果可以說是準確的嗎？這兩年來，生成AI的精度和可靠性大幅提高，但您認為它未來會在某些方面達到極限嗎？還是說，現在已經可以看到一些極限的跡象了？

塔里菲：不，我完全不認為生成AI會遇到極限。我是生成AI的創始人之一，我堅信我們將朝著AGI（泛用人工智慧）邁進，並最終進入超越人類智慧的「超智能」領域。

的確，我認為像轉換器這樣的模型機制會繼續改進，但目前這種基於大規模預訓練的方法，已經顯現出收益遞減的趨勢（成果增長逐漸變緩的現象）。換句話說，要邁向下一步，我們可能需要比以往多出10倍的計算資源和數據。

當然，如果有無限的能源和無限的數據，理論上什麼都是可能的。然而，我們的模型已經可以用較少的資源獲得更好的結果。因此，我認為未來更重要的將不是「能做多大」，而是提升效率本身。

生成AI，進化的關鍵在於數據的質量與製作方式。

蒂姆：認為LLM不會遇到極限這一觀點很有趣。但這並不表示你可以隨意擴充，運算能力和資料的規模是有限制的，不是嗎？理論上，將計算能力提高十倍或許是可能的，但是否真的能找到那麼多量的數據呢？而且，這些數據的質量是否足夠高呢？當然，我們可以利用YouTube或TikTok的數據，但我對這些數據是否真的是合適的，還是有些疑問。

塔里菲：這個問題可以從三個觀點來回答。

第一個是「模態（資訊種類）的擴展」。正如您所指出的，像是YouTube這樣的影片資料（視覺資訊）仍然未被充分利用。僅僅依賴網路上的文字資料是有限的，企業擁有的專屬數據等其他資訊來源也存在。特別是結合圖像和語音等多重資訊的「多模態資料」的運用，對於生成AI的進化而言，是一個非常重要的關鍵。然而，這也確實存在根本性的限制。

第二個是利用人類來創造新數據的方法。然而，這其中涉及倫理道德上的挑戰。目前人工智能的許多資料都是由低收入國家的低薪勞工所產生，有些研究機構也採用了這種方法。雖然已看到一些成果，但從長期來看，這種方法在擴展性上存在不足（無法擴展not scalable）。

「AI自我學習」的全新方法

第三個觀點，也是最有前景的觀點，是一種稱為「測試時間縮放（Test-Time Scaling）」的全新方法。這是一種讓人工智能模型根據給定的數據進行推斷，從中產生新的思考過程和計劃，並產生對其自身學習有用的數據。

這與心理學中的「系統1」與「系統2」思考模型相似。例如，當剛開始學習下西洋棋時，我們會仔細思考每一步，但隨著經驗的累積，我們可以用直覺做出某些棋步。儘管如此，要往高手邁進必需有系統地思考，才能發展出更複雜的策略。正因如此，直覺（系統1）與邏輯思考（系統2）相互影響，共同進化，進入更高層次演進。同樣地，人工智能模型也可以透過推理和規劃來產生對自己有益的數據，並利用這些資料進行學習，從而變得更加聰明。

人工智能如何影響現實世界？機器人是關鍵

蒂姆：原來如此，我明白了。那麼，讓我們回到Integral AI的工作上。您剛才提到過多模態（整合多種資訊）的重要性。據我瞭解，您的團隊也在致力機器人領域，而且是與 Denso Wave 合作？

塔里菲：是的。歸根結柢，AI要對現實世界產生影響，必須採取「物理上的實體行動」。而電腦執行實體動作的形式就是機器人。我們將機器人廣泛定義為「可控制的物理工具」。舉例來說，汽車、無人機、電梯等都屬於此類。換句話說，任何可以被智能驅動的物體，都可以算作我們所理解的機器人。

蒂姆：也就是說，只要具有物理形態，並能與現實世界互動的東西，都可以被視為機器人，對吧？

塔里菲：沒錯。這就是我們對「機器人」的廣義定義。如果AI要與現實世界互動，首先深入理解這個世界是非常重要的。

透過視覺理解現實，機器人技術成為其實驗場

作為理解現實的線索，資訊量最豐富的就是「視覺」。據說人類大腦新皮質約有40%與視覺相關，我們透過眼睛獲得的資訊來理解現實，並且投入了大量的能量。視覺與語言也非常契合，語言適合抽象思維，而視覺的作用則是加強我們與現實世界的聯繫。

在抽象思維的世界中，資訊本來就已經有一定程度的整理與組織，因此即使用較低效率的方式處理也能對應。然而，當我們透過眼睛所見來理解現實世界時，所處理的資訊量會急劇增加，問題的結構也變得極其複雜。因此，更高效且精簡的「計算步驟和思考方式（算法）」變得非常必要。

我們的技術當然也能應對像LLM這樣的語言處理，但它真正發揮優勢的地方是處理視覺或現實世界等更具挑戰性的問題。因此，我們將機器人技術視為一個「實驗場」，並將其作為磨練算法性能的平台。作為這一計劃的一部分，我們與像是DENSO WAVE和本田技研工業等多家企業合作，共同探索如何將我們的技術實際應用於產品中。

從行動中學習的AI——主動學習的潛力

蒂姆：AI與機器人技術相結合時，因為涉及到實際的物理元素，確實會增加一定的難度。然而，另一方面，機器人在與現實世界互動的過程中，能夠自我體驗並接收反應，這樣的學習方式也提供了非常獨特的機會。或許，正如人類通過觀察世界來學習，機器人也能通過自己動作並從經驗中學習。換句話說，機器人是否能夠透過自身的經歷和互動，收集可用於學習的數據，這是否是可能的呢？

塔里菲：完全正確。這是我們認為非常重要的一點。目前的AI已經接近可以自行收集學習所需資料的階段。舉例來說，如果您要求人工智能「發明一種新藥」，人工智能會提出一個假設、進行實驗、結合不同的分子、根據結果更新藥物作用的理論，然後進行更多新的實驗。透過重複這些步驟，就有可能做到將科學本身過程自動化。

我們稱這個機制為「主動學習（Active Learning）」，指的是人工智能透過行動來學習的過程。這個概念具有極大的潛力，目前已經以最簡單的形式投入實際使用。我們現在正將其發展為更多樣化、更廣泛適用的形式，並計劃在未來提出*。我們相信這種「主動學習」的演進正是我們實現AGI（人工通用智慧）的關鍵所在。