Hi 我是 Vicky
Generative AI 的爆紅,也讓我更想知道「why now」。究竟是什麼樣的基礎設施夠成熟了,才推動這股熱潮?未來會有哪些層面的應用是目前可預期的?這些問題都在寫作過程中一一解答。
希望你會喜歡這期的內容,也祝你今天一切順利!
喜歡本期內容,也歡迎推薦朋友訂閱,並歡迎給我回饋及建議。
Generative AI 領域最近掀起一股熱潮。不僅有科技巨頭 Google、Microsoft 都大力投資外,還有各種以Generative AI 為基礎的新創陸續崛起。但為什麼是現在呢?
「Why Now」(為什麼是現在?)是每個行業都會遇到的大哉問。而同樣問題放到 Generative AI 上,背後的原因又是什麼呢?
Contrary Research 的電子報中,給了一段精闢見解:「AI 的快速發展可歸因於兩大要素:大型語言模型的進展、 企業對於自然語言處理(Natural language processing , NLP)的強烈需求。」再者,科技巨頭也都加碼投資在這領域中。
AI 成為 Microsoft 、Google 等科技巨頭的軍備競賽
在 AI 的佈局,儼然成為 Microsoft 、Google 等科技巨頭的軍備競賽。
早在 2019 年 7 月,Microsoft 就已向 AI 研究機構 OpenAI 投資了 10 億美元。近期,再傳 Microsoft 正對OpenAI 新一輪的融資進行談判,估值可能達 200 億美元。
目前 OpenAI 已經是 Microsoft 雲端運端服務 Azure 的獨家夥伴。新一輪的資金也有望在 Azure有更多 AI 人工智慧的應用鋪路。
當然,Google 也不落人後。根據知情人士消息指出,目前 Google 正向自然語言處理(Natural language processing , 簡稱 NLP)新創 Cohere,進行至少 2 億美元的投資談判。
Cohere 主要透過 Generation(以 GPT-2 、GPT-3 等模型來訓練寫作任務) 、Representation(以 BERT 等模型來訓練閱讀任務)兩種 NLP 模型,為各種閱讀和寫作任務上,進行自然語言模型的訓練。
為什麼 Google 願意投資這家新創?Cohere 解決了多數企業都難以解決的問題:訓練複雜的語言模型。這件事如果企業本身自己來做,需要資金、懂 AI 的專業人才等。但關鍵兩要素,尤其後者,卻是多數企業都缺乏的。
Cohere 看見了市場需求、也提供多數企業另種選項。有了 Cohere 的服務後,企業端可以避免資源限制的問題,且能透過 NLP 模型,槓桿出更多應用。像是,建立聊天機器人(chatbot)、個人數位助理、分析觀點和意見,以及擬出原創內容的草稿等。
以上,未來 Google 八九不離十會依循 Microsoft 將 AI 應用綑綁(bundle)進現有的生產力平台 — 也就是 Google Workspace 中。
AI 四大階段的演進
科技巨頭大力投資 AI 領域是結果,背後的原因正是 Generative AI 和更廣泛的 AI 應用有了「更好的模型」、「更多用戶數據」、「更多的計算」,一切的進展都比過往要好上許多。
至於「大型語言模型的進展」,可以分成四大階段的進展:(這邊主要參考紅杉資本(Sequoia Capital)的文章,各個階段的完整說明,可直接閱讀該篇。)
基本上,AI 已從過往「分析事物」,到如今能夠「創造事物」了。過去分析現有的數據或已存在的事物(檢測垃圾郵件等)。現在 AI 能夠真正創造出圖像、文章、影片等原創內容。
第一波:小型模型的統治(Pre-2015)
剛開始能夠理解語言的小型模型,被認為是最先進的科技。而這些模型擅長分析任務,並部署(deploy)在像是預測快遞時間、分類詐騙信件等工作上。
這階段的 AI 應用以「分析」「分類」為主,還沒有進展到 Generative AI 的廣泛應用上。
第二波:規模競賽(2015 至今)
在 2017 年,Google 和多倫多大學研究人員共同發表了一份極具里程碑的論文 (Attention is All You Need)。截至目前為止(2022 / 11 / 04)已有超過 5 萬次的引用。
研究人員在這篇論文中,提出了一種新穎且簡單的自然語言理解的神經網絡架構「Transformer」,且是單獨建立在「注意力機制」(attention mechanism)上。
與過往建立在主流的序列轉導模型(sequence transduction models,將某段文字或語音轉換為另一種形式的表示法)上有所不同。像是, RNN (recurrent neural networks)或 CNN (convolutional neural networks)等模型結構。
透過「注意力機制」能夠讓模型的結構變得更簡單,而且在訓練及推理可平行處理(parallelizable),也就越能節省時間。這些都大幅改善 RNN 、CNN 模型結構上的缺點。
以 RNN 為例,它處理輸入序列(sequence)的方式是按照序列的順序,一個個處理其中的元素。想像一下超市或量販店結帳時只開了一個櫃台,肯定非常耗時。而「注意力機制」則是以平行方式(開很多櫃台),同時處理則以更有效率方式完成。簡單來說,透過「注意力機制」也就不必逐字逐句地工作。
再者,隨著模型亦趨龐大,它們能夠產出接近人類水準的事物,接著有了更多數據反饋和調整後,超越人類的水準也就不遠了。
在 2015 年至 2020 年間,用來訓練這些模型的運算增加了 6 個數量級(orders of magnitude)。因此,在手寫、演講、圖像識別、閱讀理解和語言理解這五個方面上,都有超越人類水準的表現。
但儘管這些基礎研究有了重要進展,但這些模型並不普遍。它們體積龐大且難以運行(需要 GPU 編排),需要特定訪問權限。而且以雲端服務運行的成本很高。
儘管存在這些限制,但最早的 Generative AI 應用程式已經開始進入競爭。
第三波:更好、更快、更便宜(2022+)
從「封閉」到「開放」是這階段的特色。當基礎設施都建構完成後,運算變得更便宜、以 diffusion model 等的新技術出現後,也削減了訓練和推理的的成本。開發者也能將過去的需要權限限制轉為全面開放、開源版本等。
隨著訪問權限的開放,也打開了更多探索和開發 Generative AI 的大門。這也預示著下階段將迎來:應用程式的蓬勃。
第四波:殺手級應用程式的出現(現在)
隨著平臺層的強化、趨於免費和開源模型變得更好、更快、更便宜。以上這些基礎設施的成熟,都催生更廣泛應用層(application layer)的創新。
就像是手機可以透過 GPS、鏡頭等新基礎建設到位後,有了更多創新的應用。未來也將會有更多以 Generative AI 為基礎的應用程式出現。
Generative AI 掀起熱潮,但為什麼是現在? - Vicky Ho — vickyho.com
Generative AI 領域最近掀起一股熱潮。不僅有科技巨頭 Google、Microsoft 都大力投資外,還有各種以Generative AI 為基礎的新創陸續崛起。但為什麼是現在呢