Generative AI 掀起熱潮，但為什麼是現在？

Vicky's newsletter #10

Nov 06, 2022

Hi 我是 Vicky

Generative AI 的爆紅，也讓我更想知道「why now」。究竟是什麼樣的基礎設施夠成熟了，才推動這股熱潮？未來會有哪些層面的應用是目前可預期的？這些問題都在寫作過程中一一解答。

希望你會喜歡這期的內容，也祝你今天一切順利！

喜歡本期內容，也歡迎推薦朋友訂閱，並歡迎給我回饋及建議。

Generative AI 領域最近掀起一股熱潮。不僅有科技巨頭 Google、Microsoft 都大力投資外，還有各種以Generative AI 為基礎的新創陸續崛起。但為什麼是現在呢？

「Why Now」（為什麼是現在？）是每個行業都會遇到的大哉問。而同樣問題放到 Generative AI 上，背後的原因又是什麼呢？

Contrary Research 的電子報中，給了一段精闢見解：「AI 的快速發展可歸因於兩大要素：大型語言模型的進展、企業對於自然語言處理（Natural language processing , NLP）的強烈需求。」再者，科技巨頭也都加碼投資在這領域中。

AI 成為 Microsoft 、Google 等科技巨頭的軍備競賽

在 AI 的佈局，儼然成為 Microsoft 、Google 等科技巨頭的軍備競賽。

早在 2019 年 7 月，Microsoft 就已向 AI 研究機構 OpenAI 投資了 10 億美元。近期，再傳 Microsoft 正對OpenAI 新一輪的融資進行談判，估值可能達 200 億美元。

目前 OpenAI 已經是 Microsoft 雲端運端服務 Azure 的獨家夥伴。新一輪的資金也有望在 Azure有更多 AI 人工智慧的應用鋪路。

當然，Google 也不落人後。根據知情人士消息指出，目前 Google 正向自然語言處理（Natural language processing , 簡稱 NLP）新創 Cohere，進行至少 2 億美元的投資談判。

Cohere 主要透過 Generation（以 GPT-2 、GPT-3 等模型來訓練寫作任務）、Representation（以 BERT 等模型來訓練閱讀任務）兩種 NLP 模型，為各種閱讀和寫作任務上，進行自然語言模型的訓練。

為什麼 Google 願意投資這家新創？Cohere 解決了多數企業都難以解決的問題：訓練複雜的語言模型。這件事如果企業本身自己來做，需要資金、懂 AI 的專業人才等。但關鍵兩要素，尤其後者，卻是多數企業都缺乏的。

Cohere 看見了市場需求、也提供多數企業另種選項。有了 Cohere 的服務後，企業端可以避免資源限制的問題，且能透過 NLP 模型，槓桿出更多應用。像是，建立聊天機器人（chatbot）、個人數位助理、分析觀點和意見，以及擬出原創內容的草稿等。

以上，未來 Google 八九不離十會依循 Microsoft 將 AI 應用綑綁（bundle）進現有的生產力平台 — 也就是 Google Workspace 中。

AI 四大階段的演進

科技巨頭大力投資 AI 領域是結果，背後的原因正是 Generative AI 和更廣泛的 AI 應用有了「更好的模型」、「更多用戶數據」、「更多的計算」，一切的進展都比過往要好上許多。

至於「大型語言模型的進展」，可以分成四大階段的進展：（這邊主要參考紅杉資本（Sequoia Capital）的文章，各個階段的完整說明，可直接閱讀該篇。）

基本上，AI 已從過往「分析事物」，到如今能夠「創造事物」了。過去分析現有的數據或已存在的事物（檢測垃圾郵件等）。現在 AI 能夠真正創造出圖像、文章、影片等原創內容。

第一波：小型模型的統治（Pre-2015）

剛開始能夠理解語言的小型模型，被認為是最先進的科技。而這些模型擅長分析任務，並部署（deploy）在像是預測快遞時間、分類詐騙信件等工作上。

這階段的 AI 應用以「分析」「分類」為主，還沒有進展到 Generative AI 的廣泛應用上。

第二波：規模競賽（2015 至今）

在 2017 年，Google 和多倫多大學研究人員共同發表了一份極具里程碑的論文 (Attention is All You Need)。截至目前為止（2022 / 11 / 04）已有超過 5 萬次的引用。

研究人員在這篇論文中，提出了一種新穎且簡單的自然語言理解的神經網絡架構「Transformer」，且是單獨建立在「注意力機制」（attention mechanism）上。

與過往建立在主流的序列轉導模型（sequence transduction models，將某段文字或語音轉換為另一種形式的表示法）上有所不同。像是， RNN （recurrent neural networks）或 CNN （convolutional neural networks）等模型結構。

透過「注意力機制」能夠讓模型的結構變得更簡單，而且在訓練及推理可平行處理（parallelizable），也就越能節省時間。這些都大幅改善 RNN 、CNN 模型結構上的缺點。

以 RNN 為例，它處理輸入序列（sequence）的方式是按照序列的順序，一個個處理其中的元素。想像一下超市或量販店結帳時只開了一個櫃台，肯定非常耗時。而「注意力機制」則是以平行方式（開很多櫃台），同時處理則以更有效率方式完成。簡單來說，透過「注意力機制」也就不必逐字逐句地工作。

再者，隨著模型亦趨龐大，它們能夠產出接近人類水準的事物，接著有了更多數據反饋和調整後，超越人類的水準也就不遠了。

在 2015 年至 2020 年間，用來訓練這些模型的運算增加了 6 個數量級（orders of magnitude）。因此，在手寫、演講、圖像識別、閱讀理解和語言理解這五個方面上，都有超越人類水準的表現。

但儘管這些基礎研究有了重要進展，但這些模型並不普遍。它們體積龐大且難以運行（需要 GPU 編排），需要特定訪問權限。而且以雲端服務運行的成本很高。

儘管存在這些限制，但最早的 Generative AI 應用程式已經開始進入競爭。

第三波：更好、更快、更便宜（2022+）

從「封閉」到「開放」是這階段的特色。當基礎設施都建構完成後，運算變得更便宜、以 diffusion model 等的新技術出現後，也削減了訓練和推理的的成本。開發者也能將過去的需要權限限制轉為全面開放、開源版本等。

隨著訪問權限的開放，也打開了更多探索和開發 Generative AI 的大門。這也預示著下階段將迎來：應用程式的蓬勃。

第四波：殺手級應用程式的出現（現在）

隨著平臺層的強化、趨於免費和開源模型變得更好、更快、更便宜。以上這些基礎設施的成熟，都催生更廣泛應用層（application layer）的創新。

就像是手機可以透過 GPS、鏡頭等新基礎建設到位後，有了更多創新的應用。未來也將會有更多以 Generative AI 為基礎的應用程式出現。

Generative AI 掀起熱潮，但為什麼是現在？ - Vicky Ho — vickyho.com

Generative AI 領域最近掀起一股熱潮。不僅有科技巨頭 Google、Microsoft 都大力投資外，還有各種以Generative AI 為基礎的新創陸續崛起。但為什麼是現在呢

VK 科技閱讀時間