| AiCoin 实时快讯

ETH

💲2115.41

1.09%

0xFunky|2025年05月29日 17:09

雖然不知道 @stayloudio 跟這篇論文有什麼關係，但看到這篇論文真的有種熟悉感。這篇 2017 年的論文由 Google 提出，首次拋棄 RNN、CNN，提出只靠「Attention 機制」就能處理語言任務，從此開啟了 Transformer 時代，至今也是所有 LLM（大型語言模型）的基石。 Transformer 的核心概念是： • 語言的關鍵在於上下文的關係，一個詞的意思取決於它與其他詞的關聯。所以引入「Attention 機制」，讓模型在看一個詞時，同時關注整句話，找出哪些詞是它該注意的重點 — 不再是一個字一個字讀，而是能抓全局重點。我自己最愛AI 領域最熟的正是 NLP（自然語言處理）當年在 Kaggle 上參加過不少 NLP 比賽拿過一些獎牌。那時最風光的模型是 Google 推出的 BERT，專門做語意理解，Bert 變種模型幾乎橫掃所有 benchmark。而 OpenAI 也在那時推出了 GPT-2，主打生成能力，但當時穩定性與準確率不如 BERT，還沒進入主流。直到 GPT-3（2020）問世，1750 億參數、超強生成力與 few-shot 能力徹底震撼業界。從那一刻起，LLM 成為新王，BERT 系列模型逐漸退場，而 GPT 架構一路發展到 ChatGPT、Claude、Gemini，開啟了現在的AI 大時代。這一切，都是從那篇論文開始的。 Transformer 架構沒變，但世界早就變了。但我們都還在 attention 中。 ===== 補充模型小知識 • Transformer（2017）：史上第一個純 Attention 架構，開創了不靠 RNN 的語言模型時代。能一次讀完整句話並決定該關注哪些詞，效率與理解力都大幅提升。 • BERT（2018，Google）：基於 Transformer encoder 的「理解型模型」，專門做情感分析、問答、文本分類。像是語言理解高手，用來做閱讀測驗超強。 • GPT（2018 起，OpenAI）：基於 Transformer decoder 的「生成型模型」，擅長寫故事、對話、補句子，是語言創作大師。GPT-3 更是少樣本學習（few-shot learning）能力的代表。《Attention is All You Need》，經典。