K线
数据链上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
语言
  • 简体中文
  • 繁体中文
  • English
全球行情数据应用领跑者,致力于更高效地提供有价值的信息。

功能

  • 实时行情
  • 特色功能
  • AI网格

服务

  • 资讯内容
  • 开放数据(API)
  • 机构服务

软件下载

  • PC版
  • Android版
  • iOS版

联系我们

  • 聊天室
  • 商务邮箱
  • 官方邮箱
  • 官方验证通道

加入社区

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|旧版
BTCBTC
💲73932.70
+
3.38%
ETHETH
💲2332.32
+
10.46%
SOLSOL
💲95.27
+
8.1%
XRPXRP
💲1.52
+
7.8%
DOGEDOGE
💲0.1019
+
7.07%
USDCUSDC
💲1.00
+
0.01%

0xFunky
0xFunky|2025年05月29日 17:09
雖然不知道 @stayloudio 跟這篇論文有什麼關係,但看到這篇論文真的有種熟悉感。 這篇 2017 年的論文由 Google 提出,首次拋棄 RNN、CNN,提出只靠「Attention 機制」就能處理語言任務,從此開啟了 Transformer 時代,至今也是所有 LLM(大型語言模型)的基石。 Transformer 的核心概念是: • 語言的關鍵在於上下文的關係,一個詞的意思取決於它與其他詞的關聯。 所以引入「Attention 機制」,讓模型在看一個詞時,同時關注整句話,找出哪些詞是它該注意的重點 — 不再是一個字一個字讀,而是能抓全局重點。 我自己最愛AI 領域最熟的正是 NLP(自然語言處理)當年在 Kaggle 上參加過不少 NLP 比賽拿過一些獎牌。那時最風光的模型是 Google 推出的 BERT,專門做語意理解,Bert 變種模型幾乎橫掃所有 benchmark。 而 OpenAI 也在那時推出了 GPT-2,主打生成能力,但當時穩定性與準確率不如 BERT,還沒進入主流。 直到 GPT-3(2020) 問世,1750 億參數、超強生成力與 few-shot 能力徹底震撼業界。從那一刻起,LLM 成為新王,BERT 系列模型逐漸退場,而 GPT 架構一路發展到 ChatGPT、Claude、Gemini,開啟了現在的AI 大時代。 這一切,都是從那篇論文開始的。 Transformer 架構沒變,但世界早就變了。但我們都還在 attention 中。 ===== 補充模型小知識 • Transformer(2017): 史上第一個純 Attention 架構,開創了不靠 RNN 的語言模型時代。能一次讀完整句話並決定該關注哪些詞,效率與理解力都大幅提升。 • BERT(2018,Google): 基於 Transformer encoder 的「理解型模型」,專門做情感分析、問答、文本分類。像是語言理解高手,用來做閱讀測驗超強。 • GPT(2018 起,OpenAI): 基於 Transformer decoder 的「生成型模型」,擅長寫故事、對話、補句子,是語言創作大師。GPT-3 更是少樣本學習(few-shot learning)能力的代表。 《Attention is All You Need》,經典。
曾提及
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

脉络

06月03日 18:05【零知识证明首次提出于40年前】
06月02日 11:08【CZ提出暗池机制的DEX想法】
05月21日 06:54【Lido V3 白皮书草案提出新架构方向】
05月13日 02:45【Solana 联创提出 Meta 区块链概念】
05月04日 22:42【个人首席财务官供免费使用】

热门快讯

|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

APP下载
Windows
Mac

X

Telegram

Facebook

Reddit

复制链接

热门阅读