(網(wǎng)經(jīng)社訊)浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院朱強教授的《DeepSeek技術(shù)溯源及前沿探索》解讀來了。這是正經(jīng)的計算機科班的解讀。該報告主要是介紹大模型的發(fā)展歷程和技術(shù)原理,分為五部分,從語言模型、Transformer架構(gòu)、chatGPT一直講到DeepSeek,并對新一代智能體進行前沿展望。
一、語言模型
1.語言模型的基本任務(wù)是計算詞序列成為一句話的概率。報告從早期的統(tǒng)計方法(如N-gram)到基于神經(jīng)網(wǎng)絡(luò)的LSTM/GRU,再到Transformer架構(gòu)的演進進行了詳細講解。
2.Word Embedding:通過低維詞向量表示單詞,使得語義相近的單詞在向量空間中距離相近。報告還介紹了One-hot Encoding的局限性,并展示了Word Embedding如何解決這些問題。
二、Transformer架構(gòu)
1.Transformer是當(dāng)前大模型的技術(shù)基座,其核心創(chuàng)新在于自注意力機制(Self-Attention)和多頭注意力機制(Multi-Head Attention),這些機制使得模型能夠并行計算并捕捉全局上下文信息。
2.報告詳細解釋了Transformer的訓(xùn)練機制,特別是如何通過Query、Key、Value的機制來實現(xiàn)對文本的理解和處理。
三、ChatGPT
1.ChatGPT是基于GPT-3.5的模型,通過人類反饋的強化學(xué)習(xí)(RLHF)進行微調(diào),使其能夠生成翔實、公正的回應(yīng),并拒絕不當(dāng)問題。
2.報告還介紹了ChatGPT的技術(shù)演進路徑,從GPT-3到GPT-3.5,再到ChatGPT的推出,展示了其在生成、創(chuàng)造和上下文學(xué)習(xí)方面的強大能力。
四、DeepSeek技術(shù)
1.DeepSeek是浙江大學(xué)自主研發(fā)的大模型技術(shù),報告詳細介紹了其技術(shù)演進路徑,從DeepSeek-V3到DeepSeek-R1,再到DeepSeek-R1-Distill。
2.DeepSeek-V3對標(biāo)GPT-4,采用了混合專家模型(MoE)和極致的工程優(yōu)化,顯著提升了模型的推理能力和訓(xùn)練效率。
3.DeepSeek-R1則通過強化學(xué)習(xí)和規(guī)則獎勵機制,進一步提升了模型的推理能力,特別是在數(shù)學(xué)和編程任務(wù)上的表現(xiàn)。
五、新一代智能體
報告探討了從大語言模型(LLM)到智能體(Agent)的演進,強調(diào)了智能體的核心能力是邏輯推理(系統(tǒng)2),并介紹了智能體在任務(wù)規(guī)劃、工具使用和記憶管理方面的能力。