(網(wǎng)經(jīng)社訊)近日,德邦證券發(fā)布《AIGC專題二:ChatGPT更懂人類的敘事》。
ChatGPT概述
OpenAI:人工智能研究領(lǐng)域最前沿的公司之一
OpenAI深耕AI領(lǐng)域研究,特色產(chǎn)品包括ChatGPT、DALL·E2、Whisper等。 OpenAI是于2015年12月在美國(guó)成立的人工智能研究公司,由馬斯克、美國(guó)創(chuàng)業(yè)孵化器Y Combinator總裁阿爾特曼、全 球在線支付平臺(tái)PayPal聯(lián)合創(chuàng)始人彼得·蒂爾等硅谷科技大亨創(chuàng)立。 研究方向可以分為三類:訓(xùn)練生成模型算法,即深度學(xué)習(xí)生成模型;從數(shù)據(jù)中推斷算法的算法,即神經(jīng)圖靈機(jī);強(qiáng)化 學(xué)習(xí)方法,可以理解為深度增強(qiáng)學(xué)習(xí)。
ChatGPT月度用戶已破億,正在逐步探索商業(yè)化途徑
ChatGPT是OpenAI在2022年11月30日發(fā)布的全新聊天機(jī)器人模型。 它能夠通過學(xué)習(xí)和理解人類的語(yǔ)言來進(jìn)行對(duì)話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類一樣來聊天交流,甚至 能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務(wù)。 ChatGPT月度用戶已破億,正在逐步探索商業(yè)化途徑。 根據(jù)UBS統(tǒng)計(jì)數(shù)據(jù)顯示,ChatGPT上線2個(gè)月后月度用戶數(shù)量破1億。 2023年2月1日,OpenAI推出付費(fèi)訂閱項(xiàng)目ChatGPT Plus,價(jià)格為$20/月,目前面向美國(guó)用戶。
ChatGPT基于GPT3.5模型進(jìn)化微調(diào),從人類反饋中學(xué)習(xí)
OpenAI 基于GPT模型,使用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的組合來調(diào)優(yōu) ChatGPT,其中人類反饋強(qiáng)化學(xué)習(xí) (RLHF)使 ChatGPT趨近人類價(jià)值觀及意圖。 ChatGPT的訓(xùn)練分為三步:一是訓(xùn)練及微調(diào)GPT模型,獲得語(yǔ)言及代碼的生成能力;二是根據(jù)人類意圖訓(xùn)練,人為標(biāo) 記生成內(nèi)容的排序,訓(xùn)練出獎(jiǎng)勵(lì)模型(Reward Model);三是通過獎(jiǎng)勵(lì)模型為生成內(nèi)容打分,通過近端策略優(yōu)化 (PPO)來優(yōu)化生成模型,使其趨近人類的意圖。
第一步:收集數(shù)據(jù)微調(diào)GPT3.5模型
預(yù)訓(xùn)練的GPT3.5在少量已標(biāo)注的數(shù)據(jù)上進(jìn)行調(diào)優(yōu),以學(xué)習(xí) 從給定的提示詞(prompt)列表生成輸出的有監(jiān)督的策略 。模型選擇:選擇了 GPT-3.5 系列中的預(yù)訓(xùn)練模型,參考InstructGPT, 參數(shù)量最高達(dá)175B。例如,輸入“你好”,通過GPT后輸出“美”。GPT每一次的輸出可 能都是不同的,因?yàn)樵诰W(wǎng)絡(luò)上的語(yǔ)句中,“你好”后面有多種接法, 例如“你好高”、“你好嗎”,而輸出結(jié)果是遵循概率分布的,高頻 組合出現(xiàn)的概率較高。 數(shù)據(jù)收集:使用了兩種不同的提示詞來源。一些是直接使用標(biāo)注人員 或研究人員準(zhǔn)備的,另一些是從 OpenAI 的 API 請(qǐng)求(即從 GPT-3 用 戶那里)獲取的。 策略生成:選擇一個(gè)提示列表,標(biāo)注人員按要求寫下預(yù)期的輸出。最 終得到的結(jié)果是一個(gè)相對(duì)較小、高質(zhì)量的數(shù)據(jù)集,可用于調(diào)優(yōu)預(yù)訓(xùn)練 的語(yǔ)言模型。
第二步:模擬人類偏好,訓(xùn)練獎(jiǎng)勵(lì)模型
對(duì)大量的模型輸出進(jìn)行排序,創(chuàng)建了一個(gè)由比較數(shù)據(jù)組成的 新數(shù)據(jù)集。在此數(shù)據(jù)集上訓(xùn)練新模型,被稱為訓(xùn)練獎(jiǎng)勵(lì)模型 (Reward Model,RM)。 輸出排序:標(biāo)注者根據(jù)人類偏好將輸出從最佳到最差排序。結(jié)果是一 個(gè)新的標(biāo)簽數(shù)據(jù)集。 獎(jiǎng)勵(lì)模型:將有標(biāo)簽的數(shù)據(jù)集用于訓(xùn)練 RM 模型 ,并將生成模型的輸 出,按優(yōu)先順序?qū)λ鼈冞M(jìn)行排序。 例如,輸入“臺(tái)灣最高的山是哪座?” ,輸出可能有兩個(gè)結(jié)果,輸出 一是“玉山”,輸出二是“誰(shuí)來告訴我呀”。兩個(gè)回答都可以與問題 銜接,但是人類的偏好是輸出一,因此RM給兩個(gè)輸出排序時(shí),輸出一 是高于輸出二。
第三步:使用獎(jiǎng)勵(lì)模型,基于PPO進(jìn)行最優(yōu)化
強(qiáng)化學(xué)習(xí)被應(yīng)用于通過優(yōu)化 RM 模型來調(diào)優(yōu)模型,所使用的 特定算法稱為近端策略優(yōu)化(PPO)。 PPO:強(qiáng)化學(xué)習(xí)中的一種方式,通過學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)?現(xiàn)特定目標(biāo)的問題。PPO在實(shí)現(xiàn)的便利性、樣本復(fù)雜性和調(diào)優(yōu)的便利 性之間取得了平衡,試圖在每一步計(jì)算一個(gè)更新,使代價(jià)函數(shù)最小化, 同時(shí)確保與前一個(gè)策略的偏差相對(duì)較小。 調(diào)整目標(biāo):使用RM作為獎(jiǎng)勵(lì)函數(shù),通過PPO算法微調(diào)策略,調(diào)整參數(shù) 獲得最大的獎(jiǎng)勵(lì)。
核心優(yōu)勢(shì)
優(yōu)勢(shì)一:公司與微軟合作,提供上下游支持
微軟作為OpenAI的LP投資者,為公司提供研發(fā)底層支撐及應(yīng)用的大力支持。 資金支持:2019年7月22日,微軟投資OpenAI 10億美元;2023年1月23日,微軟宣布與OpenAI建立長(zhǎng)期合作伙伴關(guān) 系進(jìn)入第三階段,通過一項(xiàng)為期多年、數(shù)十億美元的投資來加速AI的突破。 服務(wù)支持:1)大規(guī)模超級(jí)計(jì)算—— 微軟將增加對(duì)開發(fā)和部署專用超級(jí)計(jì)算系統(tǒng)的投資,以加速OpenAI的研究;繼續(xù) 構(gòu)建 Azure 領(lǐng)先的 AI 基礎(chǔ)結(jié)構(gòu)。2)獨(dú)家云提供商 - Azure將為研究、產(chǎn)品和API服務(wù)中的所有OpenAI工作提供支持。 應(yīng)用支持:1月17日微軟表示,計(jì)劃將包括ChatGPT、DALL-E等人工智能工具整合進(jìn)微軟旗下的所有產(chǎn)品中,并將其 作為平臺(tái)供其他企業(yè)使用,包括且不限于Bing搜索引擎、Microsoft Office、Azure云服務(wù)、Teams聊天程序等。
應(yīng)用場(chǎng)景
ChatGPT以采取會(huì)員收費(fèi),未來或拓展商業(yè)模式
OpenAI的商業(yè)模式為,會(huì)員收費(fèi)、開放API以及與微軟的戰(zhàn)略合作。 會(huì)員服務(wù):2023年2月1日,OpenAI推出付費(fèi)訂閱項(xiàng)目ChatGPT Plus,價(jià)格為$20/月,目前面向美國(guó)用戶。付費(fèi)服務(wù)包括,在高 峰時(shí)段也可常規(guī)訪問ChatGPT、更快的響應(yīng)、以及優(yōu)先訪問新功能和改進(jìn)。ChatGPT將繼續(xù)提供免費(fèi)訪問。 API服務(wù):ChatGPT或?qū)⒓尤隣penAI API,從下游用戶的使用中收取費(fèi)用。目前OpenAI的API以Token對(duì)于NLP的文字進(jìn)行收費(fèi), 例如莎士比亞作品集需要1.2M的Token。 與微軟合作:使用 Azure OpenAI 服務(wù),采用即用即付的消費(fèi)模式,以Token或托管時(shí)長(zhǎng)進(jìn)行收費(fèi)。
GPT系列API可為下游應(yīng)用提供語(yǔ)言和代碼處理
ChatGPT尚未開放API,因此參考已開放API的Text-davinci-003和Code-davinci-002來解讀其功能。 ChatGPT與Text-davinci-003的能力相似,均屬于GPT3.5系列模型。 實(shí)現(xiàn)功能包括:回答問題、分類、編寫代碼、對(duì)話、生成、翻譯和轉(zhuǎn)換。
ToB:GPT系列已應(yīng)用到辦公應(yīng)用、智能客服等
辦公應(yīng)用:1)AI輔助編程 :GitHub Copilot 可輔助程序員編程,通過Codex在代碼編輯器中為整行或某個(gè)函數(shù)提供建議。2)市 場(chǎng)調(diào)研工具:Viable 使用 GPT-3 從客戶反饋中提供有用的見解,可以從調(diào)查、票證、實(shí)時(shí)聊天日志、評(píng)論等中識(shí)別和提取主題 內(nèi)容和情緒,并在幾秒鐘內(nèi)提供內(nèi)容總結(jié)。 智能客服:Algolia和ActiveChat 使用了 GPT-3 來更好地理解客戶的問題,并將他們連接到回答他們問題的內(nèi)容的特定部分。
ToC:GPT系列已應(yīng)用到學(xué)習(xí)類于創(chuàng)作類生成
學(xué)習(xí)類:1)論文檢索:GithubElicit是一個(gè)人工智能研究助手,通過檢索已發(fā)表的論文,從大量研究論文中查找最相 關(guān)的摘要,并應(yīng)用 GPT-3 的自定義功能來生成答案。2)語(yǔ)言學(xué)習(xí):Duolingo作為一個(gè)語(yǔ)言學(xué)習(xí)平臺(tái),已經(jīng)使用 GPT3 進(jìn)行法語(yǔ)語(yǔ)法更正。Duolingo 的一項(xiàng)內(nèi)部研究表明,使用此功能可以顯著提高用戶的第二語(yǔ)言寫作技巧。
創(chuàng)作類:1)Blog創(chuàng)意生成:Blog Idea Generator通過采用搜索關(guān)鍵字來分析該主題在Google里最受歡迎的內(nèi)容。基 于獲取的數(shù)據(jù),軟件通過GPT-3生成內(nèi)容來獲得更高的閱讀量。2)寫作造句工具:Compose.ai 是一個(gè)免費(fèi)的Chrome 擴(kuò)展程序,可使用AI自動(dòng)進(jìn)行寫作。只需要輸入關(guān)鍵字詞和主要內(nèi)容,GPT-3可協(xié)助生成完整語(yǔ)句,構(gòu)成全文。
ToC:GPT系列還應(yīng)用于娛樂及生活類APP
娛樂類:1)AI驅(qū)動(dòng)游戲:AI Dungeon是一款由AI驅(qū)動(dòng)的基于文本的角色扮演游戲,AI會(huì)自動(dòng)生成故事,玩家可以在 其中輸入對(duì)話,人工智能將以新的事件和對(duì)話作出回應(yīng),創(chuàng)造獨(dú)特且不可預(yù)測(cè)的游戲體驗(yàn)。2)AI聊天伙伴: WhatsApp 上的AI Buddy是由GPT-3.5驅(qū)動(dòng)的軟件,可以和用戶進(jìn)行對(duì)話,就像發(fā)消息給朋友一樣。例如,“給我講個(gè) 笑話”、“給我一個(gè)博客構(gòu)思”等。
生活類:稅務(wù)助手:Keeper Tax可幫助個(gè)人記錄稅務(wù)情況。在關(guān)聯(lián)到個(gè)人財(cái)務(wù)賬號(hào)后,Keeper Tax用不同模型提取文 本信息并分類交易類型。
應(yīng)用一:ChatGPT已與搜索引擎相結(jié)合
ChatGPT已加入瀏覽器擴(kuò)展程序,集成了ChatGPT-4的BING短暫上線 。 ChatGPT已作為擴(kuò)展程序加入到Chrome、Firefox、Edge等瀏覽器的應(yīng)用中;Bing、谷歌等搜索引擎中將接入ChatGPT, 得到自然語(yǔ)言回答。 集成了 ChatGPT-4 的新版 Bing 曾于2月4日短暫上線。據(jù)設(shè)計(jì)師 Owen Yin分享的截圖,新版 Bing 的搜索框變?yōu)榱奶?框,會(huì)在聊天氣泡中回復(fù)用戶的問題。新版 Bing 鼓勵(lì)用戶使用自然語(yǔ)言而不是關(guān)鍵字進(jìn)行搜索,還能夠根據(jù)用戶的要 求調(diào)整搜索結(jié)果。
應(yīng)用二:泛娛樂行業(yè)應(yīng)用,包括游戲、直播等方面
元境科技率先接入ChatGPT,結(jié)合自研多模態(tài)智能算法,完成了行業(yè)首個(gè)AIGC互動(dòng)直播功能的落地。 元境科技虛擬數(shù)字人已經(jīng)接入ChatGPT等模型,并已在Tik Tok跨境電商直播、虛擬主播直播互動(dòng)等場(chǎng)景實(shí)現(xiàn)應(yīng)用,并 形成產(chǎn)品化解決方案。未來,將更加關(guān)注數(shù)字人與ChatGPT等模型的整合應(yīng)用,快速擴(kuò)展到不同行業(yè)、不同場(chǎng)景。 行業(yè)首個(gè)應(yīng)用此項(xiàng)技術(shù)的虛擬主播是虛擬二次元網(wǎng)紅CiCi。在最近的一大段時(shí)間里CiCi的直播早已替換為了AIGC互動(dòng) 直播,在測(cè)試應(yīng)用期間一眾粉絲均未看出任何異樣,同時(shí)在使用測(cè)試期間粉絲量也持續(xù)穩(wěn)步提升。
類似產(chǎn)品
Claude:谷歌旗下ChatGPT有力競(jìng)品
Claude是Anthropic新推出的一款類似于ChatGPT的AI助手,谷歌已經(jīng)向Anthropic投資約3億美元。 Anthropic是由前OpenAI的一支研發(fā)團(tuán)隊(duì)出走成立的人工智能初創(chuàng)公司,大多為 OpenAI 的早期及核心員工,深度參與過OpenAI 的多項(xiàng)課題,比如GPT-3、神經(jīng)網(wǎng)絡(luò)里的多模態(tài)神經(jīng)元、引入人類偏好的強(qiáng)化學(xué)習(xí)等。 根據(jù)Financial Times報(bào)道,谷歌已經(jīng)向Anthropic投資約3億美元。通過這筆交易,谷歌將獲得Anthropic約10%的股份,后者要用 這筆錢從前者的云計(jì)算部門購(gòu)買大量計(jì)算資源。 Claude目前還處于實(shí)驗(yàn)階段,開創(chuàng)性引入了“憲法人工智能”(Constitutional AI,CAI)的概念。 與RLHF不同,憲法AI的過程使用模型而不是人類來生成微調(diào)輸出的初始排名,根據(jù)一系列基本原則選擇最佳回復(fù),即RLAIF。
百度:擁有打造國(guó)產(chǎn)ChatGPT能力的公司
百度擁有飛槳(深度學(xué)習(xí)開源框架)、百度AI大底座(全棧AI基礎(chǔ)設(shè)施)和文心大模型(AI應(yīng)用場(chǎng)景全覆蓋)。 PaddlePaddle飛槳是中國(guó)自主研發(fā)的第一個(gè)深度學(xué)習(xí)框架。深度學(xué)習(xí)框架是在完成深度學(xué)習(xí)時(shí)一套可以復(fù)用的代碼,使得使用 者在開發(fā)深度學(xué)習(xí)程序時(shí)可以不用從復(fù)雜的神經(jīng)網(wǎng)絡(luò)搭建開始編代碼,而是在已有的模型上進(jìn)行個(gè)性化改進(jìn)。 百度AI大底座:國(guó)內(nèi)首個(gè)全棧自研的Al基礎(chǔ)設(shè)施,面向企業(yè)Al開發(fā)和應(yīng)用,提供端到端自主可控、自我進(jìn)化的解決方案讓企業(yè)可 以快捷、低成本地實(shí)現(xiàn)“Al能力隨用隨取” 。文心大模型:源于產(chǎn)業(yè)、服務(wù)于產(chǎn)業(yè),是產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型。百度通過大模型與國(guó)產(chǎn)深度學(xué)習(xí)框架融合發(fā)展,打造了自主創(chuàng) 新的AI底座,大幅降低了AI開發(fā)和應(yīng)用的門檻,滿足真實(shí)場(chǎng)景中的應(yīng)用需求,真正發(fā)揮大模型驅(qū)動(dòng)AI規(guī)?;瘧?yīng)用的產(chǎn)業(yè)價(jià)值。
ERNIE:百度基于BERT打造的NLP模型
2月7日,百度官宣其新的大模型項(xiàng)目“文心一言”,英文名ERNIE Bot。 ERNIE是百度開創(chuàng)性提出的基于知識(shí)增強(qiáng)的持續(xù)學(xué)習(xí)語(yǔ)義理解框架。 ERNIE在情感分析、文本匹配、自然語(yǔ)言推理、詞法分析、閱讀理解、智能問答等16個(gè)公開數(shù)據(jù)集上全面顯著超越世 界領(lǐng)先技術(shù),在國(guó)際權(quán)威的通用語(yǔ)言理解評(píng)估基準(zhǔn)GLUE上,得分首次突破90分,獲得全球第一。 ERNIE在工業(yè)界得到了大規(guī)模應(yīng)用,如搜索引擎、新聞推薦、廣告系統(tǒng)、語(yǔ)音交互、智能客服等。
ERNIE由BERT進(jìn)化而來,經(jīng)過一系列的升級(jí),目前已推出3.0版本。 在 ERNIE 3.0 中,自回歸和自編碼網(wǎng)絡(luò)被創(chuàng)新型地融合在一起進(jìn)行預(yù)訓(xùn)練。 自編碼網(wǎng)絡(luò)采用 ERNIE 2.0 的多任務(wù)學(xué)習(xí)增量式構(gòu)建預(yù)訓(xùn)練任務(wù),持續(xù)的進(jìn)行語(yǔ)義理解學(xué)習(xí)。 通過新增的實(shí)體預(yù)測(cè)、 句子因果關(guān)系判斷、文章句子結(jié)構(gòu)重建等語(yǔ)義任務(wù)進(jìn)行預(yù)訓(xùn)練;同時(shí),創(chuàng)新性地增加了知識(shí)增強(qiáng)的預(yù)訓(xùn)練任務(wù)。 自回歸網(wǎng)絡(luò)基于 Tranformer-XL 結(jié)構(gòu),支持長(zhǎng)文本語(yǔ)言模型建模。多范式的統(tǒng)一預(yù)訓(xùn)練模式使得 ERNIE 3.0 能夠在理 解任務(wù)、生成任務(wù)和零樣本學(xué)習(xí)任務(wù)上獲取 SOTA 的表現(xiàn)。