每日經濟新(xin)聞 2022-12-13 10:39:21
每經AI快(kuai)訊(xun),中國銀河12月13日發布研報稱:給予計算機推薦(維持)評級。
事件(jian):12月1日,美國人工(gong)智(zhi)能公(gong)司OpenAI在網頁上推出自(zi)然語(yu)言處理領域(NLP)的模型ChatGPT,它(ta)能夠通過對(dui)話方式進行交(jiao)互,并根據用戶輸入的自(zi)然語(yu)言文本內(nei)容,自(zi)動(dong)生成新的文本內(nei)容。一(yi)周內(nei),ChatGPT的用戶已突破100萬(wan)。
什(shen)么(me)是(shi)(shi)ChatGPT:ChatGPT是(shi)(shi)在GPT3.5大模(mo)型(xing)(xing)語言模(mo)型(xing)(xing)(LLM,即LargeLanguageModel)的(de)基(ji)礎上,加入(ru)“基(ji)于(yu)人(ren)類反饋的(de)強化學習(RLHF,ReinforcementLearningfromHumanFeedback)”來(lai)不(bu)斷微調(Fine-tune)預(yu)訓(xun)練語言模(mo)型(xing)(xing),使得(de)LLM模(mo)型(xing)(xing)學會理解不(bu)同(tong)類型(xing)(xing)的(de)命令指令,并通(tong)過(guo)多重標準(zhun)合理判斷基(ji)于(yu)給定(ding)的(de)prompt輸入(ru)指令,輸出的(de)是(shi)(shi)否為(wei)優質(zhi)信(xin)息(xi)(這(zhe)些標準(zhun)包括:富(fu)含(han)信(xin)息(xi)、內容(rong)豐富(fu)、對用戶(hu)有幫(bang)助、無害、不(bu)包含(han)歧視信(xin)息(xi)等)。
ChatGPT引爆AIGC,AIGC將(jiang)迎多場景爆發(fa)期(qi):AIGC即AI-GeneratedContent,是繼UGC、PGC之后利用AI技(ji)術自動生成內容的(de)新(xin)型生產方式。相比UGC和PGC,AIGC的(de)最大不同是基于(yu)海量數(shu)據、風格隨機(ji)多變、跨模(mo)態(tai)融合、認(ren)知交互(hu)力等新(xin)技(ji)術導向特征。隨著ChatGPT的(de)技(ji)術日漸成熟,AIGC將(jiang)在電商虛(xu)擬主播、教育、金融、醫療、影視娛樂等多場景爆發(fa),并進一步催(cui)生元宇宙的(de)快速發(fa)展。
ChatGPT的(de)(de)(de)(de)(de)技(ji)術(shu)發(fa)(fa)展(zhan)(zhan)路徑:從GPT-1到(dao)(dao)InstructGPT,數據(ju)(ju)量(liang)(liang)與(yu)參(can)(can)數量(liang)(liang)不(bu)(bu)(bu)斷增(zeng)加,模(mo)(mo)(mo)(mo)型(xing)精度和(he)(he)能(neng)力提升:2018年(nian),在(zai)(zai)(zai)自然(ran)語言(yan)(yan)處(chu)理(li)(li)(li)領(ling)域(yu)(NLP)剛興起時,OpenAI就(jiu)推(tui)出了(le)(le)初代(dai)GPT,它(ta)的(de)(de)(de)(de)(de)運行邏(luo)輯(ji)是(shi):先通過(guo)無(wu)標(biao)(biao)(biao)簽(qian)數據(ju)(ju)學(xue)(xue)(xue)習生成(cheng)(cheng)(cheng)語言(yan)(yan)模(mo)(mo)(mo)(mo)型(xing),并能(neng)夠(gou)運用于一(yi)些(xie)與(yu)有監(jian)(jian)督(du)任(ren)務(wu)(wu)無(wu)關的(de)(de)(de)(de)(de)NLP任(ren)務(wu)(wu)中。此后(hou)再根據(ju)(ju)特定的(de)(de)(de)(de)(de)下游任(ren)務(wu)(wu)進(jin)(jin)行有監(jian)(jian)督(du)的(de)(de)(de)(de)(de)微(wei)調,提高其泛化(hua)能(neng)力。GPT-2擴展(zhan)(zhan)了(le)(le)網絡參(can)(can)數和(he)(he)數據(ju)(ju)集(ji),進(jin)(jin)行多任(ren)務(wu)(wu)學(xue)(xue)(xue)習,可以在(zai)(zai)(zai)數據(ju)(ju)量(liang)(liang)足(zu)(zu)夠(gou)豐富且模(mo)(mo)(mo)(mo)型(xing)容(rong)量(liang)(liang)足(zu)(zu)夠(gou)大(da)時,通過(guo)訓練(lian)語言(yan)(yan)模(mo)(mo)(mo)(mo)型(xing)就(jiu)能(neng)夠(gou)完成(cheng)(cheng)(cheng)有監(jian)(jian)督(du)學(xue)(xue)(xue)習的(de)(de)(de)(de)(de)任(ren)務(wu)(wu)。對比(bi)GPT-2,2020年(nian)推(tui)出的(de)(de)(de)(de)(de)GPT-3最(zui)顯(xian)著的(de)(de)(de)(de)(de)特征(zheng)是(shi)龐大(da)的(de)(de)(de)(de)(de)數據(ju)(ju)量(liang)(liang)和(he)(he)參(can)(can)數投入(ru),整(zheng)體訓練(lian)過(guo)程耗資1200萬(wan)美元(yuan),投入(ru)數據(ju)(ju)量(liang)(liang)達上(shang)萬(wan)億,模(mo)(mo)(mo)(mo)型(xing)參(can)(can)數量(liang)(liang)達到(dao)(dao)1750億。GPT-3延續了(le)(le)前(qian)兩代(dai)GPT的(de)(de)(de)(de)(de)技(ji)術(shu)架(jia)構(gou),但改(gai)變了(le)(le)“大(da)規模(mo)(mo)(mo)(mo)數據(ju)(ju)集(ji)預訓練(lian)+下游數據(ju)(ju)標(biao)(biao)(biao)注(zhu)微(wei)調”的(de)(de)(de)(de)(de)方式(shi),采用情境學(xue)(xue)(xue)習(in-contextlearning)來提高模(mo)(mo)(mo)(mo)型(xing)對話輸(shu)出的(de)(de)(de)(de)(de)性能(neng)。GPT-3的(de)(de)(de)(de)(de)規模(mo)(mo)(mo)(mo)和(he)(he)語言(yan)(yan)能(neng)力幾乎(hu)是(shi)最(zui)強(qiang)大(da)的(de)(de)(de)(de)(de)。它(ta)能(neng)在(zai)(zai)(zai)不(bu)(bu)(bu)做微(wei)調的(de)(de)(de)(de)(de)情況下,在(zai)(zai)(zai)一(yi)些(xie)傳(chuan)統(tong)的(de)(de)(de)(de)(de)NLP任(ren)務(wu)(wu)中表現(xian)得更好(hao),包括實(shi)現(xian)閉卷(juan)問答、模(mo)(mo)(mo)(mo)式(shi)解(jie)(jie)析、純語言(yan)(yan)建模(mo)(mo)(mo)(mo)、機器翻譯等;在(zai)(zai)(zai)新(xin)的(de)(de)(de)(de)(de)領(ling)域(yu),GPT-3將(jiang)NLP的(de)(de)(de)(de)(de)應用擴展(zhan)(zhan)到(dao)(dao)缺乏足(zu)(zu)夠(gou)訓練(lian)數據(ju)(ju)的(de)(de)(de)(de)(de)領(ling)域(yu),例如在(zai)(zai)(zai)開發(fa)(fa)程序代(dai)碼、文(wen)章(zhang)生成(cheng)(cheng)(cheng)和(he)(he)信息檢索領(ling)域(yu)取得了(le)(le)實(shi)質性的(de)(de)(de)(de)(de)進(jin)(jin)展(zhan)(zhan)。然(ran)而,GPT-3在(zai)(zai)(zai)推(tui)理(li)(li)(li)和(he)(he)理(li)(li)(li)解(jie)(jie)能(neng)力上(shang)還有較長的(de)(de)(de)(de)(de)路要走,在(zai)(zai)(zai)自然(ran)語言(yan)(yan)推(tui)理(li)(li)(li)(NLI)任(ren)務(wu)(wu)中表現(xian)不(bu)(bu)(bu)佳。InstructGPT和(he)(he)ChatGPT:更好(hao)地遵循(xun)(xun)用戶意圖、更少的(de)(de)(de)(de)(de)虛假信息。OpenAI在(zai)(zai)(zai)2022年(nian)初發(fa)(fa)布了(le)(le)InstructGPT。該語言(yan)(yan)模(mo)(mo)(mo)(mo)型(xing)通過(guo)“基(ji)于人(ren)(ren)類反(fan)饋的(de)(de)(de)(de)(de)強(qiang)化(hua)學(xue)(xue)(xue)習(RLHF)和(he)(he)監(jian)(jian)督(du)學(xue)(xue)(xue)習”來提高輸(shu)出質量(liang)(liang)。雖然(ran)InstructGPT的(de)(de)(de)(de)(de)參(can)(can)數量(liang)(liang)僅(jin)為13億左右,相比(bi)于GPT-3縮(suo)小(xiao)了(le)(le)100倍以上(shang);但在(zai)(zai)(zai)遵循(xun)(xun)指令方面,能(neng)夠(gou)更好(hao)地遵循(xun)(xun)用戶意圖,將(jiang)有害的(de)(de)(de)(de)(de)、不(bu)(bu)(bu)真(zhen)實(shi)或者有偏差的(de)(de)(de)(de)(de)信息輸(shu)出最(zui)小(xiao)化(hua)。在(zai)(zai)(zai)優(you)化(hua)的(de)(de)(de)(de)(de)模(mo)(mo)(mo)(mo)型(xing)上(shang),ChatGPT基(ji)于InstructGPT進(jin)(jin)一(yi)步改(gai)進(jin)(jin),在(zai)(zai)(zai)模(mo)(mo)(mo)(mo)型(xing)結(jie)構(gou)和(he)(he)訓練(lian)流程上(shang)遵循(xun)(xun)上(shang)述方式(shi),但收集(ji)和(he)(he)標(biao)(biao)(biao)注(zhu)數據(ju)(ju)的(de)(de)(de)(de)(de)方式(shi)上(shang)發(fa)(fa)生了(le)(le)變化(hua),通過(guo)采取監(jian)(jian)督(du)學(xue)(xue)(xue)習的(de)(de)(de)(de)(de)方式(shi)讓模(mo)(mo)(mo)(mo)型(xing)學(xue)(xue)(xue)習人(ren)(ren)類排(pai)序的(de)(de)(de)(de)(de)方式(shi)。
ChatGPT的(de)(de)(de)(de)優勢與缺陷:優勢是ChatGPT不需要任何額外的(de)(de)(de)(de)訓練就能在(zai)多種不同(tong)的(de)(de)(de)(de)領域中應用并快速(su)輸出高(gao)質量的(de)(de)(de)(de)文本,相(xiang)較(jiao)(jiao)(jiao)于以前的(de)(de)(de)(de)模(mo)(mo)型(xing)已具備較(jiao)(jiao)(jiao)強的(de)(de)(de)(de)自然語(yu)(yu)(yu)言處理(li)能力(li)。但目前ChatGPT在(zai)精準(zhun)性、真實性、重復率和依(yi)賴性等問題(ti)(ti)上尚待改善(shan):第一(yi)、由(you)于技術實現(xian)的(de)(de)(de)(de)問題(ti)(ti),ChatGPT會(hui)不可避免(mian)地寫出一(yi)些似是而非、或者(zhe)(zhe)荒謬(miu)的(de)(de)(de)(de)答案,這將導致植入(ru)虛假數據(ju)和誤導用戶的(de)(de)(de)(de)風險。ChatGPT依(yi)然沒有完全(quan)克服大型(xing)語(yu)(yu)(yu)言模(mo)(mo)型(xing)(LLM)的(de)(de)(de)(de)這一(yi)常見缺點;第二、在(zai)較(jiao)(jiao)(jiao)長的(de)(de)(de)(de)會(hui)話(hua)中,由(you)于訓練數據(ju)的(de)(de)(de)(de)偏(pian)差(cha)和過度修正(zheng),ChatGPT會(hui)過度強調某些短語(yu)(yu)(yu)或者(zhe)(zhe)句子(zi),導致重復性高(gao)的(de)(de)(de)(de)問題(ti)(ti);第三、ChatGPT的(de)(de)(de)(de)強大能力(li)依(yi)賴語(yu)(yu)(yu)料庫、數據(ju)量的(de)(de)(de)(de)抓(zhua)取(qu)和復雜的(de)(de)(de)(de)訓練過程(cheng)。ChatGPT模(mo)(mo)型(xing)依(yi)賴于大規模(mo)(mo)離線(xian)語(yu)(yu)(yu)料進(jin)(jin)行訓練,往(wang)往(wang)不能充分接受并采用在(zai)線(xian)提供(gong)的(de)(de)(de)(de)即時(shi)信息,難以理(li)解對話(hua)中提及的(de)(de)(de)(de)因果關系(xi),也無法(fa)基于已有信息進(jin)(jin)行推(tui)測,這距離人(ren)類舉一(yi)反三的(de)(de)(de)(de)能力(li)相(xiang)差(cha)較(jiao)(jiao)(jiao)遠(yuan)。
可(ke)能存在(zai)的(de)(de)(de)(de)瓶(ping)頸(jing):ChatGPT本(ben)身(shen)的(de)(de)(de)(de)缺(que)陷可(ke)能通過(guo)技(ji)術進步和(he)(he)優(you)化訓練(lian)方式得(de)到解(jie)決,但它的(de)(de)(de)(de)爆(bao)火(huo)卻引(yin)(yin)發(fa)了人們對(dui)AIGC行業中安全(quan)性、倫理(li)約(yue)束和(he)(he)創造(zao)力(li)的(de)(de)(de)(de)思考,或(huo)(huo)將成(cheng)(cheng)(cheng)為發(fa)展瓶(ping)頸(jing):一(yi)方面,由(you)于(yu)(yu)RLFH并不(bu)能完全(quan)避免ChatGPT訓練(lian)庫中學(xue)習到的(de)(de)(de)(de)不(bu)道德或(huo)(huo)有偏見的(de)(de)(de)(de)回答(da)(da),也(ye)會導(dao)(dao)(dao)致在(zai)模(mo)(mo)糊提(ti)示(shi)或(huo)(huo)引(yin)(yin)導(dao)(dao)(dao)回答(da)(da)的(de)(de)(de)(de)過(guo)程中讓ChatGPT輸出(chu)一(yi)些有害信(xin)息,導(dao)(dao)(dao)致輸出(chu)結果的(de)(de)(de)(de)安全(quan)性降低。另一(yi)方面,在(zai)創造(zao)性、創作(zuo)(zuo)倫理(li)和(he)(he)知(zhi)識(shi)產權(quan)等(deng)(deng)(deng)方面并未形成(cheng)(cheng)(cheng)有效(xiao)界(jie)定。在(zai)數據(ju)(ju)挖(wa)掘、大(da)規模(mo)(mo)計算、統(tong)計、多(duo)線(xian)程工作(zuo)(zuo)等(deng)(deng)(deng)數據(ju)(ju)處理(li)分析領域(yu),人工智能有著人類(lei)不(bu)可(ke)比擬的(de)(de)(de)(de)優(you)勢(shi),但是以(yi)(yi)“創新和(he)(he)感知(zhi)”為基礎的(de)(de)(de)(de)創造(zao)過(guo)程是機器學(xue)習和(he)(he)模(mo)(mo)型難以(yi)(yi)訓練(lian)的(de)(de)(de)(de)。目(mu)前ChatGPT能夠在(zai)用戶的(de)(de)(de)(de)引(yin)(yin)導(dao)(dao)(dao)下快(kuai)速(su)生成(cheng)(cheng)(cheng)小說、詩歌、散文、編程等(deng)(deng)(deng)需(xu)要(yao)創造(zao)力(li)的(de)(de)(de)(de)內容(rong)(rong),或(huo)(huo)許將對(dui)創作(zuo)(zuo)者和(he)(he)以(yi)(yi)版權(quan)為基礎的(de)(de)(de)(de)行業造(zao)成(cheng)(cheng)(cheng)沖擊。文本(ben)生成(cheng)(cheng)(cheng)的(de)(de)(de)(de)過(guo)程是基于(yu)(yu)數據(ju)(ju)庫內容(rong)(rong)的(de)(de)(de)(de)學(xue)習,這(zhe)是否(fou)會構成(cheng)(cheng)(cheng)對(dui)被抓取作(zuo)(zuo)品的(de)(de)(de)(de)侵權(quan),ChatGPT生成(cheng)(cheng)(cheng)的(de)(de)(de)(de)文本(ben)內容(rong)(rong)是否(fou)具有著作(zuo)(zuo)權(quan),是否(fou)屬于(yu)(yu)該用戶等(deng)(deng)(deng)一(yi)系列(lie)問題的(de)(de)(de)(de)答(da)(da)案尚不(bu)明確。
ChatGPT的(de)能力目前(qian)幾乎可以涵蓋(gai)各個(ge)自然語言交互領(ling)域(yu),例如(ru)聊天機器(qi)人、對(dui)話系統(tong)、智(zhi)(zhi)能客(ke)服(fu)、信(xin)息檢索(suo)、主題(ti)(ti)建模、文(wen)本生成(cheng)(cheng)和(he)總(zong)結(jie)、NLP作為(wei)服(fu)務的(de)翻譯、轉錄、總(zong)結(jie)等等,未來應用領(ling)域(yu)將(jiang)(jiang)面向藍海:例如(ru),在聊天機器(qi)人領(ling)域(yu),目前(qian)ChatGPT已(yi)經能基本滿足(zu)用戶(hu)的(de)提供(gong)個(ge)性(xing)化需(xu)求(qiu)和(he)信(xin)息提供(gong)服(fu)務;在需(xu)要智(zhi)(zhi)能客(ke)服(fu)的(de)電(dian)商(shang)、金融、醫療、教(jiao)育、政務等垂直領(ling)域(yu)等,ChatGPT能夠(gou)結(jie)合(he)行業特(te)點和(he)需(xu)求(qiu),構建自動應答(da)系統(tong),為(wei)客(ke)戶(hu)提供(gong)快速、準確的(de)問題(ti)(ti)解(jie)答(da)。除此外,在傳媒(mei)、娛樂(le)、設(she)計(ji)和(he)影(ying)視領(ling)域(yu),ChatGPT能夠(gou)協助完(wan)成(cheng)(cheng)一(yi)些較低(di)層次的(de)任務,包括文(wen)稿(gao)生成(cheng)(cheng)、采訪助手(shou)、摘(zhai)要總(zong)結(jie)等,或將(jiang)(jiang)提高行業的(de)運行效(xiao)率。
ChatGPT的(de)(de)(de)商(shang)業化(hua)落地方式還(huan)(huan)待商(shang)榷:第(di)一(yi)(yi)、由于GPT-3的(de)(de)(de)訓(xun)練(lian)(lian)耗(hao)資巨大,且需(xu)(xu)要大量的(de)(de)(de)數(shu)據(ju)集和算力,即(ji)使ChatGPT未來應用(yong)前(qian)(qian)(qian)景廣闊(kuo),如(ru)果(guo)不能降低模(mo)型(xing)的(de)(de)(de)更(geng)新訓(xun)練(lian)(lian)成(cheng)本(ben)和推(tui)理(li)成(cheng)本(ben),將限制中小B端企業的(de)(de)(de)采購(gou)意愿。第(di)二(er)、目(mu)前(qian)(qian)(qian)正在免費(fei)測(ce)試階段的(de)(de)(de)ChatGPT還(huan)(huan)未解決(jue)GPT-3模(mo)型(xing)存在的(de)(de)(de)準確性和安全性問(wen)題(ti)(ti),還(huan)(huan)需(xu)(xu)要進一(yi)(yi)步優化(hua)迭(die)代。此前(qian)(qian)(qian),OpenAI已嘗試過(guo)通過(guo)API接(jie)口的(de)(de)(de)方式推(tui)動GPT-3的(de)(de)(de)商(shang)業化(hua),但(dan)由于模(mo)型(xing)問(wen)題(ti)(ti)并未通過(guo)測(ce)試階段。雖然目(mu)前(qian)(qian)(qian)OpenAI已找到方式優化(hua)輸出虛假信息(xi)的(de)(de)(de)問(wen)題(ti)(ti),但(dan)效力遠遠不足。如(ru)果(guo)不能解決(jue)這兩個(ge)問(wen)題(ti)(ti),GPT的(de)(de)(de)商(shang)業化(hua)道路還(huan)(huan)需(xu)(xu)等待。
投資建議:ChatGPT代表自(zi)然(ran)語言處理技術一大進(jin)步,利好相(xiang)關AI公司的技術與(yu)產品(pin)落地,可重點(dian)關注拓爾思(si)(300229.SZ)、商(shang)湯-W(0020.HK)、科(ke)大訊飛(002230.SZ)。
風(feng)險(xian)提示:技術(shu)研發(fa)不(bu)及預期(qi)的(de)(de)風(feng)險(xian);商業化落地方式(shi)尚不(bu)明確(que)的(de)(de)風(feng)險(xian);下(xia)游(you)需(xu)求不(bu)及預期(qi)的(de)(de)風(feng)險(xian)。
每經頭條(tiao)(nbdtoutiao)——
(記者 王曉波)
免(mian)責聲明:本文(wen)內容(rong)與數據僅供參(can)考(kao),不構(gou)成投資(zi)建議,使用前請核實。據此操作(zuo),風(feng)險自擔(dan)。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新(xin)聞》報(bao)社(she)授權(quan),嚴禁轉載或(huo)鏡像,違者必究。
讀(du)者熱線(xian):4008890008
特別提醒(xing):如果我們使用了您的圖片,請作者與本站聯系索(suo)取稿酬。如您不希望作(zuo)品出現在本站,可聯(lian)系我們要(yao)求撤下(xia)您的(de)作(zuo)品。
歡迎關注每日經濟新(xin)聞APP