(網(wǎng)經(jīng)社訊)9月26日,一則警情通報(bào),將深陷輿情漩渦的三只羊又拉到人們眼前!合肥市公安局高新分局發(fā)布警情通報(bào)稱,網(wǎng)上傳播涉盧某某的音視頻屬于偽造,是AI工具訓(xùn)練生成,嫌疑人王某某杜撰酒后言論腳本,使用AI工具和視頻軟件生成假冒盧某某的音視頻,并大量傳播。警方表示,為了確認(rèn)音視頻的真實(shí)性,警方將相關(guān)證據(jù)送交部、省專業(yè)機(jī)構(gòu)進(jìn)行檢驗(yàn)鑒定。經(jīng)過專業(yè)機(jī)構(gòu)的嚴(yán)格鑒定,最終確認(rèn)報(bào)案所涉的網(wǎng)傳音視頻系偽造。
如果偵查屬實(shí),嫌疑人可能涉嫌兩個(gè)罪名,其一是涉嫌誹謗罪,根據(jù)《中華人民共和國刑法》第二百四十六條的規(guī)定,如果AI生成的謠言內(nèi)容涉及對他人進(jìn)行侮辱或誹謗,且情節(jié)嚴(yán)重,可能構(gòu)成侮辱罪或誹謗罪,犯侮辱罪、誹謗罪的,處三年以下有期徒刑;其二,涉嫌尋釁滋事罪。根據(jù)《中華人民共和國刑法》第二百九十三條的規(guī)定,利用AI技術(shù)編造并傳播虛假信息,造成公共場所秩序嚴(yán)重混亂的,或?qū)κ芎θ松钤斐蓢?yán)重的影響,則可能構(gòu)成尋釁滋事罪。犯尋釁滋事罪的,處五年以下有期徒刑、拘役或者管制。目前警方尚未披露具體罪名,但根據(jù)現(xiàn)有事實(shí)情況,構(gòu)成誹謗罪的概率較大。
“深度偽造”犯罪頻發(fā)
這類通過AI偽造音視頻的犯罪案件已經(jīng)不是第一案,近年來已經(jīng)有案件爆發(fā)的趨勢。
2023年5月,包頭警方就破獲一起利用AI深度偽造實(shí)施的詐騙案件,短短10分鐘受害人被騙取了430萬元。受害人郭某是福州市某公司法人代表,其好友突然通過微信視頻聯(lián)系到他,稱在外地投標(biāo),需要430萬元保證金,且需要公對公賬戶過賬,所以想要借用郭先生公司的賬戶走一下賬。從視頻里看,那確實(shí)是自己的朋友,聲音也一模一樣。出于對老朋友的信任,郭某就轉(zhuǎn)賬了430萬元,幸運(yùn)的是,接到報(bào)警后,福州、包頭兩地警銀迅速啟動(dòng)止付機(jī)制,成功止付攔截336.84萬元,但仍有93.16萬元被轉(zhuǎn)移。
2024年5月,韓國也發(fā)生一起AI深度偽造淫穢影像的惡劣案件,即利用AI換臉制造色情圖頻,并通過社交媒體平臺傳播的性犯罪行為被大量曝光。韓國當(dāng)?shù)孛襟w報(bào)道,首爾大學(xué)畢業(yè)生樸某和姜某,從2021年7月至2024年4月的3年多里,盜用女性同學(xué)、熟人的照片,用深度偽造技術(shù)換臉合成色情制品,在Telegram上建立了近200個(gè)網(wǎng)絡(luò)聊天室進(jìn)行傳播,警方稱,樸某共參與制作、傳播約1700份非法照片和視頻,受害女性多達(dá)61人。
隨著輿論在各大社交媒體上發(fā)酵,韓國政府也出面作出表態(tài)。韓國總統(tǒng)尹錫悅表示,惡意利用深度偽造技術(shù)是犯罪行為,希望有關(guān)部門通過掌握實(shí)際情況和調(diào)查,徹底根除此類數(shù)字技術(shù)犯罪。韓國警方已成立特別工作組,8月28日起,會專門對深度偽造性犯罪等虛假視頻案件展開為期7個(gè)月的專項(xiàng)行動(dòng)。警方統(tǒng)計(jì)顯示,韓國今年前7個(gè)月共有297宗深偽色情罪案,較去年全年的180宗更高。
實(shí)際上,深度偽造這一技術(shù)犯罪,這兩年在全球都有出現(xiàn)。
在國內(nèi),今年6月,“男子用AI偽造學(xué)生同事近7000張裸照”沖上微博熱搜。據(jù)央視新聞消息,犯罪嫌疑人白某某是一家互聯(lián)網(wǎng)公司的技術(shù)員,他用AI“一鍵去衣”技術(shù),深度偽造淫穢圖片近7000張,再每張1.5元賣出,賺了將近一萬元。圖片涉及女性人數(shù)多,包括學(xué)生、教師、同事。目前白某某已被提起公訴。一名被警方抓獲的犯罪嫌疑人白某某原本是一家互聯(lián)網(wǎng)公司的技術(shù)員,他因?yàn)槭褂肁I去衣技術(shù),制作、販賣淫穢物品而涉嫌犯罪。
針對這一案件,檢察機(jī)關(guān)認(rèn)為,被告人白某某以牟利為目的,制作、販賣淫穢物品,情節(jié)嚴(yán)重,其行為觸犯了《中華人民共和國刑法》的相關(guān)規(guī)定,應(yīng)當(dāng)以制作、販賣淫穢物品牟利罪追究其刑事責(zé)任。
今年1月,美國著名歌手泰勒·斯威夫特(Taylor Swift)也成為了AI深度偽造的受害者,大量由AI生成的泰勒不雅照在各大社交平臺瘋轉(zhuǎn),瀏覽量過千萬,引發(fā)公眾關(guān)注。
此外,在8月份,埃隆·馬斯克(Elon Musk)也因AI偽造技術(shù)卷入了一場詐騙事件。82歲的退休老人史蒂夫·比徹姆(Steve Beauchamp)在網(wǎng)上看到了一段聲稱由馬斯克親自承諾收益的投資視頻,隨后他聯(lián)系了視頻背后的推銷公司,并投資了超過69萬美元。隨后,這些錢就落入了詐騙犯之手。這些詐騙者篡改了一段馬斯克的真實(shí)采訪,利用AI技術(shù)替換了他的聲音,并微調(diào)了他的口型,以匹配他們?yōu)檫@個(gè)數(shù)字人編寫的新劇本。對于一般觀眾來說,這種操作幾乎察覺不出。
“深度偽造”技術(shù)的解構(gòu)
深度偽造是一種利用 AI 等新興技術(shù)操縱音視頻、圖像或文本內(nèi)容的技術(shù),其目的是產(chǎn)生誤導(dǎo)效果。深度偽造最初主要用于娛樂目的,但后來逐漸演變?yōu)榫W(wǎng)絡(luò)犯罪的工具,如近年來頻發(fā)的利用偽造聲音和人像進(jìn)行的電信詐騙案件。2024 年 1 月,世界經(jīng)濟(jì)論壇發(fā)布的《2024 年全球風(fēng)險(xiǎn)報(bào)告》將“AI 衍生的錯(cuò)誤信息和虛假信息及其對社會兩極分化的影響”列為未來兩年的十大風(fēng)險(xiǎn)之首。
“深度偽造”作為“深度學(xué)習(xí)”( deep learning) 與“偽造”( fake) 的融合,通常是指基于人工智能合成技術(shù),將已有的視頻、音頻、圖片疊加至目標(biāo)影片或圖像上,從而創(chuàng)制出新的影音圖像的技術(shù)。
“深度偽造”技術(shù)合成的視頻、音頻之所以能起到以假亂真的效果,主要源于“學(xué)習(xí)—監(jiān)督”算法的設(shè)定與應(yīng)用:一方面通過“深度學(xué)習(xí)”技術(shù)的應(yīng)用,使程序具有對樣本進(jìn)行深度分析、轉(zhuǎn)化、重構(gòu)的能力,能在短時(shí)間內(nèi)提煉出樣本視頻、音頻、圖像的共性,合成新的密鑰,在此基礎(chǔ)上創(chuàng)制學(xué)習(xí)成果并予以輸出;另一方面通過“生成式對抗網(wǎng)絡(luò)”算法模型的設(shè)定,使“深度偽造”技術(shù)能夠自動(dòng)、反復(fù)地對已生成的視頻、音頻、圖像進(jìn)行修正、重構(gòu),并在自動(dòng)學(xué)習(xí)的過程中不斷提升成果質(zhì)量,達(dá)到“溫故而知新”的效果。
所謂的生成對抗網(wǎng)絡(luò)是非監(jiān)督式學(xué)習(xí)的一種方法,由兩個(gè)類神經(jīng)網(wǎng)絡(luò)模組互為競爭,一是差異鑒別器網(wǎng)絡(luò)(Discriminator Network),另一是生成器網(wǎng)絡(luò)(Generator Network)。通過讓兩個(gè)神經(jīng)網(wǎng)絡(luò)相互博弈的方式進(jìn)行學(xué)習(xí)。生成式對抗網(wǎng)絡(luò)是用來愚弄刺激差異鑒別器網(wǎng)絡(luò)的,只要提供訓(xùn)練資料集,生成器網(wǎng)絡(luò)就會產(chǎn)生和訓(xùn)練數(shù)據(jù)資料集相同統(tǒng)計(jì)數(shù)據(jù)之新的資料,喂進(jìn)資料集一張影像,就會產(chǎn)生乍一看相似的影像。而差異鑒別器主要工作則是去區(qū)別生成之影像與實(shí)際影像間的差異,通過不斷監(jiān)測并給出真或假的反饋,讓生成器借此反饋不斷調(diào)整模組參數(shù),如此來來回回使影像越來越像,最終產(chǎn)生真假難辨的版本。
隨著技術(shù)的革新,“深度偽造”技術(shù)已經(jīng)不限于視頻、音頻、圖像的合成與偽造,而成為涵蓋現(xiàn)實(shí)偽造與虛擬現(xiàn)實(shí)創(chuàng)作的應(yīng)用技術(shù)?!吧疃葌卧臁奔夹g(shù)的應(yīng)用所涵蓋的領(lǐng)域包括:
1.人臉更換:通過對視頻中的人臉進(jìn)行更換,使被替換者能夠?qū)嵤┳约簭奈从羞^的行為;
2.面部重塑:通過對目標(biāo)對象的口型、語速和面部表情進(jìn)行重塑,使目標(biāo)人物表達(dá)出非真實(shí)性的言論;
3.聲音偽造:通過對目標(biāo)人物的聲音進(jìn)行學(xué)習(xí),創(chuàng)制出目標(biāo)人物的聲音模型并進(jìn)行非真實(shí)性的語義表達(dá);
4.全合成:通過軟件創(chuàng)建現(xiàn)實(shí)中并不存在的人物形象。日本人工智能公司數(shù)據(jù)網(wǎng)格( Data Grid) 開發(fā)的人工智能軟件已經(jīng)能自動(dòng)生產(chǎn)虛擬人物的全身模型,并將之應(yīng)用于未來服裝行業(yè)。
由于音頻圖像合成技術(shù)發(fā)展得較為成熟,“深度偽造”技術(shù)在實(shí)踐中主要被用于對視頻、音頻的合成。上述技術(shù)也可以疊加應(yīng)用,如通過人臉和語音的雙重偽造,創(chuàng)制出某一政治家從未發(fā)表過的演講視頻。厘清“深度偽造”技術(shù)通過何種運(yùn)作機(jī)理完成上述合成過程,無疑是理解該技術(shù)的基礎(chǔ),也是確立法律在何種程度上介入這一新興技術(shù)領(lǐng)域的前提。
深度偽造法律規(guī)制:AIGC內(nèi)容標(biāo)識及溯源檢測
隨著AI技術(shù)發(fā)展,生成合成技術(shù)不僅在逼真程度上日臻成熟,技術(shù)工具的可及性及易用性極大提高。當(dāng)人人均可低成本地制作、傳播深度偽造的內(nèi)容時(shí),現(xiàn)實(shí)與虛擬的界限不再顯而易見,互聯(lián)網(wǎng)信息傳播的基本邏輯遭到挑戰(zhàn)。
為此,各國已經(jīng)著手管制并陸續(xù)出臺了各項(xiàng)法規(guī)。美國參議院2018年提出了《惡意深度偽造禁止法案》。2019年6月,美國聯(lián)邦《深度偽造責(zé)任法案》(提案)要求合成視頻創(chuàng)制者以在視頻中添加水印及個(gè)人聲明的方式對“深度偽造”技術(shù)進(jìn)行應(yīng)用。對于違反標(biāo)識義務(wù),意圖羞辱他人或者干擾政治運(yùn)作、引發(fā)武力或外交沖突而發(fā)布合成視頻的行為,將面臨最高5年監(jiān)禁的刑事處罰。歐盟則將其以“深度合成”納入《通用數(shù)據(jù)保護(hù)條例(GDPR)》,采取了數(shù)據(jù)治理和算法規(guī)制的模式,于2022年出臺了《歐盟反虛假信息行為準(zhǔn)則》,在其新推出的《人工智能法案》中對相關(guān)問題也進(jìn)行了規(guī)定:“對于與自然人直接交互的人工智能系統(tǒng),人工智能系統(tǒng)提供者應(yīng)明確告知用戶他們正在與人工智能系統(tǒng)進(jìn)行互動(dòng),并確保人工智能系統(tǒng)的輸出以機(jī)器可讀格式標(biāo)記,且可被檢測?!倍?a href="http://qjkhjx.com/zt/world/" target="_blank">德國、新加坡、英國、韓國等則試圖將深度偽造納入刑法規(guī)定范圍。
我國 2023 年施行的《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》作為專門的統(tǒng)一性立法,對利用AI技術(shù)實(shí)施違法犯罪行為也進(jìn)行了規(guī)制,旨在要求深度合成服務(wù)提供者應(yīng)當(dāng)落實(shí)信息安全主體責(zé)任,建立健全用戶注冊、算法機(jī)制機(jī)理審核、科技倫理審查、信息發(fā)布審核、數(shù)據(jù)安全、個(gè)人信息保護(hù)、反電信網(wǎng)絡(luò)詐騙、應(yīng)急處置等管理制度,具有安全可控的技術(shù)保障措施。
我國監(jiān)管部門也已經(jīng)意識到互聯(lián)網(wǎng)信息傳播的信任基礎(chǔ)需要被重塑,且迫在眉睫,而生成合成內(nèi)容的標(biāo)識將是重建信任邊界的重要工具。
根據(jù)《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》第十七條,深度合成服務(wù)提供者提供上述規(guī)定之外的深度合成服務(wù)的,應(yīng)當(dāng)提供顯著標(biāo)識功能,并提示深度合成服務(wù)使用者可以進(jìn)行顯著標(biāo)識。我們理解這些場景可能包括非人聲生成合成、非人臉圖像視頻生成合成等。
2024年9月14日,網(wǎng)信辦發(fā)布《人工智能生成合成內(nèi)容標(biāo)識辦法(征求意見稿)》及其配套強(qiáng)制性國家標(biāo)準(zhǔn)《網(wǎng)絡(luò)安全技術(shù) 人工智能生成合成內(nèi)容標(biāo)識方法(征求意見稿)》,以進(jìn)一步明確添加標(biāo)識的具體要求。
根據(jù)上述意見稿的規(guī)定,在中國境內(nèi)應(yīng)用算法推薦技術(shù)、深度合成技術(shù)或生成式人工智能技術(shù)提供互聯(lián)網(wǎng)信息服務(wù)的服務(wù)提供者是標(biāo)識辦法及標(biāo)準(zhǔn)征求意見稿的主要義務(wù)主體。此外,提供網(wǎng)絡(luò)信息內(nèi)容傳播平臺服務(wù)的服務(wù)提供者、互聯(lián)網(wǎng)應(yīng)用程序分發(fā)平臺、用戶均具有義務(wù)履行或者配合履行標(biāo)識義務(wù)。
根據(jù)服務(wù)性質(zhì)的不同,提供者有義務(wù)對相關(guān)生成合成內(nèi)容添加顯式或/和隱式標(biāo)識,《辦法征求意見稿》相關(guān)規(guī)定介紹如下:
服務(wù)提供者提供的生成合成服務(wù)屬于如下情形的(即《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》第十七條第一款),應(yīng)當(dāng)按照下列要求對生成合成內(nèi)容添加顯式標(biāo)識。顯式標(biāo)識是指在生成合成內(nèi)容或者交互場景界面中添加的,以文字、聲音、圖形等方式呈現(xiàn)并可被用戶明顯感知到的標(biāo)識。
文本內(nèi)容:提供智能對話、智能寫作等模擬自然人進(jìn)行文本的生成或者編輯服務(wù)的,應(yīng)在文本的起始、末尾、中間適當(dāng)位置添加文字提示或通用符號提示等標(biāo)識,或在交互場景界面或文字周邊添加顯著的提示標(biāo)識;
人聲、仿聲內(nèi)容:提供合成人聲、仿聲等語音生成或者顯著改變個(gè)人身份特征的編輯服務(wù)的,應(yīng)在音頻的起始、末尾或中間適當(dāng)位置添加語音提示或音頻節(jié)奏提示等標(biāo)識,或在交互場景界面中添加顯著的提示標(biāo)識;
人臉內(nèi)容:提供人臉生成、人臉替換、人臉操控、姿態(tài)操控等人物圖像、視頻生成或者顯著改變個(gè)人身份特征的編輯服務(wù)的,應(yīng)在圖片的適當(dāng)位置添加顯著的提示標(biāo)識;涉及視頻的,在視頻起始畫面和視頻播放周邊的適當(dāng)位置添加顯著的提示標(biāo)識,可在視頻末尾和中間適當(dāng)位置添加顯著的提示標(biāo)識;
虛擬場景:提供沉浸式擬真場景等生成或者編輯服務(wù)的,應(yīng)當(dāng)在起始畫面的適當(dāng)位置添加顯著的提示標(biāo)識,可在虛擬場景持續(xù)服務(wù)過程中的適當(dāng)位置添加顯著的提示標(biāo)識;
其他場景:其他可能導(dǎo)致公眾混淆或者誤認(rèn)的生成合成服務(wù)場景,應(yīng)當(dāng)根據(jù)自身應(yīng)用特點(diǎn)添加具有顯著提示效果的顯式標(biāo)識。
中國、歐盟、美國等各國立法機(jī)構(gòu)均已具有相當(dāng)程度的共識,需對人工智能生成合成內(nèi)容的溯源及真實(shí)性核驗(yàn)加強(qiáng)監(jiān)管??梢灶A(yù)見,生成合成內(nèi)容的標(biāo)識將成為未來人工智能領(lǐng)域執(zhí)法的重點(diǎn)。
網(wǎng)絡(luò)平臺檢測實(shí)踐:以技術(shù)對抗技術(shù)
麻省理工學(xué)院媒體實(shí)驗(yàn)室列出了一些值得注意的深度偽造的明顯特征,包括:
1. 眨眼和嘴唇動(dòng)作:是否遵循自然節(jié)奏?
2. 眼睛和眼鏡中的反射:是否一致?是否在視覺上合理?
3. 皮膚年齡與眼睛和頭發(fā)的年齡是否匹配?
在深度偽造的圖像中,眼睛的反射通常不一致,如右上方的綠色和紅色標(biāo)記所示。
圖片來源:Adejumoke Owolabi/赫爾大學(xué)
英國赫爾大學(xué)的一項(xiàng)新研究指出,眼睛可以說明一切。如果兩只眼睛的反射相匹配,那可能是真實(shí)的圖像,如果反射不一致,則很可能是偽造的。
“假陽性和假陰性的情況也可能出現(xiàn);這種方法不是萬無一失的,”研究人員之一Kevin Pimbblet教授提醒道,“但是,如果把檢測深度偽造看作一場軍備競賽,觀察眼睛反射的方法為我們提供了一個(gè)基礎(chǔ)的進(jìn)攻計(jì)劃?!盵 摘自公眾號“世界經(jīng)濟(jì)論壇”文章《如何識別深度偽造?專家這樣說》]
Meta表示,其已經(jīng)開發(fā)出一種AI工具,通過對AI生成的單一圖像進(jìn)行逆向工程,從單個(gè)AI生成的圖像返回到用于生成它的生成模型,從而檢測深度偽造。Meta和McAfee等公司已經(jīng)在設(shè)計(jì)的檢測軟件的檢測因素包括:生物信號:根據(jù)血液流經(jīng)面部而導(dǎo)致的面部膚色的自然變化;音位-視位不匹配:嘴形動(dòng)態(tài)的發(fā)音有時(shí)與口語音素不同或不一致;面部動(dòng)作:面部運(yùn)動(dòng)和頭部運(yùn)動(dòng)的相關(guān)性來提取一個(gè)人的特征運(yùn)動(dòng)等。[ 參見:https://analyticsindiamag.com/top-ai-based-tools-techniques-for-deepfake-detection/ ]
谷歌發(fā)布了一個(gè)大型的視覺深度偽造數(shù)據(jù)集,并將其納入Face Forensics基準(zhǔn)。微軟推出了視頻認(rèn)證工具——Microsoft Video Authenticator,可以分析靜態(tài)照片或視頻,以提供媒體被人為操縱的百分比機(jī)會或置信度分?jǐn)?shù)。它通過檢測人眼可能無法檢測到的 deepfake 和微妙的褪色或灰度元素的混合邊界來工作。
除此之外,我們也看到各大社交平臺、視頻網(wǎng)絡(luò)也都通過修改其平臺規(guī)則及用戶政策,以貼合法律要求,在保護(hù)平臺自身利益的情況下有條件地規(guī)制Deepfake內(nèi)容。比如X平臺(推特)通過一套復(fù)雜的規(guī)則識別有偽造嫌疑的推文,并告知相應(yīng)的發(fā)布者刪除其偽造內(nèi)容。而TikTok 則在2023年更新的平臺社區(qū)準(zhǔn)則中規(guī)定,不僅所有涉及Deepfake視頻都必須明確披露其為合成(synthetic)、虛假(fake or not real)或受更改(altered),同時(shí)還禁止了用戶發(fā)布除公眾人物之外的涉及個(gè)人形象的Deepfake視頻,但即使是針對公眾人物的Deepfake視頻,也對產(chǎn)品代言、社會影響等方面做出了大量限制。
結(jié)語
技術(shù)本身是中立的,但可以成為人類向善或作惡的工具;人工智能的發(fā)展前景令人期待,但同時(shí)也面臨著挑戰(zhàn),我們認(rèn)為未來對于Deepfake相關(guān)技術(shù)的監(jiān)管趨勢會著重于技術(shù)供應(yīng)商以及平臺管理方,從源頭上控制AI技術(shù)的運(yùn)用。而對于用戶在Deepfake的使用方面,在現(xiàn)有法律框架下已經(jīng)能夠?qū)崿F(xiàn)基本覆蓋。但一旦因技術(shù)發(fā)展導(dǎo)致的新型社會危害或犯罪形式的出現(xiàn),則勢必需要針對該技術(shù)出臺特別規(guī)范以填補(bǔ)“大框架”基本法的立法留白。