(網(wǎng)經(jīng)社訊)4月16日,上海交通大學(xué)聽覺認(rèn)知與計(jì)算聲學(xué)實(shí)驗(yàn)室在學(xué)術(shù)界的卓越研究中,推出了支持多人實(shí)時(shí)口語對(duì)話的語音情感大模型“交交”。這一創(chuàng)新不僅標(biāo)志著語音助手技術(shù)的重大突破,也實(shí)現(xiàn)了多說話人、多語言、多角色、多情感的全能對(duì)話伙伴的初步應(yīng)用。目前,該模型已進(jìn)入內(nèi)測(cè)申請(qǐng)階段。
多功能應(yīng)用:覆蓋教育、家庭、商務(wù)及娛樂
據(jù)網(wǎng)經(jīng)社教育臺(tái)(EDU.100EC.CN)查詢DeepSeek后獲悉,“交交”的應(yīng)用范圍廣泛,涵蓋教育輔導(dǎo)、家庭互動(dòng)、商務(wù)溝通和娛樂陪伴等多個(gè)領(lǐng)域。其強(qiáng)大的對(duì)話理解能力,不僅能根據(jù)上下文內(nèi)容提供知識(shí)問答,還能進(jìn)行多語種和方言的實(shí)時(shí)辨識(shí)與理解,靈活切換角色,并準(zhǔn)確表達(dá)情感。這種綜合功能在目前市場(chǎng)上已有的語音對(duì)話模型中尚屬罕見。
實(shí)時(shí)對(duì)話與情感理解
“交交”在實(shí)時(shí)對(duì)話中采用了端到端語音對(duì)話技術(shù),并結(jié)合上下文信息,通過思維鏈技術(shù)生成符合對(duì)話場(chǎng)景的情感全局表征,從而生成生動(dòng)的情感語音回復(fù)。這不僅提升了對(duì)話的自然性和互動(dòng)性,也為客服支持等實(shí)際應(yīng)用提供了強(qiáng)有力的幫助。
多人對(duì)話與音色克隆
在多人對(duì)話場(chǎng)景中,“交交”能根據(jù)不同對(duì)話者的聲音、語言、情感等特征,給出相應(yīng)的回應(yīng)。這一功能通過實(shí)時(shí)音色克隆技術(shù)實(shí)現(xiàn),使得“交交”在家庭聚會(huì)或商務(wù)會(huì)議的模擬場(chǎng)景中,表現(xiàn)出極高的互動(dòng)性和逼真度。
語言支持與情感互動(dòng)
“交交”支持漢語、英語、日語和法語四大主流語言,具備跨語言回復(fù)能力。同時(shí),它還能根據(jù)對(duì)話內(nèi)容和場(chǎng)景理解用戶情緒,生成富有情感的回應(yīng),極大地增強(qiáng)了對(duì)話的真實(shí)感和親和力。
知識(shí)領(lǐng)域覆蓋與靈活拓展
在知識(shí)問答方面,“交交”涵蓋廣泛的知識(shí)領(lǐng)域,包括古詩詞背誦、科學(xué)原理講解、文學(xué)名著解讀等。此外,它還能靈活拓展,支持文本與音頻模態(tài)的任意方式拼接融合,為集成大規(guī)模文本大模型中的多種增強(qiáng)機(jī)制(如聯(lián)網(wǎng)搜索、RAG檢索增強(qiáng)生成等)提供統(tǒng)一且可擴(kuò)展的接口。
結(jié)語
上海交通大學(xué)推出的口語對(duì)話情感大模型“交交”,以其卓越的技術(shù)和多功能應(yīng)用,引領(lǐng)了新一代智能語音助手的發(fā)展潮流。隨著技術(shù)的不斷完善和應(yīng)用的逐漸推廣,“交交”必將在未來的對(duì)話交互領(lǐng)域中發(fā)揮重要作用,為人們的生活帶來更多便利與樂趣。