近日,虎牙直播首創(chuàng)直播實時消音系統(tǒng)上線并已在其平臺應(yīng)用,該系統(tǒng)為直播場景中先審后發(fā)的“事前防控”提供全面的監(jiān)管能力。
據(jù)悉,目前主流的內(nèi)容安全審核方法是AI+人工審查,這是一種“事后審查”的處理方式。而虎牙開發(fā)的這套系統(tǒng)是一種先審后發(fā)的技術(shù),基于虎牙自研的音頻算法以及多媒體加工平臺leaf,可以在不增加直播延時的條件下,對直播過程中的違規(guī)音頻進行實時消音,有效降低甚至完全阻斷風(fēng)險內(nèi)容的傳播,實現(xiàn)實時屏蔽、先審后發(fā)?!搬槍I能力在內(nèi)容風(fēng)控上的場景應(yīng)用,我們優(yōu)先選擇了人工審核難度高、效率慢的直播音頻場景上進行應(yīng)用,下一步,我們將在直播視頻場景中做出嘗試?!被⒀里L(fēng)控團隊負(fù)責(zé)人表示。
為了在直播場景內(nèi)做到無延時,虎牙多巴胺AI技術(shù)團隊對語音識別模型以及解碼模塊進行了大量優(yōu)化,對每個語音片段的解碼能夠達到穩(wěn)定一致的識別時間?!斑@很重要,因為音頻片段解碼時間的大幅波動,會導(dǎo)致違規(guī)音頻漏出。在普通的2.1G主頻CPU上,我們的實時率達到0.08,相當(dāng)于1s音頻只需要80ms就能識別出來”,虎牙AI消音技術(shù)負(fù)責(zé)人表示。
直播場景的復(fù)雜性較一般的語音識別場景要大,而復(fù)雜場景的識別準(zhǔn)確率一直是業(yè)界難點?!皽?zhǔn)確率低會造成直播的大面積誤消音,使用戶的體驗感降低,召回率低會導(dǎo)致漏出違規(guī)語音,為了得到高召回、高準(zhǔn)確率的目標(biāo),虎牙多巴胺團隊開發(fā)了基于直播場景的VAD算法、語音識別算法、后處理算法,同時收集了大量復(fù)雜場景的樣本,進行算法迭代優(yōu)化,使得我們在直播這種復(fù)雜場景下,也有較高的識別準(zhǔn)確率以及召回率。另一方面,AI模型的優(yōu)化仍然依賴樣本校準(zhǔn)工作,這是大量的、系統(tǒng)性、長期且細(xì)致的?!鄙鲜鲐?fù)責(zé)人表示。
國家互聯(lián)網(wǎng)信息辦公室部署開展2022年“清朗”系列專項行動時指出,此次行動重點針對網(wǎng)絡(luò)直播、信息內(nèi)容亂象、網(wǎng)絡(luò)謠言、未成年網(wǎng)絡(luò)環(huán)境等10個方面。對每一家互聯(lián)網(wǎng)內(nèi)容平臺來說,確保平臺內(nèi)容的合法性和規(guī)范性,健全平臺內(nèi)容審核機制成為必須重視的問題。
資料顯示,虎牙于2015年開始研發(fā)的“天眼”AI引擎,將人工智能、計算機視覺等前沿技術(shù)成果與互聯(lián)網(wǎng)內(nèi)容安全相結(jié)合。該系統(tǒng)可針對不同場景賦能AI能力,實現(xiàn)智能識別(包含音視頻、圖像、文本)和業(yè)務(wù)風(fēng)控的落地創(chuàng)新,讓傳統(tǒng)的內(nèi)容安全工作更高效、更節(jié)省成本,并實現(xiàn)自動化風(fēng)險預(yù)判。此外,“虎牙天眼內(nèi)容安全SaaS解決方案”目前已于亞馬遜云上線,實現(xiàn)了對網(wǎng)絡(luò)視聽行業(yè)的賦能。
虎牙直播內(nèi)容風(fēng)控負(fù)責(zé)人表示,平臺一直深入推進內(nèi)容安全保障工作,采用“AI智能識別、人工審核和網(wǎng)絡(luò)志愿者”三位一體模式。天眼實時消音系統(tǒng)是平臺AI安全應(yīng)用的一次擴容,平臺將打造全方位安全攻防和更精準(zhǔn)的內(nèi)容審核體系,為健康的網(wǎng)絡(luò)直播內(nèi)容生態(tài)建設(shè)提供參考樣本和前沿解決方案。
(責(zé)編:李瑩瑩)