【熱聞】思必馳榮獲IWSLT 2022英中同聲傳譯冠軍
2022-06-17 06:04:40 來(lái)源: GPLP
0瀏覽 評(píng)論0條
在2022年國(guó)際口語(yǔ)機(jī)器翻譯評(píng)測(cè)比賽(簡(jiǎn)稱IWSLT)中,思必馳-上海交大聯(lián)合團(tuán)隊(duì)(AISP-SJTU)憑借卓越的技術(shù)優(yōu)勢(shì),獲得“英-中同聲傳譯”(Speech-to-Text)賽道冠軍。
2022年第十九屆國(guó)際口語(yǔ)機(jī)器翻譯大會(huì)(International Conference on Spoken Language Translation ,簡(jiǎn)稱 IWSLT)在愛(ài)爾蘭都柏林落幕。IWSLT是國(guó)際上最具影響力的口語(yǔ)機(jī)器翻譯評(píng)測(cè)比賽之一,今年設(shè)置了同聲傳譯、離線語(yǔ)音翻譯等7個(gè)任務(wù)。思必馳-上海交大聯(lián)合團(tuán)隊(duì)(AISP-SJTU)本次參加英-中同聲傳譯任務(wù),以優(yōu)異的成績(jī)獲得Speech-to-Text賽道第一名。
【資料圖】
論文標(biāo)題:The AISP-SJTU Simultaneous Translation System for IWSLT 2022
任務(wù)和背景
同聲傳譯是僅在部分語(yǔ)音或文本輸入的情況下,逐步生成翻譯結(jié)果的任務(wù)。同聲傳譯包含兩個(gè)子任務(wù):
1)Text-to-Text,將流式語(yǔ)音識(shí)別(ASR)系統(tǒng)的輸出文本實(shí)時(shí)從英語(yǔ)翻譯成中文普通話;
2)Speech-to-Text:將英文語(yǔ)音實(shí)時(shí)翻譯成中文普通話文本。
目前同聲傳譯任務(wù)主要有兩種技術(shù)路線:
1)級(jí)聯(lián)技術(shù)。即整個(gè)系統(tǒng)由ASR系統(tǒng)和翻譯(MT)系統(tǒng)組成,輸入源語(yǔ)言音頻信號(hào),先經(jīng)過(guò)ASR系統(tǒng)轉(zhuǎn)寫成源文本,再經(jīng)過(guò)MT系統(tǒng)翻譯為目標(biāo)語(yǔ)言。
2)端到端技術(shù)。即系統(tǒng)直接將源語(yǔ)言音頻翻譯為目標(biāo)語(yǔ)言文本,不生成中間字符。相對(duì)于級(jí)聯(lián)系統(tǒng)上億的數(shù)據(jù)規(guī)模,端到端系統(tǒng)的訓(xùn)練數(shù)據(jù)極其匱乏,導(dǎo)致其效果遠(yuǎn)低于級(jí)聯(lián)系統(tǒng)。
圖1. 級(jí)聯(lián)語(yǔ)音翻譯
圖2. 端到端語(yǔ)音翻譯
同聲傳譯的系統(tǒng)通過(guò)兩種方式進(jìn)行評(píng)估:
1)翻譯質(zhì)量,使用標(biāo)準(zhǔn)BLEU指標(biāo)評(píng)估;
2)翻譯延時(shí),使用流式翻譯的標(biāo)準(zhǔn)指標(biāo)進(jìn)行評(píng)估,包括平均比例(AP)、平均滯后(AL)、可微平均滯后(DAL)。
最后,比賽主辦方根據(jù)不同延時(shí)范圍的翻譯質(zhì)量對(duì)提交的同聲傳譯系統(tǒng)進(jìn)行排名。對(duì)于英-中同聲傳譯系統(tǒng),延時(shí)范圍設(shè)置為:
1)低延時(shí),AL<=2000毫秒;
2)中延時(shí),AL<=3000毫秒;3)高延時(shí),AL<=4000毫秒。
數(shù)據(jù)和數(shù)據(jù)處理
文本數(shù)據(jù)預(yù)處理
比賽方提供大量的雙語(yǔ)語(yǔ)料和單語(yǔ)語(yǔ)料,通過(guò)規(guī)則過(guò)濾和匹配模型篩選出優(yōu)質(zhì)的文本數(shù)據(jù)。規(guī)則過(guò)濾包括:太長(zhǎng)的單詞,長(zhǎng)度嚴(yán)重失衡的中英雙語(yǔ)句子,過(guò)濾帶HTML標(biāo)簽的句子,刪除重復(fù)等等。另外,訓(xùn)練一個(gè)分類模型,過(guò)濾語(yǔ)義不匹配的真實(shí)雙語(yǔ)和偽雙語(yǔ)數(shù)據(jù)。
文本數(shù)據(jù)擴(kuò)增
數(shù)據(jù)增強(qiáng)是提升模型效果行之有效的方案。首先使用真實(shí)雙語(yǔ)數(shù)據(jù)訓(xùn)練中-英和英-中離線模型。然后這兩個(gè)離線模型分別生成中文單語(yǔ)和英文單語(yǔ)的偽雙語(yǔ)數(shù)據(jù),用于回譯和知識(shí)蒸餾。最后,讓翻譯模型在ASR生成的偽雙語(yǔ)數(shù)據(jù)上進(jìn)行微調(diào),來(lái)提升翻譯模型的魯棒性。文本數(shù)據(jù)統(tǒng)計(jì)如下:
表1. MT訓(xùn)練數(shù)據(jù)
語(yǔ)音數(shù)據(jù)處理
比賽主辦方提供了6個(gè)英文語(yǔ)音數(shù)據(jù)集,共3000小時(shí)。采用傳統(tǒng)的語(yǔ)音特征提取方法FBank,特征維度設(shè)置為80,每幀窗口大小25毫秒,窗口滑動(dòng)步長(zhǎng)10毫秒。
語(yǔ)音數(shù)據(jù)擴(kuò)增
通過(guò)增加音頻擾動(dòng)的方法來(lái)獲得擴(kuò)增音頻,包括聲音大小、速度、基線擾動(dòng)等。除了CoVoST2這個(gè)數(shù)據(jù)集擴(kuò)增1/3,其他數(shù)據(jù)集的音頻數(shù)據(jù)擴(kuò)增3倍。音頻數(shù)據(jù)統(tǒng)計(jì)如下:
表2. ASR訓(xùn)練數(shù)據(jù)
技術(shù)解讀
思必馳-上海交大團(tuán)隊(duì)首次參加這類語(yǔ)音翻譯比賽,在充分總結(jié)前人經(jīng)驗(yàn)的基礎(chǔ)上,積極開(kāi)拓創(chuàng)新,下面對(duì)其關(guān)鍵技術(shù)進(jìn)行解讀。
技術(shù)1:引入預(yù)訓(xùn)練語(yǔ)言模型,大幅提升ASR性能
近年來(lái),預(yù)訓(xùn)練語(yǔ)言模型(LM),例如BERT,在NLP領(lǐng)域大放異彩,尤其在低資源場(chǎng)景,LM作用更加明顯。如何將語(yǔ)言模型引入ASR模型呢?首先看一下ASR的模型結(jié)構(gòu),如下圖
圖3. ASR模型和E2E模型結(jié)構(gòu)
ASR模型整體是transformer架構(gòu),但是Decoder拆分為Jointer和Predictor,其中,Predictor僅包含6層單向自注意力機(jī)制,Jointer僅包含6層交叉注意力機(jī)制。預(yù)訓(xùn)練語(yǔ)言模型可以替代Predictor,從而ASR的解碼端可以充分利用大數(shù)據(jù)的優(yōu)勢(shì),提升解碼能力。與傳統(tǒng)的預(yù)訓(xùn)練語(yǔ)言模型BERT相比,這里的語(yǔ)言模型需要做兩方面的改變:
1)將傳統(tǒng)的雙向自注意力機(jī)制改為單向注意力機(jī)制;
2)預(yù)測(cè)目標(biāo)改為預(yù)測(cè)下一個(gè)token。用表1中的數(shù)據(jù)訓(xùn)練分別訓(xùn)練一個(gè)中文語(yǔ)言模型和英文語(yǔ)言模型,并分別用于端到端模型(E2E)和ASR模型,實(shí)驗(yàn)表明,增加LM后對(duì)二者均有大幅提升。
表3. 預(yù)訓(xùn)練語(yǔ)言模型效果
技術(shù)2:無(wú)限左看,隨機(jī)右看
流式翻譯模型的編碼端一般使用單向注意力機(jī)制,進(jìn)一步地,可以設(shè)定一個(gè)固定的右看窗口,實(shí)現(xiàn)部分雙向注意力機(jī)制,來(lái)提升編碼能力,如圖4,每個(gè)token都可以“看”到所有左側(cè)內(nèi)容,即無(wú)限左看,但只能往右看到2個(gè)token。本次比賽在CAAT[1]模型的基礎(chǔ)上做了更進(jìn)一步的改進(jìn),提出Dynamic-CAAT,即在訓(xùn)練過(guò)程中,將固定的右看窗口設(shè)為隨機(jī)取值,在預(yù)測(cè)過(guò)程中,當(dāng)有新token輸入時(shí),使用雙向注意力機(jī)制重新計(jì)算所有token編碼。
圖4. 翻譯模型編碼端注意力機(jī)制
實(shí)驗(yàn)表明,Dynamic-CAAT在各類延時(shí)級(jí)別上都有效果。這樣整個(gè)系統(tǒng)只需要一個(gè)翻譯模型,而不是訓(xùn)練多個(gè)模型來(lái)適應(yīng)不同的延時(shí)范圍。
圖5. Dynamic-CAAT的效果
評(píng)測(cè)結(jié)果
IWSLT 2022綜述文章中[2],主辦方給出的英-中評(píng)測(cè)結(jié)果顯示思必馳-上海交大團(tuán)隊(duì)(AISP-SJTU)提交的系統(tǒng)在低、中、高三個(gè)延時(shí)范圍內(nèi),都超過(guò)第二名約2BLEU(具體實(shí)驗(yàn)數(shù)據(jù)見(jiàn)綜述文章143頁(yè))。
圖6. speech-to-text英-中評(píng)測(cè)結(jié)果
總結(jié)
本次比賽,結(jié)合各種技術(shù)手段打造了英-中同聲傳譯最優(yōu)基線,也對(duì)端到端模型做了初步探索。端到端模型在速度和誤差傳導(dǎo)上比級(jí)聯(lián)模型更占優(yōu)勢(shì),因此,未來(lái)我們希望進(jìn)一步研究有效的數(shù)據(jù)擴(kuò)增手段,來(lái)提升端到端模型的翻譯效果。
標(biāo)簽: 語(yǔ)言模型 語(yǔ)音數(shù)據(jù) 機(jī)器翻譯 大幅提升 模型結(jié)構(gòu)