根據(jù)《siliconangle》消息:Facebook表示其利用AI技術(shù)在不依賴英語(yǔ)數(shù)據(jù)的情況下翻譯任意兩種語(yǔ)言的嘗試,已經(jīng)取得了實(shí)質(zhì)性進(jìn)展。Facebook正在開(kāi)源一種名為M2M-100的新AI語(yǔ)言模型,該模型可以在100種語(yǔ)言中的任何一對(duì)之間進(jìn)行翻譯。
據(jù)稱,以前的多語(yǔ)言模型嚴(yán)重依賴英語(yǔ)作為中介,例如,中文譯成法文的步驟通常是從中文譯成英文,然后再?gòu)挠⑽淖g成法文。在大多數(shù)情況下,這種模型都可以很好地工作,但是在涉及更復(fù)雜的句子和短語(yǔ)時(shí)通常不準(zhǔn)確。
Facebook表示,M2M-100可以直接從中文翻譯成法語(yǔ),或者在100多種語(yǔ)言對(duì)之間進(jìn)行翻譯,從而更好地保留含義,而無(wú)需使用英語(yǔ)作為中介。
在這么多不同的語(yǔ)言對(duì)之間進(jìn)行翻譯不是一件容易的事,因?yàn)槟P托枰L問(wèn)海量的高質(zhì)量訓(xùn)練數(shù)據(jù)。Facebook人工智能研究員Angela Fan在一篇博客文章中解釋了她和她的團(tuán)隊(duì)如何著手創(chuàng)建一個(gè)龐大的“多對(duì)多”數(shù)據(jù)集,其中包含100多種不同語(yǔ)言的超過(guò)75億個(gè)句子。
這些數(shù)據(jù)根據(jù)諸如語(yǔ)言分類、地理和文化相似性等參數(shù)分為14種不同的語(yǔ)言組。然后,在每個(gè)語(yǔ)言組中,F(xiàn)acebook為每個(gè)語(yǔ)言標(biāo)識(shí)一到三種“過(guò)渡語(yǔ)言”,作為將其翻譯成不同語(yǔ)言的基礎(chǔ)。
M2M-100模型比Facebook當(dāng)前使用的以英語(yǔ)為中心的多語(yǔ)言模型準(zhǔn)確度更高。該公司聲稱,M2M -100在評(píng)估機(jī)器翻譯的BLEU度量標(biāo)準(zhǔn)上比之前模型高出“10分”。
Facebook最終希望用M2M-100替換之前的翻譯模型,以提高其翻譯質(zhì)量。(釘科技根據(jù)《siliconangle》消息編譯)
- QQ:61149512