圖片源自:國際在線

  6月5-6日,由中國科學技術協會、中國科學院、中國工程院、浙江省人民政府指導,中國人工智能學會、杭州市人民政府主辦的2021全球人工智能技術大會在杭州召開。大會匯聚了來自世界各地的人工智能領域院士專家,共同為人工智能的發(fā)展建言獻策。本次大會采用線下線上同步直播方式,線上累計觀看超過1300萬人次,其中多語種智能信息處理專題論壇在線觀看人數超過61萬人次。
  6日下午,在多語種智能信息處理專題論壇上,中國人工智能學會(以下簡稱:CAAI)多語種智能信息處理專業(yè)委員會正式成立。國務院參事、CAAI 理事長、中國工程院院士戴瓊海,CAAI 名譽理事長、中國工程院院士李德毅,中國工程院院士、新疆多語種信息技術重點實驗室主任吾守爾·斯拉木發(fā)表致辭。來自學術界、產業(yè)界的多位重磅嘉賓如百度CTO王海峰、科大訊飛研究院執(zhí)行院長劉聰、華為諾亞實驗室語音語義首席科學家劉群等帶來了精彩演講。
國務院參事、CAAI 理事長、中國工程院院士 戴瓊海(圖片源自:國際在線)
  愛數智慧創(chuàng)始人兼CEO張晴晴發(fā)表題為《多語種對話式AI技術及語料庫建設》的主題演講,介紹對話式AI技術的痛點,愛數智慧在多語種語料庫建設的應用。
愛數智慧創(chuàng)始人兼CEO張晴晴(圖片源自:國際在線)
  多語種對話式AI技術面臨的痛點
  對話式AI正在全面普及,在智能車載、智能家居、智能客服、智慧醫(yī)療、智能社交等場景中相繼落地。從技術角度看,對話式AI涉及語音識別、自然語言理解和語音合成等技術,要想通過這些技術實現人和機器更自然的對話,需要克服哪些難題?
  日常生活中對話式口語和電腦打字交流最大的區(qū)別是,對話式口語會有語序顛倒、猶豫遲疑產生的停頓,多人同時交流甚至出現語句打斷、搶話、交疊音等復雜語音場景,這為AI建模帶來很大困難。
  隨著全球文化進一步交流與融合,外語詞匯夾雜到母語中現象愈發(fā)頻繁,對話式口語在車載導航、音樂檢索等場景中存在多語種混合表達問題,比如“播放Taylor Swift的love story”等對話語句夾帶個別英文單詞或英文縮寫。針對這些技術難點,愛數智慧從聲學角度進行非母語發(fā)音字典建模和混合雙語聲學建模等,以此提高雙語識別系統(tǒng)性能。
  多語種語料庫建設 幫助開發(fā)者重建“巴別塔”
  從聲學建模角度提高雙語混合語音識別性能上,愛數智慧在ASR,TTS和發(fā)音字典方面構建統(tǒng)一的音素集,就是將中英文,以及其他語言里相似的音素集進行一個聚類。由于人類器官發(fā)出的音素集是一個有限集,我們找到這些有限集后,能夠涵蓋所有的語言。這種方式能夠在資源受限情況下進一步加大數據復用性,同時也增加了模型構建過程中的穩(wěn)定性。
  作為提高雙語識別系統(tǒng)性能的另一重要模型——混合雙語聲學建模,我們使用什么樣數據來進行對應的聲學模型的訓練,便會涉及到訓練數據集。
  目前愛數智慧擁有超過150000小時數據集,其中超過90000小時對話式AI訓練數據集,這些數據集經過多維度的標注,包括語音到文本的轉換,以及說話人性別、年齡、情感等標簽,這些標簽能夠幫助開發(fā)者在解決多語言對話式AI上提供更多的信息,從而幫助優(yōu)化對應的模型。
  此外,愛數智慧擁有超過60種語言的數據集,還有部分針對外語數據構建的雙語混合數據集,如泰語英語混合數據集、馬來語英語混合數據集等,從而幫助開發(fā)者解決混合語音識別的問題。
  最后,多語種對話式AI研究非常困難也是必然趨勢,要實現世界語言無縫溝通交流這一終極目標,張晴晴號召更多AI開發(fā)者投身多語種對話式AI的研究領域,推動對話式AI進一步發(fā)展,重建巴別塔。
多語種智能信息專題論壇現場合影(圖片源自:國際在線)
  GAITC大會同期甄選51家優(yōu)秀企業(yè),參加全球人工智能技術博覽會,愛數智慧與科大訊飛、阿里、百度、英偉達、快手、字節(jié)跳動和東風汽車等國內外知名企業(yè)悉數亮相。
GAITC大會博覽會(圖片源自:國際在線)
  吾守爾·斯拉木蒞臨愛數智慧展臺,了解愛數智慧核心技術及產品,并對MagicHub.io開源社區(qū)非常感興趣,吾守爾鼓勵愛數智慧在多語種智能化研究和應用上繼續(xù)努力,實現無縫交流。
愛數智慧市場總監(jiān)Helen在展臺介紹愛數智慧核心技術及產品(圖片源自:國際在線)
吾守爾·斯拉木參觀愛數智慧展位并關注MagicHub.io開源社區(qū)(圖片源自:國際在線)