海天瑞聲:助力AI企業出海,破解小語種密碼
2022-10-05 14:08:12 來源:
(原標題:海天瑞聲:助力AI企業出海,破解小語種密碼)
從“數字化出海”到“出海數字化”,中國企業拓展全球化市場勢頭強勁,同時也展現出中國數字經濟的新趨勢。
對于AI企業而言,“出海”更首要的是解決產品與當地目標受眾群體的互動問題,即AI能否實現“聽音識人”、“看臉識人”、“識文斷字”等。不同國家/地區的人種在人臉特征、語言表達、行為習慣、圖文書寫等方面都存在著差異。首當其沖的便是語言問題——能夠清晰而準確地與不同國家用戶進行“交流”,是AI應用打開海外市場的第一步。
全球語種多,出海困難大?
AI應用在不同國家/地區“聽音識人”的實現,依托于多語種AI語音技術的實現,需要根據語言積累構建語種系統,但不同語種之間差異極大,所以需要根據不同的語言特性單獨建立語言模型,而建立模型則需要大量的數據做訓練支撐。
據統計,目前世界上約有7000多種語言,使用最高頻的語言僅10多種,盡管不少智能翻譯設備的中英在線和離線翻譯效果已經達到專業水平,但小語種依然存在語言研究不充分、訓練數據稀缺、應用場景復雜多樣等問題,為AI語種系統的構建與研發帶來巨大挑戰,與語音識別、合成等多項技術的融合上也困難重重。
多維數據布局,海天瑞聲助力企業出海
海天瑞聲作為全球AI訓練數據服務行業的領軍者,基于近20年的領域深耕,從“覆蓋雜難語種數據”、“建成最大規模數據庫”、“數據緊跟前瞻AI應用場景”三個維度布局,助力企業全球化業務拓展。
“覆蓋雜難語種數據”——面對“語種多、小語種研究不足”的行業問題,海天瑞聲全球化的母語發音人資源布局以及全球語言學家團隊,支持170多種語言及方言的數據方案設計、語音采集、轉錄、發音詞典制作服務,可在70+個國家/地區進行本地化項目服務。
“建成最大規模數據庫”——針對“訓練數據稀缺”的需求難題,海天瑞聲打造全球規模最大的現有數據集庫。近千個數據成品庫,包含稀缺小語種在內的100多種語言,讓AI企業不再花費精力根據不同的語言特性單獨建模,將大大加速AI應用的開發與迭代。
“數據緊跟前瞻AI應用場景”——對于“應用場景復雜多樣”的海外市場需求,海天瑞聲憑借多年全球化項目經驗,對市場前沿需求時刻保持敏銳,數據集支持語音識別、語音合成、計算機視覺、自然語言處理、詞典等多個任務領域,覆蓋智能家居、智能駕駛、虛擬主播、有聲書、智慧金融、智能安防、智能搜索等多個業務場景,為AI企業及應用出海開啟更多賽道與可能。
打造稀缺小語種數據庫,海天瑞聲破解語言密碼
針對不同的任務和應用場景,海天瑞聲基于自有高規格錄音棚、全球優質聲優資源建立了多語種、數千個小時的語音庫,不乏眾多稀缺小語種數據庫,如亞美尼亞語、巽他語、普什圖語、印地語等,所有參與錄音的發音人均經過專業篩選,保證其發音標準,吐字清晰;專業的語言專家全程參與監督,保證數據準確性。
以下小編整理的個別語種數據庫展示,覆蓋TTS、ASR、OCR等領域,如有更多感興趣的小語種,歡迎來撩!
TTS!
King-TTS-117 !越南語女聲合成庫,錄音風格多樣,包含中性通用錄音和多情感錄音;標注包含發音標注、韻律標注。被采集人為一位音色成熟穩重的32歲女性聲優,在專業錄音棚每周錄音2-3次,總錄音周期為6個月,錄音內容選自影視臺詞。
King-TTS-076!芬蘭語男聲合成庫,被采集人是一位音色成熟沉穩的35歲男性聲優,在專業錄音棚每周錄音2-3次,總錄音周期為1個月,錄音內容覆蓋日常用語、金融、新聞等領域。標注維度多樣,包含發音標注、韻律標注、詞性標注、音素邊界標注。
ASR
King-ASR-752!南非祖魯語識別語音庫,該識別數據在安靜辦公室/家居環境中完成錄制,共有400位發音人參與,包括179位男性和221位女性,錄音文本覆蓋新聞等領域,總音頻時長241。3小時。
King-ASR-708!斯洛伐克語識別語音庫,該識別數據在安靜辦公室環境中完成錄制,共有200位發音人參與,包括90位男性和110位女性,錄音文本覆蓋新聞、日常對話等領域,總錄音時長336。9小時。
OCR
藏/維/蒙語OCR數據庫,每種語言包含1000張圖片,涵蓋日常生活各類場景,如自然場景(路牌,宣傳欄,店鋪名,菜單,海報等)、文檔翻拍(書籍,報刊,A4紙文檔);轉寫由專業的語言專家全程進行監督,轉寫規則適用于大多數的算法需求,具有普適性。
Lexicon
King-Lexicon-129!愛沙尼亞發音詞典,包含67114個常用詞和52158個專有名詞。
King-Lexicon-032!巴基斯坦烏爾都語發音詞典,包含101211個詞條。
。。。。。。
截至目前,海天瑞聲已與全球近700家科技巨頭、科研機構、AI新興企業建立深度合作關系,以專業、可靠、安全的數據服務,成功交付了數千個定制項目,深得客戶信賴。此外,除了現有的數據集產品,海天瑞聲還可以針對特定語種、特定人群、特定場景等提供相應的數據定制化服務,力求滿足每一位客戶的特定需求,贏得客戶每一分信賴。
-
海天瑞聲:助力AI企業出海,破解小語種密碼
?。ㄔ瓨祟}:海天瑞聲:助力AI企業出海,破解小語種密碼) 從數字化出海到出海數字化,中國企業拓展全球化市場勢頭強勁,同時也展現出
2022-10-05 14:08
-
小刺猬拿大獎OculusVR電影《Henry》獲艾美獎
?。ㄔ瓨祟}:小刺猬拿大獎!Oculus出品VR電影《Henry》獲艾美獎) 一只希望獲得朋友的可愛小刺猬,把艾美獎捧回了家,這就是Oculus
2022-10-05 11:58
-
科技助力產業升級,增強現實激發房地產新動力
12月29日,2017中國房地產全行業領袖新年峰會在廣州隆重舉行,峰會上亮相的網易AR系列產品吸引了眾多房地產行業同仁的熱切關注。 經歷
2022-10-05 08:13
-
Facebook證實研發AR眼鏡并在現實世界構建VRAR
?。ㄔ瓨祟}:Facebook says it will build AR glasses and map the world) 圖:Facebook首席執行官馬克·扎克伯格 網
2022-10-05 07:12
-
5G無人公交運營報告將發布中國路線總長世界第一
2021上海國際車展期間,《中國首條5G無人公交線路運營報告》(以下簡稱《報告》)將正式發布。這是國內首份無人公交相關運營報告,由全球
2022-10-05 06:06