百度展現(xiàn)多終端一體“音入口”布局能力

2016-06-25 08:14:34 來源:互聯(lián)網(wǎng)作者:佚名 人氣: 次閱讀 130 條評(píng)論

2016年6月23日,百度語音技術(shù)媒體溝通會(huì)在北京百度大廈召開,百度語音技術(shù)部總監(jiān)高亮、高級(jí)經(jīng)理劉洋、技術(shù)架構(gòu)師謝延,及百度語音開放平臺(tái)高級(jí)產(chǎn)品經(jīng)理何蕩向與...

  2016年6月23日,百度語音技術(shù)媒體溝通會(huì)在北京百度大廈召開,百度語音技術(shù)部總監(jiān)高亮、高級(jí)經(jīng)理劉洋、技術(shù)架構(gòu)師謝延,及百度語音開放平臺(tái)高級(jí)產(chǎn)品經(jīng)理何蕩向與會(huì)媒體及專家講解和演示了百度語音技術(shù)的最新進(jìn)展。與此同時(shí),小度機(jī)器人和搭載百度車聯(lián)網(wǎng)CarLife的2016款途勝亮相現(xiàn)場(chǎng),展現(xiàn)了百度語音技術(shù)多終端一體“音入口”的未來布局。未來的人機(jī)交互將更多通過聲音進(jìn)行,任何終端都“一音進(jìn)入”。

  

  百度語音技術(shù):識(shí)別準(zhǔn)確率達(dá)97%,請(qǐng)求量每天過億

  在語音技術(shù)最為核心的語音識(shí)別、語義解析、語音合成三種技術(shù)之中,百度語音不但在技術(shù)上處于業(yè)界領(lǐng)先地位,同時(shí)也是業(yè)界最為開放的免費(fèi)語音技術(shù)服務(wù)供應(yīng)商。目前,百度安靜環(huán)境下普通話語音識(shí)別準(zhǔn)確率已達(dá)到97%,超過正常人的聽力水平;百度語音合成技術(shù)亦引入了深度學(xué)習(xí)技術(shù),可根據(jù)大數(shù)據(jù)情感合成明星個(gè)性音;百度語義理解技術(shù)支持超過56個(gè)領(lǐng)域自定義適配。

  

  目前,使用百度語音的App數(shù)量8萬+,每天語音識(shí)別請(qǐng)求量1億+,每天語音合成請(qǐng)求量2.5億+。重量級(jí)行業(yè)用戶包括智能手機(jī)領(lǐng)域的聯(lián)想、中興、魅族等;智能家居領(lǐng)域的聯(lián)想、康佳、SONY等;汽車行業(yè)的特斯拉、比亞迪等;智能設(shè)備領(lǐng)域的惠普、三諾、艾米通訊等。

  超越蘋果與谷歌:百度語音技術(shù)國(guó)際領(lǐng)先

  會(huì)上,百度語音向眾多媒體代表展示了技術(shù)實(shí)力。在語音識(shí)別領(lǐng)域,不論是童聲發(fā)音或者是方言,百度語音均能準(zhǔn)確識(shí)別,令人印象深刻;在語音合成領(lǐng)域,情感小說合成、明星語音、名人聲音均惟妙惟肖,令人嘖嘖稱奇。

  據(jù)了解,這些令人拍案叫絕的效果,源于百度語音的技術(shù)積累。2014年12月,百度稱語音識(shí)別技術(shù)取得重大突破,語音識(shí)別效果超過谷歌和蘋果。在嘈雜的背景中進(jìn)行測(cè)試的結(jié)果顯示,百度的DeepSpeech語音識(shí)別技術(shù)DeepSpeech的錯(cuò)誤率比谷歌語音API、wit.ai、微軟必應(yīng)語音和蘋果Dictation低了10%。2015年11月,百度硅谷實(shí)驗(yàn)室推出新一代深度語音識(shí)別系統(tǒng)(Deep Speech 2),被美國(guó)權(quán)威雜志《麻省理工評(píng)論》列為2016年十大突破技術(shù)之一,也是唯一來自中國(guó)科技公司的科技成果。

  在語音合成技術(shù)上,百度已實(shí)現(xiàn)了業(yè)界領(lǐng)先的拼接合成和參數(shù)合成兩項(xiàng)技術(shù)的研發(fā)。拼接式合成,基于海量文本語料的自然語言理解技術(shù)和深度加工的專業(yè)發(fā)音庫(kù),經(jīng)過多層次的建模讓韻律表現(xiàn)更穩(wěn)健又有表現(xiàn)力。而其智能的彈性單元挑選策略,能從大規(guī)模錄音語料庫(kù)中找到所求。由于拼接合成所需資源較多,所以通過在線合成的方式提供服務(wù)。參數(shù)合成則來源于高質(zhì)量聲學(xué)建模和模型壓縮技術(shù),以及音質(zhì)優(yōu)良的聲碼器技術(shù),在大大降低資源的同時(shí),可以離線生成接近真人發(fā)聲的合成效果。

  開放兩項(xiàng)重要語音技術(shù):未來任何終端將“一音進(jìn)入”

  會(huì)上,百度語音宣布進(jìn)一步對(duì)外開放兩項(xiàng)重要語音技術(shù),即喚醒技術(shù)與自定義語義技術(shù)。通過小度機(jī)器人和搭載百度車聯(lián)網(wǎng)CarLife系統(tǒng)的2016款途勝演示,與會(huì)者見證了百度語音合成和基于自然語言理解的強(qiáng)大交互能力。

  百度喚醒技術(shù)喚醒率達(dá)95%,支持自定義喚醒詞和連續(xù)表達(dá),輕量級(jí)、易集成。不論用戶是通過語音說出“小度你好,請(qǐng)播放一首古典音樂”的指令,或者“小度你好,帶我去附近的加油站”的請(qǐng)求,都能得到迅速響應(yīng),除了應(yīng)用于車聯(lián)網(wǎng)外,還可以廣泛應(yīng)用于手機(jī)、電視等不同終端。而自定義語義功能,則開放了語義和語音的映射能力,能幫助眾多開發(fā)者和第三方廠商更快更準(zhǔn)地提升識(shí)別率。

  提及百度免費(fèi)開放兩項(xiàng)語音技術(shù)的意義,百度負(fù)責(zé)人表示,這些能力背后是百度的人工智能和大數(shù)據(jù)能力支撐,是百度“智能+”戰(zhàn)略的落地。正如李彥宏在2014年百度大會(huì)上預(yù)言的那樣,未來五年語音圖像搜索會(huì)超過文字。自2014年第二季度起,百度語音輸入增長(zhǎng)4倍以上,輸出增長(zhǎng)26倍以上。無論是Carlife、還是小度機(jī)器人,乃至應(yīng)用到搜索、外賣等領(lǐng)域的語音技術(shù),都極大優(yōu)化了產(chǎn)品體驗(yàn)并方便了人們生活。可以相信,未來的人機(jī)交互將更多通過聲音這種人類最自然的交流形式進(jìn)行。

  百度語音的愿景是通過智能語音讓萬物互聯(lián)。百度在業(yè)界首創(chuàng)完全永久免費(fèi)新形式,為開發(fā)者提供基于百度大腦的業(yè)界頂級(jí)聲學(xué)模型和語音模型。基礎(chǔ)服務(wù)免費(fèi),永久使用。在百度開放喚醒和自定義語義技術(shù)后,百度將進(jìn)一步推動(dòng)語音互動(dòng)的普及。在未來,任何終端都將“一音進(jìn)入”。

您可能感興趣的文章

相關(guān)文章