導(dǎo)語(yǔ):2017年7月,國(guó)外媒體報(bào)道蘋(píng)果或?qū)⒂赪WDC 推出智能音箱產(chǎn)品,引發(fā)語(yǔ)音人工智能領(lǐng)域關(guān)注。一方面,以亞馬遜Echo 智能音箱為代表的現(xiàn)象級(jí)AI 產(chǎn)品廣泛應(yīng)用于日常家居生活;另一方面,中國(guó)2017 年兩會(huì)政府工作報(bào)告首提人工智能,“科技創(chuàng)新2030—重大項(xiàng)目”關(guān)注人工智能2.0 主題,AI 全面升級(jí)為國(guó)家層面發(fā)展戰(zhàn)略。由于學(xué)習(xí)驅(qū)動(dòng)方式、數(shù)據(jù)處理方式、計(jì)算形態(tài)、平臺(tái)生成方式和研究理念五大方面的變化,政策和產(chǎn)業(yè)的現(xiàn)狀表明AI 2.0 時(shí)代已經(jīng)來(lái)臨。
人工智能躍遷2.0 階段,
智能音箱催熟語(yǔ)音AI 新入口
(一)市場(chǎng)面語(yǔ)音類(lèi)產(chǎn)品熱度提升,政策面AI 被密集提及
1、語(yǔ)音類(lèi)AI 產(chǎn)品突破市場(chǎng),用戶體驗(yàn)良好帶動(dòng)銷(xiāo)量大增
2017年7月,來(lái)自AppleInsider、KGI 等多處消息顯示蘋(píng)果公司正在籌劃推出智能音箱類(lèi)產(chǎn)品,其中或?qū)⒅踩隨iri 語(yǔ)音助手,并有望在WWDC 蘋(píng)果大會(huì)上發(fā)布。全球消費(fèi)者電子龍頭公司的加入,讓語(yǔ)音類(lèi)人工智能產(chǎn)品再次吸引了業(yè)界和消費(fèi)者的濃厚興趣。
一方面,人工智能受多個(gè)有影響力影響力的事件推動(dòng)早已成為關(guān)注點(diǎn)。2016 年谷歌AlphaGo 大比分戰(zhàn)勝人類(lèi)圍棋高手李世石,2017 年初騰訊圍棋機(jī)器人絕藝在UEC 杯世界計(jì)算機(jī)圍棋大賽等比賽中戰(zhàn)績(jī)突出,近期百度小度機(jī)器人在《最強(qiáng)大腦》節(jié)目里擊敗人類(lèi)頂尖選手。這些事件表明AI 技術(shù)發(fā)展越來(lái)越成熟,特別是深度學(xué)習(xí)技術(shù)不斷實(shí)現(xiàn)突破。
另一方面,從產(chǎn)品化角度看,語(yǔ)音類(lèi)AI 產(chǎn)品最為接近實(shí)用,性能表現(xiàn)能夠基本滿足用戶需求。最有代表性的是Amazon 在2014 年11 月發(fā)布的Echo 智能音箱,以及在后期陸續(xù)發(fā)布入門(mén)級(jí)智能音箱Echo Dot 和便攜式藍(lán)牙智能音箱Echo Tap。消費(fèi)者可通過(guò)內(nèi)置語(yǔ)音助手Alexa 進(jìn)行智能設(shè)備控制、多媒體操作、信息獲取、日程提醒等服務(wù),Echo 還可提供第三方接口以實(shí)現(xiàn)功能擴(kuò)展。根據(jù)CIRP 和RBC Capital Market 等公司的估計(jì),截止到2017 年2 月,Echo 系列產(chǎn)品累計(jì)銷(xiāo)售量接近1000 萬(wàn)臺(tái),銷(xiāo)售額達(dá)到8~10 億美元??蛻趔w驗(yàn)方面,Echo 系列產(chǎn)品一改早期AI 產(chǎn)品“嘗鮮勝過(guò)實(shí)用”的表現(xiàn),收獲了良好的用戶口碑。其官網(wǎng)已積累了5 萬(wàn)余條用戶評(píng)論,評(píng)分達(dá)4.4 星。
銷(xiāo)量激增和口碑優(yōu)秀的背后折射出Echo 這一類(lèi)語(yǔ)音交互類(lèi)產(chǎn)品正迅速?gòu)脑缙谟脩舻男”娙ψ舆M(jìn)入大眾市場(chǎng)。受此影響,Google、京東等也陸續(xù)推出Google Home、叮咚音箱等類(lèi)似產(chǎn)品。若蘋(píng)果推出智能音箱,則將成為另一個(gè)重要玩家。美國(guó)調(diào)查公司VoiceLabs在2017 年初發(fā)布的《2017 年語(yǔ)音報(bào)告》預(yù)測(cè)2017 年將有2450 萬(wàn)臺(tái)以語(yǔ)音為主要交互方式的智能硬件產(chǎn)品發(fā)貨,市場(chǎng)總量將達(dá)到3300 萬(wàn)臺(tái),市場(chǎng)規(guī)模超過(guò)200 億美元。
Google Home 音箱
Amazon 借助Echo 音箱構(gòu)建智能生態(tài)
2、兩會(huì)首提人工智能,科技規(guī)劃緊隨其后
2017 年3 月5 日國(guó)務(wù)院總理李克強(qiáng)在政府工作報(bào)告中首次提到要加快人工智能等技術(shù)研發(fā)和轉(zhuǎn)化,做大做強(qiáng)產(chǎn)業(yè)集群。實(shí)際上,最近一年來(lái)政府對(duì)人工智能的關(guān)注明顯提升,相關(guān)政策的推進(jìn)也有所加快:2016 年7 月,國(guó)務(wù)院在《“十三五”國(guó)家科技創(chuàng)新規(guī)劃》中提出重點(diǎn)發(fā)展新一代信息技術(shù),對(duì)人工智能和智能交互做出重點(diǎn)規(guī)劃;2017 年2 月15日,科技部表示在“科技創(chuàng)新2030—重大項(xiàng)目”中新增“人工智能2.0”項(xiàng)目,并已進(jìn)入實(shí)施方案的最終論證階段;2017 年3 月11 日,科技部部長(zhǎng)萬(wàn)鋼還在表示,科技部正和相關(guān)方面共同起草促進(jìn)中國(guó)人工智能創(chuàng)新發(fā)展規(guī)劃,此規(guī)劃旨在推動(dòng)人工智能在經(jīng)濟(jì)建設(shè)、社會(huì)民生、環(huán)保事業(yè)、國(guó)家安全等方面應(yīng)用。我們認(rèn)為,政府工作報(bào)告首次提及AI,表明其已升級(jí)為國(guó)家戰(zhàn)略,相關(guān)規(guī)劃的具體設(shè)計(jì)和配套政策的落地也將助力AI 產(chǎn)業(yè)深化發(fā)展。國(guó)家陸續(xù)出臺(tái)的多項(xiàng)政策在政策面對(duì)人工智能產(chǎn)業(yè)的發(fā)展起到積極的助推和引導(dǎo)作用。
(二)AI 2.0 概念成型,語(yǔ)音入口地位顯現(xiàn)
1、AI 2.0時(shí)代來(lái)臨
目前多個(gè)研究認(rèn)為,人工智能已基本發(fā)展到2.0 階段,應(yīng)用領(lǐng)域深入到機(jī)器人、安防、金融、醫(yī)療、家居等多個(gè)垂直行業(yè)??偟膩?lái)說(shuō),AI 2.0 的基本含義是指人工智能在內(nèi)部新算法模型和高性能硬件發(fā)展的支持下,應(yīng)對(duì)外部信息環(huán)境及社會(huì)需求的快速變動(dòng),從單個(gè)技術(shù)解決單一場(chǎng)景的“1.0”階段跨越到不同產(chǎn)業(yè)融合式發(fā)展的新階段。
AI 1.0 向2.0 轉(zhuǎn)型升級(jí)具有五大表現(xiàn)特征:
(1)學(xué)習(xí)驅(qū)動(dòng)方式升級(jí):從傳統(tǒng)知識(shí)表達(dá)方式、單純大數(shù)據(jù)驅(qū)動(dòng)方式,轉(zhuǎn)向大數(shù)據(jù)驅(qū)動(dòng)和知識(shí)指導(dǎo)相結(jié)合的方式,可自動(dòng)進(jìn)行機(jī)器學(xué)習(xí),其應(yīng)用范圍更加廣泛;
(2)數(shù)據(jù)處理方式升級(jí):從分類(lèi)型處理多媒體數(shù)據(jù) (如視覺(jué)、聽(tīng)覺(jué)、文字等),邁向跨媒體認(rèn)知、學(xué)習(xí)和推理的新水平;
(3)計(jì)算形態(tài)升級(jí):從直接追求“智能機(jī)器”和高水平的人機(jī)協(xié)同融合,走向漸進(jìn)型混合增強(qiáng)智能的新計(jì)算形態(tài);
(4)平臺(tái)生成方式升級(jí):從聚焦研究“個(gè)體智能”,走向基于互聯(lián)網(wǎng)絡(luò)的群體智能,形成在網(wǎng)上激發(fā)組織群體智能的技術(shù)與平臺(tái);
(5)研究理念升級(jí):從機(jī)器人主導(dǎo),轉(zhuǎn)向更加廣闊的智能自主系統(tǒng),從而促進(jìn)改造各種機(jī)械、裝備和產(chǎn)品,走上泛智能化之路。
支撐技術(shù)日趨成熟,產(chǎn)品服務(wù)創(chuàng)新有跡可循。語(yǔ)音AI 技術(shù)包括三個(gè)要素:算法、計(jì)算能力和數(shù)據(jù)。(1)算法方面,按照“機(jī)器感知—人機(jī)理解—智能判斷”這一典型語(yǔ)音AI 作業(yè)流程劃分,涉及的基礎(chǔ)支撐技術(shù)主要包含語(yǔ)音識(shí)別、聲紋識(shí)別、自然語(yǔ)言處理、深度學(xué)習(xí)等;(2)計(jì)算能力方面,主要涉及用于計(jì)算加速的GPU 芯片和提升語(yǔ)音預(yù)處理效果的麥克風(fēng)陣列等硬件;(3)數(shù)據(jù)方面,則和業(yè)務(wù)相關(guān),主要分為通用型(如人機(jī)對(duì)話等)和專(zhuān)用型(如工作任務(wù)、特定信息查詢(xún)、操作指令等)等。
(一)語(yǔ)音識(shí)別技術(shù)高度成熟,傳統(tǒng)科技公司優(yōu)勢(shì)明顯
語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)是將人類(lèi)的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過(guò)程,是大多數(shù)語(yǔ)音交互的第一道門(mén)檻,只有首先聽(tīng)對(duì)用戶說(shuō)的話才能進(jìn)行后續(xù)的理解和決策。一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)包括特征提取、聲學(xué)模型、語(yǔ)言模型、搜索算法等模塊。而在具體實(shí)現(xiàn)上,一般的需要先準(zhǔn)備特征模型庫(kù),在識(shí)別時(shí)對(duì)采集到的語(yǔ)音信號(hào)提取待檢測(cè)特征,然后將得到的語(yǔ)音特征參數(shù)與模型庫(kù)進(jìn)行比對(duì)。由聲音模式匹配模塊對(duì)該段語(yǔ)音進(jìn)行識(shí)別,從而識(shí)別出語(yǔ)音內(nèi)容。
語(yǔ)音識(shí)別系統(tǒng)流程
從市場(chǎng)格局來(lái)看,傳統(tǒng)的科技公司占據(jù)ASR 市場(chǎng)絕對(duì)份額:2015 年,全球市場(chǎng)中Nuance、谷歌、蘋(píng)果、微軟占據(jù)絕對(duì)市場(chǎng)份額,國(guó)內(nèi)市場(chǎng)中科大訊飛和百度占據(jù)約73%的份額。
(二)聲紋識(shí)別助力身份認(rèn)證,安防與移動(dòng)支付場(chǎng)景成看點(diǎn)
1、VPR 技術(shù)原理、應(yīng)用和實(shí)現(xiàn)路徑
聲紋識(shí)別技術(shù)(Voiceprint Recognition,VPR)是通過(guò)語(yǔ)音信號(hào)提取發(fā)聲人的身份的相關(guān)特征,并通過(guò)這些特征進(jìn)行模式匹配,從而識(shí)別出發(fā)聲人身份的技術(shù)。聲紋是一種承載語(yǔ)音頻譜的音頻信息,不同生物個(gè)體的發(fā)音器官均有其特殊性,發(fā)出的語(yǔ)音、語(yǔ)調(diào)等信號(hào)是有區(qū)別的,因此聲紋識(shí)別技術(shù)可以實(shí)現(xiàn)身份信息的識(shí)別,并在現(xiàn)實(shí)生活中得到廣泛應(yīng)用。聲紋識(shí)別作為生物識(shí)別技術(shù)的一種,受益于消費(fèi)者電子技術(shù)創(chuàng)新的發(fā)展趨勢(shì)。生物識(shí)別技術(shù)進(jìn)入消費(fèi)者電子產(chǎn)品的標(biāo)志事件是2013 年iPhone 5S 采用指紋識(shí)別技術(shù)。隨后,虹膜、人臉、聲紋等其他的生物識(shí)別技術(shù)也開(kāi)始獲得長(zhǎng)足的發(fā)展。
VPR 技術(shù)原理:VPR 的實(shí)現(xiàn)是先對(duì)收到的語(yǔ)音信息提取特征做預(yù)處理,然后進(jìn)行語(yǔ)音訓(xùn)練和語(yǔ)音識(shí)別兩個(gè)階段處理。語(yǔ)音訓(xùn)練是對(duì)提取出的語(yǔ)音信息特征進(jìn)行學(xué)習(xí)訓(xùn)練,創(chuàng)建全面的聲紋信息模板或語(yǔ)音信息庫(kù)。識(shí)別部分則是根據(jù)信息模板或信息庫(kù)對(duì)語(yǔ)音特征進(jìn)行模式匹配計(jì)算,由此判斷該語(yǔ)音是否為已知模板或語(yǔ)音庫(kù)中的特征信息,從而得出識(shí)別結(jié)果。
聲紋識(shí)別系統(tǒng)原理圖
VPR 技術(shù)主要使用動(dòng)態(tài)檢測(cè)的方法。動(dòng)態(tài)檢測(cè)的方法是在靜態(tài)檢測(cè)的原理方法之上增加語(yǔ)音激活檢測(cè)(Voice Activity Detect,VAD)、降噪、去混響等算法。VAD 的目的是檢測(cè)人聲開(kāi)始與結(jié)束的時(shí)間點(diǎn),將對(duì)應(yīng)音頻截取出來(lái)以供分析,避免無(wú)效的錄音部分帶來(lái)的額外時(shí)間開(kāi)銷(xiāo);降噪和去混響是排除環(huán)境干擾,進(jìn)一步提高識(shí)別正確率。
2、安全控制應(yīng)用廣泛,移動(dòng)支付成看點(diǎn)
VPR 在政府、鐵路、電力、安全等特殊部門(mén)中依然具有較好的實(shí)用價(jià)值。根據(jù)美國(guó)聯(lián)邦調(diào)查局對(duì)近2000 例與聲紋相關(guān)的案件進(jìn)行的統(tǒng)計(jì),利用聲紋作為證據(jù)時(shí)只有0.31%的錯(cuò)誤率。同樣聲紋鑒別已是國(guó)內(nèi)公安部的證據(jù)鑒定標(biāo)準(zhǔn)之一,這說(shuō)明某些環(huán)境下聲紋可以用來(lái)作為有效的身份鑒別方式。
產(chǎn)業(yè)界一些領(lǐng)先企業(yè)開(kāi)始在移動(dòng)支付領(lǐng)域采用“聲紋+人臉識(shí)別”的融合方式開(kāi)展產(chǎn)品化工作。2015 年,支付寶和百度錢(qián)包相繼上線聲紋支付功能??拼笥嶏w依托聲紋識(shí)別和人臉識(shí)別技術(shù)構(gòu)建了統(tǒng)一生物認(rèn)證系統(tǒng),并聯(lián)合中國(guó)銀聯(lián)、徽商銀行共同推出“聲紋+人臉”融合認(rèn)證個(gè)人轉(zhuǎn)賬應(yīng)用。聲紋識(shí)別一個(gè)重要的的優(yōu)點(diǎn)是可以將語(yǔ)音操作和身份認(rèn)證融合在同一個(gè)環(huán)節(jié)中,即用戶發(fā)出語(yǔ)音指令即可同時(shí)進(jìn)行聲紋識(shí)別和語(yǔ)義理解,因此我們預(yù)計(jì)未來(lái)配合人臉識(shí)別的聲紋認(rèn)證服務(wù)將更多涌現(xiàn)。
圖:科大訊飛等聯(lián)合推出的“聲紋+人臉”支付產(chǎn)品
圖:支付寶聲紋支付演示
(三)自然語(yǔ)言處理仍存技術(shù)難點(diǎn),機(jī)器翻譯或?yàn)橥黄瓶?/span>
1、自然語(yǔ)言處理是語(yǔ)音AI 的重要核心
自然語(yǔ)言處理(Natural Language Processing,NLP)是一門(mén)融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。NLP 可分為自然語(yǔ)言理解和自然語(yǔ)言生成。前者是計(jì)算機(jī)能理解自然語(yǔ)言文本的意義,后者是計(jì)算機(jī)能以自然語(yǔ)言文本來(lái)表達(dá)給定的意思。NLP 是語(yǔ)音AI領(lǐng)域中的核心部分,但當(dāng)前面臨的技術(shù)挑戰(zhàn)難度較大,基于統(tǒng)計(jì)技術(shù)的傳統(tǒng)方法并未完全解決語(yǔ)言理解的難點(diǎn)。
人機(jī)對(duì)話是NLP 技術(shù)最為典型的應(yīng)用之一。人機(jī)對(duì)話系統(tǒng)的基本結(jié)構(gòu)包括三個(gè)部分:語(yǔ)言理解、語(yǔ)言生成和對(duì)話管理。語(yǔ)言理解和生成分別是指理解用戶的語(yǔ)言輸入和產(chǎn)生系統(tǒng)的語(yǔ)言輸出。這兩部分直接影響對(duì)話系統(tǒng)的性能,成為NLP 中其他應(yīng)用不可缺少的部分。對(duì)話管理則可用于區(qū)分對(duì)話系統(tǒng)和問(wèn)答系統(tǒng),是指從語(yǔ)言理解部分獲取輸入信息,維護(hù)對(duì)話過(guò)程中的系統(tǒng)內(nèi)部狀態(tài)(如上下文、指代詞等),并基于狀態(tài)生成對(duì)話策略,為產(chǎn)生對(duì)話言語(yǔ)提供依據(jù)。對(duì)話管理的評(píng)價(jià)指標(biāo)主要是要控制對(duì)話流程的自然程度和用戶體驗(yàn)。
2、機(jī)器翻譯技術(shù)發(fā)展迅速,互聯(lián)網(wǎng)公司占主導(dǎo)優(yōu)勢(shì)
NLP 領(lǐng)域一個(gè)較成熟的方向是機(jī)器翻譯(Machine Translation)。一種方案是采用神經(jīng)機(jī)器翻譯模型,是一種通用的計(jì)算裝置,適合處理“序列到序列”的問(wèn)題。所謂“序列”是指機(jī)器翻譯中源語(yǔ)言的句子和對(duì)應(yīng)的目標(biāo)語(yǔ)言的對(duì)應(yīng)關(guān)系。機(jī)器翻譯的發(fā)展主要經(jīng)歷以下四個(gè)階段,如下圖所示。
圖:機(jī)器翻譯發(fā)展歷程
影響機(jī)器翻譯水平的方面中雙語(yǔ)語(yǔ)料庫(kù)的構(gòu)建很關(guān)鍵。大型互聯(lián)網(wǎng)公司在這一領(lǐng)域積累深厚,已占據(jù)主導(dǎo)優(yōu)勢(shì)。例如科大訊飛在2016 年底的年度發(fā)布會(huì)上演示的訊飛聽(tīng)見(jiàn)系統(tǒng)在實(shí)時(shí)轉(zhuǎn)寫(xiě)的同時(shí),能同步翻譯成英語(yǔ)、日語(yǔ)、韓語(yǔ)、維語(yǔ)等。
除了機(jī)器翻譯應(yīng)用,在新的消費(fèi)者電子產(chǎn)品上NLP 主流應(yīng)用以智能語(yǔ)音助手為主,如IBM Watson、蘋(píng)果Siri、Google Assistant、微軟小冰和小娜、百度度秘等。人們對(duì)此已經(jīng)比較熟悉,不再過(guò)多論述。目前,由于技術(shù)成熟度有限,NLP 應(yīng)用整體上還處于一個(gè)早期階段,只能理解一些簡(jiǎn)單的句子,滿足用戶初級(jí)的溝通與交互需求。