日韩操操操,久久www免费人成看片小草,成年免费a级毛片免费播放

智能音箱行業(yè)發(fā)展研究報(bào)告

發(fā)布者：管理員 2018/6/1 16:34:17

一、智能音箱定義

智能音箱是在傳統(tǒng)音箱基礎(chǔ)上增加了智能化功能，這功能體現(xiàn)在兩方面：一是技術(shù)上具備WiFi鏈接可語(yǔ)音交互；二是功能上可提供音樂(lè)、有聲讀物等內(nèi)容服務(wù)、互聯(lián)網(wǎng)服務(wù)以及場(chǎng)景化智能家居控制能力。

智能音箱可以分為兩種，一種是以亞馬遜Echo為代表的智能助手類音箱，以語(yǔ)音交互技術(shù)為重點(diǎn)，成為智能家居的控制中心，國(guó)內(nèi)廠商中京東的叮咚音箱，阿里巴巴天貓精靈和小米智能音箱同屬這種類型，另一種是以內(nèi)容分享為主的內(nèi)容智能音箱，將音箱作為音樂(lè)、有聲讀物等流媒體內(nèi)容的載體，國(guó)內(nèi)廠商以喜馬拉雅的小雅為代表。

（一）智能音箱發(fā)展歷程

2014年11月正式發(fā)布2年多的時(shí)間里，亞馬遜Echo智能音箱已經(jīng)成為市場(chǎng)上最火熱的智能家居產(chǎn)品之一，人們通過(guò)Echo可以用語(yǔ)音控制家電、購(gòu)買商品、查詢咨詢。根據(jù)研究機(jī)構(gòu)eMarketer的調(diào)查數(shù)據(jù)顯示，在美國(guó)，大約有3600萬(wàn)用戶每月會(huì)用到一次語(yǔ)音操控的音箱，并且這個(gè)數(shù)字還在擴(kuò)大。

（二）智能音箱市場(chǎng)發(fā)展圖

智能音箱將經(jīng)歷四個(gè)發(fā)展周期：

1.探索期。該階段，人工智能及物聯(lián)網(wǎng)技術(shù)發(fā)展為其爆發(fā)奠定了基礎(chǔ);

2.啟動(dòng)期。經(jīng)過(guò)探索期對(duì)消費(fèi)者的普及，消費(fèi)者認(rèn)知提升，廠商開(kāi)始探索較為清晰的盈利模式;

3.高速發(fā)展期。待智能音箱產(chǎn)業(yè)引得大量資本涌入，入局玩家大幅提升，產(chǎn)品更加滿足消費(fèi)者需求，智能音箱過(guò)渡到高速發(fā)展期;

4.成熟期。此階段內(nèi)，智能音箱業(yè)務(wù)模式成熟，市場(chǎng)格局穩(wěn)定，智能音箱進(jìn)入千家萬(wàn)戶。

（三）智能音箱主要功能

智能音箱主要功能

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

二、智能音箱行業(yè)發(fā)展現(xiàn)狀分析

（一）國(guó)外智能音箱行業(yè)發(fā)展現(xiàn)狀

近年來(lái)智能家居市場(chǎng)進(jìn)入快速拓展期，用戶滲透率快速增長(zhǎng)。根據(jù)調(diào)查數(shù)據(jù)顯示，2017 年美國(guó)智能家居市場(chǎng)規(guī)模將達(dá) 146 億美元，滲透率提升至 32.5%，預(yù)計(jì) 2021 年將達(dá)到 60.7%。而中國(guó)智能家居市場(chǎng)規(guī)模也超過(guò) 20 億美元，滲透率為 2.6%，與美國(guó)相比差距較大，未來(lái)發(fā)展空間廣闊。隨著語(yǔ)音識(shí)別技術(shù)不斷成熟，智能音箱作為語(yǔ)音交互載體，在控制智能家居的便捷度和體驗(yàn)上都將逐步優(yōu)于智能手機(jī)。未來(lái)智能音箱有望成為智能家居的控制中樞，成為一個(gè)開(kāi)放性的平臺(tái)，可以讓客廳的智能電視、電燈、空調(diào)等鏈接起來(lái)，通過(guò)語(yǔ)音交互來(lái)實(shí)現(xiàn)對(duì)于其他智能家居產(chǎn)品的控制，掌握了智能音箱便掌握了智能家居的入口。

全球智能家居市場(chǎng)規(guī)模增長(zhǎng)預(yù)測(cè)

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

2017年對(duì)智能音箱的發(fā)展而言是關(guān)鍵性一年。從全球看，四大科技巨頭悉數(shù)入場(chǎng)，全球智能音箱市場(chǎng)規(guī)模達(dá)到3000萬(wàn)臺(tái)。

全球智能音箱市場(chǎng)規(guī)模

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

細(xì)分到產(chǎn)品，2017年，行業(yè)先驅(qū)者亞馬遜Echo依舊穩(wěn)坐智能音箱市場(chǎng)的頭把交椅。智能音箱的核心是語(yǔ)音交互，準(zhǔn)確的喚醒率和流暢的交互體驗(yàn)是一款好的智能音箱所必須具備的。而在美國(guó)的智能音箱用戶中，有44%（約2200萬(wàn)）的用戶表示經(jīng)常會(huì)與音箱進(jìn)行語(yǔ)音交互；有70%（約3600萬(wàn)）的用戶表示每月至少會(huì)用到一次語(yǔ)音操作，并且這個(gè)數(shù)字還在不斷擴(kuò)大中。而據(jù)美國(guó)另一家權(quán)威信息技術(shù)研究與分析公司Gartner Group預(yù)測(cè)，到2020年，美國(guó)75%的家庭將擁有智能音箱。

2017年美國(guó)智能音箱產(chǎn)品市場(chǎng)占有率

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

（二）國(guó)內(nèi)智能音箱行業(yè)現(xiàn)狀分析

根據(jù)權(quán)威調(diào)研機(jī)構(gòu)GfK（全球五大市場(chǎng)研究公司之一）于2017年10月公布的"中國(guó)智能音箱市場(chǎng)分析"報(bào)告，2015年中國(guó)智能音箱零售量只有1萬(wàn)臺(tái)，2016年增至6萬(wàn)臺(tái)，2017年1--8月共累計(jì)銷售超10萬(wàn)臺(tái)。而隨著2017年第三季度眾多新品的推出，智能音箱銷售量更是有了明顯的飛躍。僅在2017年8月，智能音箱市場(chǎng)就達(dá)到了同比178%的增長(zhǎng)率。

根據(jù)艾媒咨詢數(shù)據(jù)顯示，2016年中國(guó)智能音箱銷售規(guī)模為1.36億元，預(yù)計(jì)2017年將突破兩億，達(dá)到2.01億，增長(zhǎng)率為47.8%；預(yù)計(jì)到2020年，智能音箱銷售規(guī)模將超過(guò)10億元。目前雖眾多廠商已推出智能音箱產(chǎn)品，但市場(chǎng)總體銷售規(guī)模仍處于較低水平，隨著產(chǎn)品進(jìn)一步優(yōu)化升級(jí)及智能家居的推廣，中國(guó)智能音箱消費(fèi)市場(chǎng)潛力將得到釋放，行業(yè)有望迎來(lái)爆發(fā)式增長(zhǎng)。

2016-2020年中國(guó)智能音箱

銷售規(guī)模及預(yù)測(cè)

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

通過(guò)對(duì)國(guó)內(nèi)智能音箱用戶屬性進(jìn)行調(diào)研得出，中國(guó)智能音箱用戶主要集中于一二線城市，而在性別屬性中，主要用戶是集中于有品質(zhì)生活需求的年輕男性。

智能音箱使用用戶性別分析

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

從上述圖表中可以看到在智能音箱使用上男性用戶居多。

智能音箱使用用戶年齡分布

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

從上述圖表中可以看出，智能音箱用戶主要集中在26-45歲人群，其中36-45歲人群占比高于智能硬件用戶。

智能音箱使用用戶地域分布

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

從上述圖表中可以看出，智能音箱用戶相較于智能硬件用戶在一二線城市占比更大。

智能音箱使用用戶消費(fèi)能力分析

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

從上述圖表中可以看出，智能音箱用戶以小白領(lǐng)、藍(lán)領(lǐng)等一定消費(fèi)能力的人群為主，智能音箱小白領(lǐng)用戶占比更高。

與此同時(shí)，購(gòu)買智能音箱的家庭屬性也非常明顯，已婚有孩子的用戶占比更高。

購(gòu)買智能音箱用戶的家庭屬性

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

縱觀2017年中國(guó)智能音箱整體市場(chǎng)我們不難發(fā)現(xiàn)，200元以下產(chǎn)品的市場(chǎng)占比正在不斷下降，300到600元逐漸成為主流價(jià)格段（市場(chǎng)占比達(dá)到80%）。至于2018年的市場(chǎng)走向?qū)⒃鯓愚D(zhuǎn)變，目前來(lái)看還很難判斷。但可以肯定的是，最終主導(dǎo)市場(chǎng)的必然是那些真正找到用戶痛點(diǎn)并帶來(lái)顛覆性體驗(yàn)的產(chǎn)品，且不論價(jià)格高低，能夠做到讓用戶自發(fā)購(gòu)買，對(duì)于行業(yè)來(lái)講才是良性和持久的發(fā)展。

國(guó)內(nèi)用戶購(gòu)買的智能音箱

價(jià)格區(qū)間分布圖

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

2016年整體智能音箱呈京東叮咚壟斷的趨勢(shì)，占比高達(dá)65%，飛利浦與JBL占比分別為14%、20%。2017年隨著更多廠商加入到智能音箱的市場(chǎng)，整體市場(chǎng)格局發(fā)生了改變，叮咚的市場(chǎng)份額降到38%，小米緊追其后，占比32%。

2016年及2017年1-8月

市場(chǎng)銷量占比情況

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

三、國(guó)內(nèi)外主流智能音箱產(chǎn)品及廠商情況分析

國(guó)內(nèi)外巨頭不約而同瞄準(zhǔn)了智能音箱，音箱是語(yǔ)音的載體，是聲音的播放端，那么，再給它賦予一個(gè)聲音的“拾取”和“植入”功能，從邏輯上是說(shuō)得通的，于是一波音箱發(fā)布呈井噴之勢(shì)，新一輪風(fēng)口誕生。

國(guó)外主要智能音箱產(chǎn)品分析

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

國(guó)內(nèi)主要智能音箱產(chǎn)品分析

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

（一）亞馬遜-Echo

亞馬遜公司整合電商、硬件、平臺(tái)、內(nèi)容等資源，形成完整的生態(tài)布局。

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

1.亞馬遜較早進(jìn)入智能家居領(lǐng)域，通過(guò)Alexa語(yǔ)音平臺(tái)，接入其他智能硬件及第三方服務(wù)，已形成一定的智能家居體系。

2.亞馬遜具有深厚的電商基礎(chǔ)，并在內(nèi)容、硬件、平臺(tái)、云計(jì)算、物流倉(cāng)儲(chǔ)等領(lǐng)域布局，通過(guò)智能音箱整合軟件+硬件+平臺(tái)+內(nèi)容資源，進(jìn)一步盤活電商資源。

3.亞馬遜Alexa平臺(tái)及云計(jì)算平臺(tái)為打通多個(gè)服務(wù)鏈條奠定了基礎(chǔ)，在硬件操作、軟件應(yīng)用及內(nèi)容觀看收聽(tīng)中的海量數(shù)據(jù)被有效收集并整理，實(shí)現(xiàn)內(nèi)容和服務(wù)的個(gè)性化。

4.亞馬遜在中文語(yǔ)音識(shí)別方面缺少布局，目前沒(méi)有進(jìn)入中國(guó)市場(chǎng)，但其發(fā)展為中國(guó)市場(chǎng)提供了借鑒，多數(shù)廠商以Echo為對(duì)標(biāo)，布局智能音箱。

（二）京東-叮咚

京東融合電商、硬件、內(nèi)容資源、智能平臺(tái)、音頻聯(lián)盟，構(gòu)建多場(chǎng)景多終端的無(wú)界零售。

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

1.京東在2015年推出叮咚音箱，占據(jù)國(guó)內(nèi)智能音箱市場(chǎng)的先發(fā)優(yōu)勢(shì)，叮咚音箱先后迭代推新，在用戶使用習(xí)慣、用戶需求等方面，京東已掌握較多有用的用戶數(shù)據(jù)，有利于進(jìn)一步優(yōu)化叮咚音箱。

2.通過(guò)強(qiáng)強(qiáng)聯(lián)合的方式，京東通過(guò)電商平臺(tái)優(yōu)勢(shì)，整合行業(yè)中的技術(shù)廠商、內(nèi)容廠商及第三方服務(wù)廠商，并發(fā)起“京東智能音頻聯(lián)盟”，向聯(lián)盟內(nèi)成員輸出“JD+智能音頻解決方案”，實(shí)現(xiàn)叮咚音箱產(chǎn)品與優(yōu)質(zhì)內(nèi)容、服務(wù)的結(jié)合。

3.京東通過(guò)京東智能打造智能生態(tài)體系，建立京東Alpha智能服務(wù)平臺(tái)，以京東微聯(lián)為平臺(tái)接入多種智能硬件產(chǎn)品，最終實(shí)現(xiàn)叮咚和京東微聯(lián)智能家居的打造，目前叮咚擁有150多項(xiàng)服務(wù)并且擁有自主的開(kāi)發(fā)者平臺(tái)。

4.京東布局較早，在眾多巨頭紛紛加入后，需要不斷創(chuàng)新以及鞏固生態(tài)布局，來(lái)抵抗市場(chǎng)競(jìng)爭(zhēng)。

（三）阿里-天貓精靈

阿里打通內(nèi)容資源、電商資源、O2O資源，發(fā)展消費(fèi)級(jí)AI產(chǎn)品。

1.阿里巴巴依托電商平臺(tái)建立相對(duì)完善的生態(tài)體系，在內(nèi)容、技術(shù)、O2O服務(wù)等方向上都有所布局、但硬件產(chǎn)品較少，硬件實(shí)力相對(duì)薄弱。

2.阿里成立人工智能實(shí)驗(yàn)室，發(fā)展人工智能技術(shù)，開(kāi)發(fā)消費(fèi)級(jí)AI產(chǎn)品，智能音箱將打通阿里現(xiàn)有的產(chǎn)業(yè)資源，實(shí)現(xiàn)硬件與軟件的有效結(jié)合。

3.阿里以阿里智能為基礎(chǔ)，建立阿里智能聯(lián)盟，接入其他智能家居產(chǎn)品，通過(guò)智能音箱產(chǎn)品實(shí)現(xiàn)對(duì)智能家居控制，進(jìn)一步擴(kuò)大阿里在智能家居領(lǐng)域中的布局。

4.相較于市場(chǎng)中其他智能音箱廠商，阿里在生態(tài)上較為完善，但在硬件及智能家居領(lǐng)域中的布局有限。隨著巨頭相繼發(fā)布新品，智能音箱產(chǎn)品將趨向標(biāo)準(zhǔn)，行業(yè)將逐漸成熟。

四、智能音箱構(gòu)成及技術(shù)介紹

（一）智能音箱硬件分析

下圖展示了 Echo 拆解后的部件?？梢钥吹?，智能音箱的硬件并不算復(fù)雜（相對(duì)于無(wú)人駕駛等“重型”AI 產(chǎn)品）。

Echo 拆解后的部件

1、外觀設(shè)計(jì)

音箱ID設(shè)計(jì)除了出于美學(xué)和交互設(shè)計(jì)的考慮外，還要和音腔設(shè)計(jì)（影響音效）、麥列方案（影響語(yǔ)音交互）等相互耦合，需要通盤考慮。

2、揚(yáng)聲器

智能音箱本質(zhì)上還是一款音箱，因此，提供用戶認(rèn)可的音質(zhì)是產(chǎn)品存在的前提。但是智能音箱在揚(yáng)聲器的選擇上，除了受到音箱尺寸限制，還要考慮麥列的拾音及后續(xù)的信號(hào)處理。

以Echo音箱為例，Echo采用封閉式揚(yáng)聲器設(shè)計(jì)，高音和低音喇叭上下相對(duì)，聲音各個(gè)方向是對(duì)稱的，這有利于前端信號(hào)處理，但音效會(huì)受到限制。

僅就音效而言，音腔越大越有利于設(shè)計(jì)，但這會(huì)導(dǎo)致最后智能音箱非常笨重。也因此，許多設(shè)計(jì)上都有音腔部分略微鼓起的外觀設(shè)計(jì)（如叮咚）。

為了支持雙工（例如，在播放音樂(lè)的同時(shí)可以對(duì)音箱下達(dá)命令），揚(yáng)聲器的功率不能太大，這樣就限制了音箱的最大音量。反過(guò)來(lái)，如果要確保音箱有較大的音量，可能會(huì)限制雙工條件下的音箱理解用戶語(yǔ)音的靈敏度。

3、麥克風(fēng)陣列

麥克風(fēng)陣列（以下簡(jiǎn)稱麥列），是由一定數(shù)目的麥克風(fēng)組成，用來(lái)對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。簡(jiǎn)單而言，使用麥列而非單個(gè)麥克風(fēng)，是為了在用戶距離音箱較遠(yuǎn)時(shí)，依然能夠正常的收聽(tīng)用戶的語(yǔ)音指令。

智能音箱多使用環(huán)狀麥列，目前以 6（+1）麥為主流方案，也有2、4麥和8麥的產(chǎn)品。

麥克風(fēng)陣列分布圖

麥列方案主要受成本和算法兩個(gè)因素限制。一方面，雖然麥克風(fēng)本身成本并不是特別高，但增加麥克風(fēng)數(shù)量需要配套的增加采樣等后續(xù)硬件的投入，會(huì)大大增加成本。另一方面，麥列涉及一系列算法，算法設(shè)計(jì)難度和計(jì)算復(fù)雜度都會(huì)隨著麥克風(fēng)數(shù)量的增加而加大。

在選擇麥克風(fēng)時(shí)，除了指向性、靈敏度、信噪比、頻響范圍、失真度等常規(guī)的參數(shù)要求，其安放位置、開(kāi)口設(shè)計(jì)也要考慮ID設(shè)計(jì)和揚(yáng)聲器的位置、功放等，需要全盤考慮。

4、主控板

本質(zhì)上與手機(jī)等移動(dòng)設(shè)備的主板并無(wú)差別，包括主板、CPU、存儲(chǔ)器等。主控板的選擇要在滿足響應(yīng)延遲的前提下，盡量壓縮成本和功耗。

主控板內(nèi)部結(jié)構(gòu)

（二）智能音箱算法介紹

總體而言，音箱工作時(shí)，麥列始終處于拾音狀態(tài)（持續(xù)對(duì)聲音信號(hào)進(jìn)行采樣、量化）。經(jīng)過(guò)基本的信號(hào)處理（靜音檢測(cè)、降噪等），喚醒模塊會(huì)判斷是否出現(xiàn)喚醒詞。如果出現(xiàn)喚醒詞，后續(xù)語(yǔ)音會(huì)進(jìn)行更復(fù)雜的語(yǔ)音信號(hào)處理，（理想情況下）得到干凈的語(yǔ)音信號(hào)，開(kāi)始真正的語(yǔ)音交互流程。

智能音箱工作原理

1、前端信號(hào)處理

（1）語(yǔ)音檢測(cè)（VAD）

語(yǔ)音檢測(cè)（英文一般稱為Voice Activity Detection，VAD）的目標(biāo)是，準(zhǔn)確的檢測(cè)出音頻信號(hào)的語(yǔ)音段起始位置，從而分離出語(yǔ)音段和非語(yǔ)音段（靜音或噪聲）信號(hào)。由于能夠?yàn)V除不相干非語(yǔ)音信號(hào)，高效準(zhǔn)確的 VAD 不但能減輕后續(xù)處理的計(jì)算量，提高整體實(shí)時(shí)性，還能有效提高下游算法的性能。

VAD 算法可以粗略的分為三類：基于閾值的VAD、作為分類器的VAD和模型VAD。

（2）降噪

實(shí)際環(huán)境中存在著空調(diào)、風(fēng)扇以及其他各種各樣的噪聲。降低噪聲干擾，提高信噪比，降低后端語(yǔ)音識(shí)別的難度。

常用的降噪算法有自適應(yīng)LMS和維納濾波等。

（3）聲學(xué)回聲消除（Acoustic Echo Cancellaction, AEC）

AEC的目的是，在音箱揚(yáng)聲器工作（播放音樂(lè)或語(yǔ)音）時(shí)，從麥克風(fēng)中收集的語(yǔ)音中，去除自身播放的聲音信號(hào)。這是雙工模式的前提。否則，當(dāng)音樂(lè)播放時(shí)，我們的聲音信號(hào)會(huì)淹沒(méi)在音樂(lè)聲中，不能繼續(xù)對(duì)音箱進(jìn)行有效的語(yǔ)音控制。

（4）去混響處理

混響對(duì)于人耳完全不是問(wèn)題，但是，延遲的語(yǔ)音疊加產(chǎn)生掩蔽效應(yīng)，這對(duì)語(yǔ)音識(shí)別是致命的障礙。對(duì)于混響，一般從兩個(gè)方面來(lái)嘗試解決：

1）去混響；

2）對(duì)語(yǔ)音識(shí)別的聲學(xué)模型加混響訓(xùn)練。由于真實(shí)環(huán)境的復(fù)雜性，一定的前端去混響算法還是非常有必要的。

（5）聲源定位（Direction of Arrival estimation, DOA）

聲源定位是根據(jù)麥列收集的聲音語(yǔ)，確定說(shuō)話人的位置。DOA 至少有兩個(gè)用途：用于方位燈的展示，增強(qiáng)交互效果；作為波束形成的前導(dǎo)任務(wù)，確定空間濾波的參數(shù)。

（6）波束形成（Beam Forming, BF）

波束形成是利用空間濾波的方法，將多路聲音信號(hào)，整合為一路信號(hào)。通過(guò)波束形成，一方面可以增強(qiáng)原始的語(yǔ)音信號(hào)，另一方面抑制旁路信號(hào)，起到降噪和去混響的作用。

2、喚醒

出于保護(hù)用戶隱私和減少誤識(shí)別兩個(gè)因素的考慮，智能音箱一般在檢測(cè)到喚醒詞之后，才會(huì)開(kāi)始進(jìn)一步的復(fù)雜信號(hào)處理（聲源定位、波束形成）和后續(xù)的語(yǔ)音交互過(guò)程。

一般而言，喚喚醒模塊是一個(gè)小型語(yǔ)音識(shí)別引擎。由于目標(biāo)單一（檢測(cè) 出指定的喚醒詞），喚醒只需要較小的聲學(xué)模型和語(yǔ)言模型（只需要區(qū)分出有無(wú)喚醒詞出現(xiàn)），聲學(xué)打分和解碼可以很快，空間占用少，能夠在本地實(shí)時(shí)。

3、語(yǔ)音交互

語(yǔ)音交互基本流程

（1）語(yǔ)音識(shí)別（Automatic Speech Recognition, ASR）

語(yǔ)音識(shí)別的目的是將語(yǔ)音信號(hào)轉(zhuǎn)化為文本。語(yǔ)音識(shí)別技術(shù)相對(duì)成熟。目前，基于近場(chǎng)信號(hào)的、受控環(huán)境（低噪聲、低混響）下的標(biāo)準(zhǔn)音語(yǔ)音識(shí)別能夠達(dá)到很的水平。然而在智能音箱開(kāi)放性的真實(shí)環(huán)境，語(yǔ)音識(shí)別依然是一個(gè)不小的挑戰(zhàn)，需要接合前端信號(hào)處理一起來(lái)優(yōu)化。

（2）自然語(yǔ)言理解（Natural Language Understanding, NLU）

可以將基于框架的（frame-based） NLU 分為三個(gè)子問(wèn)題去解決：

（3）對(duì)話管理（Diaglou Management, DM）

多輪對(duì)話對(duì)于自然的人工交互非常重要。比如，當(dāng)我們?cè)儐?wèn)“北京明天的天氣怎么樣？”，之后，更習(xí)慣追問(wèn)“那深圳呢？”而不是重復(fù)的說(shuō)“深圳明天的天氣怎么樣？”

（4）自然語(yǔ)言生成（Natural Language Generation, NLG）

目前完全自動(dòng)化的 NLG 方法還不成熟。實(shí)際產(chǎn)品中，多采用預(yù)先設(shè)計(jì)的文本模板來(lái)生成文本輸出。比如，播放歌曲時(shí)，生成語(yǔ)句為：“即將為您播放【歌手名】的【歌曲名】”。

（5）語(yǔ)音合成（Speech Synthesis）

語(yǔ)音合成又叫做文語(yǔ)轉(zhuǎn)換（Text-to-Speech，TTS），更常見(jiàn)可能是 TTS 這一稱呼。TTS 的終極目標(biāo)是，使機(jī)器能夠像人一樣朗讀任意給定的文本。

評(píng)價(jià)實(shí)用的語(yǔ)音合成系統(tǒng)的兩個(gè)主要的標(biāo)準(zhǔn)是：可懂度（人能夠聽(tīng)懂）和自然度（使人聽(tīng)著舒服）。目前，可懂度的問(wèn)題基本得到解決。參數(shù)合成和拼接合成是TTS的兩種主要合成方法，其中，參數(shù)計(jì)算量小，部署靈活，但自然較差；拼接接近真人發(fā)音，存儲(chǔ)和計(jì)算資源高，一般只能在線合成。

（三）麥克風(fēng)陣列研究

簡(jiǎn)單來(lái)講，麥克風(fēng)陣列是由2個(gè)及以上麥克風(fēng)按一定規(guī)則排列組成，在特定空間對(duì)聲音進(jìn)行獲取和處理的錄音系統(tǒng)，它是遠(yuǎn)講語(yǔ)音（超過(guò)1米以上）設(shè)備的一個(gè)關(guān)鍵部分。

麥克風(fēng)陣列的功能就是拾音。在遠(yuǎn)講語(yǔ)音設(shè)備中，麥克風(fēng)陣列通過(guò)聲源定位、波束形成、噪聲抑制、回聲消除等遠(yuǎn)講算法，有效拾取聲音，從而保證具體場(chǎng)景中語(yǔ)音的識(shí)別率。而拾音又分為遠(yuǎn)場(chǎng)拾音（1米外）和近場(chǎng)拾音（20cm內(nèi)）。

1、麥克風(fēng)陣列中的關(guān)鍵技術(shù)

（1）聲源定位

聲源定位的任務(wù)就是在具體場(chǎng)景中，甚至從噪音中找到發(fā)出聲音的“你”，以便后續(xù)的波束形成。它是基于麥克風(fēng)陣列對(duì)目標(biāo)信號(hào)（聲源）的位置探測(cè)，確定在特定空間中說(shuō)話者的位置關(guān)系。尤其是在移動(dòng)場(chǎng)景中，實(shí)時(shí)的聲源定位就顯得重要。

（2）波束形成

波束形成是對(duì)麥克風(fēng)陣列中各個(gè)麥克風(fēng)輸出的聲音進(jìn)行信號(hào)處理，從而形成空間指向性。這種方法會(huì)抑制目標(biāo)聲音以外的聲音干擾，不僅抑制噪聲也包括其他方向的人聲。

（3）噪聲抑制

你在臥室中開(kāi)著電視，是很難喚醒在你床上睡覺(jué)的iPhone中的Siri的，這就是它不具備噪聲抑制的能力。但你可以喚醒理你較遠(yuǎn)的智能音箱，這正是噪聲抑制的作用。

簡(jiǎn)單來(lái)講，噪聲抑制就是在目標(biāo)信號(hào)和干擾噪聲中，保留目標(biāo)聲音，削弱周圍的噪聲，從而保證獲取的目標(biāo)聲音信號(hào)相對(duì)清晰，再結(jié)合云端相匹配的語(yǔ)音識(shí)別算法，實(shí)現(xiàn)有效識(shí)別理解。

（4）抗混響

混響就是聲源發(fā)出后，在空間中經(jīng)過(guò)多次物體（墻壁）的反射和吸收，若干聲波混合在一起所形成的現(xiàn)象，它會(huì)影響語(yǔ)音信號(hào)的處理，聲源定位的精度以及語(yǔ)音識(shí)別效果。通過(guò)遠(yuǎn)講算法消除混響是遠(yuǎn)講語(yǔ)音設(shè)備在拾音環(huán)節(jié)的關(guān)鍵一環(huán)。

（5）回聲抵消

回聲抵消簡(jiǎn)單來(lái)講，就是不讓語(yǔ)音設(shè)備自己發(fā)出的聲音干擾到拾音過(guò)程。比如在智能音箱播放音樂(lè)時(shí)，你喚醒設(shè)備并下達(dá)命令，這時(shí)麥克風(fēng)陣列同時(shí)采集你發(fā)出的聲音和正在播放的音樂(lè)的聲音，而回聲抵消就是要去掉其中音樂(lè)的聲音并保留人的聲音，以供云端進(jìn)行語(yǔ)音識(shí)別。

（6）語(yǔ)音增強(qiáng)

在家居環(huán)境中，存在著背景噪音、回聲、混響等噪音干擾，這些噪音相互疊加嚴(yán)重影響語(yǔ)音識(shí)別效果。除了降低各種噪聲外，還可以從語(yǔ)音增強(qiáng)進(jìn)行改善。

遠(yuǎn)距離拾音的另一個(gè)問(wèn)題就是獲取的語(yǔ)音信號(hào)較弱，需要通過(guò)麥克風(fēng)陣列進(jìn)行噪聲分離，提取目標(biāo)信號(hào)，并增強(qiáng)語(yǔ)音信號(hào)的能量，從而提升語(yǔ)音識(shí)別效果。

2、消費(fèi)級(jí)麥克風(fēng)陣列主要企業(yè)介紹

（1）科大訊飛——國(guó)內(nèi)語(yǔ)音龍頭

科大訊飛是國(guó)內(nèi)一家老牌智能語(yǔ)音公司，其有一個(gè)專門的團(tuán)隊(duì)在研究麥克風(fēng)陣列技術(shù)。目前在訊飛開(kāi)放平臺(tái)上，提供二麥線性陣列、四麥線性陣列和六麥環(huán)形陣列。中興、?？低?、美的、高德、優(yōu)必選、狗尾草等都是其客戶。

叮咚音箱就是由京東和科大訊飛聯(lián)合成立的靈隆科技推出的，其中科大訊飛提供語(yǔ)音語(yǔ)義等技術(shù)支持。叮咚音箱A1是國(guó)內(nèi)第一款真正意義上的智能音箱，于2015年8月正式推出，它采用7+1麥克風(fēng)陣列，豪恩聲學(xué)提供的ECM麥克風(fēng)，并采用科勝訊CX20810-11Z音頻芯片。在結(jié)構(gòu)上不同于其他智能音箱置于頂部，而是位于主控電路板下面，并采用中空結(jié)構(gòu)，麥克風(fēng)向外側(cè)傾斜拾音，頗具創(chuàng)意。

（2）科勝訊——國(guó)際語(yǔ)音方案巨頭

科勝訊成立于1999年，曾是全球最大的獨(dú)立通訊芯片提供商，后來(lái)幾經(jīng)波折被新思科技收購(gòu)。在語(yǔ)音交互領(lǐng)域，它主要提供語(yǔ)音芯片和麥克風(fēng)陣列技術(shù)，其方案最大優(yōu)勢(shì)在于降噪和語(yǔ)音增強(qiáng)算法，技術(shù)打磨也更加成熟。難怪科勝訊總裁Saleel Awsare會(huì)說(shuō)，其雙麥克風(fēng)就可以實(shí)現(xiàn)友商5-8麥克風(fēng)的解決方案的效果。

亞馬遜、百度、阿里巴巴、騰訊、哈曼、科大訊飛、出門問(wèn)問(wèn)、云知聲等都是其客戶、合作伙伴?？苿儆崬锳lexa Voice Service (AVS) 量身定做了AudioSmart 語(yǔ)音處理開(kāi)發(fā)套件出貨量已超過(guò)3000萬(wàn)套，涵蓋智能音箱、智能家居、智能電視、機(jī)器人等多個(gè)品類。出門問(wèn)問(wèn)剛剛發(fā)布的智能音箱也采用科勝訊的方案，此外，蘋果HomePod也可能采用了科勝訊AudioSmart開(kāi)發(fā)套件。

（3）先聲互聯(lián)——陣列研究先行者

先聲互聯(lián)是一家成立于2016年的創(chuàng)業(yè)公司，主要提供麥克風(fēng)陣列以及前端信號(hào)處理技術(shù)。其創(chuàng)始人付強(qiáng)曾在中科院聲學(xué)所有10余年的聲學(xué)研究，在語(yǔ)音信號(hào)處理領(lǐng)域有20余年的積淀。先聲互聯(lián)目前主要提供兩麥、四麥、六麥等解決方案，在抗混響、回聲消除、語(yǔ)音增強(qiáng)等方面表現(xiàn)不俗。

先聲互聯(lián)是百度的合作伙伴，其多麥克風(fēng)硬件開(kāi)發(fā)套件也應(yīng)用在百度DuerOS平臺(tái)中。目前，物靈的luka閱讀養(yǎng)成機(jī)器人、極米科技的Lightank W100、數(shù)字家圓的親見(jiàn)H2等產(chǎn)品都采用了先聲互聯(lián)的遠(yuǎn)講算法以及麥克風(fēng)拾音模組。此外，先聲互聯(lián)也正在和騰訊、聯(lián)想、小米等公司就某些智能硬件產(chǎn)品展開(kāi)合作。

（4）思必馳——成熟方案輸出商

思必馳成立于2007年，是一家面向B端客戶的語(yǔ)音語(yǔ)義技術(shù)提供商。其副總裁雷國(guó)雄告訴智東西，思必馳從2012年就開(kāi)始研究麥克風(fēng)陣列技術(shù)，并配備一個(gè)專門的團(tuán)隊(duì)研究語(yǔ)音信號(hào)處理，結(jié)合思必馳的語(yǔ)音進(jìn)行優(yōu)化。目前思必馳提供單麥、兩麥、四麥、六麥等解決方案，經(jīng)過(guò)5、6年時(shí)間的積累，在性能和穩(wěn)定性上均表現(xiàn)不錯(cuò)。

近期阿里推出的天貓精靈X1就是采用思必馳的環(huán)形6麥克風(fēng)陣列，模擬麥克風(fēng)則來(lái)自敏芯微電子，天貓精靈在降噪、回聲消除等拾音方面均有不錯(cuò)表現(xiàn)。此外，聯(lián)想、小米、美的、360、DOSS等都是其客戶。

（5）聲智科技——新起之秀

聲智科技也成立于2016年，提供麥克風(fēng)陣列以及遠(yuǎn)講算法，目前其推出了單麥、兩麥、四麥、六麥、八麥的陣列解決方案，也有不錯(cuò)的表現(xiàn)。有趣的是其創(chuàng)始人陳孝良也來(lái)自中科院聲學(xué)所。

最新發(fā)布的小米AI音箱，就采用了聲智科技的環(huán)形6麥克風(fēng)陣列和喚醒技術(shù)方案。聲智科技也是百度的合作伙伴，推出了基于DuerOS的語(yǔ)音解決方案。此外，騰訊、阿里巴巴、奇虎360、華為、海爾等都是其客戶。五、麥克風(fēng)陣列：兩路分化

目前，智能音箱中的麥克風(fēng)陣列呈現(xiàn)兩路分化，主要包括環(huán)形和線性。亞馬遜Echo、叮咚音箱、天貓精靈、小米AI音箱等技術(shù)路線相似，都使用6（+1）、7（+1）個(gè)麥克風(fēng)的環(huán)形陣列，而Google Home、出門問(wèn)問(wèn)的問(wèn)問(wèn)音箱則采用了2麥克風(fēng)的線性陣列。

3、麥克風(fēng)陣列在遠(yuǎn)場(chǎng)交互中存在的問(wèn)題

第一，誤喚醒是一個(gè)問(wèn)題。

表面看這個(gè)是喚醒的問(wèn)題，但實(shí)際跟陣列有較強(qiáng)的關(guān)系，喚醒拿到的是陣列拾音的信號(hào)，陣列對(duì)信號(hào)噪聲處理效果的好壞直接影響到誤喚醒。

第二，聲源定位需要提升。

在聲學(xué)環(huán)境中，尤其是在反射較強(qiáng)、回聲較強(qiáng)、噪音環(huán)境下，聲源定位需要較大的提升空間。

第三，動(dòng)態(tài)環(huán)境中對(duì)用戶位置的跟蹤也需要提升。

在家庭場(chǎng)景中，人會(huì)處于一種移動(dòng)的狀態(tài)，喚醒和指令可能不在同一個(gè)方位，在下一次人機(jī)交互中會(huì)重點(diǎn)處理剛剛那個(gè)方向的信號(hào)，如果房間存在多個(gè)音源，就可能無(wú)法執(zhí)行指令。

第四，麥克風(fēng)陣列無(wú)法同時(shí)進(jìn)行多人聲的識(shí)別和處理。

當(dāng)下的波束形成和噪聲抑制，會(huì)使陣列在同一時(shí)間處理同一個(gè)方向的聲源，從而抑制其他聲源，這就意味著當(dāng)下的技術(shù)路線下，機(jī)器無(wú)法同時(shí)與多人進(jìn)行交互。

（四）國(guó)內(nèi)外主要智能音箱產(chǎn)品技術(shù)參數(shù)

國(guó)內(nèi)外主要智能音箱產(chǎn)品技術(shù)參數(shù)

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

五、中國(guó)智能音箱產(chǎn)業(yè)未來(lái)發(fā)展趨勢(shì)

（一）智能音箱市場(chǎng)未來(lái)發(fā)展機(jī)遇

來(lái)源：公開(kāi)資料，匯創(chuàng)資本整理

（二）智能音箱市場(chǎng)發(fā)展瓶頸

中國(guó)尚未建立完全的智能家居生態(tài)體系，使用場(chǎng)景碎片化、硬件操作復(fù)雜等問(wèn)題未解決，消費(fèi)者無(wú)法體會(huì)智能家居的智慧和便捷。例如，西方使用開(kāi)放式的廚房與客廳消費(fèi)者本身有客廳使用音箱的習(xí)慣，而中國(guó)的廚房烹飪環(huán)境嘈雜、油煙重，廚房客廳相對(duì)封閉，家庭使用音箱頻次并不高。

此外，智能家居缺乏配套法規(guī)和統(tǒng)一標(biāo)準(zhǔn)，產(chǎn)品良莠不齊，消費(fèi)者體驗(yàn)較差。目前消費(fèi)者使用智能音箱內(nèi)容方面的功能偏多，中國(guó)智能家居的市場(chǎng)需要一個(gè)能直擊消費(fèi)者痛點(diǎn)的單品來(lái)顛覆消費(fèi)者思維,讓消費(fèi)者形成智能家居思維。

廠商紛紛扎堆語(yǔ)音交互技術(shù)而忽略了消費(fèi)者的體驗(yàn)，遠(yuǎn)場(chǎng)識(shí)別差、誤喚醒率高、連續(xù)對(duì)話功能不穩(wěn)定、語(yǔ)義理解能力差是目前消費(fèi)者不滿意的主要原因。

我國(guó)的智能音箱雖然數(shù)量上出現(xiàn)爆發(fā)式增長(zhǎng)，但是產(chǎn)品同質(zhì)化嚴(yán)重，家庭普及率并不高，許多消費(fèi)者只是帶著好奇的心態(tài)體驗(yàn)“新品”，更多是把智能音箱當(dāng)做裝飾品，而沒(méi)有當(dāng)作家居必備品。因此，企業(yè)應(yīng)該注重消費(fèi)者體驗(yàn)，解決消費(fèi)者痛點(diǎn)，打造真正實(shí)用、居家必備的智能音箱才能突破市場(chǎng)瓶頸。

（三）2018年智能音箱市場(chǎng)七大預(yù)測(cè)

1、智能音箱整體向好

2018年市場(chǎng)規(guī)模成倍增長(zhǎng)幾乎成為行業(yè)共識(shí)，市場(chǎng)規(guī)模預(yù)計(jì)將突破500萬(wàn)。2017年各種唱衰、質(zhì)疑的聲音，隨著智能音箱產(chǎn)業(yè)鏈的發(fā)展已逐漸褪去。

2、智能音箱持續(xù)爆發(fā)

互聯(lián)網(wǎng)巨頭接下來(lái)圍繞搶占市場(chǎng)的持續(xù)補(bǔ)貼、用戶認(rèn)知度提升、整體產(chǎn)業(yè)鏈的成熟、用戶體驗(yàn)的提升等，是2018年智能音箱持續(xù)爆發(fā)的主要?jiǎng)恿Α?/span>

3、音箱產(chǎn)業(yè)升級(jí)

智能音箱替代藍(lán)牙音箱（傳統(tǒng)音箱）已成為趨勢(shì)，音箱產(chǎn)業(yè)迎來(lái)升級(jí)。

4、語(yǔ)音向人機(jī)交互界面演變

2018年會(huì)成為國(guó)內(nèi)智能音箱的分水嶺，智能音箱不再受限于現(xiàn)在的形態(tài)，語(yǔ)音交互會(huì)根據(jù)使用場(chǎng)景來(lái)滿足用戶獨(dú)特的需求，語(yǔ)音向人機(jī)交互界面演變。

5、新的行業(yè)格局涌現(xiàn)

一方面互聯(lián)網(wǎng)巨頭之前可能會(huì)出現(xiàn)陣營(yíng)的分化，另一方面創(chuàng)業(yè)公司會(huì)針對(duì)細(xì)分場(chǎng)景打造差異化的產(chǎn)品與服務(wù)。

6、語(yǔ)音交互生態(tài)發(fā)展

國(guó)內(nèi)語(yǔ)音交互生態(tài)較弱，主要表現(xiàn)在語(yǔ)音交互技術(shù)和內(nèi)容與服務(wù)兩方面，這是2018年行業(yè)需要繼續(xù)發(fā)力的部分，否則將限制智能音箱以及智能語(yǔ)音產(chǎn)品的發(fā)展。

7、解決用戶痛點(diǎn)

尋找用戶的剛需性場(chǎng)景，解決用戶的痛點(diǎn)性問(wèn)題將是下一階段的重中之重，它事關(guān)用戶粘性、用戶口碑以及智能音箱的進(jìn)一步爆發(fā)。

上一條: 直飲水行業(yè)研究報(bào)告

下一條: 半導(dǎo)體行業(yè)研究報(bào)告

久久av免费电影,免费在线观看中文字幕,色婷婷狠狠18,久草新,久久亚洲久,毛片一级网站,国产精品视频一区二区三区综合

智能音箱行業(yè)發(fā)展研究報(bào)告