久久av免费电影,免费在线观看中文字幕,色婷婷狠狠18,久草新,久久亚洲久,毛片一级网站,国产精品视频一区二区三区综合

智能音箱行業(yè)發(fā)展研究報告

發(fā)布者:管理員  2018/6/1 16:34:17

一、智能音箱定義

智能音箱是在傳統(tǒng)音箱基礎(chǔ)上增加了智能化功能,這功能體現(xiàn)在兩方面:一是技術(shù)上具備WiFi鏈接可語音交互;二是功能上可提供音樂、有聲讀物等內(nèi)容服務(wù)、互聯(lián)網(wǎng)服務(wù)以及場景化智能家居控制能力。

智能音箱可以分為兩種,一種是以亞馬遜Echo為代表的智能助手類音箱,以語音交互技術(shù)為重點(diǎn),成為智能家居的控制中心,國內(nèi)廠商中京東的叮咚音箱,阿里巴巴天貓精靈和小米智能音箱同屬這種類型,另一種是以內(nèi)容分享為主的內(nèi)容智能音箱,將音箱作為音樂、有聲讀物等流媒體內(nèi)容的載體,國內(nèi)廠商以喜馬拉雅的小雅為代表。

(一)智能音箱發(fā)展歷程

2014年11月正式發(fā)布2年多的時間里,亞馬遜Echo智能音箱已經(jīng)成為市場上最火熱的智能家居產(chǎn)品之一,人們通過Echo可以用語音控制家電、購買商品、查詢咨詢。根據(jù)研究機(jī)構(gòu)eMarketer的調(diào)查數(shù)據(jù)顯示,在美國,大約有3600萬用戶每月會用到一次語音操控的音箱,并且這個數(shù)字還在擴(kuò)大。

(二)智能音箱市場發(fā)展圖

智能音箱將經(jīng)歷四個發(fā)展周期:

1.探索期。該階段,人工智能及物聯(lián)網(wǎng)技術(shù)發(fā)展為其爆發(fā)奠定了基礎(chǔ);

2.啟動期。經(jīng)過探索期對消費(fèi)者的普及,消費(fèi)者認(rèn)知提升,廠商開始探索較為清晰的盈利模式;

3.高速發(fā)展期。待智能音箱產(chǎn)業(yè)引得大量資本涌入,入局玩家大幅提升,產(chǎn)品更加滿足消費(fèi)者需求,智能音箱過渡到高速發(fā)展期;

4.成熟期。此階段內(nèi),智能音箱業(yè)務(wù)模式成熟,市場格局穩(wěn)定,智能音箱進(jìn)入千家萬戶。

(三)智能音箱主要功能

智能音箱主要功能


來源:公開資料,匯創(chuàng)資本整理

二、智能音箱行業(yè)發(fā)展現(xiàn)狀分析

(一)國外智能音箱行業(yè)發(fā)展現(xiàn)狀

近年來智能家居市場進(jìn)入快速拓展期,用戶滲透率快速增長。根據(jù)調(diào)查數(shù)據(jù)顯示,2017 年美國智能家居市場規(guī)模將達(dá) 146 億美元,滲透率提升至 32.5%,預(yù)計(jì) 2021 年將達(dá)到 60.7%。而中國智能家居市場規(guī)模也超過 20 億美元, 滲透率為 2.6%,與美國相比差距較大,未來發(fā)展空間廣闊。隨著語音識別技術(shù)不 斷成熟,智能音箱作為語音交互載體,在控制智能家居的便捷度和體驗(yàn)上都將逐 步優(yōu)于智能手機(jī)。未來智能音箱有望成為智能家居的控制中樞,成為一個開放性的平臺,可以讓客廳的智能電視、電燈、空調(diào)等鏈接起來,通過語音交互來實(shí)現(xiàn)對于其他智能家居產(chǎn)品的控制,掌握了智能音箱便掌握了智能家居的入口。

全球智能家居市場規(guī)模增長預(yù)測

來源:公開資料,匯創(chuàng)資本整理

2017年對智能音箱的發(fā)展而言是關(guān)鍵性一年。從全球看,四大科技巨頭悉數(shù)入場,全球智能音箱市場規(guī)模達(dá)到3000萬臺。

全球智能音箱市場規(guī)模

來源:公開資料,匯創(chuàng)資本整理

細(xì)分到產(chǎn)品,2017年,行業(yè)先驅(qū)者亞馬遜Echo依舊穩(wěn)坐智能音箱市場的頭把交椅。智能音箱的核心是語音交互,準(zhǔn)確的喚醒率和流暢的交互體驗(yàn)是一款好的智能音箱所必須具備的。而在美國的智能音箱用戶中,有44%(約2200萬)的用戶表示經(jīng)常會與音箱進(jìn)行語音交互;有70%(約3600萬)的用戶表示每月至少會用到一次語音操作,并且這個數(shù)字還在不斷擴(kuò)大中。而據(jù)美國另一家權(quán)威信息技術(shù)研究與分析公司Gartner Group預(yù)測,到2020年,美國75%的家庭將擁有智能音箱。

2017年美國智能音箱產(chǎn)品市場占有率

來源:公開資料,匯創(chuàng)資本整理

(二)國內(nèi)智能音箱行業(yè)現(xiàn)狀分析

根據(jù)權(quán)威調(diào)研機(jī)構(gòu)GfK(全球五大市場研究公司之一)于2017年10月公布的"中國智能音箱市場分析"報告,2015年中國智能音箱零售量只有1萬臺,2016年增至6萬臺,2017年1--8月共累計(jì)銷售超10萬臺。而隨著2017年第三季度眾多新品的推出,智能音箱銷售量更是有了明顯的飛躍。僅在2017年8月,智能音箱市場就達(dá)到了同比178%的增長率。

根據(jù)艾媒咨詢數(shù)據(jù)顯示,2016年中國智能音箱銷售規(guī)模為1.36億元,預(yù)計(jì)2017年將突破兩億,達(dá)到2.01億,增長率為47.8%;預(yù)計(jì)到2020年,智能音箱銷售規(guī)模將超過10億元。目前雖眾多廠商已推出智能音箱產(chǎn)品,但市場總體銷售規(guī)模仍處于較低水平,隨著產(chǎn)品進(jìn)一步優(yōu)化升級及智能家居的推廣,中國智能音箱消費(fèi)市場潛力將得到釋放,行業(yè)有望迎來爆發(fā)式增長。

2016-2020年中國智能音箱

銷售規(guī)模及預(yù)測

來源:公開資料,匯創(chuàng)資本整理

通過對國內(nèi)智能音箱用戶屬性進(jìn)行調(diào)研得出,中國智能音箱用戶主要集中于一二線城市,而在性別屬性中,主要用戶是集中于有品質(zhì)生活需求的年輕男性。

智能音箱使用用戶性別分析

來源:公開資料,匯創(chuàng)資本整理

從上述圖表中可以看到在智能音箱使用上男性用戶居多。

智能音箱使用用戶年齡分布

來源:公開資料,匯創(chuàng)資本整理

從上述圖表中可以看出,智能音箱用戶主要集中在26-45歲人群,其中36-45歲人群占比高于智能硬件用戶。

智能音箱使用用戶地域分布

來源:公開資料,匯創(chuàng)資本整理

從上述圖表中可以看出,智能音箱用戶相較于智能硬件用戶在一二線城市占比更大。

智能音箱使用用戶消費(fèi)能力分析

來源:公開資料,匯創(chuàng)資本整理

從上述圖表中可以看出,智能音箱用戶以小白領(lǐng)、藍(lán)領(lǐng)等一定消費(fèi)能力的人群為主,智能音箱小白領(lǐng)用戶占比更高。

與此同時,購買智能音箱的家庭屬性也非常明顯,已婚有孩子的用戶占比更高。

購買智能音箱用戶的家庭屬性

來源:公開資料,匯創(chuàng)資本整理

縱觀2017年中國智能音箱整體市場我們不難發(fā)現(xiàn),200元以下產(chǎn)品的市場占比正在不斷下降,300到600元逐漸成為主流價格段(市場占比達(dá)到80%)。至于2018年的市場走向?qū)⒃鯓愚D(zhuǎn)變,目前來看還很難判斷。但可以肯定的是,最終主導(dǎo)市場的必然是那些真正找到用戶痛點(diǎn)并帶來顛覆性體驗(yàn)的產(chǎn)品,且不論價格高低,能夠做到讓用戶自發(fā)購買,對于行業(yè)來講才是良性和持久的發(fā)展。

國內(nèi)用戶購買的智能音箱

價格區(qū)間分布圖

來源:公開資料,匯創(chuàng)資本整理

2016年整體智能音箱呈京東叮咚壟斷的趨勢,占比高達(dá)65%,飛利浦與JBL占比分別為14%、20%。2017年隨著更多廠商加入到智能音箱的市場,整體市場格局發(fā)生了改變,叮咚的市場份額降到38%,小米緊追其后,占比32%。

2016年及2017年1-8月

市場銷量占比情況

來源:公開資料,匯創(chuàng)資本整理

三、國內(nèi)外主流智能音箱產(chǎn)品及廠商情況分析

國內(nèi)外巨頭不約而同瞄準(zhǔn)了智能音箱,音箱是語音的載體,是聲音的播放端,那么,再給它賦予一個聲音的“拾取”和“植入”功能,從邏輯上是說得通的,于是一波音箱發(fā)布呈井噴之勢,新一輪風(fēng)口誕生。

國外主要智能音箱產(chǎn)品分析

來源:公開資料,匯創(chuàng)資本整理

國內(nèi)主要智能音箱產(chǎn)品分析

來源:公開資料,匯創(chuàng)資本整理

(一)亞馬遜-Echo

亞馬遜公司整合電商、硬件、平臺、內(nèi)容等資源,形成完整的生態(tài)布局。

來源:公開資料,匯創(chuàng)資本整理

1.亞馬遜較早進(jìn)入智能家居領(lǐng)域,通過Alexa語音平臺,接入其他智能硬件及第三方服務(wù),已形成一定的智能家居體系。

2.亞馬遜具有深厚的電商基礎(chǔ),并在內(nèi)容、硬件、平臺、云計(jì)算、物流倉儲等領(lǐng)域布局,通過智能音箱整合軟件+硬件+平臺+內(nèi)容資源,進(jìn)一步盤活電商資源。

3.亞馬遜Alexa平臺及云計(jì)算平臺為打通多個服務(wù)鏈條奠定了基礎(chǔ),在硬件操作、軟件應(yīng)用及內(nèi)容觀看收聽中的海量數(shù)據(jù)被有效收集并整理,實(shí)現(xiàn)內(nèi)容和服務(wù)的個性化。

4.亞馬遜在中文語音識別方面缺少布局,目前沒有進(jìn)入中國市場,但其發(fā)展為中國市場提供了借鑒,多數(shù)廠商以Echo為對標(biāo),布局智能音箱。

(二)京東-叮咚

京東融合電商、硬件、內(nèi)容資源、智能平臺、音頻聯(lián)盟,構(gòu)建多場景多終端的無界零售。

來源:公開資料,匯創(chuàng)資本整理

1.京東在2015年推出叮咚音箱,占據(jù)國內(nèi)智能音箱市場的先發(fā)優(yōu)勢,叮咚音箱先后迭代推新,在用戶使用習(xí)慣、用戶需求等方面,京東已掌握較多有用的用戶數(shù)據(jù),有利于進(jìn)一步優(yōu)化叮咚音箱。

2.通過強(qiáng)強(qiáng)聯(lián)合的方式,京東通過電商平臺優(yōu)勢,整合行業(yè)中的技術(shù)廠商、內(nèi)容廠商及第三方服務(wù)廠商,并發(fā)起“京東智能音頻聯(lián)盟”,向聯(lián)盟內(nèi)成員輸出“JD+智能音頻解決方案”,實(shí)現(xiàn)叮咚音箱產(chǎn)品與優(yōu)質(zhì)內(nèi)容、服務(wù)的結(jié)合。

3.京東通過京東智能打造智能生態(tài)體系,建立京東Alpha智能服務(wù)平臺,以京東微聯(lián)為平臺接入多種智能硬件產(chǎn)品,最終實(shí)現(xiàn)叮咚和京東微聯(lián)智能家居的打造,目前叮咚擁有150多項(xiàng)服務(wù)并且擁有自主的開發(fā)者平臺。

4.京東布局較早,在眾多巨頭紛紛加入后,需要不斷創(chuàng)新以及鞏固生態(tài)布局,來抵抗市場競爭。

(三)阿里-天貓精靈

阿里打通內(nèi)容資源、電商資源、O2O資源,發(fā)展消費(fèi)級AI產(chǎn)品。

1.阿里巴巴依托電商平臺建立相對完善的生態(tài)體系,在內(nèi)容、技術(shù)、O2O服務(wù)等方向上都有所布局、但硬件產(chǎn)品較少,硬件實(shí)力相對薄弱。

2.阿里成立人工智能實(shí)驗(yàn)室,發(fā)展人工智能技術(shù),開發(fā)消費(fèi)級AI產(chǎn)品,智能音箱將打通阿里現(xiàn)有的產(chǎn)業(yè)資源,實(shí)現(xiàn)硬件與軟件的有效結(jié)合。

3.阿里以阿里智能為基礎(chǔ),建立阿里智能聯(lián)盟,接入其他智能家居產(chǎn)品,通過智能音箱產(chǎn)品實(shí)現(xiàn)對智能家居控制,進(jìn)一步擴(kuò)大阿里在智能家居領(lǐng)域中的布局。

4.相較于市場中其他智能音箱廠商,阿里在生態(tài)上較為完善,但在硬件及智能家居領(lǐng)域中的布局有限。隨著巨頭相繼發(fā)布新品,智能音箱產(chǎn)品將趨向標(biāo)準(zhǔn),行業(yè)將逐漸成熟。

四、智能音箱構(gòu)成及技術(shù)介紹

(一)智能音箱硬件分析

下圖展示了 Echo 拆解后的部件??梢钥吹?,智能音箱的硬件并不算復(fù)雜(相對于無人駕駛等“重型”AI 產(chǎn)品)。

 Echo 拆解后的部件

1、外觀設(shè)計(jì)

音箱ID設(shè)計(jì)除了出于美學(xué)和交互設(shè)計(jì)的考慮外,還要和音腔設(shè)計(jì)(影響音效)、麥列方案(影響語音交互)等相互耦合,需要通盤考慮。

2、揚(yáng)聲器

智能音箱本質(zhì)上還是一款音箱,因此,提供用戶認(rèn)可的音質(zhì)是產(chǎn)品存在的前提。但是智能音箱在揚(yáng)聲器的選擇上,除了受到音箱尺寸限制,還要考慮麥列的拾音及后續(xù)的信號處理。

以Echo音箱為例,Echo采用封閉式揚(yáng)聲器設(shè)計(jì),高音和低音喇叭上下相對,聲音各個方向是對稱的,這有利于前端信號處理,但音效會受到限制。

僅就音效而言,音腔越大越有利于設(shè)計(jì),但這會導(dǎo)致最后智能音箱非常笨重。也因此,許多設(shè)計(jì)上都有音腔部分略微鼓起的外觀設(shè)計(jì)(如叮咚)。

為了支持雙工(例如,在播放音樂的同時可以對音箱下達(dá)命令),揚(yáng)聲器的功率不能太大,這樣就限制了音箱的最大音量。反過來,如果要確保音箱有較大的音量,可能會限制雙工條件下的音箱理解用戶語音的靈敏度。

3、麥克風(fēng)陣列

麥克風(fēng)陣列(以下簡稱麥列),是由一定數(shù)目的麥克風(fēng)組成,用來對聲場的空間特性進(jìn)行采樣并處理的系統(tǒng)。簡單而言,使用麥列而非單個麥克風(fēng),是為了在用戶距離音箱較遠(yuǎn)時,依然能夠正常的收聽用戶的語音指令。

智能音箱多使用環(huán)狀麥列,目前以 6(+1)麥為主流方案,也有2、4麥和8麥的產(chǎn)品。

麥克風(fēng)陣列分布圖

麥列方案主要受成本和算法兩個因素限制。一方面,雖然麥克風(fēng)本身成本并不是特別高,但增加麥克風(fēng)數(shù)量需要配套的增加采樣等后續(xù)硬件的投入,會大大增加成本。另一方面,麥列涉及一系列算法,算法設(shè)計(jì)難度和計(jì)算復(fù)雜度都會隨著麥克風(fēng)數(shù)量的增加而加大。

在選擇麥克風(fēng)時,除了指向性、靈敏度、信噪比、頻響范圍、失真度等常規(guī)的參數(shù)要求,其安放位置、開口設(shè)計(jì)也要考慮ID設(shè)計(jì)和揚(yáng)聲器的位置、功放等,需要全盤考慮。

4、主控板

本質(zhì)上與手機(jī)等移動設(shè)備的主板并無差別,包括主板、CPU、存儲器等。主控板的選擇要在滿足響應(yīng)延遲的前提下,盡量壓縮成本和功耗。

主控板內(nèi)部結(jié)構(gòu)

(二)智能音箱算法介紹

總體而言,音箱工作時,麥列始終處于拾音狀態(tài)(持續(xù)對聲音信號進(jìn)行采樣、量化)。經(jīng)過基本的信號處理(靜音檢測、降噪等),喚醒模塊會判斷是否出現(xiàn)喚醒詞。如果出現(xiàn)喚醒詞,后續(xù)語音會進(jìn)行更復(fù)雜的語音信號處理,(理想情況下)得到干凈的語音信號,開始真正的語音交互流程。

智能音箱工作原理

1、前端信號處理

(1)語音檢測(VAD)

語音檢測(英文一般稱為Voice Activity Detection,VAD)的目標(biāo)是,準(zhǔn)確的檢測出音頻信號的語音段起始位置,從而分離出語音段和非語音段(靜音或噪聲)信號。由于能夠?yàn)V除不相干非語音信號,高效準(zhǔn)確的 VAD 不但能減輕后續(xù)處理的計(jì)算量,提高整體實(shí)時性,還能有效提高下游算法的性能。

VAD 算法可以粗略的分為三類:基于閾值的VAD、作為分類器的VAD和模型VAD。

(2)降噪

實(shí)際環(huán)境中存在著空調(diào)、風(fēng)扇以及其他各種各樣的噪聲。降低噪聲干擾,提高信噪比,降低后端語音識別的難度。

常用的降噪算法有自適應(yīng)LMS和維納濾波等。

(3)聲學(xué)回聲消除(Acoustic Echo Cancellaction, AEC)

AEC的目的是,在音箱揚(yáng)聲器工作(播放音樂或語音)時,從麥克風(fēng)中收集的語音中,去除自身播放的聲音信號。這是雙工模式的前提。否則,當(dāng)音樂播放時,我們的聲音信號會淹沒在音樂聲中,不能繼續(xù)對音箱進(jìn)行有效的語音控制。

(4)去混響處理

混響對于人耳完全不是問題,但是,延遲的語音疊加產(chǎn)生掩蔽效應(yīng),這對語音識別是致命的障礙。對于混響,一般從兩個方面來嘗試解決:

1)去混響 ;

2)對語音識別的聲學(xué)模型加混響訓(xùn)練。由于真實(shí)環(huán)境的復(fù)雜性,一定的前端去混響算法還是非常有必要的。

(5)聲源定位(Direction of Arrival estimation, DOA)

聲源定位是根據(jù)麥列收集的聲音語,確定說話人的位置。DOA 至少有兩個用途:用于方位燈的展示,增強(qiáng)交互效果;作為波束形成的前導(dǎo)任務(wù),確定空間濾波的參數(shù)。

(6)波束形成(Beam Forming, BF)

波束形成是利用空間濾波的方法,將多路聲音信號,整合為一路信號。通過波束形成,一方面可以增強(qiáng)原始的語音信號,另一方面抑制旁路信號,起到降噪和去混響的作用。

2、喚醒

出于保護(hù)用戶隱私和減少誤識別兩個因素的考慮,智能音箱一般在檢測到喚醒詞之后,才會開始進(jìn)一步的復(fù)雜信號處理(聲源定位、波束形成)和后續(xù)的語音交互過程。

一般而言,喚喚醒模塊是一個小型語音識別引擎。由于目標(biāo)單一(檢測 出指定的喚醒詞),喚醒只需要較小的聲學(xué)模型和語言模型(只需要區(qū)分出有無喚醒詞出現(xiàn)),聲學(xué)打分和解碼可以很快,空間占用少,能夠在本地實(shí)時。

3、語音交互

語音交互基本流程

(1)語音識別(Automatic Speech Recognition, ASR)

語音識別的目的是將語音信號轉(zhuǎn)化為文本。語音識別技術(shù)相對成熟。目前,基于近場信號的、受控環(huán)境(低噪聲、低混響)下的標(biāo)準(zhǔn)音語音識別能夠達(dá)到很的水平。然而在智能音箱開放性的真實(shí)環(huán)境,語音識別依然是一個不小的挑戰(zhàn),需要接合前端信號處理一起來優(yōu)化。

(2)自然語言理解(Natural Language Understanding, NLU)

可以將基于框架的(frame-based) NLU 分為三個子問題去解決:

(3)對話管理(Diaglou Management, DM)

多輪對話對于自然的人工交互非常重要。比如,當(dāng)我們詢問“北京明天的天氣怎么樣?”,之后,更習(xí)慣追問“那深圳呢?”而不是重復(fù)的說“深圳明天的天氣怎么樣?”

(4)自然語言生成(Natural Language Generation, NLG)

目前完全自動化的 NLG 方法還不成熟。實(shí)際產(chǎn)品中,多采用預(yù)先設(shè)計(jì)的文本模板來生成文本輸出。比如,播放歌曲時,生成語句為:“即將為您播放【歌手名】的【歌曲名】”。

(5)語音合成(Speech Synthesis)

語音合成又叫做文語轉(zhuǎn)換(Text-to-Speech,TTS),更常見可能是 TTS 這一稱呼。TTS 的終極目標(biāo)是,使機(jī)器能夠像人一樣朗讀任意給定的文本。

評價實(shí)用的語音合成系統(tǒng)的兩個主要的標(biāo)準(zhǔn)是:可懂度(人能夠聽懂)和自然度(使人聽著舒服)。目前,可懂度的問題基本得到解決。參數(shù)合成和拼接合成是TTS的兩種主要合成方法,其中,參數(shù)計(jì)算量小,部署靈活,但自然較差;拼接接近真人發(fā)音,存儲和計(jì)算資源高,一般只能在線合成。

(三)麥克風(fēng)陣列研究

簡單來講,麥克風(fēng)陣列是由2個及以上麥克風(fēng)按一定規(guī)則排列組成,在特定空間對聲音進(jìn)行獲取和處理的錄音系統(tǒng),它是遠(yuǎn)講語音(超過1米以上)設(shè)備的一個關(guān)鍵部分。

麥克風(fēng)陣列的功能就是拾音。在遠(yuǎn)講語音設(shè)備中,麥克風(fēng)陣列通過聲源定位、波束形成、噪聲抑制、回聲消除等遠(yuǎn)講算法,有效拾取聲音,從而保證具體場景中語音的識別率。而拾音又分為遠(yuǎn)場拾音(1米外)和近場拾音(20cm內(nèi))。

1、麥克風(fēng)陣列中的關(guān)鍵技術(shù)

(1)聲源定位

聲源定位的任務(wù)就是在具體場景中,甚至從噪音中找到發(fā)出聲音的“你”,以便后續(xù)的波束形成。它是基于麥克風(fēng)陣列對目標(biāo)信號(聲源)的位置探測,確定在特定空間中說話者的位置關(guān)系。尤其是在移動場景中,實(shí)時的聲源定位就顯得重要。

(2)波束形成

波束形成是對麥克風(fēng)陣列中各個麥克風(fēng)輸出的聲音進(jìn)行信號處理,從而形成空間指向性。這種方法會抑制目標(biāo)聲音以外的聲音干擾,不僅抑制噪聲也包括其他方向的人聲。

(3)噪聲抑制

你在臥室中開著電視,是很難喚醒在你床上睡覺的iPhone中的Siri的,這就是它不具備噪聲抑制的能力。但你可以喚醒理你較遠(yuǎn)的智能音箱,這正是噪聲抑制的作用。

簡單來講,噪聲抑制就是在目標(biāo)信號和干擾噪聲中,保留目標(biāo)聲音,削弱周圍的噪聲,從而保證獲取的目標(biāo)聲音信號相對清晰,再結(jié)合云端相匹配的語音識別算法,實(shí)現(xiàn)有效識別理解。

(4)抗混響

混響就是聲源發(fā)出后,在空間中經(jīng)過多次物體(墻壁)的反射和吸收,若干聲波混合在一起所形成的現(xiàn)象,它會影響語音信號的處理,聲源定位的精度以及語音識別效果。通過遠(yuǎn)講算法消除混響是遠(yuǎn)講語音設(shè)備在拾音環(huán)節(jié)的關(guān)鍵一環(huán)。

(5)回聲抵消

回聲抵消簡單來講,就是不讓語音設(shè)備自己發(fā)出的聲音干擾到拾音過程。比如在智能音箱播放音樂時,你喚醒設(shè)備并下達(dá)命令,這時麥克風(fēng)陣列同時采集你發(fā)出的聲音和正在播放的音樂的聲音,而回聲抵消就是要去掉其中音樂的聲音并保留人的聲音,以供云端進(jìn)行語音識別。

(6)語音增強(qiáng)

在家居環(huán)境中,存在著背景噪音、回聲、混響等噪音干擾,這些噪音相互疊加嚴(yán)重影響語音識別效果。除了降低各種噪聲外,還可以從語音增強(qiáng)進(jìn)行改善。

遠(yuǎn)距離拾音的另一個問題就是獲取的語音信號較弱,需要通過麥克風(fēng)陣列進(jìn)行噪聲分離,提取目標(biāo)信號,并增強(qiáng)語音信號的能量,從而提升語音識別效果。

2、消費(fèi)級麥克風(fēng)陣列主要企業(yè)介紹

(1)科大訊飛——國內(nèi)語音龍頭

科大訊飛是國內(nèi)一家老牌智能語音公司,其有一個專門的團(tuán)隊(duì)在研究麥克風(fēng)陣列技術(shù)。目前在訊飛開放平臺上,提供二麥線性陣列、四麥線性陣列和六麥環(huán)形陣列。中興、海康威視、美的、高德、優(yōu)必選、狗尾草等都是其客戶。

叮咚音箱就是由京東和科大訊飛聯(lián)合成立的靈隆科技推出的,其中科大訊飛提供語音語義等技術(shù)支持。叮咚音箱A1是國內(nèi)第一款真正意義上的智能音箱,于2015年8月正式推出,它采用7+1麥克風(fēng)陣列,豪恩聲學(xué)提供的ECM麥克風(fēng),并采用科勝訊CX20810-11Z音頻芯片。在結(jié)構(gòu)上不同于其他智能音箱置于頂部,而是位于主控電路板下面,并采用中空結(jié)構(gòu),麥克風(fēng)向外側(cè)傾斜拾音,頗具創(chuàng)意。

(2)科勝訊——國際語音方案巨頭

科勝訊成立于1999年,曾是全球最大的獨(dú)立通訊芯片提供商,后來幾經(jīng)波折被新思科技收購。在語音交互領(lǐng)域,它主要提供語音芯片和麥克風(fēng)陣列技術(shù),其方案最大優(yōu)勢在于降噪和語音增強(qiáng)算法,技術(shù)打磨也更加成熟。難怪科勝訊總裁Saleel Awsare會說,其雙麥克風(fēng)就可以實(shí)現(xiàn)友商5-8麥克風(fēng)的解決方案的效果。

亞馬遜、百度、阿里巴巴、騰訊、哈曼、科大訊飛、出門問問、云知聲等都是其客戶、合作伙伴??苿儆崬锳lexa Voice Service (AVS) 量身定做了AudioSmart 語音處理開發(fā)套件出貨量已超過3000萬套,涵蓋智能音箱、智能家居、智能電視、機(jī)器人等多個品類。出門問問剛剛發(fā)布的智能音箱也采用科勝訊的方案,此外,蘋果HomePod也可能采用了科勝訊AudioSmart開發(fā)套件。

(3)先聲互聯(lián)——陣列研究先行者

先聲互聯(lián)是一家成立于2016年的創(chuàng)業(yè)公司,主要提供麥克風(fēng)陣列以及前端信號處理技術(shù)。其創(chuàng)始人付強(qiáng)曾在中科院聲學(xué)所有10余年的聲學(xué)研究,在語音信號處理領(lǐng)域有20余年的積淀。先聲互聯(lián)目前主要提供兩麥、四麥、六麥等解決方案,在抗混響、回聲消除、語音增強(qiáng)等方面表現(xiàn)不俗。

先聲互聯(lián)是百度的合作伙伴,其多麥克風(fēng)硬件開發(fā)套件也應(yīng)用在百度DuerOS平臺中。目前,物靈的luka閱讀養(yǎng)成機(jī)器人、極米科技的Lightank W100、數(shù)字家圓的親見H2等產(chǎn)品都采用了先聲互聯(lián)的遠(yuǎn)講算法以及麥克風(fēng)拾音模組。此外,先聲互聯(lián)也正在和騰訊、聯(lián)想、小米等公司就某些智能硬件產(chǎn)品展開合作。

(4)思必馳——成熟方案輸出商

思必馳成立于2007年,是一家面向B端客戶的語音語義技術(shù)提供商。其副總裁雷國雄告訴智東西,思必馳從2012年就開始研究麥克風(fēng)陣列技術(shù),并配備一個專門的團(tuán)隊(duì)研究語音信號處理,結(jié)合思必馳的語音進(jìn)行優(yōu)化。目前思必馳提供單麥、兩麥、四麥、六麥等解決方案,經(jīng)過5、6年時間的積累,在性能和穩(wěn)定性上均表現(xiàn)不錯。

近期阿里推出的天貓精靈X1就是采用思必馳的環(huán)形6麥克風(fēng)陣列,模擬麥克風(fēng)則來自敏芯微電子,天貓精靈在降噪、回聲消除等拾音方面均有不錯表現(xiàn)。此外,聯(lián)想、小米、美的、360、DOSS等都是其客戶。

(5)聲智科技——新起之秀

聲智科技也成立于2016年,提供麥克風(fēng)陣列以及遠(yuǎn)講算法,目前其推出了單麥、兩麥、四麥、六麥、八麥的陣列解決方案,也有不錯的表現(xiàn)。有趣的是其創(chuàng)始人陳孝良也來自中科院聲學(xué)所。

最新發(fā)布的小米AI音箱,就采用了聲智科技的環(huán)形6麥克風(fēng)陣列和喚醒技術(shù)方案。聲智科技也是百度的合作伙伴,推出了基于DuerOS的語音解決方案。此外,騰訊、阿里巴巴、奇虎360、華為、海爾等都是其客戶。 五、麥克風(fēng)陣列:兩路分化

目前,智能音箱中的麥克風(fēng)陣列呈現(xiàn)兩路分化,主要包括環(huán)形和線性。亞馬遜Echo、叮咚音箱、天貓精靈、小米AI音箱等技術(shù)路線相似,都使用6(+1)、7(+1)個麥克風(fēng)的環(huán)形陣列,而Google Home、出門問問的問問音箱則采用了2麥克風(fēng)的線性陣列。

3、麥克風(fēng)陣列在遠(yuǎn)場交互中存在的問題

第一,誤喚醒是一個問題。

表面看這個是喚醒的問題,但實(shí)際跟陣列有較強(qiáng)的關(guān)系,喚醒拿到的是陣列拾音的信號,陣列對信號噪聲處理效果的好壞直接影響到誤喚醒。

第二,聲源定位需要提升。

在聲學(xué)環(huán)境中,尤其是在反射較強(qiáng)、回聲較強(qiáng)、噪音環(huán)境下,聲源定位需要較大的提升空間。

第三,動態(tài)環(huán)境中對用戶位置的跟蹤也需要提升。

在家庭場景中, 人會處于一種移動的狀態(tài),喚醒和指令可能不在同一個方位,在下一次人機(jī)交互中會重點(diǎn)處理剛剛那個方向的信號,如果房間存在多個音源,就可能無法執(zhí)行指令。

第四,麥克風(fēng)陣列無法同時進(jìn)行多人聲的識別和處理。

當(dāng)下的波束形成和噪聲抑制,會使陣列在同一時間處理同一個方向的聲源,從而抑制其他聲源,這就意味著當(dāng)下的技術(shù)路線下,機(jī)器無法同時與多人進(jìn)行交互。

(四)國內(nèi)外主要智能音箱產(chǎn)品技術(shù)參數(shù)

國內(nèi)外主要智能音箱產(chǎn)品技術(shù)參數(shù)

來源:公開資料,匯創(chuàng)資本整理

五、中國智能音箱產(chǎn)業(yè)未來發(fā)展趨勢

(一)智能音箱市場未來發(fā)展機(jī)遇

來源:公開資料,匯創(chuàng)資本整理

(二)智能音箱市場發(fā)展瓶頸

中國尚未建立完全的智能家居生態(tài)體系,使用場景碎片化、硬件操作復(fù)雜等問題未解決,消費(fèi)者無法體會智能家居的智慧和便捷。例如,西方使用開放式的廚房與客廳消費(fèi)者本身有客廳使用音箱的習(xí)慣,而中國的廚房烹飪環(huán)境嘈雜、油煙重,廚房客廳相對封閉,家庭使用音箱頻次并不高。

此外,智能家居缺乏配套法規(guī)和統(tǒng)一標(biāo)準(zhǔn),產(chǎn)品良莠不齊,消費(fèi)者體驗(yàn)較差。目前消費(fèi)者使用智能音箱內(nèi)容方面的功能偏多,中國智能家居的市場需要一個能直擊消費(fèi)者痛點(diǎn)的單品來顛覆消費(fèi)者思維,讓消費(fèi)者形成智能家居思維。

廠商紛紛扎堆語音交互技術(shù)而忽略了消費(fèi)者的體驗(yàn),遠(yuǎn)場識別差、誤喚醒率高、連續(xù)對話功能不穩(wěn)定、語義理解能力差是目前消費(fèi)者不滿意的主要原因。

我國的智能音箱雖然數(shù)量上出現(xiàn)爆發(fā)式增長,但是產(chǎn)品同質(zhì)化嚴(yán)重,家庭普及率并不高,許多消費(fèi)者只是帶著好奇的心態(tài)體驗(yàn)“新品”,更多是把智能音箱當(dāng)做裝飾品,而沒有當(dāng)作家居必備品。因此,企業(yè)應(yīng)該注重消費(fèi)者體驗(yàn),解決消費(fèi)者痛點(diǎn),打造真正實(shí)用、居家必備的智能音箱才能突破市場瓶頸。

(三)2018年智能音箱市場七大預(yù)測

1、智能音箱整體向好

2018年市場規(guī)模成倍增長幾乎成為行業(yè)共識,市場規(guī)模預(yù)計(jì)將突破500萬。2017年各種唱衰、質(zhì)疑的聲音,隨著智能音箱產(chǎn)業(yè)鏈的發(fā)展已逐漸褪去。

2、智能音箱持續(xù)爆發(fā)

互聯(lián)網(wǎng)巨頭接下來圍繞搶占市場的持續(xù)補(bǔ)貼、用戶認(rèn)知度提升、整體產(chǎn)業(yè)鏈的成熟、用戶體驗(yàn)的提升等,是2018年智能音箱持續(xù)爆發(fā)的主要動力。

3、音箱產(chǎn)業(yè)升級

智能音箱替代藍(lán)牙音箱(傳統(tǒng)音箱)已成為趨勢,音箱產(chǎn)業(yè)迎來升級。

4、語音向人機(jī)交互界面演變

2018年會成為國內(nèi)智能音箱的分水嶺,智能音箱不再受限于現(xiàn)在的形態(tài),語音交互會根據(jù)使用場景來滿足用戶獨(dú)特的需求,語音向人機(jī)交互界面演變。

5、新的行業(yè)格局涌現(xiàn)

一方面互聯(lián)網(wǎng)巨頭之前可能會出現(xiàn)陣營的分化,另一方面創(chuàng)業(yè)公司會針對細(xì)分場景打造差異化的產(chǎn)品與服務(wù)。

6、語音交互生態(tài)發(fā)展

國內(nèi)語音交互生態(tài)較弱,主要表現(xiàn)在語音交互技術(shù)和內(nèi)容與服務(wù)兩方面,這是2018年行業(yè)需要繼續(xù)發(fā)力的部分,否則將限制智能音箱以及智能語音產(chǎn)品的發(fā)展。

7、解決用戶痛點(diǎn)

尋找用戶的剛需性場景,解決用戶的痛點(diǎn)性問題將是下一階段的重中之重,它事關(guān)用戶粘性、用戶口碑以及智能音箱的進(jìn)一步爆發(fā)。

上一條: 直飲水行業(yè)研究報告
下一條: 半導(dǎo)體行業(yè)研究報告