業(yè)內(nèi)皆知,作為人工智能領(lǐng)域發(fā)展最成熟,歷史最悠遠(yuǎn)的分支之一,人臉識(shí)別有包孕LFW 和MegaFace在內(nèi)的諸多國(guó)際級(jí)別賽事,而微軟在去年提出的 MS-Celeb-1M 基準(zhǔn)測(cè)試則被譽(yù)為人臉識(shí)別年度“世界杯”。就在比來(lái),最新一屆“世界杯”落下帷幕,更像是對(duì)“中美兩國(guó)AI發(fā)展并駕齊驅(qū)”的某種印證,一家名為獵戶星空的中國(guó)人工智能公司,在其中一個(gè)重要競(jìng)賽項(xiàng)目中奪得頭魁。
考慮到賽事的權(quán)威性,在不少行外人眼中——在人工智能疾風(fēng)驟雨般滲透進(jìn)大眾生活之前,上述結(jié)果委實(shí)有些不測(cè)。值得一提的是,借助計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)會(huì)議ICCV 2017的平臺(tái),本屆競(jìng)賽既包孕大規(guī)模人臉識(shí)別競(jìng)賽(Hard Set 及 Random Set),還頗具新意地推出了更具挑戰(zhàn)的小樣本學(xué)習(xí)(Low-Shot Learning)競(jìng)賽,可謂近年來(lái)業(yè)內(nèi)公認(rèn)的含金量最高的同類賽事,這也自然招致全球各地人臉識(shí)別團(tuán)隊(duì)超強(qiáng)的“奪金”欲望,至今不滿一歲的獵戶星空獲得了這項(xiàng)賽事識(shí)別子命題有限制類(只使用競(jìng)賽提供數(shù)據(jù))第一名。
事實(shí)上,比來(lái)一周,這家初創(chuàng)企業(yè)出了不止一次風(fēng)頭。7月26日,傳聞已久的小米AI音箱正式發(fā)布,后者采用360度遠(yuǎn)場(chǎng)語(yǔ)音控制,在提供在線內(nèi)容的表層應(yīng)用背后,這款音箱無(wú)疑承擔(dān)了小米“智能家庭中樞”角色,是小米試圖將整個(gè)生態(tài)鏈產(chǎn)品“連起來(lái)”的關(guān)鍵布局。而作為獵豹移動(dòng)旗下人工智能子公司,獵戶星空是小米AI音箱重要合作伙伴,為其提供了一套可以用“這個(gè)星球最溫柔聲音”回復(fù)用戶的語(yǔ)音交互系統(tǒng)。
將時(shí)間軸撥回一個(gè)月前,他們還聯(lián)合喜馬拉雅同樣發(fā)布了AI音箱“小雅”,背后技術(shù)核心同樣是獵戶星空全鏈路自研的遠(yuǎn)場(chǎng)語(yǔ)音交互系統(tǒng)——盡管踏上AI音箱“風(fēng)口”的企業(yè)有先后之分,但當(dāng)他們?cè)趯ひ捳Z(yǔ)音交互這塊最重要的長(zhǎng)板時(shí),獵戶星空都是他們最值得仰仗的嫁接對(duì)象。
至少在現(xiàn)階段,人工智能大概可分為語(yǔ)音識(shí)別,圖像識(shí)別,語(yǔ)言理解和機(jī)器人等應(yīng)用技術(shù),其中語(yǔ)音識(shí)別和圖像識(shí)別是目前相對(duì)成熟的領(lǐng)域,遍及準(zhǔn)確率都超過(guò)90%,這也意味著再想要持續(xù)精進(jìn)的難度,獵戶星空能在短時(shí)間內(nèi)一舉拿下了人工智能兩座已經(jīng)很高的高地,在創(chuàng)業(yè)公司中確實(shí)比較罕見(jiàn)。
不久前,《紐約時(shí)報(bào)》在采訪大量美國(guó)政府官員和硅谷精英后就得出結(jié)論:中國(guó)的人工智能將與美國(guó)齊頭并進(jìn),中國(guó)已經(jīng)誕生孕育人工智能溫潤(rùn)的社會(huì)土壤。如果將這家中國(guó)初創(chuàng)企業(yè)的“世界杯”奪魁,擱置在中美AI競(jìng)賽的宏大配景,仔細(xì)分析這家公司,就顯得意義不凡。
技術(shù)長(zhǎng)板
先從微軟的這次角逐談起。
如前所述,獵戶星空獲得了這項(xiàng)賽事識(shí)別子命題有限制類(只使用競(jìng)賽提供數(shù)據(jù))第一名。顧名思義,與更偏向于比拼數(shù)據(jù)的無(wú)限制類(無(wú)限制使用外部數(shù)據(jù),數(shù)據(jù)越多訓(xùn)練模型當(dāng)然越好)比擬,有限制類別只能在限定的數(shù)據(jù)集內(nèi)調(diào)用,是比較純粹的算法比拼,因?yàn)樵谙薅〝?shù)據(jù)情況下想達(dá)到最高精度非常困難,難度也更大——當(dāng)然,正是由于這種限制性,有限制類的算法比拼也相對(duì)公平。
公平也意味著高門檻。競(jìng)賽數(shù)據(jù)噪聲大,無(wú)法直接拿來(lái)訓(xùn)練,而整個(gè)訓(xùn)練數(shù)據(jù)集也很大,適合人臉模型大規(guī)模訓(xùn)練的模型對(duì)資源的要求又高,很難做到又快又好。于是經(jīng)過(guò)探討,獵戶星空?qǐng)F(tuán)隊(duì)設(shè)計(jì)了一種魯棒的去噪算法,可針對(duì)各類差別程度的噪聲數(shù)據(jù)進(jìn)行有效去噪,同時(shí)選擇采用適合大規(guī)模訓(xùn)練的 triplet 模型,通過(guò)一種頗為巧妙的設(shè)計(jì)在有限資源下加速了triplet網(wǎng)絡(luò)的訓(xùn)練,大大提升了性能,最終獲得 0.75/0.606(random set/hard set)的高分——這一成績(jī)遠(yuǎn)超以往記錄,幾乎達(dá)到了不使用外部數(shù)據(jù)的極限。
事實(shí)上,盡管成立時(shí)間不長(zhǎng),但團(tuán)隊(duì)成員過(guò)往的技術(shù)積淀讓他們創(chuàng)立初就開(kāi)始投身人臉識(shí)另外探索。參賽“世界杯”前,他們就在另一項(xiàng)人臉識(shí)別國(guó)際賽事 LFW 上取得了前三名。
而與不少初創(chuàng)團(tuán)隊(duì)醉心于“秀技術(shù)”差別,依托于獵豹移動(dòng)強(qiáng)大的產(chǎn)品思維底座,他們深知一點(diǎn):將技術(shù)蛻變?yōu)楫a(chǎn)品,從來(lái)都是檢驗(yàn)技術(shù)成熟的唯一尺度。于是,獵戶星空上述所有角逐技術(shù)都不會(huì)被擱淺在學(xué)術(shù)陳訴或者角逐賽場(chǎng)上,而會(huì)被運(yùn)用到在門禁,機(jī)器人和移動(dòng) APP 等具體產(chǎn)品。舉個(gè)例子,目前人臉識(shí)別技術(shù)就被用于獵豹旗下的直播產(chǎn)品 Live.me 中,后者每天產(chǎn)生超過(guò) 20 萬(wàn)小時(shí)的直播內(nèi)容,運(yùn)用圖像識(shí)別技術(shù)可以進(jìn)行 24 小時(shí)的實(shí)時(shí)監(jiān)控,極大提高違規(guī)內(nèi)容的審核效率。
讓人溫柔以待的音箱
談及技術(shù)落地,獵戶星空讓人工智能音箱做到“像人類一樣溝通”,或許是更好的例子。