通過(guò)建立與Google及Google云平臺(tái)(GCP)的合作伙伴關(guān)系,Ocado Techonology公司發(fā)布了一種新的方法,用在對(duì)Ocado的50多萬(wàn)用戶及來(lái)自這些用戶的海量電子郵件請(qǐng)求的處理中。該方法使用了TensorFlow及宿主于GCP上的TensorFlow Python API,重點(diǎn)在于解決電子郵件的自動(dòng)分類問(wèn)題。
Ocado認(rèn)為對(duì)于電子郵件分類問(wèn)題,非常適合于使用工業(yè)規(guī)模的機(jī)器學(xué)習(xí)和自動(dòng)化,更具體的說(shuō)就是自然語(yǔ)言處理(NLP)。很多的企業(yè)支持中心為讓工作一致和可靠,采用了依靠工作人員手工處理電子郵件隊(duì)列的工作流程。在企業(yè)的業(yè)務(wù)迅速成長(zhǎng)時(shí),或是整體客戶支持量所需的支持人員日益增長(zhǎng)時(shí)。這種方法并不能很好地?cái)U(kuò)展,這會(huì)導(dǎo)致郵件響應(yīng)的延遲,客戶不滿意度也隨之增加。
Ocado的做法是將所有的電子郵件匯集到同一處,然后通過(guò)分析郵件內(nèi)容為郵件打標(biāo)簽,例如標(biāo)記為客戶投訴的則需要立刻反饋,標(biāo)記為一般性反饋的則具有稍低的優(yōu)先級(jí)可稍遲反饋。此外,郵件標(biāo)簽還包括:重發(fā)貨請(qǐng)求、退款請(qǐng)求、支付問(wèn)題或網(wǎng)站問(wèn)題、新商品查詢等。
Ocado想要在分配標(biāo)簽類別時(shí),盡可能地減少需用戶及支持人員手工輸入的域和標(biāo)簽的數(shù)量。因?yàn)檫@種手工輸入不僅容易產(chǎn)生偏差并生成噪聲數(shù)據(jù),而且也占用了支持人員的寶貴時(shí)間,這些時(shí)間是本可用于根據(jù)客戶請(qǐng)求的優(yōu)先度服務(wù)于客戶的。
Ocado科技的高級(jí)軟件工程師Marcin Druzkowski今年八月在Datasciencefest大會(huì)上的演講上,給出了Ocado訓(xùn)練神經(jīng)網(wǎng)絡(luò)所用的各種模型的一些細(xì)節(jié)。其中的方法包括:使用詞袋的邏輯回歸、使用嵌入(embedding)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)、使用嵌入的長(zhǎng)短期記憶模型(LSTM)。
Druzkowski指出深度學(xué)習(xí)并非一定要使用GPU,考慮到CPU芯片的相對(duì)低成本、云計(jì)算的可擴(kuò)展性和并行計(jì)算模型訓(xùn)練,沒(méi)有必要再采用特定的GPU寫(xiě)入和訓(xùn)練模型。他也指出通過(guò)以軟件工程為中心的數(shù)據(jù)科學(xué)方法,他們的TensorFlow圖以數(shù)據(jù)矩陣和圖定義的方式部署,這不同于數(shù)據(jù)科學(xué)軟件所使用的一般方法,那些方法已被證明在部署和易于集成到生產(chǎn)環(huán)節(jié)的實(shí)現(xiàn)上存在著挑戰(zhàn)。Druzkowski在演講中提到的特性還包括:可移植性和依賴性管理、代碼質(zhì)量、測(cè)試覆蓋度、版本管理和持續(xù)集成。
圍繞著測(cè)試模型,還出現(xiàn)了其它的一些新挑戰(zhàn)。這些測(cè)試模式需給出隨機(jī)性、可接受結(jié)果值范圍和良好模型性能的組成目標(biāo)。此外,挑戰(zhàn)也存在于如何在后臺(tái)數(shù)據(jù)集發(fā)生改變時(shí),重新訓(xùn)練和測(cè)試模型。在確定一個(gè)模型是否有價(jià)值時(shí),需額外考慮的變量是數(shù)據(jù)集改變的比例和速度。當(dāng)前測(cè)試的運(yùn)行使用了pyTest和TensorFlow,但是Ocado拒絕了提供示例代碼的請(qǐng)求。