在公司中,傳統(tǒng)電話銷(xiāo)售占公司總銷(xiāo)售額的大半部分,電話銷(xiāo)售客服中心每天呼出幾萬(wàn)通電話,話術(shù)都是有跡可循。但傳統(tǒng)的電銷(xiāo)客服存在流動(dòng)性大,培養(yǎng)周期長(zhǎng),人力成本高的缺點(diǎn),如何降低公司的成本又不減少電話銷(xiāo)售的份額,是每個(gè)公司所面臨的難題。智能電銷(xiāo)機(jī)器人的出現(xiàn),讓以上傳統(tǒng)銷(xiāo)售難題引刃而解。
本文提出了一種組合使用文本相似度計(jì)算與特征詞規(guī)則匹配的方法,可以提高語(yǔ)義識(shí)別準(zhǔn)確率,實(shí)現(xiàn)更為友好的人機(jī)對(duì)話。
傳統(tǒng)的語(yǔ)義識(shí)別要靠程序開(kāi)發(fā)人員寫(xiě)一些規(guī)則來(lái)解決語(yǔ)義識(shí)別問(wèn)題。但是,要窮舉并制定這些規(guī)則對(duì)于開(kāi)發(fā)人員來(lái)說(shuō)工作量無(wú)法想象。因?yàn)樵谧匀徽Z(yǔ)言處理領(lǐng)域中永遠(yuǎn)有寫(xiě)不完的規(guī)則,這時(shí)就需要機(jī)器人運(yùn)用自己的學(xué)習(xí)能力進(jìn)行推理。TF-IDF詞袋模型能根據(jù)詞的重要程度添加對(duì)應(yīng)權(quán)重,更符合對(duì)話語(yǔ)義邏輯,但會(huì)使原文檔轉(zhuǎn)換為高維的稀疏向量,為向量存儲(chǔ)和相似度計(jì)算帶來(lái)了很大的困難。其主要技術(shù)包含如下:
1、對(duì)電銷(xiāo)對(duì)話語(yǔ)料數(shù)據(jù)進(jìn)行清洗,刪除對(duì)話邏輯不合理的數(shù)據(jù),刪除語(yǔ)音轉(zhuǎn)文本過(guò)程中識(shí)別誤差過(guò)大的數(shù)據(jù),保留部分語(yǔ)音轉(zhuǎn)文本過(guò)程中的錯(cuò)字,從而提高模型的抗干擾能力。
2、使用python分詞工具jieba包對(duì)清洗后的語(yǔ)料進(jìn)行分詞,同時(shí)刪除停用詞和低頻詞。
3、建立詞袋模型,依據(jù)TF-IDF算法計(jì)算各詞的重要程度并做加權(quán)處理。
4、使用LSI對(duì)TF-IDF詞袋模型進(jìn)行降維,剔除小的奇異值,將文檔特征空間變?yōu)槲臋n概念空間。
5、梳理電銷(xiāo)總體流程,提取電銷(xiāo)流程中的各個(gè)場(chǎng)景,針對(duì)不同場(chǎng)景設(shè)置多種意圖樣句。
6、將客戶(hù)的實(shí)時(shí)對(duì)話數(shù)據(jù)與各樣句比對(duì)(概念向量之問(wèn)使用內(nèi)積的夾角余弦相似度計(jì)算比原來(lái)基于原文本向量的相似度計(jì)算更可靠),大于設(shè)置的相似度閾值即識(shí)別為該場(chǎng)景下的對(duì)應(yīng)意圖。
7、進(jìn)行電銷(xiāo)的對(duì)應(yīng)話術(shù),完成一輪人機(jī)對(duì)話。
對(duì)語(yǔ)音轉(zhuǎn)文本數(shù)據(jù)處理流程如下:
例如,客戶(hù)說(shuō):“我在開(kāi)車(chē),等會(huì)說(shuō)?!币?guī)則匹配詞典中只有“忙碌”“有事”等,無(wú)法正確判定客戶(hù)是“忙”的場(chǎng)景。將客戶(hù)的對(duì)話與意圖樣句進(jìn)行相似度比對(duì),若大于預(yù)設(shè)閾值則可判定為“忙”的狀態(tài)。
文本相似度計(jì)算使用無(wú)監(jiān)督算法,無(wú)需大量人力標(biāo)注,同時(shí)添加新語(yǔ)料時(shí),可實(shí)時(shí)更新特征矩陣,不用重新訓(xùn)練,適合產(chǎn)品快速迭代上線;組合使用文本相似度計(jì)算方法與特征詞規(guī)則匹配方法,在智能電銷(xiāo)對(duì)話過(guò)程中能更準(zhǔn)確的把握客戶(hù)意圖識(shí)別,并有效提升了語(yǔ)義識(shí)別準(zhǔn)確率。