搜索推薦技術(shù)在電商導(dǎo)購領(lǐng)域的應(yīng)用一:分詞
隨著經(jīng)濟(jì)不斷發(fā)展,人們對消費品質(zhì)要求也水漲船高,也更加個性化。線下實體的陳列空間是有限的,網(wǎng)上陳列空間是無限的,所以這十多年來,電子商務(wù)一直處于蓬勃發(fā)展之中。...
作者:高揚
在電商領(lǐng)域浸淫多年,近期有空對這些年的實踐經(jīng)歷做些整理,嘮叨嘮叨我們遇到的問題和用到的技術(shù)解決方案,歡迎同行交流。
PS:封面圖跟本文沒有任何卵關(guān)系,純粹個人喜歡……
導(dǎo)購領(lǐng)域的發(fā)展
隨著經(jīng)濟(jì)不斷發(fā)展,人們對消費品質(zhì)要求也水漲船高,也更加個性化。線下實體的陳列空間是有限的,網(wǎng)上陳列空間是無限的,所以這十多年來,電子商務(wù)一直處于蓬勃發(fā)展之中。
海量商品,雖然極大豐富了的選擇,但也讓你挑花了眼,經(jīng)常會被坑爹……所以,這就有了導(dǎo)購的生存土壤。導(dǎo)購,故名思議,引導(dǎo)購物,本質(zhì)上是一個信息過濾器,針對個人的需求和喜好,將海量商品過濾成有限選擇,減輕挑選成本。
如果把網(wǎng)上商品庫比喻成一個西瓜,導(dǎo)購就是切西瓜的刀,一個特定的角度切入,就是一個導(dǎo)購方向。舉個栗子:
早期的購物搜索、購物推薦是最早的導(dǎo)購形態(tài),讓用戶自助尋找想買的商品;
折800,聚劃算,9塊9包郵,什么值得買等,是以價格角度切入;
美麗說、蘑菇街是以女性時尚角度切入;
chiphell,knewone是以男性原創(chuàng)曬單角度切入……
只要網(wǎng)上的商品信息保持持續(xù)增長,信息過濾、商品挑選的用戶痛點也會日益增加,導(dǎo)購需求就會永遠(yuǎn)存在。
個性精準(zhǔn)導(dǎo)購,對技術(shù)要求較高,需要用到搜索,推薦,機器學(xué)習(xí)等多個領(lǐng)域技術(shù)。
導(dǎo)購離錢近,可很快有現(xiàn)金流,屬于“自我造血型”業(yè)務(wù),在這個資本寒冬里,是一個不錯的選擇。
做好導(dǎo)購,未來可演化成垂直電商平臺,發(fā)展前景廣闊,美麗說、蘑菇街是成功案例。
說那么多廢話,我就是想簡單講一下分詞
為了有效的給用戶推薦商品,首先要理解用戶需求和商品,這兩者的精準(zhǔn)刻畫都離不開分詞。
我們這里說的分詞是指中文分詞,指的是將一個漢字序列切分成一個一個單獨的詞。這是中文特有的問題(英文有空格可以天然分隔),需要進(jìn)行一些技術(shù)處理。
通用的分詞算法可分三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。這里不展開詳述,大家可以自行百度,這三個分詞流派我們都用上了。
在實踐過程會發(fā)現(xiàn),無論哪種方法,都保證不了100%的召回率和準(zhǔn)確率,技術(shù)同學(xué)通常面臨這樣一個難題:召回率83%,準(zhǔn)確率91%,想進(jìn)一步提高準(zhǔn)確率,就很難保持召回率不降低,怎么破?!
這時候,你需要詞典了。
購物分詞優(yōu)化到后期,基本就是詞典的優(yōu)化過程。
詞典是一個擴(kuò)展集合,用于保存預(yù)先分好的詞,每一個詞要標(biāo)注詞性。詞性,就是詞的性質(zhì),是對一個詞的進(jìn)一步解釋,比如“D100”在詞性是“系列”,“尼康”的詞性是“品牌”。(詞條,詞性)組合,可以保存對應(yīng)的領(lǐng)域知識。
再列舉一些我們用到的詞性
核心詞:如品牌,型號,系列,商品名等
修飾詞:如顏色,材質(zhì),風(fēng)格等
Stopword:無意義的詞,如包郵,淘寶熱賣等
我們詞典的最大特點是基于分類的,也就是說,詞典中每一個詞的詞性并不是唯一性確定的,在不同類目下有不同的詞性含義。目前我們維護(hù)的電商分類是數(shù)千個節(jié)點,深度為4的樹形結(jié)構(gòu),常見的分類有手機,連衣裙,膨化食品……
這是我們一個詞條的印象,大家感覺一下。
下面是我們設(shè)計的詞條數(shù)據(jù)結(jié)構(gòu)。
我們詞條的詞性是基于分類的。
詞條的組織形式是分形的,可遞歸,父詞條結(jié)構(gòu)和詞條是一樣的。
這是詞性維度的數(shù)據(jù)結(jié)構(gòu),也是基于分類的。
最終,我們通過詞條關(guān)系的構(gòu)建,搭建成如上類目屬性庫,在各種商品文本處理場景中使用。
那么問題來了,那么多品牌詞,類目詞,修飾詞都是從哪里來的呢?
答:從大數(shù)據(jù)里面來。
通過海量商品文本數(shù)據(jù),我們對文本中,相鄰的keyword建立起概率鏈模型,如果兩個keyword經(jīng)常一起出現(xiàn),同時詞條庫里面還沒有,那很可能是一個新詞。這時候,人工介入標(biāo)注,更新詞條庫。日積月累,詞條庫會越來越強大!
最后,我們的購物分詞系統(tǒng),就演化成介個醬紫的。
-
無相關(guān)信息