(電子商務(wù)研究中心訊)王答明:1號店IT資深經(jīng)理,負(fù)責(zé)個性化推薦/大數(shù)據(jù)挖掘
大數(shù)據(jù)這個詞為什么現(xiàn)在這么火,個人的理解是用一個新瓶裝了很多舊酒,也就是說之前的很多技術(shù),概念或者應(yīng)用現(xiàn)在都可以往大數(shù)據(jù)這個詞里放,比如分布式處理,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),文本處理,語音/圖像處理,個性化推薦,知識圖譜,當(dāng)然也包括傳統(tǒng)的一些BI分析系統(tǒng)等等,因?yàn)檫@些技術(shù)存在的時(shí)間已經(jīng)不短,而且之前在很多行業(yè)都或多或少得到了一些應(yīng)用。
但隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)采集能力和數(shù)據(jù)處理能力的飛快提升,這些相關(guān)的技術(shù)和應(yīng)用得到進(jìn)一步發(fā)展和融合,進(jìn)而進(jìn)化出了更多更豐富的數(shù)據(jù)應(yīng)用。不管大數(shù)據(jù)的應(yīng)用是什么,一般的處理手段無外乎先收集到你可能收集的各種源數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗結(jié)構(gòu)化等進(jìn)行存儲,在之上做特征工程,做機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘算法,最后挖出一些基本的規(guī)律來,大多有事物之間的相似度,關(guān)聯(lián)度,事物之間的結(jié)構(gòu)關(guān)系比如層級,時(shí)序性等。然后,我們可以在這些規(guī)律的基礎(chǔ)上做大數(shù)據(jù)服務(wù),比如用來預(yù)測,用來給人提供決策建議,決策支撐,甚至通過系統(tǒng)化來使得整個決策自動化和大規(guī)?;€可以使系統(tǒng)具有學(xué)習(xí)更新的能力來達(dá)到工業(yè)級的智能應(yīng)用。最終可以為企業(yè),或者面向用戶的app提供真實(shí)的價(jià)值。
對電商行業(yè)來說,本身屬于互聯(lián)網(wǎng)領(lǐng)域內(nèi),所以如何有效的挖掘數(shù)據(jù),利用數(shù)據(jù)對自身而言是個非常重要的戰(zhàn)略方向。比較而言,個性化推薦/精準(zhǔn)營銷是已經(jīng)在業(yè)界廣泛驗(yàn)證和實(shí)現(xiàn)層相對成熟的應(yīng)用之一,但因?yàn)槠浼軜?gòu)和算法的復(fù)雜度依舊相對較高,離真正的成熟還有很遠(yuǎn)距離,比如我們能看到國外主要是亞馬遜幾年前公開過自己銷售靠推薦而來的占比,從國內(nèi)的實(shí)踐來看,大型電商也基本都是從11/12年開始啟動這方面的技術(shù)探索,而且不同的公司因?yàn)榭紤]對自身的價(jià)值從而所做的投入也不盡相同。
另外,大數(shù)據(jù)挖掘在電商的應(yīng)用還有銷量預(yù)測,品類管理和動態(tài)定價(jià),這三個方面也有相互關(guān)聯(lián),在電商時(shí)代,銷量預(yù)測可以突破僅僅靠歷史銷售數(shù)據(jù)來建模的限制,用戶的各種行為數(shù)據(jù),比如瀏覽,搜索,收藏,購物車等等都可以輸入預(yù)測模型,可以利用的數(shù)據(jù)甚至還有競爭對手可以獲取的數(shù)據(jù),當(dāng)然建模系統(tǒng)要能夠規(guī)?;瘉硖幚泶罅慷鄻拥臄?shù)據(jù)源。類似比如自動化的品類管理,以及利用站內(nèi)站外數(shù)據(jù)進(jìn)行系統(tǒng)化建模來自動定價(jià)。對于電商其他的核心系統(tǒng),比如倉儲管理,物流,大數(shù)據(jù)同樣有著重要的意義,比如利用某個區(qū)域的用戶在網(wǎng)站上的實(shí)時(shí)行為數(shù)據(jù),來對某個區(qū)域倉儲做商品需求預(yù)測,可以提前一步運(yùn)貨到最后一公里,極大的提升物流效率。
接下來的部分著重闡述一下1號店在個性化方面的一些實(shí)踐,從個性化對電商意義來講,無疑要從用戶體驗(yàn)和商業(yè)價(jià)值兩個角度來看,而且不少場景下因?yàn)閮烧咧g的矛盾,如何平衡是個相當(dāng)復(fù)雜的問題。
1號店經(jīng)過將近兩年的研發(fā),目前已經(jīng)建立起相對完善的個性化精準(zhǔn)平臺,而且在用戶各種購物流程,各個觸點(diǎn),以及對CRM,廣告,市場活動等業(yè)務(wù)產(chǎn)生了根本的重構(gòu)和變革。
目前為止,個性精準(zhǔn)化平臺也為1號店業(yè)務(wù)在各個指標(biāo)上有較大的提升
這里列舉一些基本的推薦欄位截圖示例
搭配推薦是我們主要的推薦產(chǎn)品之一,在13年5月份第一次上線就在各個指標(biāo)上比之前人工維護(hù)獲得極大提升,值得一提的是不僅僅是覆蓋度,點(diǎn)擊率和轉(zhuǎn)化率也提升了將近一倍,充分證明了算法的有效性。但不可避免的是,算法和數(shù)據(jù)相互依賴,對于13年初的小品類因?yàn)楫?dāng)時(shí)數(shù)據(jù)量不夠,導(dǎo)致效果不明顯,但整體上來說都是成倍的提升。
對于搭配推薦這個case, 我們從多個角度來進(jìn)一步闡述:比如:
最早上線了基本的關(guān)聯(lián)挖掘,只是利用了訂單數(shù)據(jù),效果明顯;
然后在第二階段我們利用了更多的數(shù)據(jù)比如購物車,數(shù)據(jù)量暴增,促使我們利用更有效并且能處理更大數(shù)據(jù)量的分布式FPgrowth算法;
到了第三個階段,面對產(chǎn)品上繼續(xù)存在的問題,我們繼續(xù)利用更多數(shù)據(jù)比如同session瀏覽,并且為了解決時(shí)間序列和屬性搭配等問題,進(jìn)一步把時(shí)序挖掘和改造的泛化關(guān)聯(lián)挖掘整合到fpgrowth里,進(jìn)行算法的進(jìn)一步創(chuàng)新,同時(shí)也解決了產(chǎn)品上的一些痛點(diǎn),也使得業(yè)務(wù)指標(biāo)得到進(jìn)一步提升;通過這個例子,我們充分在實(shí)踐中理解了產(chǎn)品,算法,數(shù)據(jù)聯(lián)動的重要性,并獲得深刻的感性認(rèn)識。
這里再列舉兩個通過個性化推薦使得業(yè)務(wù)明顯提升的例子,一個是首頁topN推薦列表和限時(shí)搶購的ctr比較,一個是我們團(tuán)購個性化排序線上A/B測試相對非個性化轉(zhuǎn)化率提升的實(shí)踐。
正如前面所提到的,我們目前已經(jīng)建立起相對完善的用戶畫像平臺,這里跟傳統(tǒng)CRM的用戶視圖做一個對比,可以這么理解:傳統(tǒng)CRM主要通過分析用戶生命周期,客戶級別和RMF值等維度來了解自己的顧客,但最大的缺失是不知道下一步如何take action, 或者說無法設(shè)計(jì)出有效的action, 那么精準(zhǔn)化正是解決了這個問題,通過我們描繪出用戶的興趣圖譜,購物類型等等維度,系統(tǒng)可以全面的了解每個顧客從而提供千人千面的服務(wù),不管是主站首頁,app各個路徑,或者是EDM,短信/微信等觸點(diǎn)來充分的關(guān)懷用戶,給每個用戶VIP級別的1對1服務(wù)。目前1號店的用戶畫像系統(tǒng)利用實(shí)時(shí)大數(shù)據(jù)平臺已經(jīng)可以在毫秒級更新每一個人的興趣圖譜,最及時(shí)的捕捉每個顧客及時(shí)需求。
最近,我們又研發(fā)出了基于上下文的推薦產(chǎn)品,通過大數(shù)據(jù)挖掘的手段來分析不同商圈/小區(qū),不同季節(jié),用戶使用的不同場景(比如工作時(shí)段,上下班,晚上臨睡前等等)下的偏好特征,結(jié)合其個人用戶畫像來為顧客提供更加精準(zhǔn)有效的個性化服務(wù)。并在一定程度上解決用戶數(shù)據(jù)稀疏,冷啟動等推薦領(lǐng)域一直比較頭痛的問題。
總的來說,雖然在1號店我們在個性化推薦方向已經(jīng)取得一定的進(jìn)展,但毫無疑問未來需要探索嘗試的依舊很多,大數(shù)據(jù)挖掘是個值得長期投入并持續(xù)優(yōu)化的領(lǐng)域。到目前為止,1號店技術(shù)部已經(jīng)建立起將近30人的算法架構(gòu)團(tuán)隊(duì)來負(fù)責(zé)個性化推薦核心系統(tǒng)的研發(fā),如果加上相關(guān)的應(yīng)用團(tuán)隊(duì),整體會超過50人。(來源:CSDN大數(shù)據(jù);編選:網(wǎng)經(jīng)社)