第一類:基于內(nèi)容的推薦
這類算法是基于所分析數(shù)據(jù)的一系列不相關(guān)的特征數(shù)據(jù)或者類似性質(zhì),尋找較高屬性相似度的數(shù)據(jù)。在計算時,需要對原始數(shù)據(jù)通過特征提取的方法獲得對象內(nèi)容特征數(shù)據(jù),系統(tǒng)基于用戶所操作對象的特征提取用戶的興趣。
最著名的基于內(nèi)容的推薦系統(tǒng)由PandoraRadio所使用。PandoraRadio的工作人員會為每一首歌從各個方面打上標(biāo)簽(作曲、演唱、年代、曲風(fēng)等,據(jù)稱有上百個標(biāo)簽),并且用戶的反饋也會對這些標(biāo)簽的權(quán)重有所影響。而PandoraRadio則會依據(jù)這些標(biāo)簽來為用戶推薦歌曲。
目前,這種基于內(nèi)容的推薦系統(tǒng)使用范圍并不廣,這一系統(tǒng)的主要障礙在于特征提取。以PandoraRadio為例,他們需要成立一個專門的團隊,負責(zé)聽每一首歌,并打上標(biāo)簽。這樣的人力成本投入過高,且擴展性不夠。
第二類:協(xié)同過濾
協(xié)同過濾推薦是當(dāng)前使用較多的技術(shù),其基本思想非常易于理解,我覺得可以總結(jié)為“物以類聚,人以群分”,簡單來說就是類似的人喜歡類似的商品,而喜歡相似商品的人,往往也有著一些共同點。互聯(lián)網(wǎng)上用戶的一舉一動,都可能被背后的計算機系統(tǒng)記錄下來,用作協(xié)同過濾分析的數(shù)據(jù)。
以一個比較簡單的例子來說明協(xié)同過濾的原理。下表為4個人對于6部電視劇的評價結(jié)果。可以看到,沒有任何兩個人的打分結(jié)果是一樣的,也沒有一部電視劇的得分結(jié)果是相同的。
但是,如果把某一位用戶的評分當(dāng)作一個多維向量的話,我們就可以得到4個向量,并看作用戶的特征。
Ben=[5,5,3,0,5,5]
Tom=[5,0,4,0,4,4]
John=[0,3,0,5,4,5]
Fred=[5,4,3,3,5,5]
在六維空間里,這4個向量的夾角即代表了用戶的相似度,夾角越小,相似度越高。在例子來源處詳細介紹了利用矩陣的奇異值分解法計算向量相似度的方法,得到的結(jié)果如右上圖所示,可見Ben與Fred對電視劇的口味最為相似。
協(xié)同評價推薦系統(tǒng)的最大優(yōu)點在于,計算機不需要真正地“理解”其所推薦的內(nèi)容,而且是依賴于大量人群的交互數(shù)據(jù)。在這個信息爆炸、計算機能力充足的時代,協(xié)同評價系統(tǒng)得到了非常廣泛的應(yīng)用。但協(xié)同評價同樣有著一定的局限性:
依賴于大量的數(shù)據(jù),當(dāng)數(shù)據(jù)量較少(新品)時,推薦精度不夠;
當(dāng)前的推薦系統(tǒng)需要處理數(shù)以百萬計的客戶及商品,其計算量非常龐大,對于計算能力及算法的要求非常高;
相對于數(shù)以百萬計的商品,大部分消費者的交互數(shù)據(jù)只會涉及其中不到1%的商品,也就意味著交互數(shù)據(jù)矩陣極為稀疏(99%以上為空),算法設(shè)計困難。
不管是哪種推薦系統(tǒng),依靠的都是豐富的消費者應(yīng)用數(shù)據(jù),并據(jù)此作出滿足消費者潛在隱性需求的推薦。可以說,相對于其他的關(guān)聯(lián)銷售方式,推薦系統(tǒng)能夠從某種程度上“理解”消費者的需求,因而也會受到越來越多的重視。
想認識全國各地的創(chuàng)業(yè)者、創(chuàng)業(yè)專家,快來加入“中國創(chuàng)業(yè)圈”
|