第一類:基于內容的推薦
這類算法是基于所分析數據的一系列不相關的特征數據或者類似性質,尋找較高屬性相似度的數據。在計算時,需要對原始數據通過特征提取的方法獲得對象內容特征數據,系統基于用戶所操作對象的特征提取用戶的興趣。
最著名的基于內容的推薦系統由PandoraRadio所使用。PandoraRadio的工作人員會為每一首歌從各個方面打上標簽(作曲、演唱、年代、曲風等,據稱有上百個標簽),并且用戶的反饋也會對這些標簽的權重有所影響。而PandoraRadio則會依據這些標簽來為用戶推薦歌曲。
目前,這種基于內容的推薦系統使用范圍并不廣,這一系統的主要障礙在于特征提取。以PandoraRadio為例,他們需要成立一個專門的團隊,負責聽每一首歌,并打上標簽。這樣的人力成本投入過高,且擴展性不夠。
第二類:協同過濾
協同過濾推薦是當前使用較多的技術,其基本思想非常易于理解,我覺得可以總結為“物以類聚,人以群分”,簡單來說就是類似的人喜歡類似的商品,而喜歡相似商品的人,往往也有著一些共同點。互聯網上用戶的一舉一動,都可能被背后的計算機系統記錄下來,用作協同過濾分析的數據。
以一個比較簡單的例子來說明協同過濾的原理。下表為4個人對于6部電視劇的評價結果。可以看到,沒有任何兩個人的打分結果是一樣的,也沒有一部電視劇的得分結果是相同的。
但是,如果把某一位用戶的評分當作一個多維向量的話,我們就可以得到4個向量,并看作用戶的特征。
Ben=[5,5,3,0,5,5]
Tom=[5,0,4,0,4,4]
John=[0,3,0,5,4,5]
Fred=[5,4,3,3,5,5]
在六維空間里,這4個向量的夾角即代表了用戶的相似度,夾角越小,相似度越高。在例子來源處詳細介紹了利用矩陣的奇異值分解法計算向量相似度的方法,得到的結果如右上圖所示,可見Ben與Fred對電視劇的口味最為相似。
協同評價推薦系統的最大優點在于,計算機不需要真正地“理解”其所推薦的內容,而且是依賴于大量人群的交互數據。在這個信息爆炸、計算機能力充足的時代,協同評價系統得到了非常廣泛的應用。但協同評價同樣有著一定的局限性:
依賴于大量的數據,當數據量較少(新品)時,推薦精度不夠;
當前的推薦系統需要處理數以百萬計的客戶及商品,其計算量非常龐大,對于計算能力及算法的要求非常高;
相對于數以百萬計的商品,大部分消費者的交互數據只會涉及其中不到1%的商品,也就意味著交互數據矩陣極為稀疏(99%以上為空),算法設計困難。
不管是哪種推薦系統,依靠的都是豐富的消費者應用數據,并據此作出滿足消費者潛在隱性需求的推薦。可以說,相對于其他的關聯銷售方式,推薦系統能夠從某種程度上“理解”消費者的需求,因而也會受到越來越多的重視。
想認識全國各地的創業者、創業專家,快來加入“中國創業圈”
|