分析:人名搜索Spock會(huì)成下個(gè)谷歌嗎
有哪一家網(wǎng)絡(luò)新秀Web 2.0公司不希望自己成為下一個(gè)Google公司呢?后起新秀Google公司能夠超過(guò)雅虎公司,那為什么就沒(méi)有另外一家公司能夠去“分享Google公司的午餐”?盡管Spock公司中還沒(méi)有人大膽地這樣聲稱(chēng),但這一針對(duì)人名搜索的服務(wù)于今天上午上線(xiàn)了。
在發(fā)布時(shí),Spock公司的數(shù)據(jù)庫(kù)中將包含1億多人,而且它計(jì)劃通過(guò)搜索時(shí)急速走遍其它可以公開(kāi)訪(fǎng)問(wèn)的站點(diǎn)迅速地增加更多的人。盡管諸如Wink、ZoomInfo.com、Linkedin等與人相關(guān)的搜索站點(diǎn)沒(méi)有能夠改變搜索市場(chǎng)的格局,但Spock公司采取了不同的策略,提供了元數(shù)據(jù)搜索,向可信賴(lài)的用戶(hù)提供類(lèi)似于Wikipedia的標(biāo)注權(quán)限。
據(jù)CNET News.com在最近采訪(fǎng)Spock公司的CEO、合伙創(chuàng)始人Jaideep Singh時(shí)發(fā)現(xiàn)更多。當(dāng)被被問(wèn)到Spock公司目前已經(jīng)索引了多少人時(shí),Jaideep Singh表示:有1億多一點(diǎn)。當(dāng)被問(wèn)到公司每天大約增加多少用戶(hù)時(shí),他表示增加的有二類(lèi)內(nèi)容:一種是人,另一種是處理的文檔數(shù)量,因?yàn)橐粋(gè)人可能有多個(gè)文檔,因此我們?cè)趯?duì)整個(gè)Web進(jìn)行快速遍歷時(shí)挑選文檔,根據(jù)人組織文檔。
當(dāng)Jaideep Singh被問(wèn)到他是否能夠準(zhǔn)確地解釋這一技術(shù)的工作原理時(shí)回答:如果要對(duì)一些具體關(guān)鍵字進(jìn)行搜索,Google公司的表現(xiàn)是相當(dāng)不錯(cuò)的。然而問(wèn)題是:如果目前在Google上搜索人,用戶(hù)獲得的將是許多與所查的人相關(guān)的文檔。如果要搜索的人有“David Stern”這樣大眾化的名字,那么搜索結(jié)果中的前幾頁(yè)的內(nèi)容可能與名為“David Stern”的NBA委員相關(guān),因此,我們無(wú)法搜索到在酒吧或商業(yè)會(huì)議上遇見(jiàn)的“David Stern”。據(jù)他表示,這一技術(shù)與通用搜索相比要困難得多,這是一種不同的技術(shù),它們之間唯一的相同點(diǎn)是遍歷。當(dāng)進(jìn)行遍歷時(shí),我們采取的是一種不同的方法。我們不僅僅是抽取元數(shù)據(jù),而且還試圖找出文檔與誰(shuí)相關(guān)。我們希望找到文檔中相關(guān)性最高的內(nèi)容。我們首先必須理解語(yǔ)言,理解文檔的內(nèi)容,開(kāi)發(fā)自然語(yǔ)言處理和其它技術(shù)等。
據(jù)Jaideep Singh表示,人們應(yīng)該意識(shí)到我們與Google公司的相同點(diǎn)在于對(duì)Web的索引。我們將從公開(kāi)文檔中獲取內(nèi)容。而且人們也要意識(shí)到,在互聯(lián)網(wǎng)上有許多與我們自己的諸如博客、MySpace檔案等相關(guān)的資料。我們的β版服務(wù)已經(jīng)運(yùn)行兩個(gè)月了,我們擁有了大量的用戶(hù),用戶(hù)的反饋也非常好,人們將會(huì)發(fā)現(xiàn)它很有用,而且也是很有趣的。
|