中國網民瀏覽習慣與眾不同
新浪科技:因為是全球化產品,您比較熟悉中國團隊的事情,中國團隊我們會做些什么事情,對Google廣告系統的支持?
郄小虎:我們團隊和Google廣告進行平臺開發的,我們開發的是同一個系統,不管中國客戶美國客戶,他使用的系統是同一個系統,我們是上千、上萬人開發系統,而不是幾十人幾百人,我們站在巨人的肩上,我們享受前面天才工程師搭建的系統。
中國的團隊對中國市場有更深的了解,他們經常看到中國用戶的特殊需求。我們會在進行核心系統系統開發之外,把這些用戶的需求反饋到我們全球團隊,我們會把這些功能實現出來。
我可以舉一個例子,在世界上大多數國家,當用戶瀏覽一個頁面的時候,他們的注意力會集中在頁面的某些區域,這個區域大概呈現出英文字母的“F”型,主要在頁面最上面和最左邊,這些是頁面關注度很高的區域。
我們發現中國用戶瀏覽習慣不一樣,他們關注焦點是均勻分布在頁面所有位置,他們哪兒都看。因為由于頁面設計的特點,用戶會跳過頁面上面的位置,頁面上面經常出現不太相關的細節他們經常跳過,到頁面的后半部,發現這個用戶行為之后,我們對系統做了調整。我們意識到作為這樣的產品,如果我們只關注頁面的上部和左部是不夠的對中國的用戶來講,我們對頁面的底部加入大量的信息,對于關鍵字的建議等等。這是中國團隊為全球廣告團隊作出貢獻的例子,這不僅讓中國廣告系統收益,發現其他國家用戶也有這樣的瀏覽習慣。
新浪科技:您說的工程師是全球部署的是嗎?各個不同的地方的改動,都會影響產品的形態是嗎?
郄小虎:是。我們是在同一個系統上進行開發,可以開發出針對每個國家地區的用戶需要的特殊功能,針對這個功能,可以只對這個國家用戶開放。在不適用的國家,會把這個功能關掉是可以選擇的。
Google廣告核心系統:海量存儲、機器學習、實時匹配
新浪科技:剛才tiger給我們講了工程師在做Google廣告系統的時候,會面臨的一些問題,我們想了解工程師在技術上面,會面臨什么樣,除了之前說的資金壓力,他們在技術上會面臨什么樣的問題呢?
郄小虎:廣告系統是非常大型的分布式系統,對完成每一次用戶請求這個過程并不復雜,我們想象需要一個數據庫存儲所有廣告信息,需要一個截面給廣告商使用,他們通過頁面他們購買的關鍵字,對于每一個關鍵字的售價和廣告信息等。數字信息會被傳到全球所有瀏覽器上去,用戶在搜索時,會提供給相應匹配的廣告信息展示給用戶,會被回傳下來,用戶月底會收到帳單。
對Google最大的挑戰是,我們如何相應海量的廣告商數據、用戶數據,每天超過十億的客戶訪問量。每一次的用戶請求,要進行非常復雜的競拍過程,這里需要牽涉到上千臺機器的協同工作。
相比其它部來說,搜索來講,廣告系統對搜索同步性非常高。如果搜索一個網站,網站會進行更新如果我經過一段延遲看到廣告最新的內容,大家都是可以接受的。對于廣告平臺上的應用來講,廣告商他們經常會把一個新的廣告上線,或把已有的廣告下線他們會買新的關鍵字和進行調整,這些改動需要在新的時間內生效。
新浪科技:您能給我們總結出什么樣的機制,在支撐Google的正常運轉嗎?
郄小虎:這個系統簡單分成三大模塊,首先要海量存儲系統,這個系統需要存儲所有用戶廣告商的廣告數據,包括關鍵字、出價、預算、廣告創意。同時它要記錄所有的用戶行為,包括每一次廣告展示,每一次廣告的點擊、轉換等等。
對于這個數據庫來講,它需要處理大量的海量數據,我們的系統中現在有超過上百萬的廣告客戶,如果你假設每一個廣告客戶購買一千個關鍵字數據量是相當大的。
經常我們的系統需要完成一些我們的分析工作,比如說我們想知道最多的關鍵字是哪一個,或者說這段時間內用戶搜索的關鍵字是哪些,這些請求是傳統數據庫不能完成的,是由我們工程師開發的超大容量的數據庫進行支持。
第二個模塊是機器學習系統。這個系統對我們記錄下來的所有事件分類、分析、處理。比如我們對廣告和一個關鍵字的相關性進行處理,我們會對一個頁面上面的概念進行抽取,我們會對用戶的點擊,以及轉換機器學習。機器學習系統會建立非常大數學模型,這是支持我們廣告質量的分的核心系統。
最后一個是實時匹配系統,這個系統完成了我們競拍過程,每一個客戶請求到來之后,我們會從機器系統中找到可以匹配的廣告,從當中提取的模型對請求進行預算,對每個廣告進行評分,最終完成競拍的過程,把排名前面的廣告展示在前面。
想認識全國各地的創業者、創業專家,快來加入“中國創業圈”
|