“工欲善其事,必先利其器?”
“對一件具體的事情是對的,但對于一個復雜的問題,則不然。比如現在電商非常的紅火,假設我們要去建造一個高效的電商倉庫,應該先建設什么工具?顯然應該先在規劃好倉庫里貨架的擺放位置、走道設置、物品歸類等的基礎上,再按需添置工具。而我們運維人員就好比大型倉庫的倉管員,因為還要負責部署,以及故障處理,所以我們不僅僅是倉管員,還是快遞員,兼售后等。”趙建春巧妙的比喻讓會場氣氛頓時活躍了起來。
所以,我們的做法是先想辦法讓自己有個清爽的環境,再在此基礎上建設各類效率工具,分工協作”,趙建春強調道。
三大主題詮釋高效運維之道
海量SNS社區網站如何實現高效運維,趙建春通過三個主題進行了詮釋:如何減少運維對象、規范技術架構和進行分工分層的專業維護。他認為,簡單、規范、專業分工后的經驗最大化利用是運維的三個核心思想。
談到如何減少運維對象時,趙建春講述了自己團隊的運維經驗:“在06年的時候,我們第一步做的事情就是,把運維環境中所有的應用程序進行部署,全部打包,打包之后,不管是運維同事、開發同事還是測試同事都有一個標準的按鈕,只需按這個按鈕就可以達到相應的目的。”
“規范技術架構并不是一件容易的事情”,在規范技術架構主題中,趙建春指出,“我們每個地方的規范和約束花了大概2年的時間,才把這樣一個比例從無發展到80%、90%的覆蓋率。使業務架構變成接入層以qzhttp為主,邏輯層以spp(通用socketserver)為主,數據層以cdb cmem/cssd cbitmp為主并結合lvs/tgw L5 進行容錯的高度標準化運營體系。”
針對分層專業維護,趙建春分享了騰訊的做法 “我們允許和支持開發同事可以變更自己負責的模塊,上線后運維系統會自動搜集所有IP,比如20分鐘之前和20分鐘之后的各種變化,并根據基礎監控,測速、自動化測試,模塊間調用,coredump,組件監控等綜合輸出體檢報告,通過郵件發給開發同事,按規則和重要性,郵件分成關注和須處理 。”
除此之外,趙建春還舉例說明 “在代碼發布方面,由于配置中心化,我們可以通過菜單進行一個部署單元set的快速部署,就像我們在天津機房要部署1000臺服務器,在2個小時就完成非數據拷貝部分的全部服務部署。”
“盡可能少的管理對象就是效率的最大保障,運維團隊也不要一味地去適應環境的變化,也要和研發有良好的互動,形成分工維護的變更閉環,減少溝通協調成本。”趙建春總結說。
在演講的最后,趙建春表示,這些好的技術方案在騰訊云上會繼續提供或有相關優化替代版本,這些技術經歷了騰訊多年的海量服務演進和考驗,歡迎大家關注及使用騰訊云。
想認識全國各地的創業者、創業專家,快來加入“中國創業圈”
|