了解最新公司動態及行業資訊
不想當將軍??的士兵不是好士兵——拿破侖
如何成為運營總監?成為運營總監需要具備哪些技能?我想很多運維工程師都會有這樣的想法和疑問。
如何成為運營總監。一般來說,運維總監大概有兩個出身。一是從最底層的維護做起,通過出色的維護工作,讓公司領導特別認可這個人,同時也更加重視Linux運維工作。進步的立場。二是有企業管理背景或IT技術背景,有一定經驗,直接進入IT管理層面的人。
作為一名Linux運維總監,你需要哪些技能,管理哪些細節,具備哪些能力?
運維技能設備庫
:,,/xen,kvm,lxc,,,,,RHEV
配置工具: , Chef, , func, , ,
監控工具:Cacti、()、、基于時間的監控后端、Mtop、MRTG(網絡流量監控圖形工具)、Monit
性能監控工具:dstat(多類型資源統計)、atop(htop/top)、nmon(類Unix系統性能監控)、(內核slab緩存信息)、sar(性能監控和困境檢測)、(中間視圖) ) ), ( ), iftop (top-like tool), iperf ( tool), smem) ( video tool), ( tool)
免費的 APM 工具:(我見過的最全面的分析工具),
過程監控:,
日志系統:,
繪圖工具:,
流控系統:在線數據包分析工具Pcap
安全檢查:,
PaaS:,,,Deis(,,,core/)
:,,性能
持續集成:Go, ,
C盤壓測:fio,,(win)
()
Redis,, codis/SSDB/
MySQL監控:mytop,,-,,,myawr,SQL級監控,拓撲可視化工具
MySQL 基準測試:, sql-bench, , 'sTPCC-,
: SOHU-, Altas, cobar,
MySQL邏輯備份工具:,,,,mk--dump/mk--
MySQL 化學備份工具:LVM
壓力測試:&
運維管理工作概述
域名
從購買一個域名開始,購買多個域名,50個甚至100個。分為主域名和推廣域名(用于推廣鏈接)。從上面買一個域名,因為這里的域名是穩定的,不會有被攻擊的事情。同時需要購買域名保護,讓網民在ping這個域名時,無法解析出真實的服務器地址。
同時,域名解析的操作也不應該在互聯網上進行。解析的操作應該放在外網或者外網,或者zndns上(這個dns可以為一個域名解析多個IP地址。按照就近的原則,把最快速的IP地址解析給用戶。)也可以搭建自己的dns服務器,想著自己的dns服務器就好了。這樣,更改dns指向時會更快。
2.CDN
請務必購買 CDN 服務。如果部分用戶無法訪問,請使用cdn服務。可以從上面訂購cdn服務,這樣域名解析到cdn,然后cdn解析到肉盾墻或者任意一個,然后肉盾墻指向核心服務器。cdn起到緩存和轉發的作用,在大流量攻擊時可以防御至少200G的攻擊。Cdns 被全局緩存。
3.圖像服務器
您可以在國外租用多臺服務器作為圖片緩存服務器,以提高訪問率。雖然 nginx 本身就是一個圖片緩存服務器。
圖片服務器要和其他服務器分開,肉盾墻可以作為圖片緩存。
4.服務器機房
選擇機房非常重要。它必須具有良好的服務質量、高防御、高可靠性和及時響應。它還必須能夠隨時檢查服務器狀態。最重要的是要有良好的服務態度。.
機房需要購買臺灣九和(用戶核心服務器),新加坡圣安娜機房(肉盾墻)(雖然速度慢,而且安全性和高防御都很棒,遇到大流量攻擊時,電腦這里的房間還是可以訪問的,所以不要把豬肉放在一個籃子里,有各檔次就好了,國外機房快,高防效果差,而日本機房慢,高防效果不錯)
5.首頁
主頁,也就是招商引資的網站,或者變成廣告的網站,可以租用云主機,所以被黑了就被黑了。上面可以有一個鏈接,指向游戲的首頁,這個鏈接最后可以打個,很簡單。
也可以不帶終端口號。這時候一定要使用cdn服務器,或者使用免錄機房,將肉盾墻放置在免錄機房。由于所有在國外建的網站都需要注冊,所以賭博行業是嚴禁的,為了防止域名或IP地址被和諧(gwf),所以使用免備案機房。
或者在臺灣或日本或日本等機房放置肉盾墻。這樣,用戶可以直接使用域名訪問我們的網站,而不需要使用終端標語。
6.監控系統
一個網站需要有一個監控系統,可以實時監控服務器,看是否有電力攻擊,查看日志是否暴漲,將日志放到日志服務器(服務)上。使用 cacti 服務,您可以將日志放在 cacti 上。網速一定要查,網速飛漲一定要證明一定是攻擊成功。
每天晚上看日志,使用日志分析軟件,看訪問源是單個訪問源還是多個不同訪問源。監控服務器必須具有報告功能。一旦情況出現異常,立即報告,然后早起應對襲擊。
7.反灌籃
權力攻擊通常視情況而定,通常的權力攻擊是直接攻擊域名。nginx及其自身的防御功能可以防止少量的power攻擊。因為大量的電力攻擊直接占用網絡帶寬,服務器很難正常響應,只能利用機房的高防御。
所以要買很多高防的,建議至少200G。如果攻擊的來源是單個IP??或多個IP,就讓機房封鎖這些IP。遇到cc或ddos攻擊時,只能通過機房解決。服務器被黑后,需要立即將域名指向另一臺服務器(或直接將域名指向百度)。
大量的權力攻擊也需要用到CDN,讓CDN直接指向核心服務器就夠了,這樣可以更快,用戶還能玩。事實上,高流量的力量攻擊是無法完全避免的。
8.冗余
網站必須有冗余。例如,1000 人可以同時訪問。網站的負載必須達到 2,000 個并發用戶。
9.服務器
服務器的配置需要三張網卡,一張用于用戶連接和外部訪問(更好的網卡)。一種用于外網服務器之間的訪問。一個是用來ssh管理的,所以我們也可以在攻擊比較多的時候操作服務器。
每個網卡也需要多個IP地址,以免某個IP被阻塞。國外網絡和美國網絡經常有IP不好用。硬盤至少要鏡像(raid1),cpu必須是雙向的,雙電源,其實應該不會出現單點故障的。至于肉盾墻的配置可以再低點,連臺式機的配置都可以,而且網絡一定要好,尤其是有核心服務器的網絡一定要好。
10.數據庫
數據庫需要主從復制,必須有異地備份,nginx服務器需要集群,也就是。前臺(提供用戶訪問頁面)和后臺(員工管理界面)應該使用兩臺不同的機器,互不影響。其余的服務可以使用虛擬機完成。
這樣可以省錢。郵箱直接購買的gmail商務郵箱就可以了。這是非常容易使用。最好沒有人擁有。或者在公司內部搭建自己的聊天軟件(最好借錢買聊天軟件)。
11.測試環境
需要三套測試環境。開發者需要自己的筆記本上的環境,局域網上的一套測試環境,互聯網上的一套測試環境,以及生產環境。局域網的測試環境一定要穩定。可以買一個機柜和其他網絡設備一起買,不要用普通的筆記本。局域網必須有svn或git代碼管理工具。全面測試后,上傳到生產環境。
12.肉盾墻和核心服務器
肉盾墻和核心服務器之間必須能ping通命令,這樣才能看到哪個IP地址不能用,才能看到網絡連通性。
13.運維人員
至少兩個,如果有一個運維主管和一個運維人員就足夠了。這樣,所有的運維工作都必須有操作文件,兩個人協同工作,不需要輪班,24小時隨叫隨到。一個網絡管理員就足夠了。
普通的運維部門就是這樣。如果是大型網絡架構,會有自己的數據中心機房,后期安排人員。
14.Linux系統優化與安全
一定要有優化和安全配置,比如nginx是基于cpu優化的,每個程序都是基于cpu和顯存的限制。
所有密碼應每 3 個月更改一次,尤其是域名的帳戶和電子郵件密碼。域名是最重要也是最容易受到攻擊的環節。
15.局域網
局域網一定要穩定,可以買兩條至少10M帶寬的網線,也可以買聯通wifi,讓員工手機上網。
16.機房
如果是小型網絡架構,必須有自己的核心機房,而不是租用機房。每個職位由幾個人組成,包括運維工程師、數據庫管理工程師、網絡工程師、安全工程師、存儲和備份系統。具有運維經驗的工程師負責協調各部門之間的工作。目前,一個運維就可以完成所有的工作。
17.運維工具
運維的工具要統一,比如使用連接數據庫的工具,使用crt工具連接服務器,使用密碼管理工具,使用上傳服務器代碼的工具等。運維人員協調性更好。
此外,運維必須有大量的時間去學習。每天都要上網找新技術、好資料,而且最好懂英文,因為好的技術文檔都是用英文寫的。這對運維工作很有幫助,但運維的技術實力會大大提高,并計劃滿足更大的需求。
18.災難恢復計劃
最后,要有一個計劃,就是一旦服務器出現大問題,就無法解決。這個時候不要解決服務器,使用計劃,啟用備份計劃,盡快使網站可用。
平時多做計劃演練,也多做備份還原操作,因為有些備份不可用,這是普遍現象。關鍵時刻不要讓備份不可用,整個網站就完蛋了。
19.服務器安全
必須有一套完整的安全配置,包括用戶安全、應用安全、系統安全、文件安全等。這樣可以防止服務器被黑客入侵。
20.高并發測試
一定要做高并發測試,模擬2000個同時在線用戶,看服務器負載,服務器高并發配置。網絡方面是機房問題,要選擇最合適的IP地址、最合適的機房、出口帶寬。
高并發是服務器架構的問題,而不僅僅是單個服務器。應該花的地方一定要花,能省錢的地方一定要懂得省錢。
21.運維信息
所有運維信息由兩個人共享,包括密碼和服務器配置步驟。團隊由運維總監帶隊服務器運維,形成了一個相互學習、技術實力強、目標一致的和諧團隊。讓團隊中的每個人都得到他們想要的。
運維總監的人很重要,否則,留不住人,就不會一起努力。運維工作技術不是最重要的。由于學習和使用這個職位已經來不及了,所以工作心態/個性和經驗是最重要的。
22.服務器日志
對于服務器搭建日志,必須記錄所有服務器的所有操作,并寫入時間操作的內容。在生產服務器上運行之前,必須進行風險評估和解決方案。
23.運維工作
應用上線后,運維工作才剛剛開始。具體工作可能包括:升級版本上線工作、服務監控、應用狀態統計、日常服務狀態檢查、突發故障處理、日常服務變更調整、集群管理、服務性能評估與優化、數據庫管理優化、應用框架擴展,隨著應用 PV 的增減,安全、運維的發展。
核心運維管理工具箱
重點介紹了運維流程管理、運維發布變更、運維監控告警三個具體工具,可以作為工作日記使用。
第一類:運維流程管理工具
1.發布變更流程管理工具
作為系統套接字與其他角色進行連接工作。并提供審批鏈接,控制發布變更的風險。流程管理工具不負責具體業務操作的執行,而只是作為一個收據系統來跟蹤流程并確保閉環。
2.警報和事件管理工具
手動創建和管理突出服務損壞的警報。人工確認后,升級為緊急訂單。通過創建訂單來管理告警和突發事件,保證流程的閉環,每次故障都可以總結經驗,提供KPI,無需衡量業務的可用性。
第二類:運維發布變更工具
1.版本管理工具(數據庫)
所有版本都應該從版本管理開始。開發的版本包首先放入版本管理工具,然后從版本管理工具分發到現網。避免將一臺服務器同步到另一臺服務器的做法。
2.配置管理工具(數據庫)
版本加配置等于現網每臺機器的狀態。最細粒度的配置管理到IP級別,相當于機器的資產管理,分為模塊、區域等不同的業務概念。一點粒度將管理流程和流程的相關配置。
3.配置和版本分發工具
指定的版本,結合配置的配置,下發到現有網絡上的機器上。不同的版本和配置方式需要完全不同的交付形式。ssh/ 代表的交付方式是以腳本為中心的。/chef 所代表的交付方式是以配置為中心的。
4.直播網絡狀態同步工具
為避免現網狀態漂移,與管理工具中的記錄不一致。需要有一個工具來定期報告現網的實際狀態。
5.服務調度工具
發布更改通常需要一個串行過程,首先做 A 模塊,然后是 B 模塊。當機器多時,需要并發執行并發操作,并保證非并發操作的串行執行。同時,很多發布變更流程都需要超出運營管理范圍的服務,比如云中的DNS服務器記錄。這就需要一個用于統一調度配置和版本分發的服務調度工具,一個進程接收工具,以及將其他系統的API套接字組裝成一個進程。
6.資源管理和隔離工具
以xen/kvm為代表的工具可以讓運維更靈活地削減資源。比如虛擬機的快速啟動和停止,idc中ip的甩尾等。以lxc/為代表的工具可以讓運維進一步削減資源到進程級別。資源隔離代理的細粒度資源控制可以帶來更好的資源利用率和更容易擴展的資源配置。
7.發布變更的統一接口
它封裝了所有上層工具,并提供了一個簡單的接口來完成標準化的發布和更改操作。
第三類:運維監控報警工具
1.收集工具
通常是日志文件的集合,也可以是 DB 或其他系統定期尋址的套接字。一個流行的開源解決方案是 .
2.采集工具
采集工具上報采集工具。或者,開發者可以直接修改代碼,將指標上報給采集工具。該過程的開源解決方案仍然存在。
3.統計庫存工具
報告可能每次調用都會上報一次,統計工具負責統計一分鐘內的次數。報告也可能每5秒報告一次數值,統計工具負責計算一分鐘內的最大值。存在便于報告的統計工具。流行的開源方案是也有大公司基于Storm做二次開發。
4.時間序列數據庫
所有時間指標都將進入數據庫。監控告警所需的數據庫需要支持特別大的數據量,但沒有嚴格的ACID要求。
5.運維風暴數據庫
記錄所有警報。包括從其他系統獲取警報,記錄現有網絡的所有變化。該數據用于支持警報的因果位置。
6.指標異常檢查工具
基于物理模型,判斷指標是否偏離過去的穩定模式,推斷網絡狀態的變化。
7.撥號測試工具
定期PING或HTTP GET,模擬真實用戶,判斷服務是否中斷,并形成告警。同時,也形成指標并上報采集系統。撥號測試分為本地撥號測試和遠程撥號測試。本地撥盤測試可用于檢測只讀C盤等本地告警。遠程撥號測試可以模擬用戶的地理分布,網絡鏈路狀態也包含在撥號測試的覆蓋范圍內。
8.報警收斂工具
綜合各種來源的告警,進行頻率收斂,分析問題的癥結所在。統一匯總成報告,督促人工維修。
9.警報手動修補工具
接收手動處理的警報。幫助運維人員完成將固定故障機下架退回倉庫的操作。或者,如果服務本身不高可用,可以在現網進行故障機更換、IP拖尾等修復操作,在一定程度上提高服務可用性。
10.報警通知工具
重要的警報需要升級到電話。需要有高可用的電話、郵件、陌陌等通知套接字。
11.監控報警統一界面
屏蔽各種上層工具,為代理安裝、指標采集設置、指標曲線展示、告警查詢提供統一的界面。一個地方可以了解當前網絡的所有問題。
優秀運維總監的能力
1、系統架構設計和規劃能力。作為技術工程師,你更關注具體的技術、問題分析、故障排除等細節,而作為運維總監,你需要站在全局的高度,把控各個環節的需求。規劃設計系統架構,實現高效穩定的IT系統。
2、量化和管理問題的能力。熟悉ITIL及相關運維工具,通過運維管理工具,跟蹤風暴進程,實現整個IT系統的統一協調;通過運維管理工具,幫助運維人員監控和定位問題的癥結所在;通過知識庫的積累可以有效解決人事變動后的管理問題。可以說,IT系統不僅需要人的運維,要想發揮IT系統的最大作用,還需要借助工具來量化和規范化管理。我們可以使用一些手動工具來收集和輸出更全面的監測預警信息,變被動運維為主動運維;可以使用人工運維工具,將多點集中管理減少到一個點,可以更好的簡化運維工作量,提高運維效率。標準流程清晰明了,這樣當出現問題時,不會出現A部門要求B部門反饋,B部門要求C部門處理的情況。C 可能會說是 D 部門的問題,導致一個很簡單的問題無法得到。及時有效的處理不僅影響業務本身,也影響部門之間的投訴。可以使用人工運維工具,將多點集中管理減少到一個點,可以更好的簡化運維工作量,提高運維效率。標準流程清晰明了,這樣當出現問題時,不會出現A部門要求B部門反饋,B部門要求C部門處理的情況。C 可能會說是 D 部門的問題,導致一個很簡單的問題無法得到。及時有效的處理不僅影響業務本身,也影響部門之間的投訴。可以使用人工運維工具,將多點集中管理減少到一個點,可以更好的簡化運維工作量,提高運維效率。標準流程清晰明了,這樣當出現問題時,不會出現A部門要求B部門反饋,B部門要求C部門處理的情況。C 可能會說是 D 部門的問題,導致一個很簡單的問題無法得到。及時有效的處理不僅影響業務本身,也影響部門之間的投訴。不會出現A部門要求B部門反饋,B部門要求C部門處理的情況。C 可能會說是 D 部門的問題,導致一個很簡單的問題無法得到。及時有效的處理不僅影響業務本身,也影響部門之間的投訴。不會出現A部門要求B部門反饋,B部門要求C部門處理的情況。C 可能會說是 D 部門的問題,導致一個很簡單的問題無法得到。及時有效的處理不僅影響業務本身,也影響部門之間的投訴。
3、團隊的管理和協調。大多數時候,運維人員都在做簡單重復的工作,很難得到終端用戶的肯定。曾經有一個詞“窮困潦倒”來形容運維工程師。工作站上沒有人。剛坐下,電話就不停地打來。有什么問題需要解決,就會有人來找你。這樣的場景大家應該都有體會吧。標準化流程的制定尤為重要。不僅方便了問題的排序,還可以讓對應的問題找到對應的人。這對于運維來說非常重要,也有利于團隊協作。作為運維總監,還要關心團隊中的每一位成員,協調好每一位工程師的工作時間和CASE,合理安排工作任務。另外,肯定每一位工程師的努力,對他們的優秀工作給予積極的肯定和表揚,有助于凝聚人心,培養團隊的榮譽感。
4、資產管理和審計能力。準確了解公司現有IT資產和設備,對設備進行整治,明確每臺設備的磨損和維護信息。當公司需要購買新機器時,會有明確的數據支持您的購買請求。當設備出現故障或變化時,通過以往的數據,可以實時掌握第一手準確數據。并且隨著公司業務的發展和分支機構和員工的增加,資產管理和審計將變得更加重要,IT運維支持的意義將更加巨大。
5、能夠形成運維梯隊,合理匹配運維資源。人員管理問題在運維中更為重要。很多情況下服務器運維,由于運維工作分配不合理,難以準確評估績效。如果將運維人員劃分為一、二、三線支持,不同運維人員各司其職,使有限的運維力量得到合理利用,整體工作效率將顯著提高;評估他們的工作表現。據此,制定相應的獎懲措施,或者針對不同的崗位提供不同的服務技能培訓,也可以提高員工的積極性。例如,將所有 IT 問題匯總到技術服務臺。對于絕大多數(80%以上)的問題,服務臺可以直接解決;如果服務臺無法解決問題,則根據問題處理的優先級分配不同級別的運維。動力保證不同問題的處理,運維人員不會錯過需要及時處理的重大問題。如果服務臺無法解決問題,則根據問題處理的優先級分配不同級別的運維。動力保證不同問題的處理,運維人員不會錯過需要及時處理的重大問題。如果服務臺無法解決問題,則根據問題處理的優先級分配不同級別的運維。動力保證不同問題的處理,運維人員不會錯過需要及時處理的重大問題。
6、技術創新和積累能力。運維總監本人需要有很強的技術能力,需要熟悉各種設備、不同的操作系統、各個環節中的應用、數據庫、存儲、備份容災、調優、安全等。有具體問題和重大問題,要聽取團隊的意見,讓計劃因您的補充和建議而更加確定。很多時候,在具體細節的處理上會有技術創新,同時也是對你的一次學習和積累。針對每個主要問題和處理過的典型問題,編寫技術文檔,并隨著時間的推移生成知識庫。
7、見面和分享的能力。會議有時是一種很好的交流方式,但顯然有時你可能會厭倦它們。這可能是由于其程式化、單句或題外話,無法解決實際問題。盡管會議的作用是:
規范化:為您的項目、任務、工作理解、反饋、描述、執行等帶來一致性。降低內部溝通成本,提高團隊效率。
可視化:追求項目的可視化是項目管理的最高境界。層層分解,需要各級管理者對項目和任務的進度、風險和問題進行一目了然的管理。
項目管理:通過團隊各個維度的管理,項目管控、人員工作安排、團隊學習提升、工作方向調整等。
理念貫徹與方向:貫徹公司文化和團隊文化,統一你的理念和模式。傳達內部領導的指示部署,明確下一步工作的重點和方向。
解決具體問題:針對難點,提供指導或集思廣益,集思廣益。
最后談談如何成為一名優秀的運維總監。誰是優秀的運維總監?他們具備以上七種能力才能優秀嗎?許多人的腦海中似乎有不同的定義。我認為優秀經理需要具備的素質之一就是帶領團隊不斷進步。并擁有永無止境的精神。
看看,這么多能力,你缺什么?