
2021 年 9 月 23 日廣東移動(dòng)故障中心在全國(guó)率先并行上線, 助力中國(guó)移動(dòng)廣東公司“ 三大戰(zhàn)役”業(yè)務(wù)戰(zhàn)略,標(biāo)志著廣東移動(dòng)智慧中臺(tái)的建設(shè)邁出堅(jiān)實(shí)的一步, 網(wǎng)絡(luò)數(shù)智化運(yùn)營(yíng)邁向新的高度。

2021 年中國(guó)移動(dòng)廣東公司緊緊抓住十四五“數(shù)智化轉(zhuǎn)型、高質(zhì)量發(fā)展”這條主線,規(guī)劃和構(gòu)建廣東移動(dòng)智慧中臺(tái),通過智慧中臺(tái)的建設(shè)支撐 CHBN、管理、運(yùn)維、融合創(chuàng)新等全業(yè)務(wù)的發(fā)展。故障中心是廣東移動(dòng)智慧中臺(tái)的 9 大核心能力中心之一,通過夯實(shí)網(wǎng)絡(luò)能力基座,為敏捷、高效網(wǎng)絡(luò)運(yùn)維支撐手段提供基礎(chǔ)條件。
5G 網(wǎng)絡(luò)技術(shù)具有靈活的可擴(kuò)展的網(wǎng)絡(luò)架構(gòu), 能夠按需組網(wǎng), 同時(shí)5G 網(wǎng)絡(luò)能夠涵蓋不同行業(yè)用戶以及開展多種業(yè)務(wù)類型, 網(wǎng)絡(luò)的演進(jìn)要求網(wǎng)管手段更具實(shí)時(shí)性、自動(dòng)化、能力共享、敏捷迭代、智能運(yùn)維、快速支撐, 故障中心秉承“ 分層解耦、領(lǐng)域建模、開放復(fù)用、迭代演進(jìn)” 的數(shù)智故障中心建設(shè)思路,打造融合、云化、開放、自動(dòng)、智能和敏捷6 大能力, 構(gòu)筑全面實(shí)時(shí)感知、故障智能定位、ICT 融合監(jiān)控、故障自愈、輔助決策、低代碼敏捷開發(fā)“ 六類”特點(diǎn)的故障自動(dòng)駕駛體系,讓故障中心更智能、更強(qiáng)壯、更簡(jiǎn)單,讓運(yùn)維創(chuàng)造更高價(jià)值,賦能 ICT 智能運(yùn)維轉(zhuǎn)型升級(jí)。
原有故障管理系統(tǒng)經(jīng)過 10 余年的建設(shè)和沉淀,目前管理了 10 余大專業(yè),100 多類設(shè)備,近 5000 萬個(gè)資源對(duì)象,涉及周邊系統(tǒng) 70 余套,1000 余個(gè)接口,關(guān)系到全省網(wǎng)絡(luò)設(shè)備的監(jiān)控和派單。本次上線涉及到全新架構(gòu)開發(fā),數(shù)據(jù)接入、清洗和遷移,微服務(wù)改造、上層應(yīng)用功能開發(fā)和改造等諸多工作,是對(duì)新架構(gòu),業(yè)務(wù)熟悉程度,工程建設(shè)管理等巨大考驗(yàn),需要精心準(zhǔn)備,超前思考,巨量投入。為此,廣東移動(dòng)和億陽信通組成聯(lián)合項(xiàng)目團(tuán)隊(duì),廣東移動(dòng)網(wǎng)絡(luò)管理中心孫劍駿總親自指導(dǎo),林綱總攜網(wǎng)管系統(tǒng)室和網(wǎng)絡(luò)監(jiān)控室主建,各單位協(xié)作, 經(jīng)過近十個(gè)月的努力奮斗, 廣東移動(dòng)故障中心完成并行上線。



數(shù)智化故障管理系統(tǒng)新架構(gòu)、新能力
故障中心基于集團(tuán) OSS 規(guī)范, 以廣東智慧中臺(tái)規(guī)劃為指導(dǎo), 億陽信通構(gòu)建“ 1453 ” 智能故障管理架構(gòu), 初步實(shí)現(xiàn)故障管理智慧業(yè)務(wù)中臺(tái), 努力踐行廣東移動(dòng)求真務(wù)實(shí)、追求卓越的管理理念。

1套體系:構(gòu)造以告警為核心的數(shù)智故障管理體系
以故障管理流程和工單為依托,以先搶通后搶修業(yè)務(wù)為原則,以網(wǎng)絡(luò)異常為抓手, 依托數(shù)智化故障管理中心和運(yùn)維管理中心, 構(gòu)造網(wǎng)絡(luò)感知, 定界, 自動(dòng)調(diào)度和處理的故障自動(dòng)駕駛體系。

4種沉淀:數(shù)據(jù)和業(yè)務(wù)資產(chǎn)的沉淀,為智能化運(yùn)維轉(zhuǎn)型奠定基礎(chǔ)
經(jīng)過 10 余年的不斷建設(shè)和使用, 我們積累了數(shù)億條的告警原始數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)、全網(wǎng)性能告警數(shù), 3000 余條各種規(guī)則、上百種算法以及若干管理規(guī)范, 在此基礎(chǔ)上, 具備了往智能化運(yùn)維轉(zhuǎn)型的基礎(chǔ)和條件。

5項(xiàng)能力
01 豐富多樣開放能力
為服務(wù)靈活編排、加工組裝、配置能力、豐富的業(yè)務(wù)組件、快速開發(fā)能力、全方位的服務(wù)管控和治理、生態(tài)體系建設(shè),故障中心梳理告警查詢、告警訂閱、告警處理、準(zhǔn)實(shí)時(shí)性能查詢等 13 大類微服務(wù)集,62 個(gè)微服務(wù)子項(xiàng)。2021 年累計(jì)調(diào)用次數(shù)超過 100+萬次,有力的支撐了省公司管理決策、集家客業(yè)務(wù)、無優(yōu)業(yè)務(wù)以及自研工作的需要。

02 高可用能力
基于云化架構(gòu)構(gòu)建故障中心,系統(tǒng)具備應(yīng)用級(jí)自愈能力,自愈過程全自動(dòng)完成, 用戶無感知, 業(yè)務(wù)遷移時(shí)間從小時(shí)級(jí)提升到分鐘級(jí), 業(yè)務(wù)接管時(shí)間從 30 分鐘提升到秒級(jí),網(wǎng)絡(luò)和硬件故障時(shí)進(jìn)程自動(dòng)切換,自動(dòng)資源調(diào)度與分配, 實(shí)現(xiàn)資源忙閑均衡, 大幅提高資源利用率。

03 高吞吐能力
故障中心在硬件資源減少 50%的同時(shí),整體處理能力提升 6 倍以上,支持每日活動(dòng)告警 2000 萬條,每秒告警處理 3200 條,單實(shí)例流水窗 200 個(gè),單流水窗 5 萬條的處理能力,滿足節(jié)假日保障,重大活動(dòng),告警風(fēng)暴等常用場(chǎng)景的使用。支持彈性伸縮擴(kuò)展,滿足網(wǎng)絡(luò)變化和突發(fā)情況下對(duì)系統(tǒng)性能處理能力的快速擴(kuò)容要求。

04 敏捷業(yè)務(wù)支撐能力
基于統(tǒng)一的基礎(chǔ)中臺(tái),為構(gòu)建故障中心智慧平臺(tái),打通研發(fā)與運(yùn)維環(huán)節(jié),實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)敏捷開發(fā)和灰度發(fā)布,提供智能化、流程化、可視化的新的智慧運(yùn)維體系, 助推系統(tǒng)的快速迭代開發(fā)與推廣, 版本發(fā)布頻率由月版本縮短至天。

05 智慧運(yùn)維能力
實(shí)現(xiàn)告警全生命周期的的可視化,對(duì)系統(tǒng)涉及的主機(jī)、核心程序,第三方軟件等實(shí)時(shí)監(jiān)控,對(duì)每一條有狀態(tài)的告警從網(wǎng)元、omc、故障中心到派單的時(shí)間點(diǎn)和過程進(jìn)行全流程可視和監(jiān)控,提供告警溯源查詢和定位能力,極大提升系統(tǒng)運(yùn)維的可視化化水平和工作效率。

根據(jù) 5G 的網(wǎng)絡(luò)和運(yùn)維的新特性,2021 年重點(diǎn)打造以下三大創(chuàng)新應(yīng)用。
3大創(chuàng)新
01 ICT融合監(jiān)控
故障中心實(shí)現(xiàn) ICT 融合監(jiān)控,將 5GC、vIMS、vEPC、數(shù)據(jù)中心、物理資源(服務(wù)器、磁陣存儲(chǔ)/分布式存儲(chǔ)、交換機(jī)、防火墻)、虛擬資源REGION\HA\AZ\HOST\VM\VIM\Storages\Volume\NETWORK)、SDN等設(shè)備納入監(jiān)控; 5G 網(wǎng)絡(luò)組網(wǎng)結(jié)構(gòu)的變化,實(shí)現(xiàn)網(wǎng)絡(luò)拓?fù)鋵?shí)時(shí)準(zhǔn)確的刻畫網(wǎng)絡(luò)狀態(tài),提供監(jiān)控人員端到端拓?fù)浔O(jiān)控,輔助一線人員故障根因定位, 快速解決問題。

02 場(chǎng)景配置+基礎(chǔ)服務(wù)編排
故障中心通過將場(chǎng)景業(yè)務(wù)和數(shù)據(jù)的服務(wù)梳理,完成各類服務(wù)的封裝。在面對(duì)新開發(fā)的場(chǎng)景需求,可視化配置開發(fā)能力將原來開發(fā)每個(gè)定制場(chǎng)景開發(fā)從 3周的時(shí)間縮短至 2 天,目前已經(jīng)提供 50 余種類基礎(chǔ)服務(wù),10 余種場(chǎng)景的配置。

03 告警關(guān)聯(lián)引擎
故障中心引入 AI 引擎,通過機(jī)器學(xué)習(xí)推演, 分析告警特征進(jìn)行資源關(guān)系識(shí)別, 彌補(bǔ)資源關(guān)系缺失導(dǎo)致根因定位不準(zhǔn),同時(shí)實(shí)時(shí)更新故障業(yè)務(wù)影響面,最終 實(shí)現(xiàn)對(duì)現(xiàn)網(wǎng)關(guān)聯(lián)規(guī)則的持續(xù)優(yōu)化。同時(shí)提供復(fù)雜規(guī)則配置化界面,支持自定 義變量定義,實(shí)現(xiàn)正則匹配、SQL 拼接、中間變量等多種形式的腳本界面化開發(fā),目前支持 20 余種關(guān)聯(lián)規(guī)則。

展望
征程萬里,任重道遠(yuǎn),智能運(yùn)維轉(zhuǎn)型非一朝一夕可以達(dá)成,廣東移動(dòng)故障中心項(xiàng)目的數(shù)智化建設(shè)邁出了第一步。以打造“技術(shù)先進(jìn)、運(yùn)營(yíng)高效、質(zhì)量領(lǐng)先”的世界一流網(wǎng)絡(luò),加快建立高效、智能、簡(jiǎn)潔、協(xié)同的網(wǎng)絡(luò)運(yùn)營(yíng)管理體系為己任的中國(guó)移動(dòng)廣東公司,攜手 OSS 領(lǐng)域重要服務(wù)商億陽信通,依托億陽信通在行業(yè)內(nèi)的豐厚業(yè)務(wù)及技術(shù)積累,結(jié)合廣東公司先進(jìn)的管理理念,扎實(shí)推進(jìn)廣東移動(dòng)故障中心的建設(shè)和創(chuàng)新,為新網(wǎng)絡(luò)、新技術(shù)、新業(yè)務(wù)發(fā)展注入新動(dòng)力,讓網(wǎng)絡(luò)運(yùn)營(yíng)更智慧更高效,釋放網(wǎng)絡(luò)新價(jià)值,為中國(guó)移動(dòng)構(gòu)建世界一流“力量大廈”做出更多貢獻(xiàn)。
文章來源:通信世界
|