分布式計算機系統(tǒng)的預(yù)測性監(jiān)控技術(shù)
針對大規(guī)模分布式計算系統(tǒng)例如云計算系統(tǒng)、數(shù)據(jù)中心等的運維需求,研發(fā)了針對大規(guī)模計算系統(tǒng)的預(yù)測性監(jiān)控技術(shù)。并開發(fā)了一個可擴展的監(jiān)控系統(tǒng)。該系統(tǒng)的特點為:1)基于語義事件表達監(jiān)控信息,開發(fā)了復(fù)雜事件處理器,可以支持用戶定義針對復(fù)雜模式的事件探測組件,從而使系統(tǒng)能夠?qū)ψ詣犹綔y復(fù)雜的狀態(tài)變化;2)基于發(fā)布訂閱模式的事件傳輸網(wǎng)絡(luò),使得監(jiān)控系統(tǒng)可以規(guī)模擴展,因而適應(yīng)了大規(guī)模計算系統(tǒng)的監(jiān)控需求;3)開發(fā)了多種性能預(yù)測算法和異常探測算法,實現(xiàn)了對計算機和應(yīng)用性能的長期預(yù)測。 本項目的成果已經(jīng)應(yīng)用到多個企業(yè)的系統(tǒng)監(jiān)控上。項目的成果也發(fā)表在INFOCOM、IFIP Networking,IEEE Transaction on Parallel and Distributed Systems, Journal of Systems and Software, Software: Practice and Experience等著名會議和期刊上。項目成果已經(jīng)申請了10項專利。
上海交通大學(xué)
2021-04-13