在本研究工作中,該團隊利用信息論和統計物理兩個領域中熵的相關理論,對網絡結構預測極限進行了研究。直觀地說,一個可以僅用幾個詞描述的網絡結構意味著它很簡單,其邊也很容易預測。例如二維晶格或一維鏈狀結構。相反,如果一個網絡需要很長的語言才能描述清楚,那么它應該具有非常復雜的結構,其結構很難預測。在計算機領域,任何網絡的結構都可以被編碼成二進制字符串。這啟發了團隊探尋最短二進制編碼字符串長度,也就是熵,和可預測性之間的關系。
通過研究,該團隊發現來自不同領域,很多大小不一的網絡,其結構的最短壓縮長度和可預測性之間存在一個普遍的線性關系。基于香農信源編碼定理,該團隊在隨機網絡上證明了這種線性關系。
進一步,利用這一線性關系,該團隊推導出網絡結構預測算法的性能上界,揭示出包括機器學習在內的預測算法性能尚存在多大的提升空間。因此,該性能界可用于指導未來在線商業推薦系統、蛋白質相互作用探測等場景中的算法設計。另外,該理論的一個有趣的用途是,可以實現在無需任何預測算法的情況下,通過網絡結構壓縮數據大小來估計一個網絡數據集的商業價值。
掃碼關注,查看更多科技成果