痛點問題
暗數據是指機構在常規業務活動中采集、處理和存儲的信息資產,但通常不能用于其他目的(例如分析、業務關系和直接貨幣化)。對于暗數據,用戶不知道其存在,或不知道其如何獲取,亦或不知道如何釋放其價值。
IDC的調研報告顯示:暗數據占數據總量的68%以上,且占比在逐年攀升。根據行業的不同,企業的暗數據在其數據總量中的占比從40%到90%不等。充分利用暗數據將為企業帶來巨大的利潤,但現階段,暗數據如同不能丟棄的垃圾,會加劇數據ROT(冗余,過時和瑣碎),降低數據發揮價值的效率與能力,不僅會給企業帶來巨大的維護開銷,同時會對企業造成潛在的風險和損失。根據Veritas公司的數據顯示,平均每家公司每年要花費4650萬美元來存儲從未使用過或使用頻率極低的數據,但卻無法按需使用這些數據。目前,國內的大部分相關部門和企業并未意識到暗數據的存在,也不了解處理暗數據的意義和價值。想要做好暗數據處理,面臨三個行業痛點:
· 檢索難 缺乏針對暗數據的檢索技術;
· 評估難 缺乏一套針對暗數據的價值量化標準和價值評估技術;
· 挖掘難 缺乏針對暗數據的存儲技術。
解決方案
針對暗數據處理,提出了如下方案:
(1) 基于內容哈希的暗數據點亮技術
本系統通過解析暗數據的內容語義生成哈希碼,再通過漢明距離計算哈希碼之間的距離度量,利用哈希碼作為元數據,利用距離度量作為組織標準,對所有數據進行圖結構化組織,實現暗數據的點亮。首先訓練自學習哈希模型DDCH,其中包括對比學習和無監督哈希函數學習階段。利用預訓練好的模型對暗數據集中的文件進行重構編碼,每一個文件都生成一個哈希碼與之對應。哈希模型的輸入在語義上越相近,生成的哈希碼的漢明距離也越相近。暗數據點亮時,通過DDCH模型將所有的暗數據生成為哈希碼,然后使用圖結構對所有的哈希碼進行倒排索引管理。
圖1 基于內容的自學習哈希模型框架示意圖
(2) 基于語義漢明圖的暗數據價值評估技術
管理哈希碼的圖組織,即漢明圖。語義越接近的數據在圖中的距離也越接近。在漢明圖中,可以看到一些分布比較集中的子圖,即一組語義相似的元素。在實際應用中,數據集的數目和密度無法統一,例如,部分數據集的圖像總量大,而有些數據集中與檢索需求相關的圖像數量多,為了精確評估各數據集的價值,提出綜合考量密度和數量的暗數據價值評估技術。通過計算各個數據在數據集中的重要性分數,再將需求轉換為數據對數據集中的數據進行檢索,檢索出的數據分數即可代表數據集對需求的重要性依賴,即價值。對于重要性分數,子圖越密集,即元素越多,漢明距離越短,該子圖的重要性越高,越具備挖掘價值。為了評估每個子圖的重要性,首先給每個子圖打一個“重要性分數”,然后根據重要性分數給子圖排序,排序后得到排名表(Score list)。
圖2 基于語義漢明圖的按數據價值評估技術示意圖
(3) 基于元數據圖譜的暗數據存儲技術
暗數據存儲系統利用哈希技術與語義漢明圖技術生成并組織元數據,在不影響傳統元數據組織的基礎上,提供使語義相似的文件在邏輯結構上更接近的查找目標。該設計能夠以外掛索引的方式單獨管理生成的內容元數據。當需要查找某一類型的數據時,暗數據存儲系統能夠通過聚類來召回語義相似區域的數據,輔以雙IO路徑的設計,讓系統既保留了現有存儲系統的讀寫路徑,又能夠通過內容語義來查詢并召回相應的文件,使得暗數據查詢和檢索更加高效和方便。
圖3 基于元數據圖譜的暗數據存儲技術示意圖
性能指標
在QQ相冊真實數據上的測試表明,核心技術均取得了較大的性能突破:
在EB級多模態數據集中,利用暗數據的點亮、價值評估和存儲技術,解決當前“檢索難”、“評估難”、“挖掘難”等難題,實現暗數據的高效檢索、精準評估和便捷挖掘。
試驗階段
· 2024年:深入對接騰訊,部署暗數據服務接口。預計為航天科工集團、達夢數據庫等企業交付10余臺服務器一體機設備,滿足訂單需求
· 2025年:拓展市場份額,將暗數據服務授權至華為、阿里等,積極推動與政府部門的合作。
· 2026年:進一步提高市場占有率,改進業務流程,優化資源管理,承擔社會責任。
目前,市場上已經出現利用暗數據的公司及產品。部分公司利用暗數據進行數據風險預測,降低數據泄露造成的損失以及抵抗網絡攻擊,包括但不限于Splunk的SIEM工具、BigID的云平臺、Imperva的風險檢測工具。另一部分公司能夠對單模態暗數據價值進行初步的內容提取和開發,包括IBM用于處理文檔暗數據的Datacap和專門處理視頻暗數據的Dark vision。
本項目與國外產品比較,能夠從內容角度管理暗數據,并根據價值評估技術有的放矢的推薦暗數據進行價值挖掘并釋放價值,具有國外同等類型產品尚不能企及的科技水平。本項目不僅能夠通過暗數據的價值評估來判斷并降低暗數據的數據風險,并且哈希技術和暗數據存儲系統具備處理多模態數據的通用性。本項目具有獨立的知識產權,有著顯著的技術優勢,也具有持續研發的可能性,能充分滿足潛在市場需求。
掃碼關注,查看更多科技成果