Web挖掘技術屬于信息科學領域,涉及自然語言處理、模式識別、知識工程、機器學習和隨機過程等多個研究領域,并需要使用概率統計、矩陣理論以及其他軟計算方法作為研究工具和手段。本項目主要針對Web挖掘中的Web數據模型、文本分類和信息檢索等基本問題進行理論和算法上的研究,并就這些問題提出了潛在語義結構模型、基于投影尋蹤的中文網頁分類算法和基于Markov網絡的信息檢索等模型。同時,在理論上對這些方法進行了深入的研究和探討,從理論上證明了其正確性。在實驗方面,我們將分類模型應用于大規模的標準測試文檔集(REUTER-21578語料庫、復旦大學中文文本分類語料庫),進行了大量的實驗,結果表明這些方法均表現出了較好的性能,接近甚至優于SVM和KNN的分類效果,并應用檢索模型在標準測試文檔集(CACM、CISI、CRAN、MED)上進行了多次對比實驗,其性能與BM25相當在某些指標上甚至更優。另外,課題組在北大天網測試文檔集上應用上述模型,在近幾年的全國搜索引擎和網上信息挖掘學術研討會(SEWM)的中文WEB信息檢索評測中均取得了優異的成績。
掃碼關注,查看更多科技成果