本發(fā)明公開了一種針對網(wǎng)頁結(jié)構(gòu)變化的不間斷爬蟲系統(tǒng)構(gòu)建方法,本發(fā)明在數(shù)據(jù)抽取的過程中,并 不依賴于具體的標(biāo)簽節(jié)點,而是通過計算的方法來尋找目標(biāo)節(jié)點;利用節(jié)點剪枝和相似哈希的方法鎖定 標(biāo)題節(jié)點;然后,迭代計算相關(guān)節(jié)點的上下文主題相關(guān)度值 TTR,得到目標(biāo)抽取模塊的節(jié)點;最后,使 用正則表達式以及庫匹配的方法實現(xiàn)對時間和新聞來源的信息的獲取,在庫匹配的過程中,使用了庫動 態(tài)增長的方法;同時,在目標(biāo)抽取節(jié)點下的剩余節(jié)點中,過濾掉所有噪聲節(jié)點,便得到網(wǎng)頁文本的正文 信息;本發(fā)明提供的技術(shù)方法主要應(yīng)用
掃碼關(guān)注,查看更多科技成果