本發(fā)明公開(kāi)了一種自適應(yīng)增量式的深網(wǎng)數(shù)據(jù)源發(fā)現(xiàn)方法,將深
層網(wǎng)絡(luò)數(shù)據(jù)源發(fā)現(xiàn)過(guò)程分為站點(diǎn)定位和站內(nèi)搜索兩個(gè)階段,在站點(diǎn)定
位階段引進(jìn)站點(diǎn)發(fā)現(xiàn)機(jī)制可以高效擴(kuò)充站點(diǎn)數(shù)據(jù)以提高爬行效率;在
站點(diǎn)和站內(nèi)鏈接選取采用自適應(yīng)的排序機(jī)制,能夠更快的發(fā)現(xiàn)深層網(wǎng)
絡(luò)站點(diǎn)和可查詢表單。本方法實(shí)現(xiàn)了增量自動(dòng)高效采集深網(wǎng)數(shù)據(jù)源,
可用于深層網(wǎng)絡(luò)數(shù)據(jù)集成和暗網(wǎng)爬蟲(chóng),同時(shí)也適用于構(gòu)建在線數(shù)據(jù)庫(kù)
目錄站點(diǎn)。
掃碼關(guān)注,查看更多科技成果