本發明提供一種基于關鍵詞的主題網絡爬蟲設計方法,包括:(1)配置主題關鍵詞的搜索URL,形成初始種子超鏈接originalURL;(2)根據originalURL,在搜索引擎中進行檢索并下載網頁,基于網頁內容抽取新聞的初步字段;(3)根據主題相關性算法,得到每篇新聞與主題的相似性,將與主題相關的新聞字段保留下來放入公共隊列newsQueue中,過濾掉與主題不相關的新聞;(4)根據nextPageURL下載下一頁的網頁內容,抽取出nextPageURL和步驟(3)所述的相關字段,將后者放入公共隊列newsQueue中,不斷重復步驟(4),直到沒有下一頁超鏈接nextPageURL為止;(5)從newsQueue中取出URL交給爬蟲處理線程,即消費者線程。