項目簡介:目前,基于互聯網的搜索系統,主要依賴于GOOGLE、BAIDU等搜索引擎,這類搜索引擎功能強大,但在同一關鍵詞中,所搜索的結果往往多達幾千條甚至幾萬條或更多,在如此多的結果面前去尋找自己想要的結果,其難度那是可想而知的。另外,由于這些搜索引擎反饋的信息以關鍵字為線索,導致反饋結果完全可能與用戶希望查找的結果相關度不大,反饋大量無用信息。
本項目研究使用主題爬蟲技術建立分布式爬蟲,采用精準搜索技術對互聯網上的包含特定信息的網頁進行抓取和存儲,并采用自然語言處理技術和文本挖掘技術對抓取的網頁元素進行智能分析和智能抽取,然后將包含特定主題的精準信息呈現給用戶。形成的項目產品內容如下:
1. 部署、研發基于主題的互聯網精準搜索咨詢服務系統平臺。在互聯網上部署精準搜索系統,由用戶提交需要搜索的主題,幫助用戶建立、完善基于主題的描述庫,用戶只需簡單地提交搜索指令,則通過平臺獲取及時、全面、精準的搜索結果;
2. 開發互聯網精準搜索軟件系統。供一些特殊用戶群自己部署系統,獨立獲取所需要的信息。協助用戶自行部署,并為用戶建立特定主題的描述語義庫,用戶可根據搜索主題擴展、定制主題描述庫。
建設投產條件:本系統為軟件系統,因此應用本系統的推廣和維護條件非常簡單,只需軟件開發環境、4臺服務器,以及10M以上的網絡帶寬。如果要提供信息搜索服務,則需要分布式部署服務器,該投入可以根據具體市場規劃、預測進行預算。
主要技術指標:由于一些特殊的用戶群體,他們所關注的主題信息較為敏感,這樣,他們的系統往往要求單獨部署(如軍隊、安全等行業)。此類用戶以一套軟件系統銷售25萬元計算,2011年市場拓展期,銷售系統10套,銷售收入250萬元;2012年銷售系統20套,銷售收入500萬元。另一類用戶直接為其提供特定主題的信息搜索服務,以信息服務的方式為其提供產品。
應用范圍覆蓋國家各職能機關、金融、企業、軍事、科研等不同行業,為相關行業提供特定主題的情報/信息獲取,如:交通、環保、金融、水電、公安、安全、教育、國防等各行業及單位,以及與民生相關的各個行業。
項目目前已進入產業化階段,成果權屬為我校獨自擁有。
掃碼關注,查看更多科技成果