文本語義相似度是指兩個句子或文本片段之間的語義等價程度,其研究在自然語言處理的問答系統、機器翻譯、信息抽取、自動摘要等相關領域中有著廣泛的應用,具有重要的理論意義和應用價值?,F有的文本語義相似度方法主要基于詞表面特征,但由于詞語間普遍存在概念上的關聯,缺乏概念層面的精確計算導致這些方法的準確性提升困難,而實現全文本在概念層面的精確計算尚無有效模型。
我們依據單個名詞的概念信息量為基礎,分別提出了多種模型和方法實現文本在概念級別快速、精確地計算語義相似度:(1)提出一種基于概念信息量的文本語義相似度無監督基本模型(發表SCI論文1篇,授權專利1項);(2)提出一種基于概念信息增益的文本信息量計算方法(發表SCI論文1篇);(3)提出一種融合信息權重的全文本信息量計算方法(發表SCI論文1篇,最佳國際測評論文1篇)。實驗結果表明,我們提出方法在SemEval 2013-2016 STS(文本語義相似度)數據集上均超過了當年最先進系統的總成績,并且在SemEval 2017 STS國際測評中,我們系統的總成績在所有參賽團隊中排名第二,其中在Track 1數據集上排名第一(共34個參賽團隊提交81個系統)。相關論文被大會議評選為“Best of SemEval 2017”。
隨著人工智能相關技術的發展,智能問答系統應用在許多行業和領域中都有迫切的需求。比如在電話咨詢場景中,傳統人工坐席無法滿足日益增加的客戶咨詢量;在政府業務公開場景中,智能機器人對用戶的不準確答復會影響政府形象和公信力。目前業界的做法是人工設計問答系統或者對話系統,而不是使問答系統真正具有人類常識和世界知識,這種系統無法適應提問方法的改變或應用場景的轉換。而概念信息方法以認知知識庫為基礎可以獲得大量世界知識,比如概念之間的上下位關系。在特定領域的問答匹配多個測試數據集上的實驗結果顯示,相對于谷歌最新的深度計算模型BERT,概念信息語義相似度無監督模型已經比當今最優深度學習模型高出13%-15%。在問答系統上準確性的優勢說明,概念信息語義相似度模型對智能問答系統具有明顯的應用落地優勢。
人工智能
研發
掃碼關注,查看更多科技成果