葡京娱乐场-富盈娱乐场开户

|
西安電子科技大學
西安電子科技大學 教育部
  • 16 高校采購信息
  • 179 科技成果項目
  • 1 創新創業項目
  • 0 高校項目需求

基于實景語義理解的軟件操作互動幫助系統

2024-05-29 10:24:01
云上高博會 http://www.a00n.com
點擊收藏
所屬領域:
新一代信息技術
項目成果/簡介:

(一)項目背景

人機交互(Human-Computer Interaction,簡寫HCI):是指人與計算機之間使用某種對話語言,以一定的交互方式,為完成確定任務的人與計算機之間的信息交換過程?,F在,很多計算機用戶抱怨計算機制造商在如何使其產品“用戶友好”這方面沒有投入足夠的精力。

人機交互技術經歷了從紙帶穿孔到個人電腦的命令行輸入,用戶記住這些命令才能用好電腦,再到以Windows為代表的圖形界面,實現了“所見即所得”的進步,減少了用戶記憶的煩惱,但依然有“不見即不得”的煩惱,導致現有軟件中普遍還存在以下三類問題:用戶在使用現有的軟件或電子設備使用中的痛點主要有以下三類問題:

問題痛點:一是不知道某一軟件是否有自己需要的功能,或是不知道有沒有軟件開發出了自己需要的功能;二是在軟件中找不到所需功能按鈕在哪里;三是知道某軟件有自己需要的功能,也知道在哪里,但就是不會用或用不好。也就是我們通俗所說的:有沒有? 怎么用? 用不好?

但這三類問題還是極大影響了軟件和電子設備的使用效率,同時制約軟件的廣泛普及,不僅導致日常生活軟件在適用人群使用的“數字鴻溝”問題,也導致國內一些工業軟件雖然質量不錯,但使用方便性不佳而錯失了進口替代的機會。

隨著深度學習及自然語言處理技術的進步,軟件操作實景互動幫助系統應運而生,它可以根據用戶的語音和文字自然語言對話,理解用戶使用軟件中問題,給出解決用戶直觀的使用指導,讓用戶使用軟件實現從“所見即所得”到“想到即所得”跨越。

不僅能解決軟件如:銀行APP,公交卡、word,Excel等人們在工作和生活中使用問題,有效緩解“數字鴻溝”等問題;也能有效提高航天、造船、航母及核技術等工業軟件人機交互質量,有效推動相應軟件的進口替代。

(二)項目簡介

本產品研發依托西安電子科技大學智能交互研究所技術資源優勢,以及合作技術積累,產品既適合軍用也適合民用。

市場目標,基于實景語義理解的軟件智能互動系統,讓每一臺電腦、每一部手機、每一個軟件用戶受益。

本文中針對的實景:用戶在使用軟件中的操作過程。

產品功能:針對用戶在使用軟件時遇到的問題,根據用戶的語音和文字自然語言對話,理解用戶問題,給出解決用戶使用軟件問題的基于實景的指導,讓用戶使用產品實現從“所見即所得”到“想到即所得”跨越。

如下例:

針對微軟的word用戶在使用中問:翻譯怎么弄?

系統自動給出基于實景的提示,并根據用戶的點擊的正確與否給出進一步的提示,直至用戶解決問題。

產品模塊:自然語言理解模塊,實景獲取模塊,實景互動幫助模塊。

產品形態:本產品采用SaaS云服務平臺的形式為用戶提供服務,在用戶的電腦端安裝應用軟件,或在手機端安裝APP,通過互聯網與云端服務器相連提供服務。電腦端應用軟件和手機端APP 提供實景檢測及基于實景語義理解的互動幫助,云端服務器實現自然語言理解及用戶信息管理。

針對市場:替代軟件說明書及網絡搜索如百度搜索中的百度經驗等幫助用戶解決軟件使用中問題的方法,大幅提升用戶使用軟件的體驗質量。

(三)關鍵技術

軟件操作實景互動幫助系統,將深度學習的自然語言處理技術和軟件實景獲取技術有機結合,率先實現了將感知與自然語言理解的高質量結合,避免了深度學習的現有圖像與自然語言雙模態處理質量不高的弊端,有效處理了用戶在真實軟件使用場景下的自然語言理解的省略與歧義理解問題,解決了用戶真實意圖的理解,并給出直觀的軟件使用指導,軟件主要模塊如圖1。

圖 1 系統各模塊

圖 2 基于實景語義理解的人機交互過程

使用軟件操作實景互動幫助系統的用戶在使用軟件的過程中,遇到問題時,可用自然語言語音或文字進行提問,其操作過程的操作集與自然語言的問題集,經由系統的感知層實景獲取模塊統一傳遞給系統的理解層,經基于深度學習的實景語義理解層的自然語言理解模塊理解去意圖后,基于用戶意圖經系統動作層的互動幫助模塊,生成包括自然語言、視頻及類似手勢指示的直觀形式反饋給用戶,在盡可能減輕用戶認知負擔的情況下指導用戶解決軟件操作中的問題,如圖2。

核心技術創新點:實景語義理解模型

谷歌發表的論文《Attention Is All You Need》中提出了Transformer模型,此模型基于注意力機制。Transformer實際就是Encoder(編碼器)-Decoder(解碼器)的結構。

如圖3所示是改進的實景語義理解的bert模型的內部結構圖。多頭注意力機制(Multi-Head Attention)由若干個自注意力(Self-Attention)并行組成;前饋神經網絡(Feed Forward)層,作用是進行線性回歸;殘差和層歸一化(Add&Norm,Add指Residual Connection:殘差連接,Norm即Layer Normalization:層歸一化)層,殘差連接是防止網絡退化,層歸一化是對每一層的激活值進行歸一化。圖的左半部分為Encoder(編碼器)模塊,編碼器模塊有一個多頭自注意力機制;圖右半部分為Decoder(解碼器)模塊,解碼器模塊有兩個多頭注意力機制,一個是掩蔽多頭自注意力機制,另一個是非自注意力機制(Q、K、V的來源不同)。每個多頭注意力層和前饋層的后面是一個殘差和層歸一化層。

圖 3 實景語義理解模型(該圖需修改)

基于實景語義理解模型,采用改進的bert模型,即在用戶語言信息與編碼信息的基礎上再加上用戶的實景信息. 實景對話要在用戶所處實景的基礎上理解用戶說話,在深度學習領域屬于多模態深度學習,而視覺與自然語言處理的多模態深度學習是其中的核心,核心問題是利用視覺信息提升對話理解的水平,多模態自然語言對話:

p(y|z, x1,x2,…,xm )

z:圖像信息,x1,x2,…,xm:自然語言對話信息。

y:用戶對話意圖,p:基于圖像與自然語言信息的對話意圖理解的概率。

經實景任務型對話處理后,則用戶自然語言的對話意圖理解的概率為:

p(y|x0, x1,x2,…,xm )  x0:實景信息

圖 4 實景語義理解輸入(該圖需修改)

在的注意力機制中,計算的時候需要用到矩陣Q(query,查詢)、K(key,鍵值)、V(value,值)。在實際中,自注意力接收的是輸入(詞嵌入組成的文本嵌入矩陣)或者上一個編碼器模塊的輸出,無論是嵌入矩陣還是上一個編碼器模塊的輸出都是包含了實景信息,Q、K、V正是通過包含了實景信息的權重矩陣Wq、Wk、Wv、與自注意力的輸入進行向量乘法計算得到的。最后自注意力的輸出通過將矩陣Q、K、V代入Attention公式所獲得,其中dk指的是矩陣Q、K的列數,包含了實景信息Attention計算公式如式(2-1)所示:

目前對多模態有不同側面的研究,如Johnson 等人創建了用于診斷圖像問答模型能否在理解圖片的基礎上給出提問語句相應回答的數據集CLEVR;Hu 等人提出了端到端的模塊網絡(end-to-end module networks, N2NMNs),并將其應用到圖像中,以解決問答任務,并且這個模型在CLEVR 數據集上取得了很好的效果,表現出它在圖像問答中充分考慮圖像信息的能力;在圖像問答任務中,Xu和Lu用遞歸神經網絡和卷積神經網絡分別學習問題語句和圖像的信息,用注意力機制實現問題語句信息和圖像信息的融合,但總體上說這些都未達到實用水平,因此也未有實際應用。

基于實景語義理解的軟件操作實景互動幫助系統,是全球首個能感知用戶軟件操作動態變化信息進行對話的深度學習任務型對話系統,具有理論與技術上的先進性。

項目階段:

產業化

會員登錄可查看 合作方式、專利情況及聯系方式

掃碼關注,查看更多科技成果

取消
百家乐最佳公式| 天堂鸟百家乐的玩法技巧和规则| 威尼斯人娱乐城最新地址| 百家乐官网投注法则| 百家乐视频连连看| 国际足球直播| 做生意摆放什么财神爷| 六合彩曾道人| 在线百家乐官网作| 大发888可靠吗| 怎么玩百家乐官网的玩法技巧和规则| 大发888娱乐场下载安装| 博盈娱乐| 属虎和属龙合伙做生意| 大发888 df登录| 新东方百家乐官网的玩法技巧和规则 | 沙龙国际网址| 百家乐看炉子的方法| 旬邑县| 百家乐汝河路| 百家乐官网手机投注平台| 基础百家乐的玩法技巧和规则| 百家乐官网博彩通网| 百家乐平注秘籍| 百家乐官网的桌子| 湄潭太阳城房价| 跨国际百家乐官网的玩法技巧和规则| 德州扑克攻略| 爱拼百家乐现金网| 天镇县| 喜力百家乐的玩法技巧和规则 | 澳门百家乐官网园游戏| 百家乐海滨网现场| 南京百家乐官网菜籽油| 大发888娱乐场电话| 贝博百家乐官网的玩法技巧和规则 | 华克山庄| 百家乐开户优惠多的平台是哪家| 百家乐官网百家乐官网伴侣| 澳门百家乐怎么下载| 多台百家乐官网的玩法技巧和规则 |