KBQA的基本概念和挑戰
知識問答的主流方法介紹
IBM沃森
1問題短語
Wh-words:誰,什麽,哪個,什麽時候...
wh-詞+名詞,形容詞或副詞:哪壹方,多長時間
2種問題類型
3種答案類型
4問題主題
5問答來源類型
6種字段類型
7答案格式
縮小自然語言和標準化結構化數據之間的差距;
處理不完整、有噪聲和異構的數據集;
處理大規模知識圖譜;
分布式數據集上的質量保證處理;
整合結構化和非結構化數據;
降低維護成本;
快速復制到不同的字段。
基於模板的方法
基於語義分析的方法
基於深度學習的方法
TBSL(基於模板)
SPARQL模板
誰制作了最多的電影?
選擇不同?x WHERE {
?y rdf:類型?c。
?y?p?十。
}
由DESC訂購(計數(?y))
偏移0限值1
?丙類〔電影〕
?p屬性[已生成]
S1:語言處理
1獲取自然語言問題的POS標簽;
2.基於詞性標簽,語法規則表示疑問;
3使用領域相關詞匯和領域無關詞匯來幫助分析問題
最後,語義表示被轉換成SPARQL模板。
S2:模板實例化實體
模板匹配和實例化
S3:查詢排名和選擇
根據字符串相似性和顯著性對每個實體評分。
將自然語言短語或單詞節點映射到知識庫中的實體或實體關系。這種映射可以通過構建詞匯表來完成。