摘要:針對煙草領域中問句意圖識別存在的特征稀疏,、術語繁多和捕捉文本內(nèi)部的語義關聯(lián)困難等問題,提出了一種基于SBERT-Attention-LDA(Sentence-bidirectional encoder representational from transformers-Attention mechanism-Latent dirichlet allocation)與ML-LSTM(Multi layers-Long short term memory)特征融合的問句意圖識別方法,。該方法首先基于SBERT預訓練模型和Attention機制對煙草問句進行動態(tài)編碼,轉換為富含語義信息的特征向量,同時利用LDA模型建模出問句的主題向量,捕捉問句中的主題信息;然后通過更改后的模型級特征融合方法ML-LSTM獲得具有更為完整,、準確問句語義的聯(lián)合特征表示;再使用3通道的卷積神經(jīng)網(wǎng)絡(Convolutional neural network,CNN)提取問句混合語義表示中隱藏特征,輸入到全連接層和Softmax函數(shù)中實現(xiàn)對問句意圖的分類,。基于煙草行業(yè)權威網(wǎng)站上獲取的數(shù)據(jù)集開展了實驗驗證,實驗結果表明,所提方法相比其他幾種深度學習結合注意力機制的方法精確率,、召回率和F1值上有顯著提升,與BERT和ERNIE(Enhanced representation through knowledge integration and embedding)-CNN模型相比提升明顯,F1值分別提升2.07,、2.88個百分點。