摘要:針對(duì)煙草領(lǐng)域中問(wèn)句意圖識(shí)別存在的特征稀疏、術(shù)語(yǔ)繁多和捕捉文本內(nèi)部的語(yǔ)義關(guān)聯(lián)困難等問(wèn)題,提出了一種基于SBERT-Attention-LDA(Sentence-bidirectional encoder representational from transformers-Attention mechanism-Latent dirichlet allocation)與ML-LSTM(Multi layers-Long short term memory)特征融合的問(wèn)句意圖識(shí)別方法。該方法首先基于SBERT預(yù)訓(xùn)練模型和Attention機(jī)制對(duì)煙草問(wèn)句進(jìn)行動(dòng)態(tài)編碼,轉(zhuǎn)換為富含語(yǔ)義信息的特征向量,同時(shí)利用LDA模型建模出問(wèn)句的主題向量,捕捉問(wèn)句中的主題信息;然后通過(guò)更改后的模型級(jí)特征融合方法ML-LSTM獲得具有更為完整、準(zhǔn)確問(wèn)句語(yǔ)義的聯(lián)合特征表示;再使用3通道的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)提取問(wèn)句混合語(yǔ)義表示中隱藏特征,輸入到全連接層和Softmax函數(shù)中實(shí)現(xiàn)對(duì)問(wèn)句意圖的分類。基于煙草行業(yè)權(quán)威網(wǎng)站上獲取的數(shù)據(jù)集開(kāi)展了實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,所提方法相比其他幾種深度學(xué)習(xí)結(jié)合注意力機(jī)制的方法精確率、召回率和F1值上有顯著提升,與BERT和ERNIE(Enhanced representation through knowledge integration and embedding)-CNN模型相比提升明顯,F1值分別提升2.07、2.88個(gè)百分點(diǎn)。