摘要:隨著農(nóng)作物病蟲害研究文獻(xiàn)的快速增長,,對(duì)農(nóng)作物病蟲害領(lǐng)域文獻(xiàn)進(jìn)行文本挖掘變得越來越重要,。開發(fā)有效,、準(zhǔn)確的農(nóng)作物病蟲害命名實(shí)體識(shí)別系統(tǒng)有助于在農(nóng)作物病蟲害相關(guān)研究報(bào)告中提取研究成果,為農(nóng)作物病蟲害的治理提供有效建議,。本文針對(duì)中文農(nóng)作物病蟲害數(shù)據(jù)集缺失問題,,提出了基于半遠(yuǎn)程監(jiān)督的停等算法,利用該算法構(gòu)建中文農(nóng)作物病蟲害領(lǐng)域語料庫,,大幅度減少標(biāo)注過程的人工成本和時(shí)間成本,;同時(shí),提出了中文農(nóng)作物病蟲害命名實(shí)體識(shí)別模型(Agricultural information extraction, Agr-IE),,該模型基于BERT-BILSTM-CRF,,輔以多源信息融合(多源分詞信息和全局詞匯嵌入信息)豐富字符向量,使其充分結(jié)合字符級(jí)與詞匯級(jí)的信息,,以提高模型捕捉上下文信息的能力,。實(shí)驗(yàn)表明,該模型可以有效地識(shí)別病害,、蟲害,、藥劑、作物等實(shí)體,,F(xiàn)1值分別為96.56%,、95.12%、94.48%,、95.54%,,并對(duì)識(shí)別難度較大的病原實(shí)體具有較好的識(shí)別效果,F(xiàn)1值為81.48%,,高于BERT-BILSTM-CRF,、BERT等模型的相應(yīng)值。本文所提模型在MSRA和Weibo等其他領(lǐng)域數(shù)據(jù)集上與CAN-NER,、Lattice-LSTM-CRF等模型進(jìn)行了對(duì)比實(shí)驗(yàn),,并取得最佳的識(shí)別效果,F(xiàn)1值分別為95.80%,、94.57%,,表明該算法具有一定的泛化能力。