基于深度學習和遷移學習的領域自適應中文分詞-2019年第09期-中文信息學報-好發(fā)表

期刊在線咨詢服務，立即咨詢

400-838-9662 登錄/注冊購物車(0)

投稿策略

期刊推薦

雜志分類

首頁學術雜志科普訂閱 SCI期刊投稿經(jīng)驗文秘服務論著出書出版社

首頁 > 期刊 > 中文信息學報 > 基于深度學習和遷移學習的領域自適應中文分詞【正文】

基于深度學習和遷移學習的領域自適應中文分詞

成于思; 施云濤東南大學土木工程學院; 江蘇南京210096; 中國移動通信集團南京分公司網(wǎng)絡部; 江蘇南京210019

關鍵詞：深度學習遷移學習領域分詞工程法律

摘要：為了提高專業(yè)領域中文分詞性能,以及彌補專業(yè)領域大規(guī)模標注語料難以獲取的不足,該文提出基于深度學習以及遷移學習的領域自適應分詞方法。首先,構(gòu)建包含詞典特征的基于深度學習的雙向長短期記憶條件隨機場(BI-LSTM-CRF)分詞模型,在通用領域分詞語料上訓練得到模型參數(shù);接著,以建設工程法律領域文本作為小規(guī)模分詞訓練語料,對通用領域語料的BI-LSTM-CRF分詞模型進行參數(shù)微調(diào),同時在模型的詞典特征中加入領域詞典。實驗結(jié)果表明,遷移學習減少領域分詞模型的迭代次數(shù),同時,與通用領域的BI-LSTM-CRF模型相比,該文提出的分詞方法在工程法律領域的分詞結(jié)果F1值提高了7.02%,與預測時加入領域詞典的BI-LSTM-CRF模型相比,分詞結(jié)果的F1值提高了4.22%。該文提出的分詞模型可以減少分詞的領域訓練語料的標注,同時實現(xiàn)分詞模型跨領域的遷移。

中文信息學報雜志要求:

{1}本刊對刊發(fā)的文章?lián)碛邪鏅?quán)，不得擅自轉(zhuǎn)載、改編。凡轉(zhuǎn)載、改編務經(jīng)我刊同意，違者必究。

{2}作者簡介包括：姓名、性別、出生年月、畢業(yè)學校及所學專業(yè)、工作單位、職務職稱、現(xiàn)從事的研究工作情況。

{3}來稿若屬國家自然科學基金項目或省部基金項目，請在文稿中標明其基金來源和編號，我刊可以優(yōu)先審核發(fā)表。

{4}正文內(nèi)連續(xù)敘述中的序號采用①……；②……；③……。分級超過3級后用網(wǎng)括號如：“①”，“②”表示，并采用連排。

{5}附注請一律使用當頁腳注的形式，以帶圈①……⑩的方式編號，使用每頁重新編號的方式。

注：因版權(quán)方要求，不能公開全文，如需全文，請咨詢雜志社

投稿咨詢免費咨詢