關(guān)鍵詞:主題模型 標(biāo)簽 跨語言文本分類 標(biāo)簽推薦 潛在主題
摘要:針對日漸豐富的跨語言的文字信息資源與新聞報道及科技文獻(xiàn)中的多標(biāo)簽數(shù)據(jù),為了挖掘跨語言間的相關(guān)性及數(shù)據(jù)屬性間的關(guān)聯(lián)性,提出了帶標(biāo)簽雙語主題模型,應(yīng)用于跨語言文本分類與標(biāo)簽的推薦。首先,假設(shè)科技文獻(xiàn)中的關(guān)鍵詞與摘要部分有著內(nèi)容上的相關(guān)性,對關(guān)鍵詞進(jìn)行提取,并進(jìn)行標(biāo)簽化,進(jìn)而把標(biāo)簽對應(yīng)于主題模型中的主題,實例化“潛在”的主題;其次,利用帶標(biāo)簽雙語主題模型對摘要部分進(jìn)行了訓(xùn)練迭代;最后,對新加入的文檔進(jìn)行跨語言文本分類及標(biāo)簽的推薦。實驗結(jié)果表明,跨語言文本分類任務(wù)中micro-F1達(dá)到94.81%,推薦的標(biāo)簽也能較好地體現(xiàn)出語義上的相關(guān)性。
計算機(jī)應(yīng)用研究雜志要求:
{1}注釋與參考文獻(xiàn):注釋是對論文中某一特定內(nèi)容的解釋或補(bǔ)充說明,用帶圈數(shù)字注于當(dāng)頁頁腳;參考文獻(xiàn)是論文中引用的觀點、數(shù)據(jù)和材料等內(nèi)容的出處,用帶方括號的數(shù)字(如[])按順序編碼標(biāo)明,并與文末編碼對應(yīng)。
{2}引言應(yīng)簡明扼要介紹本文研究的領(lǐng)域,國內(nèi)外目前研究的近期結(jié)果與趨勢,存在的問題;本文研究的理論依據(jù),歷史背景,研究的設(shè)想、思路、要解決的具體問題,創(chuàng)新點(重要)和預(yù)期目的及意義。
{3}來稿須為學(xué)術(shù)論文,內(nèi)容應(yīng)在本刊用稿范圍內(nèi)。來稿應(yīng)結(jié)構(gòu)完整,包括標(biāo)題、作者信息、摘要、關(guān)鍵詞、正文和參考文獻(xiàn)等部分。
{4}作者介紹主要包括:作者姓名,工作單位(+職務(wù)),技術(shù)職稱,主要研究方向。
{5}一般三至四級標(biāo)題為宜,不超過五級。正文字號字體均為五號宋體,行間距為固定值20磅。一級標(biāo)題應(yīng)加黑居中。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社