久久这里只有精品国产99-久久这里只有精品2-久久这里只有精品1-久久这里只精品热在线99-在线少女漫画-在线涩涩免费观看国产精品

融合主題模型的在線可比度計算研究

來源:期刊VIP網所屬分類:計算機信息管理時間:瀏覽:

  摘 要:在線挖掘可比語料是構建大規模可比語料庫的可行途徑之一,在線可比度計算是語料挖掘過程中的關鍵環節。本文提出一種融合詞匯重合度和主題模型的在線可比度計算方式,主題模型選擇能夠進行在線學習的Online LDA,利用詞對齊工具GIZA++進行主題映射,融合方式為加權求和。在下載的中英新聞語料上的測試結果表明,兩種計算方式融合后的準確性比兩種都要高。

  關鍵詞:可比語料庫;可比度;主題模型;主題映射

市場與電腦

  《市場與電腦》是由國內貿易局技術開發中心中國計算機用戶協會MO分會主辦、CCID北京天利電子出版技術公司編輯出版,中國流通領域信息化主導刊物,帶給讀者最新的電腦業界動態。

  0 引 言

  可比語料庫是雙語語料庫的一種,在機器翻譯、跨語言信息檢索、雙語詞典編撰等領域有著廣泛的應用。如何構建高質量、大規模的可比語料庫一直是研究的熱點問題。Web擁有海量的文本信息,而且在持續更新。從Web挖掘可比語料是目前構建可比語料庫的重要途徑。文獻[1]從新聞網站下載不同語言的新聞文本,進而生成可比語料;文獻[2]從維基百科抽取可比語料;文獻[3]嘗試從社交網站Twitter中挖掘可比語料。這些文獻構建可比語料庫時將所需語料全部下載完成后,離線進行語料對齊,得到可比語料。這種構建方式難以構建大規模的語料庫。解決這個問題的有效途徑就是在線持續挖掘可比語料,語料下載與語料對齊同時進行。

  構建可比語料庫非常關鍵的問題就是在語料對齊階段如何衡量兩種語言文本之間的相似性(即可比度)。常用的方法有:(1)基于跨語言信息檢索,即從源語言文檔抽取關鍵詞,翻譯為目標語言,然后在目標語言文檔中進行檢索,根據檢索的結果確定源語言文檔與目標語言文檔之間的相似性;(2)基于詞匯重合度,即把文檔當作詞袋,將源語言文檔詞匯在目標語言文檔中能找到對應翻譯的比例,視為源語言文檔與目標語言文檔之間的相似性。

  以LDA為典型代表的主題模型能夠發現文檔的隱含主題,對文本進行語義挖掘。不少研究者將主題模型應用于可比度的計算,取得了不錯的效果。

  文獻[4]先利用源語言文檔集訓練得到源語言主題模型,然后通過翻譯引擎將模型翻譯為目標語言主題模型,將源語言文檔和目標語言文檔分別輸入這兩個模型中得到兩篇文檔的文檔主題分布,通過計算這兩個分布的余弦相似度來判斷對應文檔的相似性。文獻[5]引入Bi-LDA,利用主題相同的可比語料進行訓練,從而建立主題模型,然后通過KL散度、余弦相似度和條件概率相似度來計算待匹配文檔的主題相似性。文獻[6]利用主題相同的阿拉伯語和英語新聞語料分別訓練兩個LDA,通過主題映射,建立兩個LDA主題集之間的關系,在此基礎上抽取主題相關的特征,同時配合語義特征(標題、關鍵詞、首句及次句相似度)訓練SVM分類器判斷待匹配新聞文檔是否主題相關。

  如前所述,在線挖掘可比語料是構建大規模語料庫的有效途徑。對于語料類型,從更新的速度,以及獲取的難易程度來看,新聞是最適合的。同樣,在線可比度計算也是關鍵步驟。本文針對中英新聞,借鑒文獻[6]中主題映射的思想,將主題模型應用于在線可比度計算,提出融合主題模型的在線可比度計算方法,該方法由基本的計算方式和基于主題模型的計算方式兩種方法融合而成。在線可比度計算方式需要滿足計算速度快、所需資源少的要求,前面提到的基于跨語言信息檢索和基于詞匯重合度的可比度計算方式均滿足該要求。從計算復雜性的角度來說,本文選擇后者作為基本計算方式。對于基于主題模型的在線可比度計算方式,鑒于傳統的基于吉布斯抽樣算法的LDA訓練速度慢的特性,本文選擇速度更快的基于變分推斷的Online LDA。Online LDA采用增量學習的方式,不僅學習速度快,而且當模型運行一段時間后需要補充新的訓練材料時,能夠僅針對補充材料進行訓練,而不是全部重新訓練,特別適合在線應用。融合方式采取按比例相加的方式,具體比例通過實驗選取。

  1 融合主題模型的在線可比度計算方法

  融合主題模型的在線可比度計算過程主要分為兩個階段:(1)準備階段;(2)在線可比度計算及融合階段。這兩個階段又分為若干個步驟,其中Online LDA的訓練、主題映射表的生成以及可比度的融合是關鍵步驟。融合主題模型的在線可比度計算過程如圖1所示。

  1.1 Online LDA訓練及主題映射表的生成

  根據文獻[6],能夠進行主題映射的前提條件是訓練用的雙語語料必須是平行語料或者篇章對齊的具有相同話題的語料。這樣的語料一般難以獲得。本文嘗試借助在線翻譯引擎構造“近似”平行語料。構造方式有兩種,即將英文新聞翻譯為中文,或者將中文翻譯為英文。經過分析,本文選擇將英文新聞翻譯為中文,因為所獲取的英文語料主要來自國家權威媒體《環球時報(英文版)》,行文簡潔,語法規范,有利于翻譯引擎進行翻譯。本文選擇“有道在線翻譯”作為翻譯引擎。Online LDA訓練及主題映射表生成過程如圖2所示。

  Online LDA通過在小批量數據上迭代采樣實現在線變分推斷,即無須一次性提供全部訓練集,可以分批漸進訓練,適合在線學習和大數據集應用場景。其變分推斷算法如下:

  本文采用兩個獨立的Online LDA,分別針對近似平行語料庫中的英文新聞語料和翻譯得到的中文新聞語料進行訓練。訓練結束后,參考文獻[6]中的方法,用詞對齊軟件GIZA++進行主題映射。該方法的基本思想是如果訓練語料主題相同,LDA訓練結束后可以確定各個文檔的主題分布,如果把主題看作詞,則可以認為訓練語料是以主題為詞的平行語料,通過GIZA++就可以得到主題之間的翻譯關系,即主題之間的映射表,其結構如表1所示。

  1.2 在線可比度計算及融合

  1.2.1 候選新聞對的生成和常規文本處理

  新聞具有很強的時效性,不同語言關于同一事件的報道一般會集中在一個時間段內,這就意味著可以把可比新聞對的搜索限定在有限的時間范圍內,這樣可以大大縮小候選新聞對的規模,更重要的是有利于在線構建可比新聞語料,即待一定時間范圍(即時間窗口)內的語料下載完畢后即可開始文本處理、可比度計算和對齊工作。候選新聞對的生成和常規文本處理的過程如圖3所示。

  1.2.2 基于詞匯重合度的在線可比度計算

  基于詞匯重合度的在線可比度計算過程如圖4所示。

  計算過程需要雙語詞典的支持。相比本地詞典,在線詞典具有規模大、更新及時的特點。本文選擇有道在線詞典,根據文獻[2]和文獻[3],得出基于詞匯重合度的可比度計算公式如下:

  1.2.3 基于Online LDA的在線可比度計算

  基于Online LDA的在線可比度計算過程如圖5所示。

  將候選新聞對中的英文新聞和中文新聞分別送入準備階段已訓練好的兩個Online LDA中,推斷得出各自的主題分布,然后利用主題映射表將英文新聞主題分布映射為中文新聞主題分布,然后求兩個中文主題分布的余弦相似度,得到候選新聞度的相似度,即可比度。

  1.2.4 兩種在線可比度的融合

  將兩種在線可比度進行融合得到最終的在線可比度。可比度的融合采取賦權相加的方式。各自的權值通過試驗選取。

  2 實驗設置

  2.1 數據集

  本文所使用的數據集采用爬蟲下載,其中英文新聞來自《環球時報(英文版)》,中文新聞來自鳳凰網,數據集分為訓練集和測試集,具體信息如表2和表3所示。

  對新聞的文本處理包括分詞和去停用詞。對于中文新聞和英文新聞分別采用中科院分詞軟件NLPIR和斯坦福大學的自然語言處理工具包CoreNLP進行分詞,然后去停用詞。

  2.2 參數設置

  在Online LDA訓練階段,需要設置的主要參數有主題個數K,小批量樣本數量S,輔助參數κ、τ0的選取。S、κ、τ0選取Python機器學習包sklearn中給定的默認值,分別為128、0.7和10。參考文獻[6]并經過測試可知,主題個數K=40比較合適。

  在候選文本對生成階段,需要設置的參數是時間窗口K,參考文獻[7]將其設置為1,即對于源語言新聞文本,將前一天,同一天及后一天的目標語言新聞文本作為候選的可比新聞。

  2.3 實驗結果及分析

  Python機器學習包sklearn實現了Online LDA的學習算法,但必須一次性提供所有訓練文本,不能實現真正意義上的在線學習,另外也不能在已訓練的模型上追加訓練樣本進行補充訓練。

  本文采用文獻[8]所提供的程序,該程序能夠從維基百科上下載頁面文本,邊下載邊訓練,也能夠中止訓練,保存訓練模型,再重啟繼續訓練,實現真正意義上的在線學習。將該程序中維基頁面文本換成新聞訓練集就能實現本文需要的在線訓練。訓練完成后,使用GIZA++得到主題映射表。

  在測試集上,分別用基于詞匯重合度的在線可比度計算方式和基于Online LDA的在線可比度計算方式計算可比度。對于測試集中每篇英文新聞,選取可比度最高的中文新聞組成可比新聞對,然后隨機抽取200對進行人工判斷,判斷其是否主題相同或者相關,以估算兩種在線可比度計算方式的準確性,結果如表4所示。

  從表4可以看出,基于詞匯重合度計算方式的準確度要高于基于Online LDA的計算方式,相比文獻[6]的結果,高出的幅度要大一些,這可能與Online LDA訓練集規模不夠有關。

  將兩種計算方式按比例進行融合:comparabilitytotal=k×comparabilityoverlap+(1-k)×comparabilityonlineLDA

亚洲国产成人久久一区WWW| 午夜成人亚洲理伦片在线观看| 色天天躁夜夜躁天干天干| 双乳被一左一右吃着的小说 | 蜜国产精品JK白丝AV网站| 免费无码不卡视频在线观看| 人妻少妇无码专视频在线| 少妇人妻偷人精品视蜜桃| 小荡货奶真大水真多紧视频| 亚洲日韩亚洲另类激情文学| 45歳の▽バツ1熟女とハメ撮り| FREE护士XXXXⅩONHD| 动漫高H纯肉无码视频在线观看| 国产精品久久国产三级国不卡顿| 黑人巨大精品欧美| 美丽的小蜜桃伦理美国| 日产乱码一二三区别免费下载| 午夜131美女爱做视频| 亚洲夂夂婷婷色拍WW47| AV无码AV在线A∨天堂毛片| 嗯快点别停舒服好爽受不了了| 国产又黄又大又粗的视频| 久久亚洲日韩AV一区二区三区| 欧洲VODAFONEWIFI粗| 天空影院手机免费观看在线| 亚洲日韩AV无码中文字幕美国| 99国产欧美精品久久久蜜芽| 国产69精品久久久久9999不| 精品人妻AV一区二区三区不卡| 女人露P毛视频·WWW| 四虎亚洲精品成人A在线观看| 亚洲人成人网站在线观看| BBBBBBBBB老妇人BBB| 亚洲AV无码兔费综合| 青草国产超碰人人添人人碱| 无码一区在线视频| 中国小YOUNV女YOUNV| 丰满老熟好大BBBBBB| 精品人在线二线三线区别 | 波多野结衣片全部电影| 国产性色强伦免费视频| 免费高清播放A级毛片完整版| 天美传媒MV免费观看完整| 亚洲一区二区三区乱码AⅤ| 成本人无码H无码动漫在线网站| 国语对白做受XXXXX在| 欧美人交A欧美精品AV一区| 性XXXX欧美老妇506070| 99亚偷拍自图区亚洲| 国产综合在线观看| 秋霞在线看片无码免费| 亚洲国产精品无码久久九九大片 | 熟妇高潮一区二区精品de| 亚洲熟妇无码久久精品导航| 大爷你的太大了我| 久久人人97超碰精品| 双腿被绑成M型调教PⅠAY照片| 曰韩一区二区三区视频| 国产精品无码久久AV不卡| 男朋友把舌头都伸进我的嘴巴里了| 午夜不卡AV免费| JAPANESE少妇高潮喷水| 精品人成视频免费国产| 色婷婷精品亚洲AⅤ| 中国女人内射6XXXXX| 国产亚洲精品拍拍拍拍拍| 日本XXXX色视频在线观看免费 | VIDEOS日本熟妇人妻多毛| 妓女院18禁止观看| 少妇性SEXBBWZⅩX| 中国熟妇色XXXXX中国老妇| 国产又粗又猛又黄又爽无遮挡| 日韩精品东京热无码视频| 在线播放免费人成毛片软件| 国内自产少妇自拍区免费| 日韩人妻无码中文字幕视频| 自拍日韩亚洲一区在线| 激情综合激情五月俺也去| 少妇高潮惨叫久久久久久电影| 51精产国品一二三产区区| 精品国产乱码久久久软件下载| 特级做A爰片毛片免费看108| JAPAN高清日本乱XXXXX| 久久婷婷五月综合色99啪AK| 亚洲AV无码男人的天堂| 国产波霸爆乳一区二区| 琪琪秋霞午夜AV影院| 中国小帅男男GAYXNXX| 精品人妻VA出轨中文字幕| 无码天堂亚洲国产AV麻豆| 成人午夜福利免费体验区| 农民人伦一区二区三区| 一面亲上边一面膜下边56| 交换朋友夫妻客厅互换4韩国| 天天澡天天揉揉AV无码| 成人精品视频99在线观看免费 | 无码AV中文一区二区三区桃花岛| 边摸边吃奶又黄又激烈视频| 女人被男人吃奶到高潮| 又湿又紧又大又爽又A视频| 精品久久久久久久久久久AⅤ | 无人区码一码二码三码是什么意思| 成人国产精品一区二区网站免费 | 女人不怕粗短就怕蘑菇头什么意| 夜夜躁狠狠躁日日躁孕妇| 激情综合一区二区三区| 午夜伦伦电影理论片大片| 国产YEEZY451| 色噜噜狠狠一区二区三区| 暗交小拗女一区二区三区三州| 女人不怕粗短就怕蘑菇头什么意| 中文字幕大香视频蕉| 久久亚洲SM情趣捆绑调教| 亚洲性色AV性色在线观看| 精品人体无码一区二区三区| 亚洲精品无码AV片| 精品国产综合区久久久久久| 亚洲成在人线AV品善网好看| 国内偷窥一区二区三区视频| 亚洲AV无码不卡在线观看下载 | 男生女生差差差轮滑免费| 中文字AV字幕在线观看| 免费无码鲁丝片一区二区| 中文字幕无码肉感爆乳在线| 妺妺窝人体色WWW在线直播| 97大学生情侣真实露脸在线| 欧美高清精品一区二区| 24小时最新在线视频免费观看| 男男车车的车车网站W98免费| 91精品人妻一区二区三区| 欧美精品人妻大乳一区二区 | 色噜噜影院狠狠狠噜| 高潮喷视频在线无码| 特级BBBBBBBBB视频| 国产乱子伦高清露脸对白| 亚洲AV色香蕉一区二区三区夜夜嗨 | Z〇ZOZ〇女人另类ZOZ〇| 人妻无码ΑV中文字幕久久琪琪布 人妻无码ΑV中文字幕久久 | А√天堂中文官网在线BT| 人妻AV无码系列专区移动可看| 被陌生人在地铁揉到高潮| 肉感饱满中年熟妇日本| 国产AV无码区亚洲| 小SB是不是想被C了| 饥渴少妇高清VIDEOS| 亚洲午夜无码久久久久| 美女裸体A级毛片| ZPS无套内射视频免费播放| 日韩中文高清在线专区| 国产精品视频一区二区| 亚洲H在线播放在线观看H| 久久香蕉国产线看观看怡红院妓院 | 成人国产亚洲精品A区| 天天躁日日躁狠狠躁退| 黑人AV免费电影| 一本色道无码道DVD在线观看| 男女无遮挡XX00动态图1| 草草永久地址发布页①| 无码乱人伦一区二区亚洲一| 精品国产AV无码专区亚洲AV| 在公车被灌满JING液 | 宝贝感受到它在爱你吗病娇小说 | 亚洲AV无码潮喷在线观看蜜桃| 久久国语露脸国产精品电影| 97精品一区二区视频在线观看| 色视频综合无码一区二区三区| 国产亚洲日韩一区二区三区| 一本色道久久综合狠狠躁篇| 人妻丝袜中文无码AV影音先锋专| 孩子玩着玩着就进去了怎么回事| 人人澡人摸人人添| 国产精品亚洲综合网熟女| 亚洲熟妇无码A∨| 欧洲美熟女乱又伦免费视频| 国产成人欧美一区二区三区| 中国少妇嫖妓BBWBBW| 国产A级三级三级三级| 亚洲AV中文无码乱人伦APP| 久久综合亚洲鲁鲁九月天| 边吃奶边添下面好爽| 亚洲AV成人片色在线观看| 久久久综合九色综合88| 草莓丝瓜芭乐鸭脖奶茶发型| 亚洲AⅤ无码精品一区二区三区| 乱码专区一卡二卡国色天香| 刺激Chinese乱叫国产高潮| 亚洲AV永久无码精品网站在线观| 男女啪啪免费观看网站| 国产AⅤ爽AV久久久久成| 亚洲熟妇在线观看| 日本人妻熟妇丰满成熟HD系列| 好男人影视在线观看下载| 久久97精品久久久久久久不卡 | 国产成人一区二区青青草原| 一二三四视频社区在线一中文| 日本亚欧乱色视频免费观看| 精品国产一区二区三区香蕉| 办公室紧身女教师| 亚洲欧美日韩精品色XXX| 日产无人区一线二线三线观看 |