久久这里只有精品国产99-久久这里只有精品2-久久这里只有精品1-久久这里只精品热在线99-在线少女漫画-在线涩涩免费观看国产精品

基于標簽遷移和深度學習的跨語言實體抽取研究

來源:期刊VIP網所屬分類:漢語言時間:瀏覽:

  基金項目:國家自然科學基金面上項目“面向跨語言觀點摘要的領域知識表示與融合模型研究”(項目編號:71974202)。

  作者:余傳明

  摘 要:[目的/意義]從跨語言視角探究如何更好地解決低資源語言的實體抽取問題。[方法/過程]以英語為源語言,西班牙語和荷蘭語為目標語言,借助遷移學習和深度學習的思想,提出一種結合自學習和GRU-LSTM-CRF網絡的無監督跨語言實體抽取方法。[結果/結論]與有監督的跨語言實體抽取方法相比,本文提出的無監督跨語言實體抽取方法可以取得更好的效果,在西班牙語上,F1值為0.6419,在荷蘭語上,F1值為0.6557。利用跨語言知識在源語言和目標語言間建立橋梁,提升低資源語言實體抽取的效果。

  關鍵詞:知識獲取;實體抽取;跨語言;深度學習;標簽映射

語言教育

  實體抽取(Entity Extraction,EE),又稱為命名實體識別(Name Entity Recognition,NER),是指識別文本中具有特定意義的實體[1],包括人名[2]、地名[3]、機構名[4]和專有名詞[5-7]等。實體抽取在信息抽取的總體任務中起著至關重要的作用,有效識別命名實體,不僅是關系抽取[8-9]和構建知識圖譜[10]的基礎,而且可以顯著提高問答系統[11]和文本挖掘[12]等應用的性能。隨著大數據的迅速發展,各種語料在不同語言中的分散化和多樣化日益嚴峻,跨語言情境下的實體抽取任務受到越來越多的關注。實體抽取任務在中文和英文等語言情境中,存在較為豐富的標注語料,與此相關的實體抽取模型相對簡單;而在阿拉伯語和維吾爾語等語言情境中,標注語料相對稀缺,存在標簽語料很少和手工標注標簽昂貴且費時等問題,與此相關的實體抽取模型相對復雜,面臨更多挑戰。在標注語料豐富的源語言和標注語料稀缺的目標語言之間建立橋梁,將源語言的標簽數據遷移給目標語言,以豐富目標語言的標簽數據,通過建立跨語言的命名實體識別模型,提升低資源語言實體識別模型的效果,成為一個亟待解決的研究問題。

  機器翻譯研究的發展在一定程度上緩解了目標語言語料稀缺的問題,但采用機器翻譯來解決跨語言實體抽取仍面臨一些挑戰。首先,在源語言翻譯成目標語言的過程中,即便在機器翻譯達到很高準確率(即源語言文本與目標語言文本具有很好的語義一致性)的情況下,由于在目標語言中詞匯語序被調整,且存在對源語言詞匯進行拆分(源語言詞匯與目標語言詞匯之間為一對多的關系)或合并(源語言詞匯與目標語言詞匯之間為多對一的關系)的情況,很難準確地建立詞匯標簽(如B、I、O等)從源語言到目標語言之間的一一對應關系,如何在機器翻譯基礎上自動化地構建目標語言的語料標簽仍然是一個嚴峻的問題。其次,目前應用較為廣泛的免費在線翻譯系統(如谷歌和百度翻譯等)并不支持所有語言,針對稀缺資源語種(如蒙古語和維吾爾語等),如何在沒有機器翻譯的情況下自動化地構建目標語言的文本(并在此基礎上自動化地構建標簽)也是一大挑戰。

  為解決上述問題,本文將自動化的雙語詞典構建應用到跨語言實體抽取任務中,利用遷移學習和深度學習的思想,開展跨語言實體抽取的實證研究。

  1 相關研究現狀

  1.1 實體抽取的傳統模型

  實體抽取的傳統模型包括早期基于規則的方法、統計機器學習的方法以及近年來基于深度學習的方法,其效果不斷得以提升。

  1.1.1 基于規則的實體抽取

  基于規則的實體抽取方法是指人工構造規則或者借助機器自動生成規則,然后從文本中找出匹配規則的字符串。為了解決烏爾都語實體標注語料稀缺的問題,Riaz K[13]提出一種基于規則的命名實體識別方法,首先從Becker-Riaz語料庫中選取200篇文檔,人工為時間、地名、機構名等6個實體標簽制定規則;并選出2 262篇文檔進行實驗,該方法的召回率為90.7%,準確率為91.5%,F1值為91.1%。由于人工構造規則需要消耗較多的人力和物力,所以研究者們嘗試借助機器自動生成規則的方法。Collins M等[14]先構造種子規則,再根據語料對該種子規則進行無監督的訓練迭代得到更多的規則,將這些規則用于實體抽取,該方法在人名、地名和機構名3種實體抽取任務中取得很好的效果。周昆[15]提出一種基于規則匹配的命名實體識別方法,首先,將中文人名、知識按照不同類別和不同層次進行組織,可提高知識庫的可維護性;然后分別制定20種人名識別規則和9種地名識別規則;最后構建具有自主學習能力的實體識別系統,能在識別實體的基礎上,產生新的規則反饋給規則庫,該方法有效提高了實體抽取的準確率和召回率。基于規則的實體抽取方法在小規模語料庫上,訓練速度快且模型效果好,但需要制定大量的規則,導致該類方法的可移植性較差。

  1.1.2 基于統計機器學習的實體抽取

  在基于統計機器的方法中,實體抽取被視為序列標注問題。序列標注問題中當前的預測標簽不僅與當前的輸入特征相關,還與之前的預測標簽相關,預測標簽序列之間具有強相互依賴關系。目前常用的統計機器學習方法有:隱馬爾克夫模型(HMM)、最大熵隱馬模型(MEMM)、條件隨機場模型(CRF)等。CRF是計算整個標記序列的聯合分布概率,在全局范圍內進行歸一化處理,不僅克服HMM輸出的獨立性假設問題,而且有效避免了MEMM的標記偏置問題。如馮艷紅等[16]提出一種基于詞向量和條件隨機場的領域術語識別方法,將領域詞語的語義特征和領域特征融入CRF模型中,在漁業領域語料、通用語料和混合語料上進行實驗,該方法均取得較好效果。李想等[17]將農作物、病蟲害和農藥名稱的詞性、偏旁部首、左右指界詞、附近數量詞等特征融入CRF模型,建立特征與命名實體類別和詞位間的關聯關系,從而識別出命名實體,對農作物、病蟲害、農藥命名實體識別的準確度分別達97.72%、87.63%、98.05%。基于統計機器學習的實體抽取獲得了較好的結果,但是該方法需要人工選擇的特征作為模型輸入,實體抽取的效果嚴重依賴特征選取,且模型的泛化能力不強。

  1.1.3 基于深度學習的實體抽取

  深度學習技術成為研究命名實體識別問題的熱點方法,能夠有效地解決人工選擇特征的不足和高維向量空間帶來的數據稀疏問題。近年來,基于深度學習的實體抽取主要思路是,首先采用字粒度、詞粒度或者混合粒度將文本進行向量表示,然后用長短期記憶網絡(LSTM)、循環神經網絡(RNN)和卷積神經網絡(CNN)等網絡進行文本的語言特征提取,最后用條件隨機場(CRF)輸出最優標簽序列。如Huang Z等[18]首次提出融合LSTM和CRF的端到端的命名實體識別模型,與基線方法相比,該方法具有較強的魯棒性,對詞語特征工程的依賴性較小。在此基礎上,Lample G等[19]提出兩種命名實體識別模型:一種是基于雙向LSTM和CRF的命名實體識別模型,一種是基于轉移的命名實體識別模型,在沒有人工處理特征和地名錄的前提下,英語、荷蘭語、德語和西班牙語數據集上均取得較好的結果。Zhang Y等[20]提出基于Lattice LSTM的中文命名實體識別模型,該模型對輸入字符序列和所有匹配詞典的潛在詞匯進行編碼。與基于字符的方法相比,該模型顯性地利用詞和詞序信息,與基于詞的方法相比,Lattice LSTM不會出現分詞錯誤。在多個數據集上證明Lattice LSTM方法優于基于詞和基于字符的LSTM命名實體識別方法。目前,大部分神經網絡都是使用Word2Vec和Glove工具訓練詞向量,所得到的詞向量沒有考慮詞序對詞義的影響,Google在2018年10月發布BERT語言表示模型,在各項自然語言處理任務中都取得了最先進的結果。王子牛等[21]提出基于BERT的中文命名實體方法,首先用BERT訓練大量未標注語料,得到抽象的語義特征,然后結合LSTM-CRF神經網絡,該方法在《人民日報》數據集上的F1值達到94.86%。此外,深度學習方法還被廣泛應用于歷史事件名抽取[22]、電子病歷實體抽取[23]、商業領域實體抽取[24]、在線醫療實體抽取[25]等應用場景。值得說明的是,基于深度學習的實體抽取方法,在英語和中文等高資源語言中取得很好的效果;對于維吾爾語、蒙古語等低資源語言,實體抽取的效果有待提高。

  推薦閱讀:小語種語言研究論文怎么發表

好男人官网资源在线观看| 精品国产V无码大片在线观看| 国产裸体裸美女无遮挡网站| 国产亚洲精品线观看K频道| 精品AV综合一区二区三区| 老熟妇高潮一区二区三区| 欧美熟妇精品一区二区三区| 人妻无码一区二区三区蜜桃视频| 少妇私密会所按摩到高潮呻吟| 先锋中文字幕在线资源| 亚洲综合久久精品无码色欲| 91人妻人人澡人人爽人人精品| 保守人妻精油按摩被强出| 国产成人无码一区二区在线播放 | 五十老熟女高潮嗷嗷叫| 亚洲人成网77777色在线播放| 中文字幕无码精品亚洲资源网| 波多野结衣av电影在线观看| 国产精品午夜无码AV体验区| 久久国产欧美成人网站| 欧美高清性色生活片免费观看| 少妇高清精品毛片在线视频| 亚洲国产成人精品激情姿源| 2021最新国产在线人成| 乖我们在办公室试试| 精品无码一区二区三区水蜜桃| 免费无码国产V片在线观看| 日韩精品无码中文字幕一区二区| 亚洲AV丰满熟妇在线播放| 中国亚洲女人69内射少妇| 抖抈APP入口免费| 精品人妻系列无码专区| 秋霞鲁丝片成人无码| 西西人体午夜视频无码| 中国 韩国 日本 免费看片| 丁香色婷婷国产精品视频| 精品国产AⅤ一区二区三区V免费| 欧美96在线 | 欧| 午夜A级毛片免费观看| 中文WWW新版资源在线| 超碰成人人人做人人爽| 狠狠干2015最新版| 区产品乱码芒果精品P站| 亚洲 欧美 中文 日韩AⅤ| 51国偷自产一区二区三区| 国产精品老熟女露脸视频| 麻豆XXXXXX在线观看| 舌尖伸入湿嫩蜜汁呻吟| 亚洲愉拍自拍欧美精品| 高清成人爽A毛片免费| 久久婷婷成人综合色综合| 少妇高潮惨叫久久久久电影69| 亚洲综合精品香蕉久久网| 粉嫩av一区二区三区四区| 久久婷婷国产综合精品| 我妽让我满足她啪啪| 中文字幕有码无码人妻AV蜜桃| 国产巨大爆乳在线观看| 欧美成AⅤ人高清免费| 亚洲AV综合色一区二区三区| 成年动作片AV免费网站| 久久久亚洲欧洲日产国码二区 | 人体艺术在线观看| 亚洲欧美妆和亚洲妆的区别 | 熟女熟妇伦AV网站| 18禁黄网站禁片免费观看女女| 国产精品久久久久国产A级| 女人的选择HD中字| 亚洲国产精品久久艾草| 丰满人妻妇伦又伦精品国产| 末发育女AV片一区二区| 亚洲国产精久久久久久久蜜桃| 成熟人妻换╳╳╳╳Ⅹ| 毛茸茸的中国女BBW| 亚洲AV无码AV在线影院| 从大树开始的进化漫画| 男朋友一晚弄了我5次正常吗| 亚洲HAIRY多毛PICS大全| 公交车后车座的疯狂的做| 欧美成人高清AⅤ免费观看| 亚洲色偷拍一区二区三区| 国产精品未满十八禁止观看| 人人人人人人一摸| 综合偷自拍亚洲乱中文字幕| 精品人妻一区二区三区乱码| 玩弄JaPan白嫩少妇一区二区| JLZZJLZZJLZ亚洲日本| 老汉吸奶水捏奶头小说| 亚洲国产成人精品无码一区二区| 国产A在亚洲线播放| 琪琪777午夜理论片在线观看播| 一本久道视频无线视频| 激情偷乱人伦小说免费看| 玩丰满少妇ⅩXX性人妖| 吃奶摸下激烈床震视频试看| 欧美精品第1页WWW| 有人有在线看片的吗www视频| 精品国产三级A∨在线观看| 午夜无码片在线观看影视| 国产AV一区二区三区最新精品| 日本WINDOWS免费吗| 99无人区码一码二码三码四| 美女裸体无遮拦国产兔费网站| 亚洲色大成网站WWW| 激情影院内射美女| 亚洲AV无码乱码在线观看四虎| 国产精品免费久久久久软件| 色欲AV伊人久久大香线蕉影院| 白白嫩嫩又小又紧| 欧美人与性动交a欧美精品| 2021国产手机在线精品| 麻豆精品久久久久久中文字幕无码 | 精品无人区一区二区三区的特点| 亚洲AV本道一区二区三区四区| 国产精品久久久尹人香蕉| 色欲人妻AAAAAA无码| 成人亚洲色欲色一欲WWW| 91蜜桃传媒精品久久久一区二区 | 日本水蜜桃身体乳的美白效果| JAPAN丰满人妻VIDEOS| 捏胸亲嘴床震娇喘视频在线播放| 中文字幕久久久久人妻| 美女裸体无遮挡永久免费视频AP | 无码国产偷倩在线播放| 公交车上拨开丁字裤进入| 少妇人妻偷人精品视蜜桃| 夫上司人妻秘书OL中文有码| 色欲色香天天天综合网WWW| 丰满熟妇VIDEOSXXXX| 太太你也不想你丈夫被开除吧| 乖我们换个姿态再来一遍吧的小说| 台湾无码AV一区二区三区| 国产精品视频色拍拍| 无遮挡粉嫩小泬久久久久久久久| 国产啪精品视频网站免费| 亚洲AV日韩AV成人AV| 精品国产一区二区三区不卡 | 久久99精品久久久久久HB无码| 亚洲熟妇无码A∨| 乱JAPANESE偷窥PISS| 91人妻人人爽人人澡人人精品| 欧美夫妻免费拍拍片| 被下春药爽翻天按摩的人妻| 色五月丁香五月综合五月亚洲| 国产成人亚洲欧美二区综合| 性国产SE╳O色欲A片免费观看| 国内精品久久人妻无码网站| 亚洲欧美日韩另类| 麻豆国产蜜桃臀视频在线观看| FREEZEFRAME丰满老妇| 色久综合网精品一区二区| 国产精品久久成人网站| 亚洲成人AV无码| 久久亚洲精品成人无码网站夜色 | 少妇人妻互换不带套| 国产免费一区二区三区免费视频 | 啊轻点灬大巴太粗太长视频| 色一情一乱一乱一区91Av奶水| 国产乱色国产精品免费视频| 亚洲狠狠色成人综合网 | 黑色丝袜老师自慰喷水浪潮免费| 野花影视在线观看免费高清完整版| 你下水好多下水道BD| 顶级大但人文艺术巫| 亚洲AV成人无码网天堂| 久久天天躁夜夜躁狠狠85| YY111111人妻影院| 无码人妻一区二区三区精品视频| 久久99精品久久久大学生| JAPANESE国产在线观看播| 图片区小说区另类春色| 精品无码黑人又粗又大又长AV| 7777精品伊人久久久大香线蕉| 日文中字乱码一二三区别在| 国内精品乱码卡一卡2卡三卡| 最新国产毛2卡3卡4卡| 十八禁无码免费网站| 精品人妻少妇敕草AV无码专区| 99国产精品久久久蜜芽| 婷婷五月深深久久精品| 久久精品无码专区免费| 被窝影院午夜无码国产| 亚洲大胸美女被操喷水| 欧美丰满大乳高跟鞋| 国产精品成人免费视频网站| 野花免费高清完整在线观看| 日本真人无遮挡啪啪免费| 黑人av巨大粗吊| AE射频电源成色| 午夜无码性爽快影院6080| 麻豆CHINESE男男GAYF| 高清一区二区三区日本久| 亚洲熟妇丰满XXXXX黑| 日本人妻和黑人又粗又长又黄| 饥渴老熟妇乱子伦视频| А天堂中文地址在线| 亚洲国产精品尤物YW在线观看 | 麻豆精品久久久久久中文字幕无码 | 最新版天堂中文在线官网| 无码人妻久久一区二区三区免费丨 |