久久这里只有精品国产99-久久这里只有精品2-久久这里只有精品1-久久这里只精品热在线99-在线少女漫画-在线涩涩免费观看国产精品

科技術語自動提取技術

來源:期刊VIP網所屬分類:綜合論文時間:瀏覽:

  摘 要:文章簡要介紹了自動術語提取任務的定義、主要方法和評價指標。針對傳統的自動術語提取方法,以互信息、t值、tf-idf、C/NC-value為例介紹了單元度和術語度的概念;針對自動術語標注方法,主要介紹了基于序列標注的建模思想。從提取效果來看,現有自動術語提取技術距離期望仍有差距,文章也嘗試給出了一些值得探索的方向。

  關鍵詞:自動術語提取;自動術語標注;單元度;術語度;機器學習

  引言

  術語(term)是“各門學科的專門用語,在專業范圍內表示單一的專門概念”[1]。術語處在專業知識體系構建的基石位置,術語的獲取、整理和規范不僅對專業知識體系的構建和發展有重要作用,也會對專業領域之外的其他許多行業產生影響。

  傳統上,術語的收集整理主要依靠領域專家進行,這種工作方式的優點是質量高,缺點也很明顯,成本高,速度慢,難以適應當今科技高速發展中術語大量急速涌現的現狀。20世紀90年代前后,伴隨著語料庫建設的進步,利用信息技術和自然語言處理技術進行術語快速獲取——自動術語提取(automatic term extraction,ATE)的想法就應運而生并成為一個重要的研究議題[2]。

  術語自動提取有著不言而喻的重要意義。如果擁有可靠的術語自動提取技術,科技術語整理、審定與專業詞典編纂的工作效率和質量就會得到極大提高。術語作為一種特殊詞匯,在語言實踐中,常有與普通語言詞匯不同的處理策略和規律,可靠的術語自動提取技術也會對許多語言文字工作帶來積極影響,例如,在翻譯、教育等很多行業,及時、規范、全面的術語資源都是非常寶貴的資源。術語提取和識別還是專業自然語言理解的基礎技術,對于自然語言處理而言,術語通常都是未登錄詞(out of vocabulary,OOV),術語自動提取技術的進步有助于改善自然語言處理系統未登錄詞的處理能力,有助于推動專業文本機器理解技術的發展。

  經過研究人員近三十年的努力,自動術語提取技術取得了許多進展,也出現了一些術語提取工具。例如,在許多機器輔助翻譯平臺中都有相應的自動術語管理和提取工具,譬如在著名的機器輔助翻譯平臺SDL-Trados中就配備了術語提取組件SDL MultiTerm Extract,可用于輔助翻譯工作者定位專業文檔及翻譯記憶庫中潛在的單語或者雙語術語,從而輔助翻譯工作者改進術語翻譯質量。不過,自動術語提取也是一個有挑戰性的研究任務,總的看來,自動術語提取技術的性能還不能令人滿意,還需要研究人員的持續攻關和努力。

  1 自動術語提取的任務定義

  自動術語提取研究從特定專業文本中提取術語的自動技術和方法。自動術語提取系統的輸入是特定領域的專業文本,任務是通過對這些文本的自動分析和處理,提取其中的術語條目并以列表的形式輸出。例如,從給定計算語言學文本中,提取其中的計算語言學術語。盡管自動術語提取系統在應用時面向特定的目標領域,但現有自動提取技術基本上是通用的,并不因為所處理的領域不同采用不同的方法。為了指稱的統一,在本文中,我們把自動術語提取所處理的特定領域文本統稱為目標領域文本,即自動術語提取系統的輸入是目標領域文本,輸出是目標領域文本中所使用的目標領域術語條目。

  文獻中,除了術語自動提取這個名稱外,還有一些其他說法也指向術語提取或相關研究,例如,自動術語識別(automatic term recognition或automatic term identification)、自動術語檢測(automatic term detection)、自動術語挖掘(automatic term mining)等。許多文獻不加區別地使用這些術語,含義都是從目標領域文本中提取相應的術語條目。

  不過,這里也想特別指出,針對目標領域文本中的術語,從語型(type)和語例(token)兩個處理角度,實際上可以構思出兩種既相互聯系又相互區別的處理任務。在語型處理層面,旨在提取目標領域文本中的術語條目,而不關心精確標記術語條目在目標領域文本中的每個使用實例。與之不同,我們還可以界定一種語例層面的自動術語處理任務,即在目標領域文本中精確標記所有的術語實例。傳統上所說的自動術語提取主要指語型層面的處理,我們在本文中稱之為自動術語提取。為了與之區別,在本文中,我們把上述語例層面的術語處理任務統一稱作自動術語標注(automatic term labelling,ATL)任務。二者區別如下:

  a) 目標領域文本→自動術語提取ATE→術語表

  b) 目標領域文本→自動術語標注ATL→標注了術語的目標領域文本

  自動術語標注和提取可以獨立研究,但也可以結合進行。事實上,可以將自動術語標注看作自動術語提取的前驅任務,如果可以成功識別并標記目標領域文本中的術語,那么只要將這些標記好的術語提取出來并進行去重操作就可以得到相應的術語條目列表,從而實現術語提取的目的。

  這里之所以對自動術語提取和自動術語標注區別對待,除了自動術語標注可以作為術語提取的實現技術之外,更為重要的是,從專業文本機器理解這個更為一般的角度出發,自動術語標注更具基礎意義,在許多專業文本的機器理解任務中,更加需要語例層級的術語標注處理,因此自動術語標注技術除可以用以支持術語提取外,也是專業文本機器理解的基礎技術。

  2 術語的組成和統計特性

  要想利用計算機自動標注或提取目標領域文本中的術語,就需要研究和總結術語在組成和分布方面的形式特征。作為一種特殊的語言表達,術語有著與普通詞語和短語不同的區別性特征。

  從術語的組成來看,術語通常由一個或多個單詞組成。由一個單詞組成的術語通常稱作簡單術語(simple term)或單詞術語(single-word term),由不止一個單詞組成的術語通常稱作復雜術語(complex term)或多詞術語(multi-word term)。僅從組成單詞的數量上看,術語與普通短語并沒有區別。但術語與普通短語具有性質上的差異,術語是指稱領域概念的,所指通常固定明確。即便是復雜術語,本質上仍是詞匯層面的語言單位[3]。術語與普通短語在性質上的不同決定了術語必然具有不同于普通短語的特殊組成模式和特殊統計特性。

  (1) 從語言學角度看,術語大多是名詞或者名詞短語,這是由術語是對概念的指稱這一特點決定的。例如,根據文獻[3]對四個領域術語的抽樣調查,名詞短語在英語術語中所占比例很高,在所調查的四個領域中比例介于92.5%和99.0%之間。

  (2) 術語意義一般不是其組成單詞意義的簡單疊加,在使用中,變化有限。不具有一般短語所具有的(修飾詞)省略、變化、替換甚至增添等靈活變化現象[3]。術語形式變化,通常會導致所指的變化,也會造成歧義,所以同一術語在使用中形式基本不發生變化。

  (3) 術語組成模式相對有限。例如,根據文獻[3]對四個領域中多詞術語的調查,僅由名詞、形容詞和介詞組成的名詞短語型術語占比在99%以上,僅由名詞和形容詞組成的名詞短語型術語占比可達97%,并認為英語術語的組成可用正則表達式描述如下[3]:

  ((A|N)+(A|N)*(NP)?(A|N)*)N

  這里A、N、P分別代表形容詞、名詞和介詞。AN、NN、AAN、ANN、NAN、NNN、NPN等常見的英語術語組成模式都可以由該表達式所生成并覆蓋。

  (4) 在目標領域文本中,術語通常具有較高的出現頻率。而且與普通短語不同,術語在領域文本和一般文本中有較大的分布差異,集中出現在所屬領域的文本中,而在其他領域文本中則較少出現。

  (5) 復雜術語的組成單詞之間結合緊密穩定,形成領域文本中的特有固定搭配。從統計學的角度看,復雜術語各組件的共現頻度通常會顯著超過一般預期。

  (6) 在專業文本中,術語的上下文語境也有一定封閉性,尤其是與術語共現的實詞往往因領域不同而不同。

  術語的組成和統計特性是利用計算機識別和提取術語的主要依據,大多數術語自動提取方法是根據和利用上述術語特點而設計的。例如,利用術語的語言學特點,將目標領域文本中符合特定模式的名詞短語視作潛在的術語候選,或者利用術語的統計特性設計不同的度量指標衡量單詞和多詞組合作為術語的可能性。

  3 單元度和術語度

  從計算機的角度出發,目標領域文本中任何一個單詞或者連續幾個單詞的組合都有成為術語的可能。在本文中,我們把目標領域文本中任意一個由n個單詞組成的連續片段稱作n元組(n≥1)。理論上,任何一個長度小于術語最大長度的n元組都有成為術語的可能,我們把這些n元組稱作術語候選(term candidate),計算機需要逐一評價這些術語候選,計算它們作為術語的可能性。

  衡量一個n元組是否構成術語通常被歸結為計算兩個指標的問題,即計算單元度和術語度[4]的問題。

  單元度(unithood)是針對復雜術語而言的,一個包含多個單詞的n元組要成為一個術語,前提是它們需要構成一個固定搭配,組成單詞間需要結合緊密并整體構成一個語言單位。單元度就是衡量一個多詞n元組中詞與詞之間關聯強度的指標。但組合緊密穩定的多詞組合未必就是術語,術語需要具有領域性,術語度(termhood)就是用來衡量一個n元組與特定領域關聯程度的度量指標。

  因此,對于目標領域文本中的某個n元組是否構成術語,可以分別計算該n元組的單元度和術語度分值,如果單元度和術語度得分都高的話,那么這個n元組很可能是一個術語。

  多年來,研究人員先后設計和使用了很多計算單元度和術語度的具體方法,這些方法形式各不相同,但原理上都是利用術語的形式和分布特點。

  3.1 單元度計算

  常見的單元度計算方法包括t值、χ2值、對數似然比、點式互信息、Dice系數等多種方法。一一羅列和介紹這些方法并無必要,我們這里只介紹其中兩個計算指標,分別是點式互信息和t值。選擇這兩個指標,主要是因為點式互信息比較常見,而t值可以作為一類方法的代表。

99国精产品灬源码1| 97AV麻豆蜜桃一区二区| 伊人婷婷六月狠狠狠去| 在线观看AV片永久免费| FREEXX性黑人大战欧美| 边摸边脱吃奶边高潮视频免费| 大屁股熟女白浆一区二区| 国产精品偷伦视频免费观看了| 好男人电影在线观看| 久久久久久久精品免费| 欧美黑人一区二区| 色欲国产精品一区成人精品| 小宝贝荡货啊用力水湿AⅤ视频| 亚洲国产美女精品久久久久| 中文人妻AV高清一区二区| JAPANESE熟女熟妇多毛毛| 公与憩止痒小说400章| 好男人电影在线观看| 久久99精品久久久久子伦| 中文天堂在线WWW最新版官网| 国产JIZZJIZZ全部免费看| Z Z〇Z〇另类女人ZOZ〇| 高清欧美性猛XXXX黑人| 妓女妓女一区二区三区在线观看| 久久天天躁夜夜躁狠狠2018| 人妻激情偷乱视频一区二区三区| 我被公么征服了HD中文字幕| 亚洲熟女www一区二区三区| ASS黑森林PIC| 国产精品国产三级国产AV剧情| 精品人妻中文AV一区二区三区 | 五月综合激情婷婷六月色窝| 亚洲人成网线在线播放VA| www.xx欧美大鸡巴| 国产片AV国语在线观麻豆| 老牛精品亚洲成AV人片| 少妇无力反抗慢慢张开双腿| 亚洲乱码日产精品BD在线观看| 99久久久无码国产精品秋霞网| 国产精品白丝AV嫩草影院| 久久婷婷成人综合色综合| 人人妻人人澡人人乐DVD| 学生妹流白浆喷水被草| 91人人澡人人爽内射电影院| 亚洲最大AV无码网站| 国产乱子伦一区二区三区=| 亚洲色欲久久久综合网东京热| 天天躁日日躁狠狠躁婷婷| 亚洲色偷偷偷网站色偷一区人人澡| 亚洲精品无码成人片久久| 50岁老熟女一级毛片| 国产成人精品日本亚洲专区61| 久久精品伊人一区二区三区| 骚片AV蜜桃精品一区| 亚洲一本大道无码AV天堂| 成熟人妻视频一区区三区| 久久婷婷成人综合色综合| 天堂√在线中文最新版8| 中文无码一区二区不卡ΑV| 国产精品久久久久7777按摩| 男人忍不住挺进去了怎么回事 | 亚洲AV涩涩涩成人网站在线播放| 97无码免费人妻超级碰碰碰碰 | 美女夫妻内射潮视频| 婷婷成人综合激情在线视频播放| 中文人妻AV高清一区二区| 国产无人区二卡三卡四卡不见星空 | 欧美成人精品高清视频| 女人不怕粗短就怕蘑菇头什么意| 免费无码又爽又刺激高潮的漫画| 上司侵犯下属人妻中文字幕| 亚洲AV永久无码3D动漫在线观| JIZZ成熟丰满| 搡BBBB搡BBBB搡BBBB| 亚洲国产成AV人天堂无码| 中文字幕人妻AV一区二区| 中文字幕AV无码人妻| はるとゆき温泉旅馆攻略| 成人片黄网站色大片免费观看| 国产精品久久久久久久久爆乳| 国内精品久久久久久久久齐齐| 免费观看片的APP下载| 日韩一区二区三区精品视频| 无码午夜成人1000部免费视频| 色偷偷色噜噜狠狠网站年轻人| 无码人妻一区二区三区密桃手机版| 新妺妺窝人体色WWW| 中国少妇无码专区| 成人丝袜激情一区二区| 国产无套内射普通话对白| 国产精品国三级国产AV | 黑人性狂欢在线播放| 无码人妻久久一区二区三区APP| JAPANESE熟女熟妇| 国产精品成人99久久久久| 狠狠色丁香婷婷久久综合不卡| 国产一区二区三区好的精华液| 娇妻玩4P被3个男子伺候电影| 久久久精品久久久久久96| 蜜臀亚洲AV无码精品国产午夜.| 久久99精品国产99久久| 精品女同一区二区三区免费站| 私密按摩高潮熟女啪啪| 凹凸国产熟女精品视频APP| 美女床上喷水在线观看| 亚洲一区二区女搞男| 国产帅男男Gay在线观看| 国色天香在线观看全集免费播放| 乱人伦精品视频在线观看| 日本丰满的人妻HD高清在线| 亚洲av中文无码| FREEXXX欧美老妇| 黑人大鸡吧操逼日本女人| 欧洲乱码伦视频免费| 亚洲AV蜜桃永久无码精品| JEALOUSVUE熟睡睡觉| 国内精品伊人久久久影视| 欧美日韩一区精品视频一区二| 甜性涩爱在线播放| 装睡被陌生人摸出水好爽| 国产精品久久久久久无码| 国产午夜无码视频在线观看| 毛豆日产精品卡2卡3卡4卡免费| 色综合久久中文综合网| 亚洲日韩在线成人AV电影网站| 张柏芝性XXXXXⅩ| 久久精品无码一区二区小草| 中文字幕女人妻热女人妻| 女人来高潮水多视频| 伊人久久精品AV无码一区| 久久人妻AV无码中文专区| 一区二区三区无码AV不卡| 乱中年女人伦AV二区| 中文无码精品A∨在线观看不卡 | H罩杯大胸爆乳交在线观看| 欧美性爱一区二区三区| YW尤物AV无码国产在线看| 久爱无码精品免费视频在线观看 | 天美传媒MV免费观看完整| 中国熟妇色XXXXX中国老妇| 老熟女HDXX中国老熟女| 亚洲AV不卡无码国产| A阿V天堂亚洲阿∨天堂在线| 精品人妻无码中字系列| 亚洲人77777在线观看| 少妇ⅩXXOOOZZXXHD| 2019NV天堂香蕉在线观看| 女人被男人爽到呻吟的视频| А√天堂中文最新版在线种子| 天天看片天天AV免费观看| 精人妻无码一区二区三区| JAVA强行VIDEOS另类| 日韩人妻潮喷中文在线视频| 性欧美牲交在线视频| 亚洲色婷婷综合开心网| 女生裙子里面到底穿了啥| 国产精品无码素人福利不卡| 在线精品国产成人综合| 天堂影院在线观看高清在线| 久久无码人妻丰满熟妇区毛片| 粗大猛烈进出高潮视频| 一边做一边潮喷30P| 无码专区狠狠躁躁天天躁| 欧美日韩人妻精品一区二区在线| 东京热无码人妻系列综合网站| 少妇呻吟翘臀后进爆白浆| 国产成人欧美精品视频APP| 野花日本大全免费观看10电影| 日韩一区二区三区无码人妻视频| 久久久久久A亚洲欧洲AⅤ| 国产精品麻豆成人AV电影艾秋| 91人妻人人爽人人狠狠| 女自慰喷水免费观看WWW久久| 又大又黄又粗又爽的免费视频| 久久香蕉综合色一综合色88 | 四虎库影必出精品8848| 国产精品久久高潮呻吟无码| 亚洲乱码一区AV春药高潮| 奶头被几个流浪汉吃肿了| 成人免费无码H黄网站WWW| 亚洲AV无码成H在线观看| 狼友AV永久网站免费观看武| 餐桌下他深深顶撞H| 亚洲AV美女一区二区三区| 久久亚洲熟妇熟女ⅩXXX| 成·人免费午夜无码不卡| 亚洲AV综合色区无码一二三区| 免费污站18禁的刺激| 国产成人欧美精品视频| 一本色道久久HEZYO无码 | Y11111少妇无码电影| 香蕉久久久久久AV成人| 免费国产成人高清在线视频| 国产AV无码国产AV毛片| 一本丁香综合久久久久不卡网站| 日本久久久久久久久精品| 精品久久久久久人妻无码中文字幕 | 波多波多野结衣中文无| 亚洲精品一区二区三浪潮AV| 娇妻卧室含辱迎接领导是哪部电影|