久久这里只有精品国产99-久久这里只有精品2-久久这里只有精品1-久久这里只精品热在线99-在线少女漫画-在线涩涩免费观看国产精品

一種語義稀疏服務聚類方法

來源:期刊VIP網所屬分類:農業科技時間:瀏覽:

  0 引言

  隨著面向服務的體系架構(Service Oriented Architecture,SOA)的迅猛發展,互聯網上Web服務數目呈持續增長趨勢。如何為用戶快速有效地推薦合適的服務成為一項極具挑戰性的研究任務。由于版權和資金等原因,大量UDDI服務注冊中心相繼關閉[1],基于搜索引擎技術的服務發現方法成為主流方式。常用搜索技術基本采用基于關鍵字匹配的方式,導致服務發現的精準度受到服務描述中缺少關鍵字或同形異義等因素的影響[2]。長期以來,服務聚類被視為解決該問題的一種有效途徑,并得到了學術界的廣泛關注[2-5],它將功能相似的服務聚類到一起從而減小搜索空間,提高服務發現效率[3]。例如文獻[2]從WSDL文檔中抽取服務特征建立特征向量,依照特征向量組織成不同的服務類簇。盡管上述服務聚類方法在不同情景下具有很好的效果,但是當面對服務描述語義稀疏時發現此過程中仍然會出現一些問題,造成這些問題的主要原因是諸多聚類算法在服務描述語義稀疏時,語義稀疏描述導致缺乏足夠的統計信息進而無法進行有效的相似度計算[6]。互聯網上最大的服務注冊中心ProgrammableWeb(http://www.programmableweb.com,PWeb)提供了針對各類服務的注冊功能,同時提供了服務關于功能的自然語言描述信息,通過這些信息進行服務分類。存在的關鍵問題是,這些服務描述往往以短文本形式存在,語義稀疏程度非常高。據統計,PWeb中服務數量最多的前10個分類中,服務描述文本平均長度僅為72,其中包含大量的無意義詞語。面對互聯網上與日俱增的服務規模,在語義稀疏的情境下,傳統服務聚類方法精確度普遍不高,影響服務發現和推薦效率。

農業科技論文

  1 相關工作

  文獻[7]建立基于統計的模型動態計算服務相似性,促進搜索引擎發現服務的能力;文獻[8]基于層次Agglomerative聚類算法,采用一種自下而上的方式將功能相似的服務組織成不同類簇,提高服務發現效率;文獻[9]提出一種WTCluster服務聚類方法,利用Kmeans算法聯合WSDL和標簽相似性進行服務聚類;文獻[10]利用Petri網技術針對服務功能和過程兩個側面的相似性進行服務聚類,提升服務發現效率;文獻[11]提出一種支配服務的概念,通過分析服務支配關系構建服務與用戶請求之間的相關性;文獻[12]提出一種基于Info-Kmean與概要的增量學習方法,解決K-means算法中心點選取0值特征導致KL散度值無窮大的問題。

  目前,基于主題模型的服務聚類研究有很多。文獻[13]使用PLSA(Probabilistic Latent Semantic Analysis)和LDA(Latent Dirichlet Allocation)從服務描述中發現服務的潛在主題,使用主題模型對OWL-S服務的Profile和功能描述進行聚類;文獻[9]利用LDA將WSDL中提取的特征描述構建成為層次結構,獲取關于服務的主題—特征分布,建立基于主題的服務發現技術;文獻[14]將WSDL文檔預處理獲取特征向量表征且與服務功能標簽相融合,利用WT-LDA模型實現服務聚類。

  上述方法在不同程度上提高了服務聚類效率,但仍然存在以下不足:①參與聚類的服務文檔大多數是基于某種特定格式的服務描述文檔,缺乏對自然語言描述的服務發現方法研究;②針對自然語言短文本描述的服務發現方法經常會遭遇語義稀疏的情況,而服務發現過程中鮮有考慮此方面的問題。因此,本文提出一種基于BTM對服務描述進行特征構建的方法,有效規避描述信息的語義稀疏問題,在此基礎上利用服務潛在特征進行服務聚類的方法以提高服務聚類質量。

  2 基于BTM的語義稀疏服務聚類方法

  本文提出的基于BTM的語義稀疏服務聚類方法(Semantic Sparse Service Clustering,S3C)是一種基于主題模型進行服務聚類的方法,聚類過程主要分為3個階段:數據爬取與預處理、基于BTM的潛在特征構造和基于服務的潛在特征聚類,具體流程如圖1所示。第一階段,主要從服務注冊中心爬取服務的描述文件進行數據清洗;第二階段,通過訓練BTM模型獲取文檔—主題分布,構建服務的潛在特征;第三階段,依據上階段獲取的服務潛在特征,利用聚類算法進行聚類工作。

  2.1 數據爬取與預處理

  從PWeb中獲取服務的文本描述數據,獲得這些信息之后,創建表征服務內容的初始特征向量。

  (1)建立初始向量:基于自然語言處理包NLTK實現服務描述文檔的分詞。

  (2)詞干還原:利用NLTK提供的PorterStemmer算法將特征向量中的特征詞匯進行詞干還原,例如,Learned和Learning具有相同詞干Learn。

  (3)移除功能詞:功能詞匯指諸如“the”、“a”等對服務特征沒有實際意義的詞,需要從文檔中移除此類功能詞。

  完成上述數據清理過程,為潛在特征構造提供數據支持。

  2.2 基于BTM的潛在特征構造

  BTM和LDA都是主題模型。BTM模型中,即使文本只有10個關鍵詞,也會構造出45個Biterm,該方法極大程度地解決了LDA對短文本處理存在的弊端。同時,大量實驗發現,使用Biterm對文本建模要比用單一詞語建模能夠更好地挖掘文本的隱藏主題。

  2.2.1 BTM模型

  BTM概率圖模型如圖2所示,首先生成基于BTM模型的語料庫。從概率圖模型可以發現:對于一個短文本的服務描述文檔,不同詞對所對應的主題Z=1,2,…,z是獨立的,這是BTM與傳統主題建模方法的顯著區別。BTM針對整個語料集合[B]中每個詞對[b(wi,wj)]進行建模,未對文檔的生成過程進行建模,在學習過程中尚未獲得服務文檔的主題分布,得到的僅是詞對—主題與主題—詞的分布。為了獲取文檔—主題分布,本文采用貝葉斯公式推理得到服務文檔的主題分布。

  使用式(1)計算每個詞對的概率。

  使用式(2)計算整個語料庫[B]的概率。

  首先,根據全概率公式,使用式(3)表示文檔主題—分布。

  其中,利用貝葉斯公式計算詞對—主題分布,如式(4)所示。

  式(3)中,[P(b|d)]可以將服務描述文檔中詞對的經驗分布作為[P(b|d)]估算值,具體如式(5)所示。

  其中,[nd(b)]表示文檔d中詞對b出現的次數。

  2.2.2 參數估算

  利用BTM獲得服務描述文檔的主題分布,必須要估算出BTM中參數[θ]和[φ]的設置。常用參數估算方法有期望傳播、變分推理和Gibbs抽樣等[15],本文采用Gibbs抽樣方法作為BTM的參數估算方法,如式(6)所示。

  對于語料集合[B]中的每一個詞對[b(wi,wj)],計算詞對的條件概率分布,獲得其主題分布[zb],其中[z-b]表示在集合[B]中除該詞對外的主題分配,[nz]表示主題z分配給詞對[b]的次數,[nwi|z]表示主題z分配給單詞[wi]的次數,[nwj|z]表示主題z分配給單詞[wj]的次數,M表示特征詞的個數。

  根據詞對—主題分布情況,利用式(7)和式(8)計算出參數[θ]和[φ]。

  其中,[φw|z]表示主題z中單詞w的概率,[θz]表示主題z的概率,[B]是詞對集合中詞對的總數。

  2.3 基于服務的潛在特征聚類

  根據上文分析,通過式(3)使用貝葉斯公式計算得到服務的文檔—主題分布[P(z|d)]。通過大量實驗對比,采用式(9)的方法對每個服務描述進行表示,將服務表示轉換成潛在特征。

  將服務表示成潛在特征后,使用Kmeans方法對服務進行聚類,聚類具體過程見算法1。

  算法1 語義稀疏的服務聚類算法

  輸入:服務集合SS,超參數[α]、[β],主題數目。

  輸出:服務類簇。

  1 初始化Z,并使得|Z|等于聚類數目。

  2 WHILE 算法未收斂 DO

  3 FOR iter = 1 TO Niter DO

  4 FOR [b∈B]DO

  5 基于[P(z|z-b,B,α,β)],采樣[zb]

  6 更新[nz],[nwi|z]和[nwj|z]

  ENDFOR

  ENDFOR

  ENDWHILE

  7 得到參數Θ和Ф。

  8 根據式(3)—式(5),建立主題—服務分布,使用式(9)建立服務潛在特征表征。

  9 基于服務潛在特征,使用K-means算法對服務進行聚類,最終返回服務類簇。

  第1-7步使用Gibbs抽樣獲得BTM模型的模型參數;第8步基于式(3)—式(5)計算獲得服務的文檔—主題分布,根據式(10)構建服務的潛在特征表示;第9步實現服務聚類,并返回服務的類簇信息。

  3 實驗評價

  3.1 實驗準備

  實驗數據來源于PWeb,該網站提供的服務具有詳細的Profile信息。實驗過程中爬取10 050個Web服務及其相關信息,篩選了包含服務最多的5個類別,總共包含2 761個Web服務,數據統計如表1所示。

  使用純度(purity)和熵(entropy)作為評價指標,其中,純度越高,且熵越小,表明服務聚類的效果越好。設類簇[ci]包含個數為[ni],使用式(10)和式(11)計算每個類簇的純度和所有類簇的平均純度。

  其中,[ni]代表類簇[ci]中包含的服務數目,[nji]代表第j個分類中被成功分入[ci]中的服務數目。

  使用式(12)和式(13)計算每個類簇的熵和所有類簇的熵。

  3.2 結果與分析

  3.2.1 方法性能

  為了評測本文所提出S3C方法的聚類性能,將其與3種常用的服務聚類方法進行性能對比。

  (1)K-means:該方法是基于劃分的聚類算法,實驗過程中,直接使用K-means對服務進行聚類。

  (2)Agglomerative:該方法是基于自底向上的層次聚類算法,實驗過程中,直接使用Agglomerative方法對服務進行聚類。

  (3)LDA:該模型是一種無監督的主題聚類模型,實驗過程中,直接使用LDA模型對服務進行聚類。

  在實驗過程中,使用BTM開源代碼(http://code.google.com/p/btm)構造潛在特征,超參數采用文獻[16]中設置的[α]=50/K,[β]=0.01。

  從圖3得出如下結論:①S3C算法不論是在純度還是熵上的表現都優于其它方法,特別是與直接使用LDA相比,算法性能得到明顯提升,說明S3C算法是有效的;②K-means算法、Agglomerative算法和LDA模型在基于語義稀疏服務聚類的時候性能并不好,說明傳統算法在語義稀疏的環境下容易遭受相似度計算困難的問題,進一步驗證了文獻[6]結論的正確性。實驗結果說明,基于BTM的方法在語義稀疏的情境下進行服務聚類的優勢,也進一步說明在聚類中考慮語義稀疏的必要性。

  3.2.2 參數影響

  主題個數K的選取是影響主題模型性能的重要因素。本文采用基于貝葉斯模型[17]選擇方法,確定本文所用實驗數據的主題數目。在不同K值下運行Gibbs抽樣算法,觀測[log(P(w|K))]變化情況。具體實驗結果如圖4所示,當主題數目K=200時,后驗概率能夠得到最好性能,主題模型對于給定數據取得最佳擬合度。因此,S3C中主題個數K的取值選取為200。同時,S3C中對BTM超參數設定選擇文獻[16]中設置的[α]=50/K,[β]=0.01。

  4 結語

  本文基于BTM提出了一種面向語義稀疏的服務聚類方法S3C,使用公開服務注冊中心Pweb真實數據進行相關實驗,驗證基于BTM的語義稀疏服務聚類方法的可行性和有效性[18]。與經典的服務聚類方法進行對比,S3C方法在聚類純度、熵等方面均具有更好的聚類效果,從平均純度看,該方法達到0.68,比其它方法提升30%左右;從平均熵看,該方法降低到0.41,性能提升50%左右。下一步研究重點:①在語義稀疏服務聚類的基礎上研究面向領域的服務發現技術[19-20];②研究推薦與發現相結合的服務發現方法[21-22],提升服務發現過程中的個性化程度。

  參考文獻:

  [1] Al-MASRI E, MAHMOUD QH. Investigating web services on the World Wide Web[C]. Proceedings of the 17th International Conference on World Wide Web,2008:795-804.

  [2] ELGAZZAE K, HASSAN A.E and MAERIN P. Clustering wsdl documents to bootstrap the discovery of web services[C]. Proceedings of 2010 IEEE International Conference on Web Services (ICWS), 2010: 147-154.

  推薦閱讀:有機化學sci期刊

亚洲精品成人久久久| 久久发布国产伦子伦精品| 国产激情一区二区三区视频免樱桃| 国产精品成人一区二区不卡| 国产一区二三区好的精华液| 精品无人区卡卡二卡三乱码| 久久综合激的五月天的歌词 | 俺去俺来也在线WWW色官网| 催眠~凌~辱~学园 在线观看| 在线高清理伦片A| 18禁亲胸揉胸膜下刺激免费网站| www.五月婷婷.com| 国产JIZZJIZZ麻豆全部免| 国自产精品手机在线观看视频| 久久久久久久久久久精品尤物 | 精品国产午夜福利在线观看| 麻花豆传媒MV在线播放| 人妻无码精品久久亚瑟影视| 午夜福利理论片在线观看| 搡老女人P老熟妇老熟女| 无人区码一码二码三码| 野花韩国视频免费高清3| YELLOW在线观看| 国产精品爽爽ⅴa在线观看| 东北一家人1一6全文阅读小说| 国产精品久久无码一区| 国产成人精品999在线观看| 经典WC偷窥美女如厕MP4| 欧美VIDEOS另类色HDFR| 免费观看的AV毛片的网站| 人与性动交ⅩXXXB| 亚洲AV无码专区亚洲AV不卡| 自拍偷自拍亚洲精品情侣| 丰满少妇高潮惨叫在线观看| 精品少妇av无码美人妻| 情人伊人久久综合亚洲| 亚洲AV日韩精品久久久久久久| 综合亚洲另类欧美久久成人精品 | 美女高潮无遮挡喷水视频| 少妇18p一区二区三区| 亚洲日韩成人AV无码网站| XXXXX18日本人HDXX| 国产偷窥熟女高潮精品视频| 你的棒棒可以桶桶我的下水道| 麻豆日产精品卡2卡3卡4卡5卡| 色偷偷色噜噜狠狠网站年轻人| 亚洲精品无码伊人久久| 成年女人免费碰碰视频| 九九九九精品视频在线观看| 日本熟妇色XXXXX日本妇| 亚洲成AV人片在线观看无线| АV天堂手机版在线观看| 成年网站免费视频黄A站| 精品国产一区二区三区免费| 人妻熟女AⅤ中文字幕在线看| 亚洲の无码国产の无码影院| 亚洲欧美日韩国产综合V| 成年女人午夜毛片免费视频| 久久久久久AV无码免费看大片| 色婷婷AV一区二区三区| 在线观看免费AV网| 国产日产欧产精品精品首页| 欧洲肉欲K8播放毛片| 亚洲国产精品久久久久秋霞影院 | 韩漫漫画在线观看页面免费漫画入| 国内大量揄拍人妻精品視頻| 久久精品国产亚洲AV蜜桃| 色偷偷久久一区二区三区| 在教室伦流澡到高潮H强圩| 国产视频一区二区| 人人妻人人澡AV| 伊人久久精品亚洲午夜| 国产线路3国产线路2| 日本不良网站正能量入口大豆行情| 亚洲中文自拍另类AV片| 国产精品久久午夜夜伦鲁鲁| 欧美一区二区三区孕妇精品| 亚洲美女又黄又爽在线观看| 国产成人亚洲日韩欧美| 欧美午夜理伦三级在线观看| 亚洲午夜性春猛交77777 | 无码少妇一区二区三区免费| YW尤物AV无码国产在线看| 久久久亚洲熟妇熟女| 亚洲AV无码不卡国产精品| 丰满少妇邻居找我泻火| 欧美无MATE30PRO巨| 一边做饭一边躁狂的原因分析| 国产午夜激无码AV片在线观看| 三上悠亚AV影院在线看| A级毛片免费观看播放器| 国产成人精欧美精品视频| 欧美成人国产精品视频蜜芽| 亚洲综合熟女久久久30P| 国产在线蜜乳一区二区三区| 少妇太爽丰满一区二区| 亚洲另类欧美综合久久图片区| 国产成人无码A区视频在线观看| 亲近相奷对白中文字幕| 真人无码作爱免费视频网站 | 一区二区三区毛片| 精品国产AⅤ一区天美传媒| 性色欲情侣网站WWW| 国产精品JIZZ在线观看无码| 日韩欧美人妻系列中文字幕一区二区三区| 亚洲AV日韩AⅤ无码网站| 国产成人AV一区二区三区在线观 | 欧美大香线蕉线伊人久久| 艳妇乳肉豪妇荡乳ⅩXXOO软件| 激情综合五月丁香五月激情| 亚洲AV无码精品色午夜APP| 国产激情З∠视频一区二区| 少妇丰满爆乳被呻吟进入| 成在人线AV无码免费看网站直播| 群体交乱之放荡娇妻| WWW国产精品人妻一二三区| 欧美成人家庭影院| 99精产国品一二三产品| 欧美大肚子孕妇疯狂作爱视频 | 男女啪啪摸下面喷水网站| 中文国产成人精品久久| 久久久久国产精品人妻AⅤ蜜臀 | 亚洲精品成人片在线观看精品| 果冻传媒董小宛一区二区| 亚洲AV综合色区无码一二三区| 国产又色又爽又刺激在线播放| 亚洲AⅤ天堂AV天堂无码| 国产强奷在线播放| 亚洲AV无码精品色夜午夜网址| 国精产品一品二品国精| 亚洲第一无码XXXXXX| 精品无码人妻夜人多侵犯18| 野花高清视频免费观看完整版中文 | 精品无人区一线二线三线区别| 亚洲精品97久久中文字幕无码| 精品国产乱码久久久久久蜜桃免费| 亚洲精品综合欧美一区二区三区| 痉挛高潮喷水AV无码免费| 一区二区三区熟女少妇小牛| 男人靠女人免费视频网站| CHⅠNESE性旺盛老熟女| 日本乱偷互换人妻中文字幕| 粉嫩AV一区二区夜夜嗨| 无码人妻精一区二区三区| 国内揄拍国内精品少妇| 亚洲熟妇AV一区二区三区下载 | 搡老女人老91妇女老熟女oo| 国产成人剧情AV麻豆果冻| 午夜成人无码免费看网站| 精品国产AⅤ一区天美传媒| 永久黄网站色视频免费观看APP| 男男射精控制PLAY小说| 宝贝乖女你的奶真大水真多小说 | 精品人妻潮喷久久久又裸又黄| 亚洲色大成网站WWW久久| 美女肛交视频蜜桃国产一二区| JAPANESE护士高潮SEX| 少妇乳大丰满在线播放| 国产欧美亚洲精品第一页| 亚洲区小说区图片区QVOD| 美女自拍高潮流白浆| 亚洲人成小说网站色在线观看| 久久亚洲精品无码AV红樱桃| GOGO全球高清大尺度视频| 天堂AV无码AV在线A√| 极度另类FREESEX强行真实| 在线播放韩国A级无码片| 人妻 白嫩 蹂躏 惨叫| 国产成人精品免费视频大全软件| 亚洲AV伊人久久青青草原视色| 老妇FREE性VIDEOSXX| 成年免费A级毛片| 人妻天天爽夜夜爽一区二区| 国产成人无码免费视频79| 亚洲国产精品无码久久久| 内射中出日韩无国产剧情| 公和熄小婷乱中文字幕| 亚洲国产成人VA在线观看| 女儿的朋友6中汉字| 国产AV熟女一区二区三区| 亚洲精品性爱av| 欧美性爱群交视频| 国产极品熟女沙发内射AV| 亚洲综合色区在线观看| 人人做人人妻人人精| 国产日韩精品中文字无码| 孕交VIDEOSGRATIS乌| 涩爱AV挺进少妇张开双暴躁| 精品国内自产拍在线观看| CHINESE交换俱乐部4P| 西西人体44RT NET毛最多| 麻花传媒MV与其它传媒公司比较| 东北老熟女对白XXXⅩHD| 亚洲欧好州第一的日产SUV| 人妻无码视频一区二区三区| 韩国午夜理伦三级在线观看仙踪林| 7777久久亚洲中文字幕蜜桃| 免费无码又爽又刺激动态图| 国产成在线观看免费视频成本人| 怡红院AV一区二区三区|