久久这里只有精品国产99-久久这里只有精品2-久久这里只有精品1-久久这里只精品热在线99-在线少女漫画-在线涩涩免费观看国产精品

查找差異數(shù)據(jù)子集的過(guò)濾規(guī)則建模方法

來(lái)源:期刊VIP網(wǎng)所屬分類:軟件開(kāi)發(fā)時(shí)間:瀏覽:

  摘 要:大數(shù)據(jù)分析和應(yīng)用得到了各個(gè)行業(yè)的關(guān)注,人們?cè)噲D從大量數(shù)據(jù)中發(fā)現(xiàn)蘊(yùn)含的模式和規(guī)律,進(jìn)而產(chǎn)生更多的價(jià)值,數(shù)據(jù)過(guò)濾作為數(shù)據(jù)分析過(guò)程中常用手段所起到的作用是無(wú)可替代的。基于方便用戶快速篩選數(shù)據(jù)并找到差異性的數(shù)據(jù)子集的實(shí)際需求[1],需要分析與挖掘數(shù)據(jù)項(xiàng)之間聯(lián)系,對(duì)數(shù)據(jù)過(guò)濾規(guī)則進(jìn)行建模,以幫助用戶快速定位到差異性的數(shù)據(jù)子集。在本篇論文中創(chuàng)新性地提出一種查找差異數(shù)據(jù)子集的過(guò)濾規(guī)則建模方法。該方法的目的是解決如何在數(shù)據(jù)分析中應(yīng)用數(shù)據(jù)過(guò)濾規(guī)則建立分析過(guò)濾模型,然后利用模型分析過(guò)濾得到差異性的數(shù)據(jù)子集,最后利用模型完成結(jié)果集的自動(dòng)可視化。利用該建模方法建立的數(shù)據(jù)分析系統(tǒng)能在真實(shí)數(shù)據(jù)集中快速找到差異性數(shù)據(jù)子集,并且自動(dòng)完成對(duì)結(jié)果子集的可視化展示,展現(xiàn)了建模方法的實(shí)用性和高效性。

  關(guān)鍵詞:數(shù)據(jù)分析;差異性數(shù)據(jù);過(guò)濾模型

軟件工程

  《軟件工程師》 征稿對(duì)象:各大院校IT相關(guān)專業(yè)、科研單位及培訓(xùn)機(jī)構(gòu)的師生。從事企事業(yè)單位信息管理及IT相關(guān)行業(yè)的專業(yè)人員等。

  1 引言(Introduction)

  在數(shù)據(jù)無(wú)處不在的時(shí)代,用戶的決策越來(lái)越受到數(shù)據(jù)分析的驅(qū)動(dòng)[2]。通常,對(duì)于數(shù)據(jù)分析結(jié)果的不同往往能顯著影響決策過(guò)程。選擇不當(dāng)數(shù)據(jù),不管是有意的還是無(wú)意的,可能導(dǎo)致誤導(dǎo)用戶做出的不合適決策甚至導(dǎo)致錯(cuò)誤的決策。差異化數(shù)據(jù)在數(shù)據(jù)分析中往往具有重要的分析意義,而非差異化的數(shù)據(jù)對(duì)于數(shù)據(jù)分析的貢獻(xiàn)就比較小,甚至?xí)档蛿?shù)據(jù)分析的質(zhì)量。所以提供用戶優(yōu)良的差異性數(shù)據(jù)過(guò)濾模型能引導(dǎo)用戶進(jìn)行質(zhì)量更好的數(shù)據(jù)分析,從而提高用戶的決策質(zhì)量。

  2 簡(jiǎn)介(Brief introduction)

  大數(shù)據(jù)的快速發(fā)展引起了國(guó)內(nèi)外的廣泛關(guān)注和重視,如何對(duì)大數(shù)據(jù)進(jìn)行科學(xué)有效地分析處理是大數(shù)據(jù)領(lǐng)域最核心的問(wèn)題[3]。分析方法的優(yōu)劣將決定分析結(jié)果的有效與否,將最終影響大數(shù)據(jù)分析成果的應(yīng)用。根據(jù)國(guó)內(nèi)外的研究將數(shù)據(jù)分析劃分為描述性統(tǒng)計(jì)分析、探索性數(shù)據(jù)分析以及驗(yàn)證性數(shù)據(jù)分析[4];其中,探索性數(shù)據(jù)分析側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,而驗(yàn)證性數(shù)據(jù)分析則側(cè)重于已有假設(shè)的證實(shí)或證偽。本論文的研究方向?qū)儆谔剿餍詳?shù)據(jù)分析中的差異性數(shù)據(jù)查找方法。

  2.1相關(guān)研究

  在查找規(guī)律的方法中,粗糙集理論作為一種數(shù)據(jù)分析處理的理論引人注目[5]。粗糙集理論是處理不確定信息的一種方法。可以從不完備的信息中得出現(xiàn)有的規(guī)律,并從中提取出一些規(guī)則,這些規(guī)則代表原始數(shù)據(jù)集的數(shù)據(jù)分布。一般的在某些情況下有些信息在某些情況下是無(wú)用的或者說(shuō)是無(wú)效的,這時(shí)候我們假設(shè)在不影響最終決策分類結(jié)果的情況下,對(duì)此屬性進(jìn)行約簡(jiǎn)去掉無(wú)用的屬性并且對(duì)約簡(jiǎn)后的數(shù)據(jù)進(jìn)行規(guī)則提取,分析提取出的規(guī)則。在屬性簡(jiǎn)約的CEBARKCC算法中采用了基于信息熵的方法,去除冗余屬性從而得到一個(gè)粗糙集,這個(gè)粗糙集是原始數(shù)據(jù)集的一個(gè)子集,相當(dāng)于對(duì)原始數(shù)據(jù)集做一個(gè)抽樣[6]。本文的過(guò)濾規(guī)則建模方法也是受到這種做法的啟發(fā),與屬性簡(jiǎn)約的理念不同的是,本方法主要采用一系列的方法(包括信息熵)對(duì)原始數(shù)據(jù)集的過(guò)濾,最終的目的是提取具有最大差異數(shù)據(jù)的子數(shù)據(jù)集,這個(gè)數(shù)據(jù)子集不是原始數(shù)據(jù)集的抽樣,而是原始數(shù)據(jù)集中具有最大差異性的數(shù)據(jù)的集合。

  2.2 差異數(shù)據(jù)探索

  數(shù)據(jù)分析的目的是把隱沒(méi)在一大批看來(lái)雜亂無(wú)章的數(shù)據(jù)中的信息集中、萃取和提煉出來(lái),以找出所研究對(duì)象的內(nèi)在規(guī)律。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過(guò)程。不同領(lǐng)域不同類型的大數(shù)據(jù)往往需要特定的分析方法來(lái)對(duì)數(shù)據(jù)進(jìn)行分析,此類數(shù)據(jù)分析要求分析者對(duì)該領(lǐng)域數(shù)據(jù)有較為深入的理解,這就意味著分析者需要擁有專業(yè)領(lǐng)域的知識(shí)背景。本論文提出的目的就在于希望通過(guò)建立差異化數(shù)據(jù)分析過(guò)濾模型協(xié)助分析者對(duì)差異化的數(shù)據(jù)進(jìn)行快速的分析探索。即使是沒(méi)有分析經(jīng)驗(yàn)的分析者,面對(duì)大數(shù)據(jù)時(shí)利用本論文提出的分析過(guò)濾模型都能使用適當(dāng)?shù)姆椒ㄌ剿鞣治龀鰯?shù)據(jù)集中的差異化的數(shù)據(jù)。

  在大數(shù)據(jù)探索式場(chǎng)景中,面對(duì)大量數(shù)據(jù)時(shí)分析者很難找出差異化的數(shù)據(jù)。為了使用戶能夠盡可能消除容易出錯(cuò)的數(shù)據(jù)探索過(guò)程和煩瑣的過(guò)濾條件設(shè)置,直截了當(dāng)?shù)氐玫讲町惢瘮?shù)據(jù)子集。毫無(wú)疑問(wèn)的是我們需要一個(gè)標(biāo)準(zhǔn)化的流程來(lái)決定該如何進(jìn)行數(shù)據(jù)的選擇。為了實(shí)現(xiàn)這個(gè)目標(biāo),本論文提出一種差異數(shù)據(jù)子集的過(guò)濾規(guī)則識(shí)別方法,目的是通過(guò)合理的利用算法和設(shè)定相關(guān)的規(guī)則解決如何在數(shù)據(jù)分析中應(yīng)用數(shù)據(jù)過(guò)濾規(guī)則建立分析過(guò)濾模型,并利用模型分析過(guò)濾數(shù)據(jù),最后智能化的展示結(jié)果數(shù)據(jù)。

  建立良好的數(shù)據(jù)過(guò)濾規(guī)則面臨以下的這些問(wèn)題亟待解決:

  (1)維度:考慮從什么維度進(jìn)行分析過(guò)濾才能產(chǎn)生更好的差異化分析結(jié)果。

  (2)可解釋性:過(guò)濾模型需要能分析出數(shù)據(jù)之間的潛在關(guān)聯(lián),產(chǎn)生能過(guò)濾出差異化數(shù)據(jù)的過(guò)濾條件。

  (3)質(zhì)量:如何判定分析的質(zhì)量。

  在接下來(lái)的章節(jié)中我們會(huì)詳細(xì)地討論如何利用我們的建模方法在來(lái)解決上述三個(gè)問(wèn)題。

  3 問(wèn)題闡述及解決(Problem description and solution)

  3.1 問(wèn)題闡述

  當(dāng)用戶打開(kāi)數(shù)據(jù)集時(shí),面對(duì)著成百上千的原始數(shù)據(jù)往往不知道該如何分析哪些數(shù)據(jù)子集。如果用戶對(duì)原始數(shù)據(jù)沒(méi)有一定的了解,也就不會(huì)知道數(shù)據(jù)之間的聯(lián)系,更加不可能知道數(shù)據(jù)之間是否存在某種潛在聯(lián)系。因此需要考慮如何選取差異化的維度,使得數(shù)據(jù)的分析能產(chǎn)生足夠差異化的特征表現(xiàn)[7]。

  選取了適合的維度以后,該如何分析選定維度中數(shù)據(jù)的相互聯(lián)系,如何定義在該維度數(shù)據(jù)下的差異化數(shù)據(jù),進(jìn)而選定適合的過(guò)濾條件并通過(guò)過(guò)濾找到其中的差異化數(shù)據(jù)。這個(gè)問(wèn)題我們?cè)谥髸?huì)詳細(xì)討論如何解決。

  在常用的數(shù)據(jù)分析工具中常用可視化作為直觀地展示數(shù)據(jù)分析結(jié)果的手段,可視化同時(shí)作為評(píng)判數(shù)據(jù)分析結(jié)果的質(zhì)量。但是在常用的數(shù)據(jù)分析工具中需要用戶自己選擇如何對(duì)結(jié)果數(shù)據(jù)集可視化。有經(jīng)驗(yàn)的分析師能憑借經(jīng)驗(yàn)知道該如何選擇,對(duì)于新手來(lái)說(shuō)那就要經(jīng)過(guò)多次的試錯(cuò)才能達(dá)到理想的數(shù)據(jù)展示效果。如果能自動(dòng)的判定用戶選定的數(shù)據(jù)該如何生成可視化圖表,就能大大的幫助到用戶檢驗(yàn)數(shù)據(jù)分析的質(zhì)量。事實(shí)上,我們的差異化數(shù)據(jù)分析過(guò)濾模型面對(duì)著該如何采用智能化的方法為用戶可視化的問(wèn)題,即如何使用可視化直觀的呈現(xiàn)用戶數(shù)據(jù)分析的結(jié)果。

  3.2 解決方案

  關(guān)于維度的選擇和差異化數(shù)據(jù)過(guò)濾條件,本論文基于傳統(tǒng)數(shù)據(jù)庫(kù)的表結(jié)構(gòu),從行和列兩個(gè)維度分析差異化數(shù)據(jù)。首先通過(guò)列數(shù)據(jù)的分析過(guò)濾,查找可能具有差異化信息的數(shù)據(jù)列,之后通過(guò)一系列的關(guān)于差異數(shù)據(jù)的信息計(jì)算算法,找到具有差異性特征的數(shù)據(jù)子集,最后通過(guò)可視化展示差異性數(shù)據(jù)查找的質(zhì)量。

  總結(jié)來(lái)說(shuō)就是在差異性數(shù)據(jù)過(guò)濾模型中有三個(gè)過(guò)濾規(guī)則:差異性數(shù)據(jù)列的過(guò)濾、差異數(shù)據(jù)范圍的過(guò)濾、結(jié)果可視化的過(guò)濾。使用過(guò)濾模型進(jìn)行差異化數(shù)據(jù)查找流程如圖1所示。

  圖1 差異化數(shù)據(jù)過(guò)濾模型過(guò)濾流程

  Fig.1 The filtering process of differentiated data

  filtering model

  實(shí)踐證明通過(guò)以上過(guò)濾規(guī)則引導(dǎo)用戶進(jìn)行差異性數(shù)據(jù)分析,能明顯提升用戶分析差異性數(shù)據(jù)的質(zhì)量。在接下來(lái)的章節(jié)4.1介紹數(shù)據(jù)列的過(guò)濾規(guī)則建模方法;4.2中介紹數(shù)據(jù)范圍的過(guò)濾規(guī)則建模方法;4.3中介紹結(jié)果數(shù)據(jù)可視化的過(guò)濾規(guī)則建模方法。

  4 建模方法(Modeling approach)

  接著具體介紹一下如何根據(jù)數(shù)據(jù)集本身特征,以及用戶的真實(shí)需求產(chǎn)生適當(dāng)?shù)臄?shù)據(jù)列差異性分析過(guò)濾。

  4.1 差異數(shù)據(jù)列的過(guò)濾

  數(shù)據(jù)集D里面有很多數(shù)據(jù)列等待差異性分析,對(duì)于沒(méi)有分析經(jīng)驗(yàn)的普通用戶來(lái)說(shuō),并不知道哪些數(shù)據(jù)列具有差異性數(shù)據(jù)。而數(shù)據(jù)列的差異性分析過(guò)濾不僅能幫助用戶方便的分析數(shù)據(jù)列之間的聯(lián)系,更能幫助用戶挖掘數(shù)據(jù)列之間的潛在聯(lián)系,用戶通過(guò)分析過(guò)濾模型得到最有可能具有差異性數(shù)據(jù)子集的數(shù)據(jù)列。

  4.1.1 對(duì)于指定關(guān)鍵列差異性分析的列過(guò)濾

  當(dāng)用戶指定關(guān)鍵列時(shí),一般來(lái)說(shuō),用戶希望得到相關(guān)數(shù)據(jù)列對(duì)于關(guān)鍵列的差異性是否具有影響,并希望知道這些相關(guān)列對(duì)于關(guān)鍵列差異性的影響因子。因此,指定的關(guān)鍵列的差異性分析過(guò)濾核心思想就是在數(shù)據(jù)集D中計(jì)算相關(guān)列對(duì)于關(guān)鍵列所產(chǎn)生影響的影響因子,然后根據(jù)影響因子大小排序進(jìn)行過(guò)濾。本部分過(guò)濾模型采用隨機(jī)森林的方法完成相關(guān)列的過(guò)濾。隨機(jī)森林[8]計(jì)算影響因子的核心思想就是計(jì)算每個(gè)特征列在隨機(jī)森林中的每顆CART樹(shù)(最小二乘回歸樹(shù))上做了多大的貢獻(xiàn),然后取個(gè)平均值,比較特征之間的貢獻(xiàn)大小。貢獻(xiàn)度通常用基尼指數(shù)(Gini index)或者袋外數(shù)據(jù)(OOB)錯(cuò)誤率作為評(píng)價(jià)指標(biāo)來(lái)衡量。本論文采用的是袋外數(shù)據(jù)(OOB)錯(cuò)誤率作為評(píng)價(jià)指標(biāo)來(lái)衡量貢獻(xiàn)度。方法的偽代碼如下Algorithm 1所示。

  之所以可以用∑(err00B2-errOOB1)/Ntree這個(gè)表達(dá)式作為相應(yīng)特征列影響因子的度量值是因?yàn)槿艚o某個(gè)特征列隨機(jī)加入噪聲之后,袋外的準(zhǔn)確率大幅度下降,則說(shuō)明這個(gè)特征列對(duì)于關(guān)鍵列的分類結(jié)果影響很大,也就是說(shuō)它對(duì)于關(guān)鍵列的差異性影響程度比較高。

久久精品国内一区二区三区| 免费无码一区二区三区| 在线播放国产不卡免费视频| 老师你的兔子好软水好多的图片| 99精产国电影品一二三产区区别 | 丁香花在线观看免费高清版| 日本欧美一区二区三区乱码| 国产精品成人久久电影| 亚洲色欲综合一区二区三区小说| 欧美内射深喉中文字幕| 国产亚洲精品A在线无码| 在线亚洲熟妇一区二区三| 上到少妇叫爽TUBE| 久久久精品久久久久久96| 成人夜色视频网站在线观看| 亚洲欧美一区二区三区在线| 人与各种动ZZZ0O0OⅩⅩX| 国内精品久久久久久久影视| BGMBGMBGM老妇60岁| 亚洲国产群交无码AV| 小荡货奶真大水真多紧视频 | 中文精品无码中文字幕无码专区| 免费国产无人区码卡二卡3卡| 草莓视频在线观看18| 无码熟妇人妻AV在线影片免费| 精品无码AV一区二区三区少妇| 50岁熟妇的呻吟声对白| 搡BBB搡BBBB搡BBBB| 狠狠躁天天躁日日躁欧美| Japanese 国产一区| 亚洲AV无码专区国产乱码DVD| 农村妇女野外交性高清片| 国产999精品2卡3卡4卡| 中文天堂在线最新版在线WWW| 天天躁狠狠躁狠狠躁夜夜躁| 男人扒开女人的腿做爽爽视频| 国产精品无码久久久久| AV色综合久久天堂AV色综合在 | JAPANESE55丰满成熟| 亚洲最大的AV无码网站| 午夜欧美精品久久久久久久| 日本丰满熟妇XXXX色熟妇| 免费A级毛片无码| 精产国品一二三产区M553麻豆 | 日本最大胆的人文体艺术| 麻花传媒CEO免费观看| 娇妻玩4P被3个男子伺候电影| 成年午夜免费AⅤ在线观看| 亚洲无人区码卡二卡三卡四卡| 少妇被又大又粗又爽毛片| 蜜桃臀无码内射一区二区三区 | 日本亚欧乱色视频免费观看| 免费一对一真人视频APP| 护士奶头又白又大又好摸视频| 国产美女丝袜一级肛交蜜桃| 国产SM调教视频在线观看| 国产产无码乱码精品久久鸭| 干了老婆闺蜜两个小时| 成年女人A级毛片免费观看| 99久久精品免费看国产一区二区| 又大又粗又爽ΑA级毛片| 亚洲日本VA一区二区三区| 亚洲欧美综合区丁香五月小说 | 亚洲AⅤ无码一级毛片孕交| 亚洲成AV人片在线观看不卡| 亚洲乱码在线卡一卡二卡新区 | 99国产精品久久久蜜芽| 草草久久久无码国产专区| 大BBW大BBW超大BBW| 国产精品V欧美精品V日韩精品| 国产品无码一区二区三区在线蜜桃| 国产无人区一码二码三码MBA| 国产精品久久久久一区二区三区| 国产精品高潮AV久久无码| 国精产品一二三四线| 久久AV高清无码| 内射爆草少妇精品视频| 日产乱码一二三区别免费看| 婷婷综合久久中文字幕蜜桃三电影 | 韩国电影理伦片完整| 精品一卡2卡3卡4卡新区在线| 欧美精品久久久久久久自慰| 色五月五月丁香亚洲综合网| 小诗的公交车日记免费读| 夜色毛片永久免费| 被部长灌醉后强行侵犯| 韩国激情高潮无遮挡HD| 久久精品国产99久久香蕉| 人人妻人人澡人人爽人人精品| 亚洲AV成人无码精品网站老司机| 曰本女人牲交视频视频免费 | 亚洲精品无码午夜福利理论片| 中文字幕日韩欧美一区二区三区 | 男人边做边吃奶头视频| 色欲狠狠躁天天躁无码中文字幕| 亚洲AV成人片无码网站| 91夜色精品偷窥熟女精品网站| 国产精品99久久久久久猫咪| 久久久久夜色精品国产明星| 日日摸夜夜添夜夜添无| 亚洲国产无套无码AV电影 | 免费看永久不收费下载软件| 完整版免费AV片| 在卫生间被教官做好爽| 多P混交群体交乱的安全保障| 国精产品一区二区三区糖心| 欧美精品黑人成人另类视频| 亚洲AV中文无码字幕色三| JAPANESE五十路熟女| 国产无线乱码一区二三区| 亲子伦AV一区的三区| 夜夜精品无码一区二区三区| 国产精品亚洲污污网站入口 | 久久丫精品国产亚洲AV| 性色A∨人人爽网站HD| 扒开校花的粉嫩小泬| 女人私密紧致手术视频| 亚洲中文无码a∨在线观看| 火柴人战争遗产破解版| 亚洲AV无码精品黑人黑人| 国产夫妻CCCXXX久久久| 色欲综合久久躁天天躁| 性欧美乱妇COME| 好了AV四色综合无码久久| 无码H黄肉动漫在线观看999| 被俩个黑人前后破苞的女人| 女の乳搾りです在线观看| 樱花YY私人在线影院| 久久久久久亚洲AV无码专区| 亚洲蜜桃无码一区二区三区| 国产男男Gay做受×Xx男| 为什么穿裙子方便打野| 丰满少妇高潮在线播放不卡| 日本伊人色综合网| 边做饭边被躁BD小说| 朋友的人妻的滋味BD高清中文 | 麻豆成人久久精品二区三区免费| 伊人久久精品亚洲午夜| 精精国产XXXX视频在线播放| 亚洲AV无码潮喷在线观看| 国产97色在线 | 日韩| 无码A级毛片视频| 国产精品亚洲А∨天堂免下载| 性饥渴少妇XXXXⅩHD| 狠狠躁夜夜躁人人爽天天天天97| 亚洲精品9999久久久久无码 | 日韩精品无码专区免费视频| 国产粗话肉麻对白在线播放| 小12箩利洗澡无码视频网站 | 亚洲成人无码一区二区三区| 邻居少妇张开双腿让我爽一夜 | 亚洲VA无码专区国产乱码| 精品国产乱码久久久久久软件大全 | 乳欲人妻办公室奶水| 国产精品一区二区国产馆蜜桃| 亚洲AV中文无码字幕色| 好男人资源在线WWW免费| 一本一本久久A久久综合精品蜜桃 一本一本久久A久久综合精品 | 欧美变态口味重另类在线视频 | 国产精品爽爽V在线观看无码| 午夜夫妻试看120国产| 精品无码久久久久久久动漫| 94久久国产乱子伦精品免费| 无码免费大香伊蕉在人线国产| 久久精品国产亚洲AV大全| 成人爽A毛片免费网站| 亚洲免费福利视频| 日本不卡一区二区三区| 国产成人精品无码一区二区老年人 | 亚洲中文字幕无码爆乳AV| 人妻少妇精品无码专区动漫| 国产AV无码专区亚洲AV漫画 | 国产精品VIDEOS麻豆| 影音先锋熟女少妇AV资源| 三上悠亚公侵犯344在线观看| 精品BBBBB性ⅩXXXX少妇| H工口全彩里番库18禁无遮挡| 香蕉久久一区二区不卡无毒影院 | 国产粉嫩呻吟一区二区三区| 亚洲色偷偷偷综合网| 欧洲精品久久久AV无码电影| 精品人妻A∨一区二区夫上司犯| AV 无码 在线 观看| 无码久久精品国产亚洲AV影片| 久久欧美极品少妇XXXXⅩ| 父母全家儿女大联欢第14集| 亚洲人妻精品一区| 人人婷婷色综合五月第四人色阁| 大胸美女污污污WWW网站| 亚洲成av人片在线观看无码| 欧美日韩无套内射另类| 久久久久国色AV免费观看性色| 成人午夜无码国产| 中文有无人妻VS无码人妻激烈| 五月丁香综合缴情六月小说| 欧美人妇做爰XXXⅩ性高 | 熟女体下毛毛黑森林| 日本少妇XXX做受| 久久久久久国产精品免费无码| 国产精品18久久久久久VR|