期刊VIP學術指導 符合學術規(guī)范和道德
保障品質 保證專業(yè),沒有后顧之憂
摘 要:IT類專業(yè)學生由于其專業(yè)特點,企業(yè)實習環(huán)節(jié)往往貫穿整個培養(yǎng)過程,實習環(huán)節(jié)效果的好壞直接影響到學生的能力培養(yǎng)與就業(yè)質量。如何將實習單位的資源配置、業(yè)務特點及學生專長與興趣等因素進行有機整合,是改善和提高實習效果的有效途徑。本文基于機器學習的方法,對IT專業(yè)學生實習單位推薦與評價開展了研究工作,以某高校計算機專業(yè)歷年的實習、評價和就業(yè)等相關數(shù)據(jù)為學習樣本,自動學習和生成推薦模型與評價體系。實際應用效果表明:該系統(tǒng)能為實習組織工作提供更加客觀的決策支持信息,有效提高學生的實習與就業(yè)質量。
關鍵詞:推薦系統(tǒng);機器學習;評價系統(tǒng)

1 引言(Introduction)
國家信息化建設的迫切需求催生了大量IT企業(yè)的涌現(xiàn),同時也提出了持續(xù)性的IT專業(yè)人才需求。順應這種趨勢,幾乎所有的高校都開設了IT類專業(yè)。在廣招生源的同時,各培養(yǎng)單位也都意識到企業(yè)實習環(huán)節(jié)在IT類專業(yè)學生培養(yǎng)過程中的重要性,也開展了大量有針對性的研究工作。
文獻[1]對工科類大學生的成長方式進行了探索與總結,通過雷達圖的形式給出了“實習、實訓”和“科技創(chuàng)新訓練”環(huán)節(jié)對學生就業(yè)能力培養(yǎng)的影響,詳細的論述了以就業(yè)為導向的工科類大學生培養(yǎng)應該尤其注重加強企業(yè)實習環(huán)節(jié)的管理,充分利用好這一寶貴的社會資源,以培養(yǎng)出能滿足社會需求的專業(yè)人才;文獻[2]基于“5S管理理論”分析和論述了加強高校學生實習、實訓環(huán)節(jié)管理工作的必要性,并給出了相關的實施流程及可行性分析報告;文獻[3]以促進學生就業(yè)為出發(fā)點,詳盡的介紹了美國高校對于學生實習的有關價值觀念的形成過程和與之相對應的政策制定與演進,實習過程的組織與效果測評等內容。隨后與我國的相關制度與組織過程進行了深入對比,強調了“制度化”作為“基石”的重要性;文獻[4]也從促進學生就業(yè)的角度出發(fā),探討了加強實習基地建設,緩解就業(yè)壓力和提高就業(yè)質量的必要性和緊迫性,并對研究小組所開展的探索工作進行了簡潔的總結與反思;文獻[5]分析了在信息化背景下,教與學的過程在執(zhí)行環(huán)節(jié)中存在的一些問題,著重強調了“過程”的重要性。而實習環(huán)節(jié)也是整個過程中極為重要的一個環(huán)節(jié)。
2 機器學習輔助決策(Decision-Making aided bymachine learning)
機器學習是指使用計算機通過模擬人類學習和獲取信息的準則,以預測為目標的一系列過程。它包括統(tǒng)計建模、優(yōu)化處理、算法設計和統(tǒng)計分析等,涉及數(shù)學、統(tǒng)計學和計算機科學等多個學科[6]。通過幾十年的發(fā)展,尤其是隨著計算機處理和存儲能力的日益提高,機器學習目前已經成為一個熱點研究領域,并和各行各業(yè)緊密結合,成為一門“利器”。決策論作為運籌學的一個重要分支,為決策分析提供了堅實的理論基礎[7]。傳統(tǒng)意義上的決策論往往需要預先給定一個評價準則,隨后在給定的信息集上通過數(shù)量方法來尋找或選取最優(yōu)決策。當面臨的數(shù)據(jù)維度較高,組成復雜的時候,常規(guī)的數(shù)量方法難以挖掘出高維數(shù)據(jù)中所隱含的特征,導致容易偏離最優(yōu)決策。這種情況下,可以通過利用新的技術手段進行高維數(shù)據(jù)挖掘來改善效果;也可以轉變角色,退化為輔助決策來繼續(xù)發(fā)揮作用。麻省理工學院的資深學者Theja Tulabandhula和Cynthia Rudin在文獻[8]中提出了一種綁定機器學習和決策的框架,并在航線規(guī)劃和交通路徑規(guī)劃(ML&TRP;)等實際應用領域開展了驗證性研究工作,在一定程度上證明了該方法的理論基礎和實際可行性。文獻[9]利用貝葉斯網絡對不確定性問題的表達與處理能力,設計了一套網絡交互教學效果評價系統(tǒng),能有效改善網絡教學效果評價的質量。
本研究小組對我院計算機科學與技術、軟件工程、網絡工程等三個專業(yè),自2011年以來的實習與就業(yè)相關數(shù)據(jù)進行收集整理,涉及相關學生累計達785人,實習與就業(yè)單位達325家,統(tǒng)計的多維度的單位信息、學生信息、實習組織相關信息、評價與反饋信息等記錄高達300多萬條(維)。依靠人工已經難以充分和有效的挖掘出這些信息內部所包含的有價值信息,以為后續(xù)實習工作提供輔助決策。因此,本文利用機器學習的方法對2011—2014年的相關數(shù)據(jù)進行學習,從高維度數(shù)據(jù)中學習出各個實習/就業(yè)單位和學生的相關特征,給出明確的類別標識,并作為決策信息為2015屆的實習與就業(yè)組織工作提供參考依據(jù)。
3 輔助決策的推薦系統(tǒng)構建(Construction ofrecommendation system for aided decision-making)
從宏觀上來說,將合適的學生派遣至合適的實習單位,能充分發(fā)揮主觀能動性和資源配置優(yōu)勢,達到最好的實習效果,從而提升學生的整體就業(yè)競爭力。具體到每位學生,只能從眾多的待選實習單位中選擇一家進行派遣,且在實習過程中進行改派的可操作性也不強。因此,如何準確的對實習單位和待派學生進行特征分析與匹配,成為要解決的關鍵問題之一,也是首要問題。具有自然屬性的“實習單位”和“實習生”完全能符合“物以類聚,人以群分”的屬性,如果能借助于機器學習算法對“實習單位”和“實習生”進行合理的分析與劃分,將能有效的提高實習派遣與管理的效率和改善效果。
本系統(tǒng)的構建目標即為:利用機器學習算法,以歷史的實習與就業(yè)數(shù)據(jù)為樣本,對相關實習單位按照多維特征值進行聚類操作,形成k個類;在實習派遣階段,再利用分類算法,將每名學生分到k類中的一個。這樣就能建立起一名學生到某類實習單位之間的映射關系,輔助決策推薦系統(tǒng)示意圖如圖1所示。
在圖1中,m為學生總數(shù),n為實習單位總數(shù),k為實習單位總類數(shù),其中,n>>k。通過該“聚類—分類”操作,實習派遣操作就轉換為從系統(tǒng)為某位同學推薦的一類實習單位中選擇一個的問題。該系統(tǒng)要能完成相關功能操作,需要解決如下兩項關鍵問題:
3.1 聚類算法選擇
聚類算法目前已經在眾多領域得到廣泛的應用并取得了良好的效果,尤其是在商業(yè)推薦、社團劃分等應用領域。在本系統(tǒng)中,聚類算法的目標為:從紛繁蕪雜的實習單位相關高維數(shù)據(jù)中,提取出關鍵性的特征向量,并以此為依據(jù)將所有的實習單位聚為k個類。這k個類將作為后續(xù)分類操作的依據(jù)。聚類操作的起源可以追溯至古老的分類學,在計算機的存儲和處理能力達到一定水平之前,利用數(shù)學工具進行定量的分析存在著困難,人類只能在經驗和專業(yè)知識的基礎上執(zhí)行帶有較強主觀色彩的判斷。這種方式已經難以適應目前以大數(shù)據(jù)量為背景的應用場景。與此同時,各種基于機器學習的聚類算法大量涌現(xiàn)并且開始具有實際應用價值。其中,基于劃分式的方法發(fā)展得到了較多的關注,研究成果也較為豐富。劃分法的基本思想為:給定一個包含N個元素的數(shù)據(jù)集,通過分裂的方法將其構造為k個分組。為了保障算法快速收斂,一般會要求同一分組中的元素之間的距離滿足一個給定的閾值(距離小則認為相似度高)。
(1)K-MEANS算法
K-MEANS算法是一種較為經典的聚類算法,其基本思想為:根據(jù)總類別數(shù)量k,在樣本中隨機找出k個點來作為原始的類中心點,然后計算余下的點與選定的k個點的距離,按照距離將其歸入某類,完成操作后再重新計算k類中所有距離的平均值并將其作為新的中心點,不斷的迭代,直到測度函數(shù)收斂(中心點不再發(fā)生明顯變化)。通過該算法,可以將相識度高的點聚為一類,同時將不同類之間盡量分開。但是,利用K-MEANS算法所劃分的類別之間的差異度往往不夠大,且對樣本數(shù)據(jù)要求較高,在實際的應用過程中需要采取各種改進措施。
(2)K-MEDOIDS算法
為了克服K-MEANS算法對臟數(shù)據(jù)敏感的缺點,K-MEDOIDS算法利用一個對象(MEDOIDS)來代替初始中心點,然后進行初始聚類,再找出類中到其他點距離之和最小的點作為新的中心點,再重復該操作直到收斂。Partitioning Around Medoids(PAM)算法是該類算法中具有代表性的一種,但是由于存在較多的循環(huán)和迭代運算,算法復雜度較高——O(k(n-k)2)。文獻[9]提出了一種簡單高效的啟發(fā)式算法將計算復雜度降低為——O(nk),使得其實用性大幅度提高。
在實際操作過程中,并不會向所有的實習單位都派遣實習生,尤其對于IT企業(yè),單位來源的動態(tài)性也較強,即使是同一單位,在不同時期所體現(xiàn)出的對實習生的特征也不盡相同(根據(jù)企業(yè)實際工程項目)。因此,對實習單位的聚類操作需要動態(tài)的進行,以適應實際情況。經過綜合對比分析和實驗測試,我們選擇文獻[10]提出的基于K-MEDOIDS的改進算法來作為本系統(tǒng)的聚類算法。
3.2 分類算法選擇
分類算法的研究工作也積累了大量的研究成果,可供選擇的面也較為豐富。但本系統(tǒng)所需的分類方法有極強的特性,主要體現(xiàn)為:企業(yè)類和實習生不具有同構性,即某類企業(yè)的特征與某名學生的特征沒有直接的相似性,不能直接按聚合的k類來對學生進行分類。因此,我們需要建立起企業(yè)類到實習生之間的關聯(lián)規(guī)則,以實現(xiàn)將某位學生到某類企業(yè)直接的關聯(lián)(推薦依據(jù))。任務轉換為“關聯(lián)規(guī)則挖掘問題”,該問題是數(shù)據(jù)挖掘中的一個重要領域,而基于關聯(lián)規(guī)則的分類方法通常包含兩個基本步驟:首先,利用算法從樣本數(shù)據(jù)集中挖掘出所有的滿足預先指定支持度和置信度的類關聯(lián)規(guī)則;接下來利用啟發(fā)式算法從第一步給出的類關聯(lián)規(guī)則中挑選出恰當?shù)囊?guī)則,用于分類操作。采用在線學習的思想,文獻[11]提出了一種如圖2所示的模糊關聯(lián)規(guī)則挖掘方法。
如圖2所示的關聯(lián)規(guī)則方法可簡述為:首先給出一個預定義的隸屬函數(shù),通過學習過程來學習事務數(shù)據(jù)庫中的對象(企業(yè)類/實習生數(shù)據(jù)集)并在線對模型的適應度進行評估,最后給出確定的隸屬函數(shù),再利用模糊挖掘方法從數(shù)據(jù)集中挖掘出模糊關聯(lián)規(guī)則,用于指導分類過程。利用該方法可以有效的解決本研究所涉及的異構對象之間的關聯(lián)問題,模型評估過程可以作為下一階段效果評價環(huán)節(jié)的反饋入口,提高準確率、增強系統(tǒng)的適應性。
4 效果評價模型(Effect evaluation model)
單純考慮具體的實習成績評定等細節(jié)性環(huán)節(jié),往往會導致效果評價環(huán)節(jié)流于形式,失去評價的作用。本系統(tǒng)將綜合考慮實習生反饋、企業(yè)反饋、就業(yè)情況、教師評價等多方面的因素,力爭客觀評價,且對實習效果的評價將作為影響因子(λ)反饋至系統(tǒng)的分類模型環(huán)節(jié),用于評估、調整隸屬模型,更好的支撐模糊關聯(lián)規(guī)則的挖掘過程,從而改進派遣環(huán)節(jié)的分類效果,提高派遣環(huán)節(jié)的針對性,最終促進和提高實習效果,實現(xiàn)實習生、學校和實習單位三方的和諧發(fā)展。λ的構成如表1所示。
實習生可以在實習報告中,對實習派遣與預期情況的匹配程度進行打分評價,占0.2的權值;實習單位可以通過實習生的實習報告向學校反饋其是否愿意繼續(xù)接納同類實習生,以及給出相關評語等,占0.2權值;責任教師可以結合日常考核來對學生實習期間的表現(xiàn)進行打分和評定,如有必要,也可以給出相關說明,該環(huán)節(jié)類似于傳統(tǒng)的實習成績評定,占0.1的權值;領導小組負責后續(xù)就業(yè)相關情況的跟進調查,主要依據(jù)是就業(yè)協(xié)議書、就業(yè)合同和走訪調查的結果等,占0.5的權值。因為就業(yè)情況能比較客觀的反映實習派遣的效果,例如,如果某位實習生從系統(tǒng)推薦的一類實習單位中選擇一個并最終在該實習單位就業(yè),認為該派遣為一項正確的派遣,故設定較高的權值,有利于隸屬函數(shù)的優(yōu)化和關聯(lián)規(guī)則的挖掘。評價模型輸出的λ值為歸一化的標準值,可以直接應用于反饋環(huán)節(jié)。
5 應用效果與分析(Application effect and analysis)
本小組將系統(tǒng)應用在我院2015屆161名畢業(yè)生的實習派遣和效果評價環(huán)節(jié),并對效果進行了分析。總的實習單位數(shù)量為78個(基本都為網絡、軟件、培訓等IT類企業(yè)),實習單位聚類情況如圖3所示。
分析圖3的數(shù)據(jù),我們可以發(fā)現(xiàn),系統(tǒng)將這78家單位聚為25個類,且絕大多數(shù)的類包含的單位數(shù)量都在2至5家,僅有三個單選類,我們查看原始數(shù)據(jù)發(fā)現(xiàn)其分別為醫(yī)療、交通和政府機構等與IT企業(yè)相關性不強的單位,因而很難找到共性特征。這樣的聚類效果為后續(xù)模糊關聯(lián)和推薦打下了較好的基礎。
在所有的161名畢業(yè)生中,有五人與非IT類單位有明確的就業(yè)意向,其實習派遣直接指定。實際參與推薦的實習生總共為156名,所有的同學都很快的從推薦類中選取了自己認為合適的單位并順利完成實習過程。目前共確定有效就業(yè)人數(shù)為155人,占總畢業(yè)人數(shù)的96.2%,統(tǒng)計數(shù)據(jù)具有說服力。在應用本系統(tǒng)之前,實習派遣很難有針對性的開展,學生最后的就業(yè)也基本與實習單位沒有關聯(lián)。應用本系統(tǒng)后的2015屆畢業(yè)生中,有87人在實習單位就業(yè),有10人表示期望與實際情況不符合,有16家實習單位表示實習生能力有待提高,將加權統(tǒng)計得到的λ值反饋至模糊關聯(lián)學習模塊,系統(tǒng)為8名學生給出了與之前不一樣的推薦類。這表明系統(tǒng)在具備穩(wěn)定性的同時,也能根據(jù)實際情況進行自適應調節(jié)。
6 結論(Conclusion)
大數(shù)據(jù)這一名詞不僅頻繁出現(xiàn)在學術界、政府報告和各類媒體中,它實際上已經滲透到人們日常生活的各個層面。高效且成熟的機器學習算法恰好為我們提供了分析和挖掘大數(shù)據(jù)背后隱含規(guī)律的工具。本文利用機器學習算法,通過對我們近年來積累的大量實習單位、實習生和就業(yè)信息數(shù)據(jù)進行挖掘,學習并構建出了具有實用性的IT專業(yè)學生實習單位推薦與評價系統(tǒng)。在通過聚類算法實現(xiàn)對實習單位準確聚類的基礎上,利用數(shù)據(jù)挖掘方法得出實習生與實習單位直接的模糊關聯(lián)規(guī)則,將其作為指導實習派遣的決策依據(jù),實現(xiàn)高效且有針對性的派遣決策。為適應實習單位和實習生的動態(tài)變化特點,系統(tǒng)給出綜合模型來對實習效果進行評價,并以此作為反饋因子來指導前述關聯(lián)規(guī)則的挖掘,使系統(tǒng)具備自適應特性。實際應用效果也進一步驗證了系統(tǒng)的合理性和可行性。
本系統(tǒng)的推薦部分已經具備了可直接使用的原型系統(tǒng),但是在評價部分還存在進一步完善之處。比如:反饋環(huán)節(jié)的原始信息目前基于紙質材料,部分評價主體基于客觀因素可能會做出不太客觀的評價,后續(xù)考慮修應用遠程在線式評價系統(tǒng),實現(xiàn)評價主體的“盲評”,增強客觀性。此外,評價權重值分配是否存在完善之處,還有待進一步驗證。
參考文獻(References)
[1] 于欣欣,李兆博.工科類大學生成長路徑的研究與探索[J].現(xiàn)代教育管理,2015(1):124-128.
[2] 何瑜.高校學生實訓實習管理模式創(chuàng)新研究——基于5S管理理論[J].內蒙古師范大學學報(教育科學版),2015,05:76-77.
[3] 朱紅,凱倫·阿諾德,陳永利.制度的基石、保障與功能——中美大學生實習比較及對就業(yè)的啟示[J].北京大學教育評論,2012,01:107-123;190.
[4] 詹一虹,侯順.加強實習基地建設拓寬高校畢業(yè)生就業(yè)渠道[J].教育研究,2006,09:90-92.
[5] 蔡旻君.信息技術環(huán)境下“學”與“教”分離現(xiàn)象透視和成因分析[J].電化教育研究,2013,02:93-99.
[6] Christopher Bishop.Pattern recognition and machine learning
[M].springer,2007:138-216.
[7] Perry J.Williams,Mevin B.Hooten.Combining statistical inference and decisions in ecology[J].Ecological Applications,
2016,26(6):1930-1942.
[8] Tulabandhula T,Rudin C.On combining machine learning with decision making[J].Machine Learning,2014,97(1-2):33-64.
[9] 張曉勇,彭軍,文孟飛.基于貝葉斯網絡的網絡交互教學成效評價系統(tǒng)[J].現(xiàn)代遠程教育研究,2012,04:85-90.
[10] Park H S,Jun C H.A simple and fast algorithm for K-medoids clustering[J].Expert Systems with Applications,2009,36(2):3336-3341.
[11] Alcalá-Fdez J,Alcalá R,Gacto M J,et al.Learning the membership function contexts for mining fuzzy association rules by using genetic algorithms[J].Fuzzy Sets and Systems,2009,160(7):905-921.