公務(wù)員期刊網(wǎng) 精選范文 數(shù)據(jù)挖掘技術(shù)研究范文

數(shù)據(jù)挖掘技術(shù)研究精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘技術(shù)研究主題范文,僅供參考,歡迎閱讀并收藏。

第1篇:數(shù)據(jù)挖掘技術(shù)研究范文

關(guān)鍵詞:人工智能;數(shù)據(jù)挖掘;發(fā)展前景

當(dāng)今社會(huì)已經(jīng)進(jìn)入了人工智能時(shí)代,人工智能的應(yīng)用,大大改善了我們的生活。大數(shù)據(jù)時(shí)代已經(jīng)來臨,不論是從數(shù)據(jù)的使用,挖掘,處理等方面,都為人工智能的應(yīng)用起到了基礎(chǔ)和保障。

1人工智能

1.1人工智能的定義。人工智能(ArtificialIntelligence),簡(jiǎn)稱AI。屬于計(jì)算機(jī)學(xué)科下的分支,顧名思義,它是一門專門研究類人化的智能機(jī)器學(xué)科,即利用現(xiàn)階段科學(xué)的研究方法和技術(shù),研制出具有模仿、延伸和擴(kuò)展人類智能的機(jī)器或智能系統(tǒng),從而實(shí)現(xiàn)利用機(jī)器模仿人類智能的一切行為。1.2人工智能的研究背景。在1956年的達(dá)特矛斯會(huì)議上,“人工智能”這一術(shù)語(yǔ)正式由麥卡錫提議并采用了,隨后人工智能的研究取得了許多引人注目的成就。在這之后,科研人員進(jìn)行了許多的研究和開發(fā),人工智能這個(gè)話題也取得了飛速的發(fā)展。人工智能是一門極具挑戰(zhàn)性的科學(xué),從事這項(xiàng)工作的人必須了解計(jì)算機(jī)知識(shí)、心理學(xué)和哲學(xué)理念。人工智能的研究包涵廣泛的科學(xué)知識(shí),以及其他領(lǐng)域的知識(shí),如機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等。一般來說,人工智能研究的主要目標(biāo)是使機(jī)器能夠做一些通常需要人工智能完成復(fù)雜工作的機(jī)器。1.3人工智能的研發(fā)歷程。早期研究領(lǐng)域:人工智能專家系統(tǒng),機(jī)器學(xué)習(xí),模式識(shí)別,自然語(yǔ)言理解,自動(dòng)定理證明,自動(dòng)編程,機(jī)器人,游戲,人工神經(jīng)網(wǎng)絡(luò)等,現(xiàn)在涉及以下研究領(lǐng)域:數(shù)據(jù)挖掘,智能決策系統(tǒng),知識(shí)工程,分布式人工智能等。數(shù)據(jù)挖掘的出現(xiàn)使得人工智能的研究在應(yīng)用領(lǐng)域得到廣泛的發(fā)展。以下簡(jiǎn)要介紹其中的幾個(gè)重要部分:(1)專家系統(tǒng)。所謂專家系統(tǒng)就是控制計(jì)算的智能化程序系統(tǒng),通過研發(fā)人員總結(jié)歸納了專業(yè)學(xué)科知識(shí)和日常經(jīng)驗(yàn),能夠知道計(jì)算機(jī)完成某個(gè)領(lǐng)域內(nèi)的專業(yè)性活動(dòng)或者解決某些專業(yè)級(jí)別的問題。人工智能技術(shù)可以合理利用已知的經(jīng)驗(yàn)體系在復(fù)雜環(huán)境中,解決和處理復(fù)雜問題。(2)機(jī)器系統(tǒng)。機(jī)器系統(tǒng)簡(jiǎn)單說就是機(jī)器人通過人造神經(jīng)系統(tǒng),借助于網(wǎng)絡(luò)或者存儲(chǔ)系統(tǒng)汲取系統(tǒng)的知識(shí)進(jìn)行開發(fā)研究。(3)感知仿生。感知仿生系統(tǒng)通過模擬人類的感官,感知生物學(xué)特征,通過人工智能機(jī)器的感部件對(duì)外界外部環(huán)境進(jìn)行感知,識(shí)別,判斷,分析的能力。能夠更好的適應(yīng)環(huán)境,做出判斷。(4)數(shù)據(jù)重組和發(fā)掘。是指通過人工智能系統(tǒng),結(jié)合當(dāng)前先進(jìn)的理念,對(duì)大數(shù)據(jù)的總結(jié)歸納,識(shí)別存儲(chǔ),調(diào)取等應(yīng)用。通過數(shù)據(jù)的加工處理,能夠主動(dòng)做出判斷和分析。(5)人工智能模式。分布式人工智能是模式之一,該系統(tǒng)利用系統(tǒng)有效的規(guī)避和克服系統(tǒng)資源在某段時(shí)間內(nèi)的局限性,并能有效地改善因資源造成的時(shí)間和空間不均衡問題。它具備,模式自動(dòng)轉(zhuǎn)換,并行處理,開放啟發(fā)方式,冗余且容錯(cuò)糾錯(cuò)的能力。

2數(shù)據(jù)挖掘

2.1數(shù)據(jù)挖掘的定義。數(shù)據(jù)挖掘(DataMining,DM)是揭示數(shù)據(jù)中存在的模式和數(shù)據(jù)關(guān)系的學(xué)科,強(qiáng)調(diào)處理大型可觀察數(shù)據(jù)庫(kù)。數(shù)據(jù)挖掘的出現(xiàn)使得人工智能的研究在應(yīng)用領(lǐng)域得到了廣泛的發(fā)展。這里包括數(shù)據(jù)挖掘和智能信息提取過程,前者從大量復(fù)雜的現(xiàn)實(shí)世界數(shù)據(jù)中挖掘出未知和有價(jià)值的模式或規(guī)則,后者是知識(shí)的比較,選擇和總結(jié)出來的原則和規(guī)則,形成一個(gè)智能系統(tǒng)。2.2數(shù)據(jù)挖掘的研究現(xiàn)狀。當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。看似廣泛,實(shí)際應(yīng)用還遠(yuǎn)沒有普及。而據(jù)Gartner的報(bào)告也指出,數(shù)據(jù)挖掘會(huì)成為未來10年內(nèi)重要的技術(shù)之一。而數(shù)據(jù)挖掘,也已經(jīng)開始成為一門獨(dú)立的專業(yè)學(xué)科。2.3數(shù)據(jù)挖掘的研究發(fā)展。具體發(fā)展趨勢(shì)和應(yīng)用方向主要有:性能方面:數(shù)據(jù)挖掘設(shè)計(jì)的數(shù)據(jù)量會(huì)更大,處理的效率會(huì)更高,結(jié)果也會(huì)更精確。工具方面:挖掘工具越來越強(qiáng)大,算法收斂越來越多,預(yù)測(cè)算法將吸收新穎性算法(支持向量機(jī)(SVM),粗糙集,云模型,遺傳算法等),并實(shí)現(xiàn)自動(dòng)化的實(shí)現(xiàn)算法,選擇和自動(dòng)調(diào)諧參數(shù)。應(yīng)用:數(shù)據(jù)挖掘的應(yīng)用除了應(yīng)用于大型專門問題外,還將走向嵌入式,更加智能化。例如進(jìn)一步研究知識(shí)發(fā)現(xiàn)方法,對(duì)貝葉斯定理和Boosting方法的研究和改進(jìn),以及對(duì)商業(yè)工具軟件不斷的生成和改進(jìn),著重建立整體系統(tǒng)來解決問題,如Weka等軟件。在先進(jìn)理論的指導(dǎo)下,按照國(guó)內(nèi)形態(tài)發(fā)展,至少需要20年的時(shí)間,才能改進(jìn)數(shù)據(jù)挖掘的發(fā)展。

3數(shù)據(jù)挖掘與人工智能技術(shù)的聯(lián)系

數(shù)據(jù)挖掘?qū)儆谌斯ぶ悄苤歇?dú)立系統(tǒng)。它于人工智能的存在關(guān)系屬于,并存聯(lián)系,且獨(dú)立運(yùn)行,互不從屬。此設(shè)計(jì)體系一方面可以有效促進(jìn)人工智能提升學(xué)習(xí)能力,增進(jìn)分析能力,另一方面還對(duì)分析,統(tǒng)計(jì),OLSP,以及決策支持系統(tǒng)模塊等起到推動(dòng)作用。在收挖掘應(yīng)用領(lǐng)域,處理可以對(duì)WEB挖掘,還能夠有效進(jìn)行文本,數(shù)據(jù)庫(kù),知識(shí)庫(kù),不同領(lǐng)域不同學(xué)科的信息進(jìn)行序列矩陣模式挖掘。基于數(shù)據(jù)本身的分類,辨識(shí),關(guān)聯(lián)規(guī)則,聚類算法更加博大精深。因此,獨(dú)立于人工智能的數(shù)據(jù)挖掘,更加便于科研團(tuán)體或者領(lǐng)域?qū)?shù)據(jù)的使用和分析。數(shù)據(jù)挖掘是人工智能領(lǐng)域的一部分。首先,高智能是數(shù)據(jù)挖掘和人工智能的最終目標(biāo),正是由于這個(gè)目標(biāo),人工智能和數(shù)據(jù)挖掘有很多關(guān)聯(lián)。其次,數(shù)據(jù)挖掘和人工智能是各種技術(shù)的整合。數(shù)據(jù)挖掘和人工智能是許多學(xué)科的跨學(xué)科學(xué)科。最后,數(shù)據(jù)挖掘的出現(xiàn)逐漸發(fā)展壯大,加強(qiáng)了人工智能,因此可以說,它們兩者是不可分割的。

4人工智能和數(shù)據(jù)挖掘技術(shù)的發(fā)展前景

在當(dāng)前環(huán)境下,人工智能和數(shù)據(jù)挖掘技術(shù)具有以下發(fā)展前景:(1)在大數(shù)據(jù)互聯(lián)網(wǎng)中的應(yīng)用。將人工智能的技術(shù)應(yīng)用于互聯(lián)網(wǎng)中將會(huì)使網(wǎng)絡(luò)技術(shù)帶上智能的特性,可以為人們的生活提供智能化的幫助,給人們的生活帶來便利。還可以提高網(wǎng)絡(luò)運(yùn)行效率、增加網(wǎng)絡(luò)安全性等。(2)智能化服務(wù)的研究。人工智能和數(shù)據(jù)挖掘都很注重對(duì)智能化服務(wù)的研究,例如很多智能機(jī)器人便應(yīng)運(yùn)而生,它們已經(jīng)能勝任許多簡(jiǎn)單的工作,可以為人們提供人性化的服務(wù)。高度的智能化是數(shù)據(jù)挖掘和人工智能研究最終追求的目標(biāo),也是二者最終合而為一的標(biāo)志。(3)使知識(shí)產(chǎn)生經(jīng)濟(jì)化。在現(xiàn)階段的知識(shí)經(jīng)濟(jì)時(shí)代,人工智能和數(shù)據(jù)挖掘勢(shì)必受到經(jīng)濟(jì)的影響,這決定了人工智能和數(shù)據(jù)挖掘?qū)⒕哂薪?jīng)濟(jì)特征。人工智能和數(shù)據(jù)挖掘技術(shù)作為無(wú)形資產(chǎn)可以直接帶來經(jīng)濟(jì)效益,通過交流,教育,生產(chǎn)和創(chuàng)新的無(wú)形資產(chǎn)將成為知識(shí)經(jīng)濟(jì)時(shí)代的主要資本。可以預(yù)期未來的人工智能和數(shù)據(jù)挖掘技術(shù)將更加經(jīng)濟(jì)實(shí)用。(4)交叉學(xué)科的技術(shù)融合。各行各業(yè)的理論和方法都已經(jīng)開始融入了人工智能和數(shù)據(jù)挖掘之中。未來的人工智能和數(shù)據(jù)挖掘技術(shù)必將是一個(gè)融合眾多領(lǐng)的復(fù)合學(xué)科。當(dāng)今,我們已經(jīng)在逐漸使用人工智能與數(shù)據(jù)挖掘技術(shù),去攻克更多難題,解決更多問題,造福人類,改善生活,近在眼前。

作者:喻正夫 單位:漢江師范學(xué)院

參考文獻(xiàn):

[1]萬(wàn)璞,王麗莎.數(shù)據(jù)挖掘與人工智能技術(shù)研究[J].無(wú)線互聯(lián)科技,2016(10):113-114.

[2]王翔.試論如何利用大數(shù)據(jù)挖掘技術(shù)推動(dòng)人工智能繼續(xù)發(fā)展[J/OL].科技創(chuàng)新報(bào),2017,14(01).

[3]秦益文.微博數(shù)據(jù)挖掘中人工智能推理引擎的應(yīng)用[J].中小企業(yè)管理與科技(中旬刊),2017(02).

[4]蒲東齊.數(shù)據(jù)挖掘在人工智能上的應(yīng)用[J].信息與電腦(理論版),2016(19).

[5]李丹丹.數(shù)據(jù)挖掘技術(shù)及其發(fā)展趨勢(shì)[J].電腦應(yīng)用技術(shù),2007(02):38-40.

第2篇:數(shù)據(jù)挖掘技術(shù)研究范文

1.1數(shù)據(jù)電子化

要讓數(shù)據(jù)電子化,首先要搭建適用的網(wǎng)絡(luò)平臺(tái),網(wǎng)絡(luò)平臺(tái)的搭建分為2個(gè)過程。如果需要收集數(shù)據(jù),則需要搭建一個(gè)面向?qū)ο蟮木W(wǎng)絡(luò)平臺(tái)。在對(duì)大學(xué)生社會(huì)體系和人際關(guān)系的研究中,采用的是在WEB上自動(dòng)收集量表數(shù)據(jù),首先將量表轉(zhuǎn)換為匯編語(yǔ)言編寫的網(wǎng)頁(yè),再采用將量表轉(zhuǎn)換后的電子版網(wǎng)頁(yè)與數(shù)據(jù)庫(kù)中的表相連接,這樣,只要被試登錄指定網(wǎng)站,就可以在網(wǎng)上完成量表的填寫,數(shù)據(jù)則直接存入數(shù)據(jù)庫(kù)中。數(shù)據(jù)庫(kù)管理系統(tǒng)使用的是SQLServer2000,在網(wǎng)絡(luò)成癮和注意關(guān)系偏向的研究中,也采用了同樣的方法。如果對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行分析,則可以略過數(shù)據(jù)收集這個(gè)步驟,直接將數(shù)據(jù)輸入數(shù)據(jù)處理軟件中。在對(duì)于青少年同伴關(guān)系的研究中,創(chuàng)建了一個(gè)數(shù)據(jù)倉(cāng)庫(kù)來存放現(xiàn)有數(shù)據(jù),選用SQLServer2000作為數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建平臺(tái)。由于青少年同伴關(guān)系的研究中的維度不是太多,維度層次也不復(fù)雜,出于對(duì)查詢效率和使用者是否容易理解的角度考慮,決定使用星型結(jié)構(gòu)來創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù),青少年同伴關(guān)系研究的星型結(jié)構(gòu)。最后一種方法是直接將數(shù)據(jù)輸入SPSS中,這種方法這樣需要大量人力物力,而且效率難以提高,存在誤錄的可能。

1.2數(shù)據(jù)挖掘分析

將數(shù)據(jù)轉(zhuǎn)換為需要的電子文本格式以后,進(jìn)行簡(jiǎn)單的數(shù)據(jù)處理。在剔除了部分缺失或者明顯錯(cuò)誤的數(shù)據(jù)后,就可以進(jìn)行數(shù)據(jù)挖掘工作了。數(shù)據(jù)挖掘的常用算法為關(guān)聯(lián)規(guī)則挖掘、決策樹算法和聚類挖掘算法。在此選用關(guān)聯(lián)規(guī)則挖掘算法做詳細(xì)說明,在大學(xué)生社會(huì)網(wǎng)絡(luò)和人際關(guān)系研究中,選取被試人際關(guān)系滿意度為例進(jìn)行關(guān)聯(lián)規(guī)則挖掘。表1被試人際關(guān)系滿意度關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘的步驟如下:

①選擇數(shù)據(jù)根據(jù)關(guān)聯(lián)規(guī)則挖掘的目標(biāo),選擇如上表所示的屬性,通過下面的sql語(yǔ)句選擇數(shù)據(jù),并將jibenxinxi表和zongjie表通過學(xué)號(hào)連接起來。select性別,是否獨(dú)生子女,你對(duì)自己的人際關(guān)系滿意嗎,你對(duì)自己與父母的關(guān)系滿意嗎,你對(duì)自己與同伴的關(guān)系滿意嗎,你對(duì)自己與老師的關(guān)系滿意嗎,你認(rèn)為比較了解你的人會(huì)對(duì)你的人際關(guān)系給出一個(gè)怎樣的評(píng)價(jià),你對(duì)自己人際關(guān)系的關(guān)注程度f(wàn)romjibenxinxia,zongjiebwherea.學(xué)號(hào)=b.學(xué)號(hào);

②保存選擇的數(shù)據(jù):首先將第一步選擇的數(shù)據(jù)插入到一張表中,sql語(yǔ)句如下:insertintoguanlianguize1select性別,是否獨(dú)生子女,你對(duì)自己的人際關(guān)系滿意嗎,你對(duì)自己與父母的關(guān)系滿意嗎,你對(duì)自己與同伴的關(guān)系滿意嗎,你對(duì)自己與老師的關(guān)系滿意嗎,你認(rèn)為比較了解你的人會(huì)對(duì)你的人際關(guān)系給出一個(gè)怎樣的評(píng)價(jià),你對(duì)自己人際關(guān)系的關(guān)注程度f(wàn)romjibenxinxia,zongjiebwherea.學(xué)號(hào)=b.學(xué)號(hào);

③構(gòu)造滿足關(guān)聯(lián)規(guī)則挖掘的事務(wù)數(shù)據(jù)庫(kù)在guanlianguize1表中增加一個(gè)屬性item,通過下面的sql語(yǔ)句給item賦值。注意各屬性的數(shù)據(jù)挖掘映射代碼如上表所示。新建表social_guanlian_1作為數(shù)據(jù)挖掘的事務(wù)數(shù)據(jù)庫(kù),導(dǎo)入item。Insertintosocial_guanlian_1(item)selectitemfromguanlianguize1以上關(guān)聯(lián)規(guī)則挖掘的結(jié)果,結(jié)果表明:對(duì)自己圖人際關(guān)系評(píng)價(jià)較高的大學(xué)生,同時(shí)對(duì)自己人際關(guān)系的滿意度也較高。對(duì)自己人際關(guān)系評(píng)價(jià)較低的大學(xué)生,同時(shí)對(duì)自己人際關(guān)系的滿意度也較低。對(duì)人際關(guān)系關(guān)注程度較低的同學(xué),人際關(guān)系滿意度也較低。這些數(shù)據(jù)之間是互相有關(guān)聯(lián)的,因此呼吁大學(xué)生多關(guān)注人際關(guān)系和人際交往的法則,有利于他們及早的認(rèn)識(shí)到自己在人際交往方面的不足,為以后步入社會(huì),創(chuàng)造更大的社會(huì)價(jià)值打好基礎(chǔ)。除此以外,對(duì)于教育學(xué)中的很多課題,例如青少年同伴關(guān)系的研究,網(wǎng)絡(luò)成癮與注意偏向關(guān)系的研究,學(xué)生成績(jī)的分析等等都可以用數(shù)據(jù)挖掘來進(jìn)行科學(xué)的數(shù)據(jù)分析,數(shù)據(jù)挖掘技術(shù)在教育學(xué)領(lǐng)域正發(fā)揮著越來越大的作用。

2結(jié)束語(yǔ)

第3篇:數(shù)據(jù)挖掘技術(shù)研究范文

關(guān)鍵詞:XML;半結(jié)構(gòu)化數(shù)據(jù)挖掘

中圖分類號(hào):TP311.13

隨著因特網(wǎng)的發(fā)展,數(shù)據(jù)信息來源種類逐漸增多,相應(yīng)的信息復(fù)雜性也在增加,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和處理方式已經(jīng)不能很好的滿足實(shí)際使用與研究的需求,XML作為一種半結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn),已經(jīng)開始被越來越廣泛的應(yīng)用,而對(duì)于此類結(jié)構(gòu)化數(shù)據(jù)的挖掘也為我們的日常研究提供了一個(gè)方向。

對(duì)于半結(jié)構(gòu)化數(shù)據(jù)源的挖掘不同于傳統(tǒng)的數(shù)據(jù)挖掘。傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)類型工整,數(shù)據(jù)結(jié)構(gòu)性很強(qiáng),為完全的結(jié)構(gòu)化數(shù)據(jù),因此對(duì)于此類數(shù)據(jù)處理較為簡(jiǎn)單,只需要按照其規(guī)律進(jìn)行分析即可。而對(duì)于半結(jié)構(gòu)化的數(shù)據(jù)則因其表現(xiàn)形式的多樣性,所以對(duì)其挖掘要比對(duì)于單個(gè)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘要復(fù)雜。

1半結(jié)構(gòu)化數(shù)據(jù)

半結(jié)構(gòu)化數(shù)據(jù)有兩種,一種是指該數(shù)據(jù)在物理層面上缺少結(jié)構(gòu),另外一種是指該數(shù)據(jù)在邏輯層上缺少結(jié)構(gòu)。在現(xiàn)有的Web環(huán)境中,有一些結(jié)構(gòu)化的數(shù)據(jù),為了用于網(wǎng)頁(yè)頁(yè)面顯示而采用了與HTML語(yǔ)言標(biāo)記符號(hào)嵌套的方式,因此就構(gòu)成了第一種物理上的半結(jié)構(gòu)化數(shù)據(jù)。另外網(wǎng)絡(luò)中有眾多的Web頁(yè)面,頁(yè)面上有著豐富的數(shù)據(jù)內(nèi)容,這些數(shù)據(jù)大多都以HTML文件的方式存在,并沒有嚴(yán)格的結(jié)構(gòu)和類型定義,這樣的數(shù)據(jù)都屬于第二類的邏輯層的半結(jié)構(gòu)化數(shù)據(jù)。網(wǎng)絡(luò)頁(yè)面上的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)不同,傳統(tǒng)數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)都有一定的數(shù)據(jù)模型,每個(gè)特定的數(shù)據(jù)都可以根據(jù)模型來進(jìn)行描述,而網(wǎng)絡(luò)頁(yè)面上的數(shù)據(jù)很復(fù)雜,并且不能按照特定的模型進(jìn)行描述,每一個(gè)站點(diǎn)的數(shù)據(jù)都遵循其獨(dú)立的設(shè)計(jì)規(guī)則,并且它的數(shù)據(jù)本身具有自我描述的特性和動(dòng)態(tài)的可變性。因此網(wǎng)絡(luò)頁(yè)面上的數(shù)據(jù)具有一定的結(jié)構(gòu)性,但是其因?yàn)榫哂凶允鰧哟蔚拇嬖冢虼藢儆谝环N非完全結(jié)構(gòu)化的數(shù)據(jù),也稱為半結(jié)構(gòu)化數(shù)據(jù)。

2半結(jié)構(gòu)化數(shù)據(jù)的來源

(1)在Internet上因?yàn)閷?duì)所存儲(chǔ)的數(shù)據(jù)沒有嚴(yán)格模式的限制而產(chǎn)生的半機(jī)構(gòu)化數(shù)據(jù),常見的有HTML、XML、SGML等類型的文件。

(2)在電子郵件、電子商務(wù)文件、文獻(xiàn)資料等文件中,由于沒有嚴(yán)格的格式要求,所以存在著大量結(jié)構(gòu)與內(nèi)容不固定的半結(jié)構(gòu)化數(shù)據(jù)。

(3)在包含有異構(gòu)信息源集成的情況下,由于信息源集成范圍廣泛,對(duì)于信息源的存取范圍包括各類數(shù)據(jù)庫(kù)、電子圖書館、知識(shí)庫(kù)和文件系統(tǒng)等,因此也會(huì)產(chǎn)生半結(jié)構(gòu)化數(shù)據(jù)。

3半結(jié)構(gòu)化數(shù)據(jù)的幾個(gè)特點(diǎn)

(1)包含有隱藏的模式信息。雖然說半結(jié)構(gòu)化數(shù)據(jù)具有一定的結(jié)構(gòu),但是由于數(shù)據(jù)和結(jié)構(gòu)混合在一起,所以并沒有明顯的模式定義。

(2)結(jié)構(gòu)不規(guī)則。半結(jié)構(gòu)化數(shù)據(jù)的一個(gè)數(shù)據(jù)集合可以由不同結(jié)構(gòu)的元素組成,或者在某些情況下使用不同類型的數(shù)據(jù)來表示相同的信息。

(3)類型約束不嚴(yán)格。半結(jié)構(gòu)化數(shù)據(jù)由于沒有預(yù)先確定的表達(dá)模式,并且數(shù)據(jù)在結(jié)構(gòu)上沒有遵循相同的規(guī)則,因此會(huì)導(dǎo)致其缺乏對(duì)于數(shù)據(jù)的嚴(yán)格約束。

基于以上幾個(gè)半結(jié)構(gòu)化數(shù)據(jù)模型的特點(diǎn)可以看出半結(jié)構(gòu)化數(shù)據(jù)缺乏嚴(yán)格、完整的數(shù)據(jù)結(jié)構(gòu),但是這類數(shù)據(jù)并非沒有結(jié)構(gòu),但是它們的結(jié)構(gòu)可能是隱藏的、并不完整的,并且可能是需要不斷進(jìn)行修改的。

半結(jié)構(gòu)化數(shù)據(jù)的模式與以往的關(guān)系數(shù)據(jù)模式或者面向?qū)ο蟮臄?shù)據(jù)模式最大的區(qū)別在于半結(jié)構(gòu)化數(shù)據(jù)是現(xiàn)有數(shù)據(jù)然后再有模式。不對(duì)數(shù)據(jù)的結(jié)構(gòu)進(jìn)行強(qiáng)制性的約束,只需要描述出數(shù)據(jù)的結(jié)構(gòu)信息,并且它只描述數(shù)據(jù)部分結(jié)構(gòu)的非精確模式,在應(yīng)用中隨著數(shù)據(jù)對(duì)象的不斷更新而動(dòng)態(tài)修改其描述,據(jù)此分析半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)特點(diǎn)和它所產(chǎn)生的原因,半結(jié)構(gòu)化數(shù)據(jù)源的挖掘是能夠?qū)崿F(xiàn)的。

半結(jié)構(gòu)化數(shù)據(jù)源挖掘技術(shù)首先要解決的是數(shù)據(jù)遠(yuǎn)模型及其查詢與集成的問題。要解決網(wǎng)頁(yè)頁(yè)面上的異構(gòu)數(shù)據(jù)的集成與查詢,就必須要有一個(gè)適當(dāng)?shù)哪P蛠韺?duì)這些數(shù)據(jù)進(jìn)行清晰的描述,因此如何創(chuàng)建這個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型就成為了解決問題的關(guān)鍵所在。首先我們需要定義一個(gè)半結(jié)構(gòu)化數(shù)據(jù)模型,其次我們還需要一種適用于此模型的半結(jié)構(gòu)化模型挖掘技術(shù)用來的從現(xiàn)有的數(shù)據(jù)中自動(dòng)挖掘半結(jié)構(gòu)化模型。對(duì)于網(wǎng)頁(yè)頁(yè)面數(shù)據(jù)的挖掘就必須以此半結(jié)構(gòu)化數(shù)據(jù)模型和半結(jié)構(gòu)化數(shù)據(jù)模型挖掘技術(shù)為手段來建立相應(yīng)的數(shù)據(jù)庫(kù)。

在針對(duì)多數(shù)據(jù)源的數(shù)據(jù)庫(kù)進(jìn)行半結(jié)構(gòu)化數(shù)據(jù)提取、表示和查詢的處理一般采用包裝的方式來進(jìn)行。首先把信息源的數(shù)據(jù)通過包裝轉(zhuǎn)換成為目標(biāo)數(shù)據(jù)庫(kù)所使用的格式和類型。同時(shí)處理過程中負(fù)責(zé)監(jiān)視的部分將自動(dòng)監(jiān)測(cè)信息中的數(shù)據(jù)變化,如果發(fā)現(xiàn)數(shù)據(jù)有變化則將這些變化上報(bào),這些變化經(jīng)過分析發(fā)現(xiàn)有新的數(shù)據(jù)源連接倉(cāng)庫(kù)系統(tǒng)或者信息源發(fā)生變化時(shí),那么系統(tǒng)就會(huì)把這些有變化的數(shù)據(jù)進(jìn)行過濾、匯總,并把這些信息源進(jìn)行匯總處理,并將收集到數(shù)據(jù)庫(kù)中。

此系統(tǒng)對(duì)半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理的過程中所面臨的主要問題就是如何將其轉(zhuǎn)化為更易于處理的結(jié)構(gòu)化信息。但是對(duì)這些半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行轉(zhuǎn)換的目標(biāo)是龐大的網(wǎng)頁(yè)頁(yè)面數(shù)據(jù)源,如果依靠人工手段針對(duì)每個(gè)數(shù)據(jù)源編寫相應(yīng)的轉(zhuǎn)換方式的話工作量非常代價(jià)。因此,我們需要一種能夠快速建造并且直至自動(dòng)維護(hù)的轉(zhuǎn)換工具。目前這類工具還不是很多,并且使用上并不十分完善。但是,隨著近年來XML及其應(yīng)用技術(shù)的發(fā)展為處理半結(jié)構(gòu)化數(shù)據(jù)提供了很好的工具和方法。

4XML有如下幾個(gè)特點(diǎn)

(1)XML語(yǔ)法具有嚴(yán)格的標(biāo)記規(guī)定;

(2)XML對(duì)于各元素之間的順序有著嚴(yán)格的先后順序,是按照相應(yīng)的解釋模式來排列的;

(3)XML中的元素可以包含有多個(gè)屬性值。基于以上幾個(gè)特點(diǎn),如今XML已經(jīng)成為正式規(guī)范,開發(fā)人員已經(jīng)開始使用XML格式的標(biāo)記和交換數(shù)據(jù)。XML在網(wǎng)頁(yè)數(shù)據(jù)挖掘中可以用于建立信息源層的數(shù)據(jù)集成,即構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)),也可以用于將信息處理結(jié)果以XML的形勢(shì)發(fā)往數(shù)據(jù)倉(cāng)庫(kù),也可以基于數(shù)據(jù)倉(cāng)庫(kù)將數(shù)據(jù)進(jìn)行挖掘和分析處理,還可以將半結(jié)構(gòu)化數(shù)據(jù)挖掘處理的結(jié)果送往應(yīng)用層。

基于XML的網(wǎng)頁(yè)頁(yè)面信息提取一般包括頁(yè)面捕獲、頁(yè)面預(yù)處理和半結(jié)構(gòu)化數(shù)據(jù)提取等方面。其中頁(yè)面捕獲有多種方法,一種是直接利用OCX控件,根據(jù)提供的入口參數(shù)URL來獲取頁(yè)面超文本內(nèi)容;另外一種是利用開發(fā)工具所提供的支持網(wǎng)頁(yè)文本獲取的功能接口來獲取。

XML為基于Web的應(yīng)用提供了強(qiáng)大的功能和廣泛的靈活性,它能為開發(fā)者帶來更多的好處,例如Web數(shù)據(jù)可以按照XML的格式進(jìn)行唯一性的表示,因此可以進(jìn)行更有意義的搜索。有了XML之后,搜索軟件可以不必了解每個(gè)數(shù)據(jù)庫(kù)都是如何構(gòu)建的。在使用XML之前由于每個(gè)數(shù)據(jù)庫(kù)描述數(shù)據(jù)的格式幾乎都不相同并且數(shù)據(jù)來源廣泛,所以針對(duì)不同來源數(shù)據(jù)進(jìn)行搜索幾乎是不可能的。但是XML語(yǔ)言能夠?qū)⒉煌瑏碓吹陌虢Y(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)合,相關(guān)應(yīng)用集成上可以使用中間層服務(wù)器對(duì)采集上來的半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,然后將處理后的數(shù)據(jù)發(fā)送到最終用戶或者其他服務(wù)器做進(jìn)一步的處理。

XML的豐富擴(kuò)展性和靈活性使它能夠描述不同類型應(yīng)用中的數(shù)據(jù),并且XML文檔因?yàn)槭菍?duì)象模式,因此它允許使用腳本或者其它程語(yǔ)言進(jìn)行數(shù)據(jù)處理,數(shù)據(jù)計(jì)算不需要返回到服務(wù)器就可以操作。在Web中XML可以被用來分離使用者瀏覽的數(shù)據(jù)頁(yè)面,可以用簡(jiǎn)單靈活和開放的格式為Web創(chuàng)建功能強(qiáng)大的云應(yīng)用,通過創(chuàng)建高效的云計(jì)算平臺(tái)來為用戶服務(wù),而以前此類軟件只能依靠高端數(shù)據(jù)庫(kù)來構(gòu)建。

5結(jié)束語(yǔ)

XML作為一種結(jié)構(gòu)化數(shù)據(jù)的工作也標(biāo)準(zhǔn),為廣大組織、開發(fā)者、網(wǎng)站和終端使用者提供了有利的條件,隨著XML作為WEB上進(jìn)行數(shù)據(jù)交換的一種標(biāo)準(zhǔn)方式的逐步發(fā)展,基于XML的半結(jié)構(gòu)化數(shù)據(jù)挖掘?qū)?huì)變得越來越輕松。

參考文獻(xiàn):

[1]李效東,顧毓清.基于DOM的Web信息提取[J].計(jì)算機(jī)學(xué)報(bào),2002(5):526-533.

[2]宋中山,曾廣平.基于XML的Web數(shù)據(jù)挖掘技術(shù)[J].中南民族大學(xué)學(xué)報(bào),2005(1):64-67.

第4篇:數(shù)據(jù)挖掘技術(shù)研究范文

關(guān)鍵字:數(shù)據(jù)挖掘技術(shù);計(jì)算機(jī);網(wǎng)絡(luò);病毒防御技術(shù)

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)02-0001-02

Abstract: In the computer network virus prevention technology, with respect to the application of data mining technology can quickly within its geographical scope of the data collected classification, so as to provide a reference for computer virus-related information determination. In this paper, the analysis of data mining techniques in computer network virus defense techniques.

Key words: data mining technology; computers; networks; virus defense technology

隨著社會(huì)的進(jìn)步,計(jì)算機(jī)技術(shù)迅速發(fā)展革新,人們已經(jīng)進(jìn)入暫新的網(wǎng)絡(luò)時(shí)代,但與此同時(shí),伴隨著計(jì)算機(jī)技術(shù)的發(fā)展,與計(jì)算機(jī)網(wǎng)絡(luò)一直都存在密切關(guān)系的計(jì)算機(jī)網(wǎng)絡(luò)病毒技術(shù)也保持著同步發(fā)展,甚至推進(jìn)到更高水平,給計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)安全造成極大的威脅,同時(shí)給廣大計(jì)算機(jī)網(wǎng)絡(luò)用戶帶來很大損失,因此,計(jì)算機(jī)網(wǎng)絡(luò)病毒防御技術(shù)一直是人們比較關(guān)注的問題。數(shù)據(jù)挖掘技術(shù)是一種新型計(jì)算機(jī)技術(shù),用于計(jì)算機(jī)網(wǎng)絡(luò)病毒的防御系統(tǒng)中可以有效的解決目前發(fā)展猖獗的蠕蟲病毒,進(jìn)一步保障計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)的安全。

1 計(jì)算機(jī)網(wǎng)絡(luò)病毒特點(diǎn)

第一,計(jì)算機(jī)網(wǎng)絡(luò)病毒種類的多樣性。計(jì)算機(jī)網(wǎng)絡(luò)病毒的設(shè)計(jì)和開發(fā)沒有太大難度,簡(jiǎn)單的幾個(gè)程序編寫指令就可以開發(fā)設(shè)計(jì)出各種各樣的網(wǎng)絡(luò)病毒,尤其是對(duì)于一些技術(shù)水平比較高的程序編寫員來講,很容易就可以完成計(jì)算機(jī)網(wǎng)絡(luò)病毒程序的編寫和修改,而且網(wǎng)絡(luò)病毒的種類增長(zhǎng)和繁殖速度特別快[1]。

第二,計(jì)算機(jī)網(wǎng)絡(luò)病毒傳播形式的多樣性。計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)的傳播形式有很多種,網(wǎng)絡(luò)病毒在網(wǎng)絡(luò)系統(tǒng)漏洞中的傳播就是常見的一種病毒傳播方式,計(jì)算機(jī)網(wǎng)絡(luò)病毒程序通過對(duì)Internet 遠(yuǎn)程主機(jī)系統(tǒng)的搜索和掃描,利用系統(tǒng)漏洞到達(dá)控制對(duì)方計(jì)算機(jī)的控制。同時(shí)也有一種病毒通過對(duì)文件夾的搜索掃描,進(jìn)行病毒復(fù)制,以到達(dá)入侵網(wǎng)絡(luò)系統(tǒng)的目的。

第三,計(jì)算機(jī)網(wǎng)絡(luò)病毒的針對(duì)性。在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)發(fā)展初期,計(jì)算機(jī)網(wǎng)絡(luò)病毒主要目標(biāo)就是干擾網(wǎng)絡(luò)技術(shù)人員的程序編寫,隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,計(jì)算機(jī)網(wǎng)絡(luò)病毒的開發(fā)技術(shù)和功能作用也發(fā)生了很多變化,如今,計(jì)算機(jī)網(wǎng)絡(luò)病毒的設(shè)計(jì)和開發(fā)已經(jīng)開始商業(yè)化,針對(duì)性的對(duì)計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)實(shí)施破壞,如通過盜用網(wǎng)銀賬號(hào)和密碼等方式已到達(dá)非法獲取利益的目的。

2 數(shù)據(jù)挖掘技術(shù)的基本認(rèn)識(shí)

數(shù)據(jù)挖掘技術(shù)是通過對(duì)所處一定范圍之內(nèi)的所有數(shù)據(jù)進(jìn)行數(shù)據(jù)收集、數(shù)據(jù)分類以及數(shù)據(jù)歸類,進(jìn)而來判斷是否存在某種潛在的關(guān)系和數(shù)據(jù)規(guī)律,主要環(huán)節(jié)有3個(gè):第一個(gè)是準(zhǔn)備數(shù)據(jù);第二個(gè)是尋找數(shù)據(jù)存在的規(guī)律;第三個(gè)是表現(xiàn)數(shù)據(jù)規(guī)律。數(shù)據(jù)挖掘技術(shù)的基本應(yīng)用結(jié)構(gòu)如下圖所示:

數(shù)據(jù)挖掘模式設(shè)置好之后,技術(shù)系統(tǒng)中的挖掘引擎就會(huì)以數(shù)據(jù)庫(kù)中的要求為依據(jù),對(duì)準(zhǔn)備好的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)歸類,找出各個(gè)數(shù)據(jù)之間存在的關(guān)系和相應(yīng)的數(shù)據(jù)規(guī)律,以便成為之后數(shù)據(jù)分析的有利依據(jù),數(shù)據(jù)挖掘步技術(shù)是比較全面的挖掘技術(shù)和數(shù)據(jù)應(yīng)用技術(shù),工作過程比較繁雜,工作操作步驟較多,其中存在很大部分的準(zhǔn)備環(huán)節(jié)和規(guī)劃工作,數(shù)據(jù)挖掘技術(shù)的重點(diǎn)工作是對(duì)數(shù)據(jù)的預(yù)處理階段,對(duì)數(shù)據(jù)的預(yù)處理階段是數(shù)據(jù)挖掘技術(shù)的基礎(chǔ),是后期的進(jìn)行數(shù)據(jù)分析的必要條件[2]。

3 數(shù)據(jù)挖掘技術(shù)下的計(jì)算機(jī)網(wǎng)絡(luò)病毒防御技術(shù)

3.1 數(shù)據(jù)挖掘技術(shù)的構(gòu)成分析

在計(jì)算機(jī)網(wǎng)絡(luò)病毒進(jìn)行傳播的時(shí)候,為了給數(shù)據(jù)挖掘技術(shù)提供相應(yīng)的數(shù)據(jù)依據(jù),需要對(duì)有關(guān)數(shù)據(jù)進(jìn)行掃描,可以對(duì)網(wǎng)絡(luò)用戶方面數(shù)據(jù)進(jìn)行掃描,也可以對(duì)系統(tǒng)數(shù)據(jù)進(jìn)行掃描。數(shù)據(jù)挖掘技術(shù)在計(jì)算機(jī)網(wǎng)絡(luò)病毒防御中的應(yīng)用過程比較復(fù)雜,步驟繁多,為了便于日常操作應(yīng)用,掌握每個(gè)環(huán)節(jié)的基本特征,可以對(duì)預(yù)處理模塊、決策模塊、數(shù)據(jù)收集模塊、數(shù)據(jù)挖掘模塊以及規(guī)則庫(kù)模塊進(jìn)行分模塊分析研究。基于數(shù)據(jù)挖掘技術(shù)的計(jì)算機(jī)網(wǎng)絡(luò)病毒防御流程如下圖所示:

3.1.1 數(shù)據(jù)預(yù)處理模塊分析

簡(jiǎn)化數(shù)據(jù)挖掘技術(shù)中數(shù)據(jù)挖掘和數(shù)據(jù)分析之間的處理操作可以通過數(shù)據(jù)預(yù)處理模塊來實(shí)現(xiàn),利用數(shù)據(jù)預(yù)處理模塊可以整體上提高數(shù)據(jù)挖掘效果,提高數(shù)據(jù)辨識(shí)度和準(zhǔn)確度。在完成數(shù)據(jù)收集后需要把數(shù)據(jù)導(dǎo)入到預(yù)處理模塊,實(shí)現(xiàn)數(shù)據(jù)的分析歸類和數(shù)據(jù)變換,通過這樣額方式把數(shù)據(jù)轉(zhuǎn)換成可以被系統(tǒng)識(shí)別和處理的數(shù)據(jù)內(nèi)容。以目標(biāo) IP地址、源 IP地址、端口信息等這些據(jù)數(shù)據(jù)包當(dāng)中所包括的信息內(nèi)容為依據(jù),實(shí)施數(shù)據(jù)集合、數(shù)據(jù)歸納、數(shù)據(jù)處理等流程等[3]。

3.1.2 決策模塊分析

在數(shù)據(jù)挖掘技術(shù)中的決策功能模塊中,通過對(duì)數(shù)據(jù)的挖掘?qū)?shù)據(jù)庫(kù)進(jìn)行構(gòu)建,然后對(duì)數(shù)據(jù)進(jìn)行匹配,同時(shí)數(shù)據(jù)庫(kù)還要和規(guī)則庫(kù)密切聯(lián)系起來。如果數(shù)據(jù)庫(kù)有與規(guī)則庫(kù)存在高度聯(lián)系的信息出現(xiàn),證明在決策模塊里有病毒特征存在,很可能會(huì)感染到計(jì)算機(jī)病毒。如果是結(jié)果數(shù)據(jù)庫(kù)的數(shù)據(jù)信息和規(guī)則庫(kù)的數(shù)據(jù)不能相互匹配,那也就是說該數(shù)據(jù)包中存在有帶有新型特征病的毒帶,也就是出現(xiàn)了新型的規(guī)則類,這樣的情況下就需要把該帶有新型特征的病毒導(dǎo)入到系統(tǒng)的規(guī)則庫(kù)當(dāng)中,規(guī)則庫(kù)的一種較新型的規(guī)則類別也就形成了。

3.1.3 數(shù)據(jù)收集模塊分析

實(shí)現(xiàn)數(shù)據(jù)挖掘的基本要求是提供充分的數(shù)據(jù)信息,只有通過數(shù)據(jù)收集才能實(shí)現(xiàn)數(shù)據(jù)收集模塊的功能。數(shù)據(jù)收集模塊通過對(duì)計(jì)算機(jī)網(wǎng)絡(luò)中數(shù)據(jù)包的抓取和收集來實(shí)現(xiàn)數(shù)據(jù)信息,數(shù)據(jù)信息被收集后就會(huì)具有一定的數(shù)據(jù)結(jié)構(gòu)和比較重要的功能信息。

3.1.4 數(shù)據(jù)挖掘模塊分析

數(shù)據(jù)挖掘技術(shù)的一個(gè)最關(guān)鍵部分就是數(shù)據(jù)挖掘模塊。數(shù)據(jù)挖掘模塊中的事件庫(kù)和數(shù)據(jù)挖掘算法是數(shù)據(jù)挖掘模塊的關(guān)鍵部分。數(shù)據(jù)挖掘?qū)ο嚓P(guān)數(shù)據(jù)的收集構(gòu)成了事件庫(kù),通過對(duì)事件庫(kù)中數(shù)據(jù)的分類和數(shù)據(jù)整理,進(jìn)而可以獲取較為準(zhǔn)確的數(shù)據(jù)結(jié)構(gòu)。

3.2 以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ)的網(wǎng)絡(luò)病毒防御系統(tǒng)

3.2.1 數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則分析

數(shù)據(jù)挖掘技術(shù)的關(guān)聯(lián)規(guī)則就是指在同一類別的數(shù)據(jù)中有可以被發(fā)現(xiàn)的知識(shí)存在,通過對(duì)兩個(gè)或者超過兩個(gè)的變量進(jìn)行取值,如果發(fā)現(xiàn)數(shù)據(jù)具體一定規(guī)律的話說明這些數(shù)據(jù)和數(shù)據(jù)之間存在著某種關(guān)聯(lián)性。因果關(guān)聯(lián)、及時(shí)序關(guān)聯(lián)以及簡(jiǎn)單關(guān)聯(lián)是存在數(shù)據(jù)挖掘技術(shù)中的幾種主要關(guān)聯(lián)關(guān)系。要找到數(shù)據(jù)庫(kù)中的關(guān)聯(lián)網(wǎng),就需要進(jìn)行關(guān)聯(lián)分析,然后結(jié)合數(shù)據(jù)和數(shù)據(jù)之間的關(guān)聯(lián)性進(jìn)行數(shù)據(jù)挖掘,進(jìn)而得到數(shù)據(jù)和數(shù)據(jù)存在的關(guān)聯(lián)規(guī)則。

3.2.2 數(shù)據(jù)挖掘技術(shù)中的聚類分析

根據(jù)數(shù)據(jù)的不同特點(diǎn)和類別,對(duì)所獲取的數(shù)據(jù)進(jìn)行分解,把它們分成多個(gè)不同的組別,各組數(shù)據(jù)之間在特征上都存在不同程度的相似之處,而且每組數(shù)據(jù)同時(shí)又存在著各種不同特征。系統(tǒng)對(duì)所有數(shù)據(jù)進(jìn)行聚類之后,就可以發(fā)現(xiàn)并識(shí)別出整個(gè)系統(tǒng)數(shù)據(jù)分布的疏密情況,這樣不僅可以呈現(xiàn)出組與組之間數(shù)據(jù)存在的聯(lián)系,同時(shí)也可以對(duì)全局的分布模式有所體現(xiàn)。

3.2.3 數(shù)據(jù)挖掘技術(shù)中的分類分析

對(duì)個(gè)體進(jìn)行分類并歸類到預(yù)先設(shè)定的類別當(dāng)中就是分類分析。分類的目的就是通過對(duì)各種各樣的機(jī)器學(xué)習(xí)方法和各種統(tǒng)計(jì)方法的利用,建立數(shù)據(jù)的分類模型,進(jìn)而把數(shù)據(jù)庫(kù)中存在的所有數(shù)據(jù)按照一定的規(guī)律劃分成各個(gè)類別,然后依據(jù)這個(gè)分類規(guī)則結(jié)果實(shí)現(xiàn)對(duì)其他數(shù)據(jù)的分析和歸類。

4 結(jié)束語(yǔ)

計(jì)算機(jī)網(wǎng)絡(luò)已經(jīng)很大程度上滲透入人們的生活和工作當(dāng)中,徹底改變了人們的生活和工作方式,同時(shí)也促進(jìn)了計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的進(jìn)一步發(fā)展,但面對(duì)無(wú)法徹底避免的計(jì)算機(jī)網(wǎng)絡(luò)病毒,大家一定要提高網(wǎng)絡(luò)系統(tǒng)安全意識(shí),把這場(chǎng)抵制計(jì)算機(jī)網(wǎng)絡(luò)病毒入侵的持久戰(zhàn)堅(jiān)持下去。

參考文獻(xiàn):

[1] 李智勇. 數(shù)據(jù)挖掘在計(jì)算機(jī)網(wǎng)絡(luò)病毒防御中的應(yīng)用探究[J]. 電子測(cè)試, 2014 (12): 46-48.

第5篇:數(shù)據(jù)挖掘技術(shù)研究范文

【關(guān)鍵詞】WEB數(shù)據(jù)挖掘技術(shù) 網(wǎng)絡(luò)營(yíng)銷 應(yīng)用

網(wǎng)絡(luò)營(yíng)銷是在電子商務(wù)發(fā)展下孕育而生的一種集市場(chǎng)營(yíng)銷和現(xiàn)代信息技術(shù)為一體的新型市場(chǎng)營(yíng)銷模式。網(wǎng)絡(luò)營(yíng)銷主要是依托互聯(lián)網(wǎng)和計(jì)算機(jī)信息技術(shù),將營(yíng)銷者與客戶之間的交易、交流行為實(shí)現(xiàn)信息化,而這其中則會(huì)產(chǎn)生大量的頻繁數(shù)據(jù)交換,再加之這些數(shù)據(jù)的種類較為分散,如何能夠有效的管理與應(yīng)用這些數(shù)據(jù)便成為網(wǎng)絡(luò)營(yíng)銷者必須關(guān)注的問題。在本文研究中,筆者首先闡述看關(guān)于網(wǎng)絡(luò)營(yíng)銷及WEB挖掘的基本理論知識(shí)以及技術(shù)原理,并就網(wǎng)絡(luò)營(yíng)銷中的Web挖掘應(yīng)用技術(shù)及具體應(yīng)用方法進(jìn)行全面的探討分析。

一、網(wǎng)絡(luò)營(yíng)銷和WEB數(shù)據(jù)挖掘技術(shù)的概念及類型

(一)網(wǎng)絡(luò)營(yíng)銷概述

網(wǎng)絡(luò)營(yíng)銷是近幾年來產(chǎn)生的一個(gè)新興名詞,其是指企業(yè)在市場(chǎng)營(yíng)銷過程中利用計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)實(shí)現(xiàn)有效信息的獲取、處理與利用,在此基礎(chǔ)上制定有效的市場(chǎng)營(yíng)銷策略,從而實(shí)現(xiàn)市場(chǎng)營(yíng)銷工作。

通過網(wǎng)絡(luò)實(shí)施營(yíng)銷可讓企業(yè)降低運(yùn)營(yíng)成本,提升企業(yè)的市場(chǎng)占有率,降低了市場(chǎng)壁壘,尤其對(duì)與中小企業(yè)而言可以利用低成本營(yíng)銷而平等的進(jìn)入國(guó)內(nèi)、國(guó)際市場(chǎng)。對(duì)于企業(yè)惡言,網(wǎng)絡(luò)營(yíng)銷增加了企業(yè)與客戶之間的雙向互動(dòng)交流頻率,而對(duì)于消費(fèi)者而言,通過互聯(lián)網(wǎng)平臺(tái)不僅擴(kuò)大了商品選擇的空間個(gè)獲得更加低廉的價(jià)格,而且滿足了更加便捷的購(gòu)物需求。

(二)WEB挖掘概述

WEB挖掘?qū)儆谑抢脭?shù)據(jù)挖掘技術(shù)在獲取WEB活動(dòng)文檔中的隱藏信息或者具有應(yīng)用價(jià)值的潛在應(yīng)用模式。WEB挖掘技術(shù)主要通過WWW資源、頁(yè)面的超鏈接結(jié)構(gòu)、Web頁(yè)面內(nèi)容以及用戶訪問信息等數(shù)據(jù)信息,利用歸納學(xué)習(xí)與統(tǒng)計(jì)分析方法獲取數(shù)據(jù)對(duì)象間的內(nèi)在特征。利用WEB挖掘可以發(fā)現(xiàn)更多的潛在的有趣應(yīng)用模式或者其他隱藏信息資源,并在信息過濾技術(shù)的輔助下讓客戶獲得更高層次的規(guī)律與知識(shí)。

根據(jù)相關(guān)技術(shù)原理,現(xiàn)將WEB挖掘技術(shù)分為以下三大類:

1.WEB結(jié)構(gòu)挖掘。WEB挖掘中的結(jié)構(gòu)挖掘是指利用Web組織結(jié)構(gòu)之間的鏈接關(guān)系而計(jì)算出網(wǎng)頁(yè)結(jié)構(gòu)中的有用模式。在大量的Web超鏈接信息中為Web頁(yè)面提供了相關(guān)聯(lián)的結(jié)構(gòu)與質(zhì)量方面信息資源,其能夠集中反映出文檔之間的引用、從屬及包含關(guān)系,另外通過分析Web文檔之間的超鏈接結(jié)構(gòu),還可發(fā)現(xiàn)網(wǎng)頁(yè)結(jié)構(gòu)中的有用模式,從而有利于找到權(quán)威頁(yè)面。在WEB結(jié)構(gòu)挖掘領(lǐng)域,應(yīng)用最多的算法是Page Rank和HITS算法,兩者都是通過使用一定的計(jì)算方法而獲得Web頁(yè)面之間超鏈接的質(zhì)量,例如:Google搜索引擎便是應(yīng)用此類計(jì)算方法[1]。

2.WEB使用挖掘。WEB挖掘中的使用挖掘是對(duì)網(wǎng)頁(yè)中的相應(yīng)站點(diǎn)數(shù)據(jù)和日志文件實(shí)施挖掘,以此來追尋相應(yīng)站點(diǎn)的訪問者的行為模式。由于在網(wǎng)頁(yè)資源中擁有大量的復(fù)雜、異質(zhì)信息,而每一個(gè)信息資源在服務(wù)器上都存在一個(gè)結(jié)構(gòu)化的Web訪問日志,當(dāng)網(wǎng)頁(yè)資源訪問者提出請(qǐng)求之后服務(wù)器將自動(dòng)將行動(dòng)數(shù)據(jù)記錄在訪問日志上。因此,分析不同的Web站點(diǎn)的訪問日志,則有利人們掌握WEB結(jié)構(gòu)以及客戶的行為動(dòng)態(tài),這樣有助于提升網(wǎng)站的工作效率。

3.WEB內(nèi)容挖掘。WEB挖掘中的內(nèi)容挖掘主要是收集有用的Web信息資源(如:數(shù)據(jù)、內(nèi)容、文檔等)。Web中含有不同在種類的信息資源,目前網(wǎng)絡(luò)信息資源的來源基本上都是來自于WWW 信息資源之中,這其中除了部分人們可以直接搜索、抓取以及實(shí)現(xiàn)服務(wù)的資源以外,還有部分資源是無(wú)法被索引的隱藏?cái)?shù)據(jù),因此便需要應(yīng)用WEB挖掘技術(shù)將其挖掘出來。

二、網(wǎng)絡(luò)營(yíng)銷中的WEB挖掘技術(shù)分析

(一)路徑分析技術(shù)

實(shí)施Web數(shù)據(jù)挖掘,其所需要的路徑分析技術(shù)主要是通過對(duì)Web服務(wù)器的日志文件中訪問頻繁的路徑等其他相關(guān)路徑信息進(jìn)行判定,利用這些信息再對(duì)網(wǎng)站及頁(yè)面的設(shè)計(jì)結(jié)構(gòu)進(jìn)行不斷的完善和改進(jìn)。利用路徑分析技術(shù)實(shí)現(xiàn)數(shù)據(jù)挖掘必須經(jīng)過三個(gè)基本步驟[2],即:首先通過瀏覽過程中產(chǎn)生的站點(diǎn)所形成的序列來構(gòu)成原始路徑;其次是獲取最大引用序列;最后是確定最大引用序列。

(二)聚類技術(shù)

對(duì)于Web數(shù)據(jù)挖掘中的聚類技術(shù),其是將Web訪問信息數(shù)據(jù)中一些具有相似特征的數(shù)據(jù)項(xiàng)、訪問者信息等進(jìn)行集合,然后運(yùn)用隱式或顯式等方式來對(duì)不同的類別資源進(jìn)行描述。在實(shí)踐操作中,聚類分析在對(duì)數(shù)據(jù)分布分析時(shí)可單獨(dú)作為一個(gè)相對(duì)獨(dú)立的工具來集中觀察、分析每一個(gè)類型的特點(diǎn),具體來說就是幫助企業(yè)通過分析客戶數(shù)據(jù)庫(kù)而發(fā)現(xiàn)一些不同的客戶群,并通過運(yùn)用消費(fèi)模式來描述出這些不同客戶群的基本特征,從而幫助企業(yè)能夠更好的了解客戶,保障自己的服務(wù)能夠最大限度的滿足客戶需求。

(三)分類分析技術(shù)

在數(shù)據(jù)挖掘中利用分類分析技術(shù)可通過詳細(xì)分析示例數(shù)據(jù)并準(zhǔn)確描述不同類別或者建立分析模型,然后在利用這個(gè)分析模型對(duì)其他數(shù)據(jù)進(jìn)行細(xì)化分類。分類分析技術(shù)在網(wǎng)絡(luò)營(yíng)銷中是使用較多的應(yīng)用技術(shù)之一,其能夠利用分類自動(dòng)推導(dǎo)而對(duì)相關(guān)數(shù)據(jù)進(jìn)行相關(guān)的推廣描述,以此來預(yù)測(cè)未來的數(shù)據(jù)發(fā)展趨勢(shì)。

(四)關(guān)聯(lián)規(guī)則挖掘技術(shù)

WEB挖掘技術(shù)中的關(guān)聯(lián)分析主要是利用同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性來挖掘其中所隱藏在數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則。在網(wǎng)絡(luò)營(yíng)銷活動(dòng)中,關(guān)聯(lián)分析主要是用于找尋客戶對(duì)網(wǎng)站中各種文件之間訪問現(xiàn)象的相互聯(lián)系,從而總結(jié)分析出客戶購(gòu)買行為的關(guān)聯(lián)因素[3]。通過在Web上實(shí)施數(shù)據(jù)挖掘,以此來構(gòu)建一個(gè)關(guān)聯(lián)模型,這樣我們便可以更換的優(yōu)化組織站點(diǎn),降低客戶過濾信息頻率,并根據(jù)客戶的購(gòu)買行為而為客戶提供一定的推薦服務(wù)。

三、WEB數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)營(yíng)銷中的具體應(yīng)用

(一)有利于確定網(wǎng)絡(luò)營(yíng)銷目標(biāo)

實(shí)施有效的市場(chǎng)營(yíng)銷活動(dòng)前首要的工作是確定市場(chǎng)營(yíng)銷目標(biāo),而這需要經(jīng)過三個(gè)既定步驟——細(xì)化目標(biāo)市場(chǎng)、選定目標(biāo)市場(chǎng)、定位目標(biāo)市場(chǎng)。在網(wǎng)絡(luò)營(yíng)銷活動(dòng)中,企業(yè)確定目標(biāo)市場(chǎng)前必須對(duì)于商品目標(biāo)的應(yīng)用、銷售市場(chǎng)進(jìn)行細(xì)分,也就是考察商品的市場(chǎng)吸引力、企業(yè)自身的商品營(yíng)銷經(jīng)驗(yàn)及未來發(fā)展目標(biāo)等等,通過上述細(xì)分之后確定商品目標(biāo)市場(chǎng),最后在此基礎(chǔ)上定位目標(biāo)市場(chǎng)。如果企業(yè)在網(wǎng)絡(luò)營(yíng)銷中應(yīng)用Web 挖掘技術(shù)確定市場(chǎng)營(yíng)銷目標(biāo),其可以迅速對(duì)客戶數(shù)據(jù)進(jìn)行綜合分析,并自動(dòng)對(duì)各個(gè)層次的市場(chǎng)實(shí)施細(xì)分,形成一個(gè)詳細(xì)的目標(biāo)市場(chǎng)分類數(shù)據(jù)資料庫(kù),從而為企業(yè)定位目標(biāo)市場(chǎng)提供真實(shí)、有效的數(shù)據(jù)依據(jù)。

(二)構(gòu)建市場(chǎng)營(yíng)銷情報(bào)系統(tǒng)

為了降低市場(chǎng)營(yíng)銷活動(dòng)的風(fēng)險(xiǎn),在此之前一般都需要收集大量的市場(chǎng)營(yíng)銷信息來對(duì)目標(biāo)市場(chǎng)進(jìn)行細(xì)致分析。網(wǎng)絡(luò)營(yíng)銷主要是通過Internet來獲取大量的相關(guān)聯(lián)信息資源,利用WEB數(shù)據(jù)挖掘技術(shù)可收集大量有效的市場(chǎng)營(yíng)銷情報(bào),例如:對(duì)企業(yè)營(yíng)銷中所需要的政策法規(guī)、行業(yè)技術(shù)、市場(chǎng)環(huán)境、競(jìng)爭(zhēng)對(duì)手、國(guó)際行情等動(dòng)態(tài)信息進(jìn)行全面收集整理,并建立全面的營(yíng)銷情況系統(tǒng),這樣有助于企業(yè)及時(shí)掌握市場(chǎng)、行業(yè)等發(fā)展新情況,制定并執(zhí)行具有針對(duì)性的營(yíng)銷策略,保證企業(yè)在市場(chǎng)營(yíng)銷中擁有絕對(duì)的主動(dòng)權(quán)[4]。

(三)數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用

1.延長(zhǎng)客戶駐留時(shí)間。通過網(wǎng)絡(luò)平臺(tái)實(shí)施營(yíng)銷活動(dòng),消除了銷售企業(yè)與客戶之間存在的空間距離,在Internet平臺(tái)上所有銷售企業(yè)相對(duì)于客戶而言都是一樣的。商家為了能夠讓訪問者盡量對(duì)在自己網(wǎng)站上駐留,都需要通過技術(shù)手段分析訪問者的瀏覽行為,也就是掌握訪問者的愛好或者需求,這樣有助于商家及時(shí)根據(jù)訪問者的行為動(dòng)態(tài)調(diào)整頁(yè)面設(shè)計(jì)和推薦商品信息,更新部分訪問者敢興趣的商品信息,一方面能夠滿足訪問者的需求,更重要的是能夠最大限度的延長(zhǎng)訪問者的駐留時(shí)間。

2.挖掘潛在客戶。企業(yè)通過對(duì)Web日志記錄中的訪問規(guī)律進(jìn)行分析,根據(jù)訪問者的相關(guān)信息資源進(jìn)行科學(xué)分類,并確定訪問者分類的關(guān)鍵屬性及相互之間的關(guān)聯(lián)。如果有新的訪問者,則可在Web分類中識(shí)別出與已分類訪問者之間存在的一些公共描述,然后再對(duì)這些新訪問者進(jìn)行正確分類,最后從新訪問者的分類判斷中決定是否將其作為潛在客戶來對(duì)待[5]。如果將其作為潛在客戶對(duì)象,則可給予該客戶提供一些個(gè)性化的特殊頁(yè)面內(nèi)容,從而吸引客戶的注意力,激發(fā)客戶的消費(fèi)欲望。

(四)促進(jìn)優(yōu)化站點(diǎn)設(shè)計(jì)

在超市中我們經(jīng)常會(huì)發(fā)現(xiàn)他們將有關(guān)聯(lián)的物品放在一起,這樣有助于提升商品的銷售業(yè)績(jī),而在網(wǎng)絡(luò)營(yíng)銷中的Web站點(diǎn)結(jié)構(gòu)也是類似的,在瀏覽模式的設(shè)計(jì)過程中需要依據(jù)大部分訪問者的瀏覽習(xí)慣來安排、鏈接頁(yè)面內(nèi)容;若部分頁(yè)面訪問頻率較大時(shí)則可適當(dāng)增加頁(yè)面鏈接,這樣方便訪問者順暢瀏覽頁(yè)面;在訪問較為頻繁的頁(yè)面上放置重要商品信息,吸引客戶的注意力及商品的影響力,從而提升營(yíng)銷業(yè)績(jī)。

四、結(jié)語(yǔ)

網(wǎng)絡(luò)營(yíng)銷模式屬于是現(xiàn)代市場(chǎng)營(yíng)銷進(jìn)入數(shù)字化時(shí)代最有力的證明,隨著電子商務(wù)體系不斷成熟,網(wǎng)絡(luò)營(yíng)銷必將成為未來社會(huì)營(yíng)銷領(lǐng)域中一種新的發(fā)展潮流與趨勢(shì)。在網(wǎng)絡(luò)營(yíng)銷活動(dòng)中,Web數(shù)據(jù)挖掘技術(shù)有助于企業(yè)預(yù)測(cè)市場(chǎng)發(fā)展趨勢(shì)、客戶消費(fèi)動(dòng)態(tài),進(jìn)一步挖掘有價(jià)值的潛在商業(yè)信息資源,從而幫助企業(yè)制定具有前瞻性的營(yíng)銷策略,保障企業(yè)能夠在激烈的競(jìng)爭(zhēng)環(huán)境中把握有利發(fā)展機(jī)遇。目前,國(guó)內(nèi)外學(xué)術(shù)界對(duì)Web挖掘技術(shù)展開了深入的研究,雖然尚未形成一個(gè)成熟的理論與應(yīng)用體系,但是隨著電子商務(wù)的不斷發(fā)展,Web挖掘技術(shù)必將擁有廣闊的發(fā)展空間。

參考文獻(xiàn)

[1]李巖.基于Web挖掘的專題性智能信息搜索工具關(guān)鍵技術(shù)研究[D].北京:北京科技大學(xué)信息工程學(xué)院,2003.

[2]石磊,王偉華等.Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用[A].信息時(shí)代—科技情報(bào)研究學(xué)術(shù)論文集(第三輯)[C];2008.

[3]朱凌云,趙韓,高先圣.Web挖掘在網(wǎng)絡(luò)營(yíng)銷中的應(yīng)用研究[J].情報(bào)雜志,2006.1.

[4]藺莉,潘浩.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].電腦知識(shí)與技術(shù),2010,(4):816-818.

[5]付泉.電子商務(wù)中數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用探討[J].科技廣場(chǎng),2007(3):114-116.

第6篇:數(shù)據(jù)挖掘技術(shù)研究范文

關(guān)鍵詞:工業(yè)大數(shù)據(jù);關(guān)聯(lián)規(guī)則;設(shè)備維護(hù);BP神經(jīng)網(wǎng)絡(luò)

1 概述

目前工業(yè)設(shè)計(jì)、生產(chǎn)制造等環(huán)節(jié)中引入了自動(dòng)化系統(tǒng),系統(tǒng)運(yùn)行積累了海量的數(shù)據(jù)資源,如何從海量數(shù)據(jù)中挖掘有價(jià)值、有用的信息,幫助工業(yè)生產(chǎn)作出正確的決策,已經(jīng)成為許多學(xué)者研究的熱點(diǎn)[1]。大數(shù)據(jù)挖掘分析可以從海量的、帶有噪聲數(shù)據(jù)的、不完全的數(shù)據(jù)記錄中發(fā)現(xiàn)隱含的模式,可以為工業(yè)數(shù)據(jù)挖掘提供契機(jī)。大數(shù)據(jù)挖掘可以使用相關(guān)的算法尋找隱藏的數(shù)據(jù)知識(shí),其功能主要包括關(guān)聯(lián)分析、聚類分析、分類預(yù)測(cè)、偏差檢測(cè)等[2]。

(1)關(guān)聯(lián)分析。工業(yè)系統(tǒng)運(yùn)行產(chǎn)生的大數(shù)據(jù)來源于設(shè)計(jì)、制造和生產(chǎn)等環(huán)節(jié),涉及各類型軟硬件設(shè)備,這些數(shù)據(jù)信息資源存在極大的關(guān)聯(lián)關(guān)系,比如簡(jiǎn)單關(guān)聯(lián)關(guān)系、時(shí)序關(guān)聯(lián)關(guān)系、設(shè)備-軟件關(guān)聯(lián)關(guān)系、日志操作關(guān)聯(lián)關(guān)系等。

(2)分類預(yù)測(cè)。應(yīng)用工業(yè)大數(shù)據(jù)的過程中,許多信息數(shù)據(jù)保存得較為繁亂,比如設(shè)備種類和數(shù)量多,設(shè)備購(gòu)置、維修、更換等運(yùn)行記錄保存日期、位置、版本較多,容易產(chǎn)生不一致。因此,分類預(yù)測(cè)可以根據(jù)工業(yè)企業(yè)管理人員的需求,引入貝葉斯理論等構(gòu)件一個(gè)分類算法,挖掘數(shù)據(jù)中相同類別的信息,這些類別可以是維修記錄、購(gòu)置記錄,也可以是時(shí)間內(nèi)容等,并且可以利用預(yù)測(cè)管理功能,預(yù)測(cè)設(shè)備運(yùn)行趨勢(shì)。

(3)聚類分析。工業(yè)大數(shù)據(jù)多是設(shè)備運(yùn)行自動(dòng)產(chǎn)生的數(shù)據(jù),相關(guān)子數(shù)據(jù)集缺乏詳細(xì)的描述信息,此時(shí)可以采用聚類分析方法,將數(shù)據(jù)劃分為多個(gè)簇,簇內(nèi)保持高度的相似性、同構(gòu)性,簇間保持較大的差別性,這就可以把相同類別的數(shù)據(jù)劃分到一組,不同類別的數(shù)據(jù)劃分到多個(gè)簇。

(4)偏差檢測(cè)。數(shù)據(jù)挖掘發(fā)現(xiàn)數(shù)據(jù)集中的離群點(diǎn)或異常數(shù)據(jù)是一個(gè)重要的功能,比如工業(yè)生產(chǎn)網(wǎng)絡(luò)安全監(jiān)測(cè),該功能被稱為偏差檢測(cè)。偏差檢測(cè)主要包括分類中的反常實(shí)例、例外模式、觀測(cè)結(jié)果對(duì)期望值存在的偏離以及量值可以隨時(shí)間的變化而變化。偏差檢測(cè)包括尋找觀察結(jié)果、參照之間的有意義差別,偏差分析的一個(gè)非常重要的特征是可以有效地過濾掉大量不感興趣的信息。

2 工業(yè)大數(shù)據(jù)挖掘分析技術(shù)及模式

工業(yè)生產(chǎn)引入自動(dòng)化系統(tǒng)始于第二次工業(yè)革命,隨著傳感器、移動(dòng)通信等技術(shù)的快速改進(jìn),工業(yè)生產(chǎn)正在向著密度更高、效率更高的綜合信息化運(yùn)行模式發(fā)展,引入了許多先進(jìn)的計(jì)算機(jī)系統(tǒng),這些系統(tǒng)運(yùn)行產(chǎn)生了海量的數(shù)據(jù)信息資源,導(dǎo)致了人們不能夠繼續(xù)使用傳統(tǒng)的生產(chǎn)模式,必須從多個(gè)方面和切入點(diǎn)進(jìn)行有效研究和發(fā)展,引入大數(shù)據(jù)挖掘分析技術(shù),一般實(shí)現(xiàn)工業(yè)生產(chǎn)科學(xué)管理,有效地控制生產(chǎn)設(shè)備,形成一個(gè)全過程生產(chǎn)模式[3]。目前,工業(yè)大數(shù)據(jù)挖掘分析技術(shù)包括多種技術(shù),最常用的包括K均值、BP神經(jīng)網(wǎng)絡(luò)、遺傳算法和貝葉斯理論等,可以從海量的流量數(shù)據(jù)中發(fā)掘潛在的有價(jià)值的信息,利用這些信息可以指導(dǎo)、創(chuàng)新工業(yè)生產(chǎn)管理模式,構(gòu)建一個(gè)大數(shù)據(jù)挖掘系統(tǒng)[4]。

(1)基于K均值算法構(gòu)建聚類分析模式。K均值是常用的主流聚類分析算法,使用工業(yè)數(shù)據(jù)之前,許多用戶不知道期望的目標(biāo),并且無(wú)法獲取更多的數(shù)據(jù)應(yīng)用背景知識(shí),因此可以利用K均值算法構(gòu)建一個(gè)自動(dòng)聚類分析的大數(shù)據(jù)模式,比如可以自動(dòng)將工業(yè)設(shè)計(jì)數(shù)據(jù)劃分為高中低等檔次,可以把高檔設(shè)計(jì)案例推薦給企業(yè),提高企業(yè)工業(yè)設(shè)計(jì)能力。

(2)基于BP神經(jīng)網(wǎng)絡(luò)構(gòu)建分類預(yù)測(cè)模型。BP神經(jīng)網(wǎng)絡(luò)是一種數(shù)據(jù)挖掘方法,其可以通過學(xué)習(xí)獲取相關(guān)的風(fēng)險(xiǎn)關(guān)鍵特征,然后將待評(píng)估的工業(yè)設(shè)備運(yùn)行狀態(tài)數(shù)據(jù)輸入到系統(tǒng)中,自動(dòng)分析設(shè)備維護(hù)次數(shù)、更新次數(shù)、使用周期,這種工業(yè)設(shè)備運(yùn)行管理模型速度快,評(píng)估結(jié)果具有較高的準(zhǔn)確度。工業(yè)大數(shù)據(jù)分類預(yù)測(cè)可以采用BP神經(jīng)網(wǎng)絡(luò)算法構(gòu)建一個(gè)分類預(yù)測(cè)系統(tǒng),這樣就可以準(zhǔn)確地判斷大數(shù)據(jù)的運(yùn)行維護(hù)記錄,判斷設(shè)備日常運(yùn)行趨勢(shì),能夠提高工業(yè)設(shè)備的運(yùn)行維護(hù)效率。

3 工業(yè)大數(shù)據(jù)挖掘作用及前景

隨著自動(dòng)化控制、多媒體通信等技術(shù)的快速發(fā)展,大數(shù)據(jù)挖掘技術(shù)可以在船舶設(shè)計(jì)制造、工業(yè)生產(chǎn)安全監(jiān)測(cè)等領(lǐng)域得到應(yīng)用,實(shí)現(xiàn)自動(dòng)化制造和工業(yè)安全生產(chǎn)管理等,進(jìn)一步實(shí)現(xiàn)工業(yè)生產(chǎn)過程的智能化。

3.1 智能制造

目前,隨著工業(yè)4.0、互聯(lián)網(wǎng)+等深入發(fā)展和應(yīng)用,大數(shù)據(jù)挖掘技術(shù)可以有效地提升智能制造的相關(guān)產(chǎn)品設(shè)計(jì)、制造、生產(chǎn)和展示等階段的性能,大數(shù)據(jù)挖掘在完善產(chǎn)品設(shè)計(jì)功能、優(yōu)化產(chǎn)品性能、改進(jìn)產(chǎn)品質(zhì)量等方面具有重要的作用,可以大大提高工業(yè)產(chǎn)品的生產(chǎn)成功率和降低開發(fā)成本。比如在鋼鐵工業(yè)制造中,帶鋼生產(chǎn)工序較為復(fù)雜,涉及多個(gè)環(huán)節(jié),每一個(gè)環(huán)節(jié)的工藝設(shè)置參數(shù)較多,造成帶鋼成品很容易產(chǎn)生各類型的缺陷,比如擦傷、邊裂、劃痕、輥印、結(jié)疤和氧化鐵皮壓入等,大數(shù)據(jù)挖掘可以構(gòu)建一個(gè)集成多方面優(yōu)勢(shì)的構(gòu)建一個(gè)帶鋼缺缺陷識(shí)別模型,能夠利用圖像處理技術(shù)分析帶鋼上的各種缺陷類型,及時(shí)發(fā)現(xiàn)不合格的產(chǎn)品。

3.2 安全監(jiān)測(cè)

工業(yè)生產(chǎn)過程中,安全生產(chǎn)一直是生產(chǎn)監(jiān)管的重要方面,大數(shù)據(jù)挖掘技術(shù)可以在工業(yè)安全生產(chǎn)中發(fā)揮重要的作用。比如電力工業(yè)生產(chǎn)可以利用大數(shù)據(jù)分析技術(shù)監(jiān)控電網(wǎng)的運(yùn)行狀態(tài),并且將其輸入到虛擬仿真系統(tǒng)中,可以實(shí)時(shí)觀察電網(wǎng)運(yùn)行是否存在故障和漏洞。鋼鐵工業(yè)生產(chǎn)環(huán)境多處于高溫、封閉狀態(tài),并且已經(jīng)不利于人們的行動(dòng),可以利用傳感器、視頻攝像頭采集鋼鐵生產(chǎn)作業(yè)環(huán)境的實(shí)時(shí)狀況,并且構(gòu)建一個(gè)鋼鐵工業(yè)生產(chǎn)現(xiàn)場(chǎng)監(jiān)控系統(tǒng),可以采集鋼鐵工業(yè)生產(chǎn)、加工的實(shí)時(shí)數(shù)據(jù),將其輸入到鋼鐵工業(yè)服務(wù)器中,能夠?qū)崟r(shí)的顯示在監(jiān)控終端,比如電視墻、大屏幕上,分析鋼鐵工業(yè)的生產(chǎn)設(shè)備、作業(yè)環(huán)境等信息,確保鋼鐵工業(yè)生產(chǎn)的安全性。

4 結(jié)束語(yǔ)

工業(yè)生產(chǎn)涉及環(huán)節(jié)較多,每一個(gè)環(huán)節(jié)都需要采用不同種類和數(shù)量的軟件系統(tǒng)和硬件設(shè)備,這些軟硬件資源在運(yùn)行過程中產(chǎn)生了海量的數(shù)據(jù),利用K均值、BP神經(jīng)網(wǎng)絡(luò)等構(gòu)件大數(shù)據(jù)挖掘與分析系統(tǒng),能夠有效提升工業(yè)大數(shù)據(jù)分析和挖掘能力,從海量數(shù)據(jù)資源中發(fā)現(xiàn)潛在的有價(jià)值信息,提高工業(yè)生產(chǎn)決策的準(zhǔn)確度,進(jìn)一步改進(jìn)工業(yè)生產(chǎn)效率。

參考文獻(xiàn)

[1]陳良臣.大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)研究[J].數(shù)字技術(shù)與應(yīng)用, 2015(11):93.

[2]鄭茂寬,徐志濤,明新國(guó),等.船舶工業(yè)大數(shù)據(jù)技術(shù)應(yīng)用與發(fā)展前景分析[C]//長(zhǎng)三角地區(qū)船舶工業(yè)發(fā)展論壇,2014.

第7篇:數(shù)據(jù)挖掘技術(shù)研究范文

[關(guān)鍵詞] XML Web數(shù)據(jù)挖掘 電子商務(wù)系統(tǒng)

一、數(shù)據(jù)挖掘與XML

數(shù)據(jù)挖掘就是從大量隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,通過數(shù)據(jù)抽取、轉(zhuǎn)換、分析和其他模型化處理,提取隱含在其中的有用信息和知識(shí)的過程。Web數(shù)據(jù)挖掘過程可粗略地分為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的解釋評(píng)估三個(gè)階段,其中每一個(gè)階段又包含若干個(gè)子階段(參見圖1)。

圖1 數(shù)據(jù)挖掘過程的一般步驟

XML(eXtensible Markup Language)是一種跨平臺(tái)可擴(kuò)展的數(shù)據(jù)描述語(yǔ)言,它是標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言SGML的一個(gè)簡(jiǎn)化子集,但克服了SGML的復(fù)雜性,將SGML的豐富功能與HTML的易用性結(jié)合起來,具有較強(qiáng)的描述數(shù)據(jù)和管理數(shù)據(jù)的能力,并憑借其良好的可擴(kuò)展性和自描述性、形式與內(nèi)容分離、對(duì)多語(yǔ)種支持等特點(diǎn),給跨平臺(tái)跨地域異構(gòu)數(shù)據(jù)的集成帶來方便。XML的這種特性為處理電子商務(wù)系統(tǒng)中大量的異構(gòu)數(shù)據(jù)提供了可行性。

二、實(shí)施Web數(shù)據(jù)挖掘的關(guān)鍵問題及解決方法

1.異構(gòu)數(shù)據(jù)的轉(zhuǎn)換

電子商務(wù)系統(tǒng)服務(wù)器端的用戶文件目前主要是XML、HTML和關(guān)系數(shù)據(jù)等數(shù)據(jù)類型。從數(shù)據(jù)處理角度來看,關(guān)系數(shù)據(jù)模型過于嚴(yán)謹(jǐn),無(wú)法有效地表示半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);HTML對(duì)文檔的要求也過于完整,且不能定義數(shù)據(jù)的層次,沒有提供編程接口解析它所攜帶的數(shù)據(jù),無(wú)法真正實(shí)現(xiàn)各種應(yīng)用程序、數(shù)據(jù)庫(kù)及操作系統(tǒng)間的數(shù)據(jù)交互。XML與關(guān)系數(shù)據(jù)模型和HTML相比,可以表示更多樣化的數(shù)據(jù)格式,能夠使不同來源的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)很容易地進(jìn)行合并。

采用XML集成多個(gè)不同數(shù)據(jù)源的信息,只需要把來自不同數(shù)據(jù)源的信息先轉(zhuǎn)成XML文檔,然后再處理經(jīng)過解析器解析的數(shù)據(jù)流即可。任何應(yīng)用程序只需要知道兩種格式,即本身的和XML的,就可以通過XML為中介實(shí)現(xiàn)與其他應(yīng)用程序的信息交換。

因此,在Web挖掘的數(shù)據(jù)預(yù)處理階段,用XML作為中間數(shù)據(jù)模型來屏蔽Web數(shù)據(jù)源的異構(gòu)性不僅是可行的,而且可以使異構(gòu)數(shù)據(jù)源能有效地集成應(yīng)用,從而較好地解決Web挖掘中的技術(shù)難題。

2.XML數(shù)據(jù)的查詢

XML描述的Web數(shù)據(jù)所具有的半結(jié)構(gòu)化特性對(duì)傳統(tǒng)的數(shù)據(jù)管理方式提出了挑戰(zhàn),由于XML文檔數(shù)據(jù)具有特殊的樹型層次結(jié)構(gòu),使得已有的數(shù)據(jù)查詢技術(shù)(如傳統(tǒng)的基于關(guān)系數(shù)據(jù)庫(kù)方式的信息查詢、基于文本的信息檢索)不能很好地應(yīng)用于XML數(shù)據(jù)的查詢處理。本文采用文獻(xiàn)提出的基于結(jié)構(gòu)特征編碼模式的XML數(shù)據(jù)查詢算法―MatchSearch,能夠有效地對(duì)經(jīng)過上述轉(zhuǎn)換和數(shù)據(jù)抽取所得的半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行多路徑查詢。

MatchSearch算法是基于傳統(tǒng)信息檢索技術(shù)中的字符串匹配算法提出的,其重點(diǎn)是對(duì)查詢語(yǔ)句的分支進(jìn)行判斷、處理。實(shí)際應(yīng)用中借鑒MatchSearch算法的基本思想,采用三元編碼模式,將XML文檔中的每個(gè)數(shù)據(jù)成分(元素、屬性、原子值)都用(name, path, branch)形式表示。其中,name表示數(shù)據(jù)成分的名稱或值,path以壓縮編碼的形式表示從文檔根節(jié)點(diǎn)到當(dāng)前數(shù)據(jù)節(jié)點(diǎn)的父節(jié)點(diǎn)的路徑,branch表示當(dāng)前數(shù)據(jù)節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)。這種三元編碼形式不僅可以表示數(shù)據(jù)的內(nèi)容(由name表示),還可以有效地表示XML數(shù)據(jù)的結(jié)構(gòu)(由path和 branch表示),因此可以將XML文檔數(shù)據(jù)轉(zhuǎn)換為等價(jià)的以三元編碼模式表示的字符串形式。同理,基于路徑的XML數(shù)據(jù)查詢也可以表示成三元編碼形式的字符串。這樣,XML的數(shù)據(jù)查詢問題就轉(zhuǎn)化為三元編碼形式的字符串匹配問題。

此外,借鑒MatchSearch算法的基本思想,還可以利用三元編碼模式設(shè)計(jì)一種雙層的B+樹索引結(jié)構(gòu),將路徑索引和數(shù)值索引合為一體,能夠進(jìn)一步提高索引的查詢速度。通過與有代表性的查詢優(yōu)化方法的對(duì)比實(shí)驗(yàn),表明該方法能夠有效地提高針對(duì)半結(jié)構(gòu)化數(shù)據(jù)的多路徑查詢速度。

三、面向電子商務(wù)XML文檔的Web挖掘應(yīng)用

電子商務(wù)網(wǎng)站上的異構(gòu)數(shù)據(jù)經(jīng)過轉(zhuǎn)換為XML格式處理后,就可選用相應(yīng)的Web挖掘技術(shù)對(duì)數(shù)據(jù)集實(shí)施挖掘分析。

1.基于XML的Web挖掘集成應(yīng)用模型

由于Web上的電子商務(wù)信息多而雜,并且大多是非結(jié)構(gòu)化或半結(jié)構(gòu)化的,這就使得Web挖掘?qū)?shù)據(jù)的預(yù)處理過程要比普通的數(shù)據(jù)挖掘更為復(fù)雜,工作難度也更大。為此,筆者提出了一個(gè)基于XML的Web數(shù)據(jù)挖掘集成應(yīng)用模型(如圖1所示)。

圖2基于XML的Web數(shù)據(jù)挖掘應(yīng)用模型

該模型給出了基于電子商務(wù)服務(wù)器端數(shù)據(jù)實(shí)施Web數(shù)據(jù)挖掘集成應(yīng)用的基本思想和一般流程:將實(shí)現(xiàn)HTML文檔、關(guān)系數(shù)據(jù)向XML格式轉(zhuǎn)換的工具封裝為XML轉(zhuǎn)換器,將路徑分析、分類技術(shù)等Web數(shù)據(jù)挖掘技術(shù)封裝為Web數(shù)據(jù)挖掘器,并與處理XML的Java應(yīng)用編程接口(Java API for XML processing)等模塊集成,以中間件的形式植入電子商務(wù)系統(tǒng)解決實(shí)際應(yīng)用問題。

需要說明的是,目前Web數(shù)據(jù)挖掘的過程并非完全自動(dòng)的,上述應(yīng)用模型中有許多細(xì)節(jié)工作仍需要人工完成。

2.利用分類技術(shù)發(fā)現(xiàn)潛在客戶群體

分類是一種數(shù)據(jù)分析形式,可以用來抽取描述重要數(shù)據(jù)集合的模型,一般用于預(yù)測(cè)數(shù)據(jù)對(duì)象的離散類別。在電子商務(wù)系統(tǒng)中應(yīng)用分類技術(shù),可以通過挖掘客戶群體中某些共同的特性而將客戶分成不同的類別,建立不同種類客戶之間的特征分類模型,進(jìn)而預(yù)測(cè)不同行為類別客戶的分布特征。

對(duì)一個(gè)電子商務(wù)網(wǎng)站來說,從眾多的訪問者中發(fā)現(xiàn)潛在客戶群體非常關(guān)鍵。那么,如何通過Web挖掘來發(fā)現(xiàn)潛在客戶群體呢?可以應(yīng)用分類規(guī)則挖掘中的主要方法,如決策樹分類技術(shù),先對(duì)客戶通過Web日志文件的處理和分類規(guī)則挖掘,識(shí)別出其各類的公共屬性,然后對(duì)一個(gè)新的客戶,依據(jù)分類規(guī)則進(jìn)行預(yù)測(cè),確定是否為潛在的客戶。如果發(fā)現(xiàn)某些訪問者為潛在客戶,就可以對(duì)這類客戶實(shí)施一定的策略,使他們盡快成為在冊(cè)客戶,從而使電子商務(wù)網(wǎng)站的訂單數(shù)增多,效益增加。

四、結(jié)束語(yǔ)

研究表明,數(shù)據(jù)挖掘工作60%的時(shí)間用在數(shù)據(jù)準(zhǔn)備上。這一方面說明數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)要求的嚴(yán)格,但同時(shí)也啟示我們:如果能減少在數(shù)據(jù)準(zhǔn)備階段的工作量,也就意味著可以有效地減少整個(gè)數(shù)據(jù)挖掘過程的工作量。本文所提出的基于XML的Web數(shù)據(jù)預(yù)處理方法被實(shí)際應(yīng)用證實(shí)是一種有效的方法。

參考文獻(xiàn):

[1]陸汝鈐:人工智能[M].北京:科學(xué)出版社,2000.

[2]胡侃夏紹瑋:基于大型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)采掘:研究綜述[J].軟件學(xué)報(bào),1998,9(1)

第8篇:數(shù)據(jù)挖掘技術(shù)研究范文

【關(guān)鍵詞】 移動(dòng)學(xué)習(xí) 教學(xué)資源 數(shù)據(jù)挖掘 聚類

在傳統(tǒng)的教學(xué)方式中,一直是以教師為中心的基本教學(xué)方法。這種方式,學(xué)生只能感知學(xué)習(xí)內(nèi)容,而解決實(shí)際問題時(shí),由于缺乏實(shí)踐經(jīng)驗(yàn),他們通常難以完成。

隨著智能手機(jī)、平板電腦等各種智能移動(dòng)終端已經(jīng)得到了非常廣泛的發(fā)展與關(guān)注,隨之而來的一種新的學(xué)習(xí)模式一一移動(dòng)學(xué)習(xí),已經(jīng)開始為人們所關(guān)注。與傳統(tǒng)的課堂學(xué)習(xí)或基于桌面電腦的E-Learning相比,移動(dòng)學(xué)習(xí)可以突破時(shí)空限制,移動(dòng)學(xué)習(xí)者在任何時(shí)間、任何地點(diǎn)的“零碎”情境下,只要學(xué)習(xí)者有學(xué)習(xí)的意愿,就可以隨時(shí)隨地地進(jìn)行學(xué)習(xí)。

本研究將以“Visual Basic程序設(shè)計(jì)”課程為依托,重點(diǎn)對(duì)面向移動(dòng)學(xué)習(xí)教學(xué)資源的開發(fā)和應(yīng)用兩方面展開研究。首先基于課程進(jìn)行按知識(shí)點(diǎn)的移動(dòng)學(xué)習(xí)資源設(shè)計(jì),一個(gè)知識(shí)點(diǎn)可以是一個(gè)屬性介紹,也可以是一個(gè)算法實(shí)現(xiàn);同時(shí)引入數(shù)據(jù)挖掘技術(shù),基于學(xué)生關(guān)于學(xué)習(xí)資源使用情況和學(xué)習(xí)效果反饋信息,進(jìn)行聚類分析,深入探究學(xué)習(xí)者對(duì)不同知識(shí)點(diǎn)的掌握程度和學(xué)習(xí)效果,從而推進(jìn)和改善移動(dòng)課程資源設(shè)計(jì)和教學(xué)過程設(shè)計(jì)。

一、移動(dòng)教學(xué)資源

移動(dòng)學(xué)習(xí)資源是指支持開展移動(dòng)學(xué)習(xí)的各種信息資源,即移動(dòng)學(xué)習(xí)資料、移動(dòng)學(xué)習(xí)環(huán)境和移動(dòng)學(xué)習(xí)支持系統(tǒng)[1]。移動(dòng)學(xué)習(xí)資源是移動(dòng)學(xué)習(xí)的重要組成部分,是教師組織教學(xué)的工具和學(xué)習(xí)者獲得信息的途徑[2]。學(xué)習(xí)資源一直被認(rèn)為是教育技術(shù)學(xué)最重要的研究對(duì)象之一,并一直受到研究者的重點(diǎn)關(guān)注,對(duì)學(xué)習(xí)資源的正確的認(rèn)識(shí)和理解,是開發(fā)優(yōu)質(zhì)教學(xué)資源的前提,也是教育技術(shù)研究實(shí)踐中的一項(xiàng)重要任務(wù)。

分析現(xiàn)有的文獻(xiàn)資料可以發(fā)現(xiàn)國(guó)內(nèi)移動(dòng)學(xué)習(xí)資源的研究主要是集中在移動(dòng)學(xué)習(xí)資源的學(xué)習(xí)模式、技術(shù)支持、開發(fā)與設(shè)計(jì)等方面,尤其是對(duì)于面向移動(dòng)學(xué)習(xí)的教學(xué)資源的拓展開發(fā)以及如何讓這為學(xué)習(xí)者服務(wù)等研究還在初步階段。

二、教學(xué)資源設(shè)計(jì)

課程的內(nèi)容分解設(shè)計(jì)直接決定著教學(xué)資源的知識(shí)內(nèi)容,它主要指根據(jù)課程目標(biāo)在確保課程內(nèi)容完整性的同時(shí),如何將課程內(nèi)容分解成一定粒度容量的知識(shí)內(nèi)容,以適應(yīng)學(xué)習(xí)者的碎片化學(xué)習(xí)需求。

移動(dòng)學(xué)習(xí)課程與網(wǎng)絡(luò)課程相比最大的特點(diǎn)就在于內(nèi)容的碎片化,將一個(gè)多小時(shí)的內(nèi)容拆分成多個(gè)獨(dú)立的知識(shí)片段,每個(gè)知識(shí)片段都會(huì)有一個(gè)主題,這個(gè)知識(shí)主題是根據(jù)學(xué)習(xí)者的認(rèn)知規(guī)律和教學(xué)方式對(duì)元知識(shí)點(diǎn)的邏輯重組,這樣有助于更清晰完整的表達(dá)知識(shí)框架;此外,移動(dòng)學(xué)習(xí)課程按照知識(shí)點(diǎn)模塊化組織,當(dāng)知識(shí)點(diǎn)內(nèi)容發(fā)生變化時(shí),移動(dòng)學(xué)習(xí)課程也能夠?qū)崿F(xiàn)快速的更新升級(jí),從而避免了重復(fù)制作課程[3]。

一般來說,知識(shí)點(diǎn)是枯燥、抽象的描述,不容易被學(xué)習(xí)和理解,那么就需要根據(jù)知識(shí)點(diǎn)的類型選擇合適的方法、步驟和組織形式,綜合運(yùn)用文字、圖片、音頻和視頻等多媒體素材對(duì)知識(shí)點(diǎn)進(jìn)行表現(xiàn),這樣才能使其更加貼近學(xué)習(xí)者,更易于被理解。

2009年張馳等提出的基于課程知識(shí)點(diǎn)進(jìn)行片段式的移動(dòng)學(xué)習(xí)資源設(shè)計(jì),即將工作或?qū)W習(xí)內(nèi)容分割成小塊的有用信息,這樣人們就可以通過非線性的方式獲得這些信息;主要包括兩方面內(nèi)容:①學(xué)習(xí)內(nèi)容的微型化②學(xué)習(xí)形式的微型化[4]。

移動(dòng)學(xué)習(xí)資源的研究和開發(fā)還有不足之處,忽視了資源知識(shí)點(diǎn)之間的內(nèi)在關(guān)聯(lián),一定程度上影響了學(xué)習(xí)者進(jìn)行持續(xù)而系統(tǒng)的有效學(xué)習(xí),降低了移動(dòng)學(xué)習(xí)效率。

三、數(shù)據(jù)挖掘在移動(dòng)學(xué)習(xí)中的應(yīng)用

數(shù)據(jù)挖掘就是從大量的、不完整的數(shù)據(jù)中,提取隱含在其中有用信息的過程。基于聚類的數(shù)據(jù)挖掘是一種“無(wú)監(jiān)督學(xué)習(xí)”的方法,事先不知道將要分成哪些類,采用最大化類內(nèi)的相似性、最小化類間的相似性原則進(jìn)行歸類,即使得一個(gè)簇中的對(duì)象具有很高的相似性,而與其他簇中的對(duì)象很不相似。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類[5]。

在教學(xué)中,基于聚類的數(shù)據(jù)挖掘技術(shù)可以根據(jù)學(xué)生的平時(shí)及期末考試成績(jī),挖掘出內(nèi)在的影響因素,如學(xué)生的學(xué)習(xí)態(tài)度、學(xué)習(xí)習(xí)慣、薄弱章節(jié)等信息。得到的總結(jié)分析應(yīng)用于指導(dǎo)學(xué)生學(xué)習(xí)及日常教學(xué),既節(jié)省了大量的練習(xí)時(shí)間又能夠獲得良好的學(xué)習(xí)效果。

3.1數(shù)據(jù)收集與數(shù)據(jù)轉(zhuǎn)換

1) 數(shù)據(jù)準(zhǔn)備

以《Visual Basic程序設(shè)計(jì)第四版》(龔沛曾著)教材中的第四章“基本控制結(jié)構(gòu)”部分知識(shí)點(diǎn)為例,制作移動(dòng)學(xué)習(xí)課件,課件時(shí)長(zhǎng)基本控制在5至30分鐘的范圍內(nèi)。5分鐘的課件涉及一個(gè)較細(xì)的知識(shí)點(diǎn),如IIF()函數(shù)的使用方法;10分鐘的課件涉及一個(gè)較大的知識(shí)點(diǎn),如IF條件語(yǔ)句的語(yǔ)法結(jié)構(gòu);30分鐘的課件中講授一個(gè)更大的知識(shí)點(diǎn)或多個(gè)緊密關(guān)聯(lián)的小知識(shí)點(diǎn),如具體算法的實(shí)現(xiàn)。

組織學(xué)生一段時(shí)間的移動(dòng)學(xué)習(xí)后,從金陵科技學(xué)院“土木工程”、“機(jī)械設(shè)計(jì)與自動(dòng)化”和“動(dòng)物科學(xué)”三個(gè)專業(yè)獲取成績(jī)樣本數(shù)358份,并根據(jù)每個(gè)學(xué)生各個(gè)知識(shí)點(diǎn)的得分情況,計(jì)算出每個(gè)知識(shí)點(diǎn)的“成績(jī)績(jī)點(diǎn)”(成績(jī)績(jī)點(diǎn)=所有學(xué)習(xí)者該知識(shí)點(diǎn)的得分均值/該知識(shí)點(diǎn)的分值),如某知識(shí)點(diǎn)考核的總分為10分,學(xué)生得分為9分,則該項(xiàng)相應(yīng)的成績(jī)績(jī)點(diǎn)為0.9。

2) 數(shù)據(jù)轉(zhuǎn)換。

為了使數(shù)據(jù)變換成適于數(shù)據(jù)挖掘的形式,也便于維度信息的表述,我們對(duì)數(shù)據(jù)各維度上的信息進(jìn)行數(shù)值化和量化。如:根據(jù)長(zhǎng)年教授VB課程教師的多年經(jīng)驗(yàn),將各個(gè)知識(shí)點(diǎn)按照難易度進(jìn)行了劃分,并將“難”、“中”、“易”分別轉(zhuǎn)換成3、2和1;課件時(shí)長(zhǎng)的屬性維度上的信息:將5 分鐘左右、10分鐘左右、30分鐘左右,分別轉(zhuǎn)換為1、2、3;同時(shí)對(duì)每個(gè)學(xué)生每個(gè)知識(shí)點(diǎn)點(diǎn)擊學(xué)習(xí)的次數(shù)、性別和成績(jī)績(jī)點(diǎn)分別進(jìn)行相應(yīng)的轉(zhuǎn)換。將經(jīng)過轉(zhuǎn)換后的樣本信息建成數(shù)據(jù)挖掘的樣本數(shù)據(jù)庫(kù),具體的信息維度設(shè)計(jì)與量化情況見表1。

具體的數(shù)據(jù)統(tǒng)計(jì)形式如表2,其中每條數(shù)據(jù)實(shí)體為一位學(xué)生一個(gè)知識(shí)點(diǎn)的學(xué)習(xí)情況。

3.2聚類過程

本文所用的聚類分析方法是K-means算法。這一種得到最廣泛使用的聚類算法,它是將各個(gè)聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚類的代表點(diǎn),算法的主要思想是通過迭代過程把數(shù)據(jù)集劃分為不同的類別,使得評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu),從而使生成的每個(gè)聚類內(nèi)緊湊,類間獨(dú)立。這一算法不適合處理離散型屬性,但是對(duì)于連續(xù)型具有較好的聚類效果。主要包括以下步驟:

1)隨機(jī)取k個(gè)元素作為各個(gè)簇的中心。

2)根據(jù)每個(gè)對(duì)象與各個(gè)簇中心的歐式距離,分配給最近的簇。歐式距離公式為:

4)根據(jù)各個(gè)簇元素的平均值,重新計(jì)算新的簇的中心,然后轉(zhuǎn)(2)。這個(gè)過程不斷重復(fù)直到誤差平方和最小。

(三)算法結(jié)果分析

根據(jù)K-means算法對(duì)轉(zhuǎn)換后的數(shù)據(jù)分別進(jìn)行了2、3、4類歸類后,發(fā)現(xiàn)3類的歸類效果較好。并對(duì)3類歸類后的數(shù)據(jù)進(jìn)行了統(tǒng)計(jì),統(tǒng)計(jì)信息如表3。

從表3的統(tǒng)計(jì)結(jié)果可以看出:類別一中涉及知識(shí)點(diǎn)難度較為簡(jiǎn)單,即使在點(diǎn)擊次數(shù)不多的情況下,但是成績(jī)績(jī)點(diǎn)還是相對(duì)要高;類別二中涉及的知識(shí)點(diǎn)較難,但學(xué)習(xí)者在多次點(diǎn)擊學(xué)習(xí)的情況下,還是得到了不錯(cuò)的績(jī)點(diǎn);類別三中涉及的知識(shí)點(diǎn)相對(duì)是最難的,但是可以發(fā)現(xiàn)學(xué)習(xí)者的點(diǎn)擊次數(shù)明顯下降,最終的學(xué)習(xí)績(jī)點(diǎn)也很不理想,同時(shí)有趣的發(fā)現(xiàn)女生在該類別中所占的比例是明顯多于男生。

通過以上分析可以看出一些難易程度適中的知識(shí)點(diǎn),學(xué)生通過一段時(shí)間的自學(xué)是能夠掌握的很好的。同時(shí),哪些知識(shí)點(diǎn)還存在問題,教師可以根據(jù)學(xué)生的學(xué)習(xí)情況有的放矢地進(jìn)行教學(xué),并給出學(xué)習(xí)建議和指導(dǎo),同時(shí)修改組卷參數(shù)以給出符合學(xué)生學(xué)習(xí)水平和特性的試題;學(xué)生也可以根據(jù)分析結(jié)果進(jìn)行有針對(duì)性的學(xué)習(xí)從而提高了教學(xué)和學(xué)習(xí)效率。

通過本次挖掘結(jié)果,學(xué)生也意識(shí)到要提高自己的學(xué)習(xí)效率,就要努力改變自己的學(xué)習(xí)習(xí)慣和學(xué)習(xí)態(tài)度;同時(shí)教師可以根據(jù)不同章節(jié)的難易度,適當(dāng)讓學(xué)生自學(xué),以提升學(xué)生自我學(xué)習(xí)的能力。

四、結(jié)論

本研究首先依據(jù)移動(dòng)學(xué)習(xí)資源的特點(diǎn),對(duì)課程學(xué)習(xí)資源進(jìn)行了設(shè)計(jì)與制作,隨后引入數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生的成績(jī)樣本進(jìn)行了聚類分析,得到了較理想的聚類結(jié)果。

移動(dòng)學(xué)習(xí)有助于豐富學(xué)生的思維方式,有助于培育學(xué)生深度學(xué)習(xí)的學(xué)習(xí)品質(zhì)。

同時(shí)移動(dòng)教學(xué)資源充分開發(fā)與利用,使學(xué)習(xí)內(nèi)容借助資源的具體性與形象性,幫助學(xué)生理解掌握抽象的學(xué)習(xí)內(nèi)容。

參 考 文 獻(xiàn)

[1]李瑞,陳新,袁曉斌.移動(dòng)學(xué)習(xí)資源建設(shè)策略探討[J].現(xiàn)代教育科學(xué),2007,(6).

[2]方晶,陳章其.移動(dòng)學(xué)習(xí)資源的開發(fā)初探[J].現(xiàn)代教育技術(shù),2007,17(7).

[3]唐江煒.基于知識(shí)點(diǎn)的課件制作平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].蘇州:蘇州大學(xué)碩士學(xué)位論文,2008

第9篇:數(shù)據(jù)挖掘技術(shù)研究范文

[關(guān)鍵詞] 數(shù)據(jù)流 數(shù)據(jù)流挖掘 模型 算法

近年來,隨著計(jì)算機(jī)技術(shù)和通信網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展,由于眾多應(yīng)用領(lǐng)域的需求,數(shù)據(jù)流處理問題,特別是基于數(shù)據(jù)流的挖掘問題已受到越來越多的研究人員關(guān)注。

一、數(shù)據(jù)流以及數(shù)據(jù)流挖掘

1.數(shù)據(jù)流。數(shù)據(jù)流由一系列按序到達(dá)的數(shù)據(jù)組成,也可看作是信息傳輸過程中經(jīng)編碼處理的數(shù)字信號(hào)串。若令t表示任一時(shí)間戳,at表示在t時(shí)刻到達(dá)的數(shù)據(jù)元素,則數(shù)據(jù)流可以表示為無(wú)限集合{…,at-1,,at,at+1,…}。

2.數(shù)據(jù)流挖掘。數(shù)據(jù)流挖掘就是在數(shù)據(jù)流上發(fā)現(xiàn)提取隱含在其中的。人們事先不知道的,但又潛在有用的信息和知識(shí)的過程。流數(shù)據(jù)挖掘方面的研究主要包括多數(shù)據(jù)流挖掘和單數(shù)據(jù)流挖掘,挖掘多條數(shù)據(jù)流的主要目的是分析多條并行到達(dá)的數(shù)據(jù)流之間的關(guān)聯(lián),對(duì)單數(shù)據(jù)流的挖掘則涵蓋了分類、頻繁模式挖掘、聚類等多項(xiàng)傳統(tǒng)數(shù)據(jù)挖掘中的主要任務(wù),挖掘變化的數(shù)據(jù)流是一項(xiàng)特殊的任務(wù),目前主要是以單數(shù)據(jù)流為對(duì)象進(jìn)行研究的。

二、數(shù)據(jù)流挖掘的模型

按算法處理數(shù)據(jù)流時(shí)所選取的時(shí)序范圍,數(shù)據(jù)流模型可分為以下幾類。

1.快照模型:處理數(shù)據(jù)的范圍限制在兩個(gè)預(yù)定義的時(shí)間戳之間。

2.界標(biāo)模型:處理數(shù)據(jù)的范圍從某一個(gè)已知的初始時(shí)間點(diǎn)到當(dāng)前時(shí)間點(diǎn)為止。

3.滑動(dòng)窗口模型:處理數(shù)據(jù)的范圍由某個(gè)固定大小的滑動(dòng)窗口確定,此滑動(dòng)窗口的終點(diǎn)永遠(yuǎn)為當(dāng)前時(shí)刻,其中,滑動(dòng)窗口的大小可以由一個(gè)時(shí)間區(qū)間定義,也可以由窗口所包含的數(shù)據(jù)項(xiàng)數(shù)目定義。

典型的數(shù)據(jù)流挖掘模型如圖所示。

三、數(shù)據(jù)流挖掘算法

目前數(shù)據(jù)流挖掘方面的研究成果主要集中在數(shù)據(jù)流的聚類、分類和頻繁模式挖掘方面。

1.數(shù)據(jù)流分類算法。數(shù)據(jù)流分類就是提出一個(gè)分類模型(或函數(shù)),并通過單遍掃描數(shù)據(jù)流,持續(xù)地利用分類模型將數(shù)據(jù)對(duì)象(數(shù)據(jù)流的數(shù)據(jù)點(diǎn)或元組等)映射到某一個(gè)給定的類別中。P.Domingos 和 G..Hulten他們提出了一種Hoeffding決策樹分類算法VFDT(Very Fast Decision Tree),使用恒定的內(nèi)存大小和時(shí)間處理每個(gè)樣本,有效地解決了時(shí)間、內(nèi)存和樣本對(duì)數(shù)據(jù)挖掘,特別是高速數(shù)據(jù)流上的數(shù)據(jù)挖掘的限制。VFDT使用信息熵選擇屬性,通過建立Hoeffding樹來進(jìn)行決策支持,并使用 Hoeffding 約束來保證高精度地處理高速數(shù)據(jù)流。

由于VFDT算法假設(shè)數(shù)據(jù)是從靜態(tài)分布中隨機(jī)獲取的,所以不能反映數(shù)據(jù)隨時(shí)間變化的趨勢(shì)。因此,P.Domingos和G..Hulten引入了滑動(dòng)窗口技術(shù),對(duì)VFDT算法進(jìn)行改進(jìn),提出了CVFDT (Concept-adapting Very Fast Decision Tree)算法,除了保留VFDT算法在速度和精度方面的優(yōu)點(diǎn)外,增加了對(duì)數(shù)據(jù)產(chǎn)生過程中變化趨勢(shì)的檢測(cè)和響應(yīng),使得算法更好地適應(yīng)對(duì)高速時(shí)變流數(shù)據(jù)的分類。

2.數(shù)據(jù)流聚類算法。流數(shù)據(jù)本身所具有的特征使得傳統(tǒng)的聚類算法不可能直接應(yīng)用于(甚至不能應(yīng)用于)流數(shù)據(jù)聚類, 數(shù)據(jù)流聚類算法就是通過單遍掃描數(shù)據(jù)流,持續(xù)地將數(shù)據(jù)流數(shù)據(jù)對(duì)象(數(shù)據(jù)點(diǎn)、元組等)分組成多個(gè)類或簇,在同一個(gè)簇中的數(shù)據(jù)對(duì)象之間具有較高的相似度,而不同簇間的數(shù)據(jù)對(duì)象的相似度很小。近年來,學(xué)者們提出的應(yīng)用于大規(guī)模數(shù)據(jù)集的一趟聚類算法,如Squeezer算法和BIRCH算法,也可以應(yīng)用于某些數(shù)據(jù)流問題,也有學(xué)者提出了針對(duì)流數(shù)據(jù)的聚類算法,典型的有STREAM算法和CluStream算法。

3.數(shù)據(jù)流頻繁模式挖掘算法。數(shù)據(jù)流頻繁模式挖掘就是單遍掃描數(shù)據(jù)流,來連續(xù)地發(fā)現(xiàn)其中的頻繁項(xiàng)集。頻繁項(xiàng)集是滿足最小支持度的項(xiàng)集(Itemset)。對(duì)于數(shù)據(jù)流上的頻繁項(xiàng)集挖掘的研究方法大多數(shù)都采用ε-算法和基于FP-tree模型的有效算法FP-stream。FP-stream算法采用傾斜時(shí)間窗口技術(shù)來維護(hù)頻繁模式以解決時(shí)間敏感問題,研究了在數(shù)據(jù)流中構(gòu)造、維護(hù)和更新 FP-stream 結(jié)構(gòu)的有效算法,提出了計(jì)算和維護(hù)所有頻率模式并動(dòng)態(tài)更新它們。建立一個(gè)框架來挖掘帶近似支持度的時(shí)間敏感模式,為每個(gè)模式在多時(shí)間粒度上增量維護(hù)一個(gè)傾斜時(shí)間窗口,在這種框架下可以構(gòu)建和回答感興趣的查詢。

四、結(jié)語(yǔ)

由于數(shù)據(jù)流具有獨(dú)特的性質(zhì),對(duì)其進(jìn)行挖掘是一個(gè)挑戰(zhàn)性的問題,當(dāng)前的有關(guān)算法的研究有很多是在傳統(tǒng)的增量式挖掘技術(shù)基礎(chǔ)之上發(fā)展而來的,探索數(shù)據(jù)流挖掘技術(shù)與傳統(tǒng)的靜態(tài)數(shù)據(jù)挖掘技術(shù)之間的本質(zhì)區(qū)別,提出更有效、新穎、快速挖掘算法是當(dāng)前研究面臨的重要問題。

參考文獻(xiàn):

[1]Gibbons P B,Matias Y:New sampling based summary statistic for improving approximate query answers[A].Proc of the ACM SIGMOD Int’l Confon Management of Data [C].Seattle:ACMPress,1998.331~342

[2]金澈清 錢衛(wèi)寧 周傲英:流數(shù)據(jù)分析與管理綜述.軟件學(xué)報(bào),2004,15(8):1172~1181

主站蜘蛛池模板: 精品人成电影在线观看| 色眯眯日本道色综合久久| 婷婷四房综合激情五月在线| 亚洲免费网站观看视频| 精品人妻少妇一区二区三区在线| 国产真实伦在线观看| juy051佐佐木明希在线观看| 日本高清护士xxxxx| 亚洲欧美日韩闷骚影院| 美女视频一区二区三区| 国产欧美视频在线| aaa特级毛片| 我两腿被同学摸的直流水| 亚洲人成网站免费播放| 男女下面无遮挡一进一出| 国产乱妇无码大黄aa片| 青娱乐欧美视频| 天堂网www资源在线| 中文无线乱码二三四区| 樱花草在线播放免费| 亚洲综合AV在线在线播放| 网曝门精品国产事件在线观看| 国产无遮挡又黄又爽免费网站| A∨变态另类天堂无码专区| 捏揉舔水插按摩师| 乱肉妇岳奶水小说| 欧美日本精品一区二区三区| 免费在线观看一区| 色八a级在线观看| 国产成人综合在线视频| 69成人免费视频无码专区| 小泽玛利亚番号| 久久久久久一区国产精品| 最近最新中文字幕| 亚洲日韩国产精品无码av| 男男gay做爽爽免费视频| 国产九九视频在线观看| 免费在线视频你懂的| 国产羞羞羞视频在线观看| 一级毛片免费观看不收费| 日日摸日日碰夜夜爽亚洲|