時(shí)間:2023-03-27 16:45:40
序論:在您撰寫(xiě)數(shù)據(jù)挖掘技術(shù)論文時(shí),參考他人的優(yōu)秀作品可以開(kāi)闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
數(shù)據(jù)挖掘技術(shù)是近些年發(fā)展起來(lái)的一門(mén)新興學(xué)科,它涉及到數(shù)據(jù)庫(kù)和人工智能等多個(gè)領(lǐng)域。隨著計(jì)算機(jī)技術(shù)的普及數(shù)據(jù)庫(kù)產(chǎn)生大量數(shù)據(jù),能夠從這些大量數(shù)據(jù)中抽取出有價(jià)值信息的技術(shù)稱(chēng)之為數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘方法有統(tǒng)計(jì)學(xué)方法、關(guān)聯(lián)規(guī)則挖掘、決策樹(shù)方法、聚類(lèi)方法等八種方法,關(guān)聯(lián)規(guī)則是其中最常用的研究方法。關(guān)聯(lián)規(guī)則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數(shù)據(jù)中挖掘出有價(jià)值的能夠揭示實(shí)體和數(shù)據(jù)項(xiàng)間某些隱藏的聯(lián)系的有關(guān)知識(shí),其中描述關(guān)聯(lián)規(guī)則的兩個(gè)重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當(dāng)Support和Confidence兩者都較高的關(guān)聯(lián)規(guī)則才是有效的、需要進(jìn)一步進(jìn)行分析和應(yīng)用的規(guī)則。
二、使用Weka進(jìn)行關(guān)聯(lián)挖掘
Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費(fèi)的、非商業(yè)化的、基于JAVA環(huán)境下開(kāi)源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法,是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來(lái)探索數(shù)據(jù)環(huán)境的,Experimenter是對(duì)各種實(shí)驗(yàn)計(jì)劃進(jìn)行數(shù)據(jù)測(cè)試,KnowledgeFlow和Explorer類(lèi)似,但該模塊通過(guò)其特殊的接口可以讓使用者通過(guò)拖動(dòng)的形式去創(chuàng)建實(shí)驗(yàn)方案,Simple-CLI為簡(jiǎn)單的命令行界面。以下數(shù)據(jù)挖掘任務(wù)主要用Ex-plorer模塊來(lái)進(jìn)行。
(一)數(shù)據(jù)預(yù)處理
數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進(jìn)行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學(xué)術(shù)著作總分、科研獲獎(jiǎng)總分、科研立項(xiàng)總分、科研總得分更有利于數(shù)據(jù)挖掘計(jì)算,在這里我們將以上得分分別確定分類(lèi)屬性值。
(二)數(shù)據(jù)載入
點(diǎn)擊Explorer進(jìn)入后有四種載入數(shù)據(jù)的方式,這里采用第一種Openfile形式。由于Weka所支持的標(biāo)準(zhǔn)數(shù)據(jù)格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個(gè)文件并重新保存為arff文件格式來(lái)實(shí)現(xiàn)數(shù)據(jù)的載入。由于所載入的數(shù)據(jù)噪聲比較多,這里應(yīng)根據(jù)數(shù)據(jù)挖掘任務(wù)對(duì)數(shù)據(jù)表中與本次數(shù)據(jù)任務(wù)不相關(guān)的屬性進(jìn)行移除,只將學(xué)歷、職稱(chēng)、論文等級(jí)、學(xué)術(shù)著作等級(jí)、科研獲獎(jiǎng)等級(jí)、科研立項(xiàng)等級(jí)、科研總分等級(jí)留下。
(三)關(guān)聯(lián)挖掘與結(jié)果分析
WeakExplorer界面中提供了數(shù)據(jù)挖掘多種算法,在這里我們選擇“Associate”標(biāo)簽下的Apriori算法。之后將“l(fā)owerBoundMinSupprot”(最小支持度)參數(shù)值設(shè)為0.1,將“upperBoundMinSupprot”(最大支持度)參數(shù)值設(shè)為1,在“metiricType”的參數(shù)值選項(xiàng)中選擇lift選項(xiàng),將“minMetric”參數(shù)值設(shè)為1.1,將“numRules”(數(shù)據(jù)集數(shù))參數(shù)值設(shè)為10,其它選項(xiàng)保存默認(rèn)值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過(guò)1.1且排名前10名的關(guān)聯(lián)規(guī)則。其挖掘參數(shù)信息和關(guān)聯(lián)挖掘的部分結(jié)果。
三、挖掘結(jié)果與應(yīng)用
以上是針對(duì)教師基本情況和科研各項(xiàng)總分進(jìn)行的反復(fù)的數(shù)據(jù)挖掘工作,從挖掘結(jié)果中找到最佳模式進(jìn)行匯總。以下列出了幾項(xiàng)作為參考的關(guān)聯(lián)數(shù)據(jù)挖掘結(jié)果。
1、科研立項(xiàng)得分與論文、科研總得分關(guān)聯(lián)度高,即科研立項(xiàng)為A級(jí)的論文也一定是A。這與實(shí)際也是相符的,因?yàn)榭蒲辛㈨?xiàng)得A的教師應(yīng)該是主持了省級(jí)或是國(guó)家級(jí)的立項(xiàng)的同時(shí)也參與了其他教師的科研立項(xiàng),在課題研究的過(guò)程中一定會(huì)有國(guó)家級(jí)論文或者省級(jí)論文進(jìn)行發(fā)表來(lái)支撐立項(xiàng),所以這類(lèi)教師的論文得分也會(huì)很高。針對(duì)這樣的結(jié)果,在今后的科研工作中,科研處要鼓勵(lì)和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質(zhì)上的幫助,這樣在很大程度上能夠帶動(dòng)整個(gè)學(xué)校科研工作的進(jìn)展。
2、副教授類(lèi)的教師科研立項(xiàng)得分很高,而講師類(lèi)教師和助教類(lèi)教師的科研立項(xiàng)得分很低,這樣符合實(shí)際情況。因?yàn)楦苯淌陬?lèi)的教師有一定的教學(xué)經(jīng)驗(yàn),并且很多副教授類(lèi)的教師還想晉職稱(chēng),所以大多數(shù)副教授類(lèi)教師都會(huì)申請(qǐng)一些課題。而對(duì)于講師類(lèi)和助教類(lèi)的教師,由于教學(xué)經(jīng)驗(yàn)不足很少能進(jìn)行省級(jí)以上的課題研究,因此這兩類(lèi)教師的科研立項(xiàng)分?jǐn)?shù)不高。針對(duì)這樣的結(jié)果,在今后的科研工作中,科研處可以采用一幫一、結(jié)對(duì)子的形式來(lái)幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學(xué)能力。
[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無(wú)法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢(xún)、報(bào)表工具無(wú)法滿(mǎn)足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類(lèi)問(wèn)題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線(xiàn)性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線(xiàn)的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類(lèi)分析。聚類(lèi)分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類(lèi)和增量聚類(lèi)。聚類(lèi)方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類(lèi)分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類(lèi)分析算法得到的類(lèi)對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類(lèi)趨勢(shì)進(jìn)行檢驗(yàn)。
4.決策樹(shù)方法。決策樹(shù)學(xué)習(xí)是一種通過(guò)逼近離散值目標(biāo)函數(shù)的方法,通過(guò)把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類(lèi)實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類(lèi)。樹(shù)上的每個(gè)結(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類(lèi)實(shí)例的方法是從這棵樹(shù)的根結(jié)點(diǎn)開(kāi)始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng)。決策樹(shù)方法是要應(yīng)用于數(shù)據(jù)挖掘的分類(lèi)方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無(wú)指導(dǎo)聚類(lèi),無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類(lèi)多種神經(jīng)元網(wǎng)絡(luò),具有非線(xiàn)形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。每一步,通過(guò)使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來(lái)更新當(dāng)前群體的一組假設(shè),來(lái)實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類(lèi)能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問(wèn)題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類(lèi)規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱(chēng)為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱(chēng)為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類(lèi)、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來(lái)的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類(lèi)精確性,能有效的解決過(guò)學(xué)習(xí)問(wèn)題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問(wèn)題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類(lèi)、回歸、對(duì)未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問(wèn)題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問(wèn)題而定。
三、結(jié)束語(yǔ)
目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問(wèn)題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類(lèi)問(wèn)題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線(xiàn)性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線(xiàn)的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類(lèi)分析。聚類(lèi)分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類(lèi)和增量聚類(lèi)。聚類(lèi)方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類(lèi)分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類(lèi)分析算法得到的類(lèi)對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類(lèi)趨勢(shì)進(jìn)行檢驗(yàn)。
4.決策樹(shù)方法。決策樹(shù)學(xué)習(xí)是一種通過(guò)逼近離散值目標(biāo)函數(shù)的方法,通過(guò)把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類(lèi)實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類(lèi)。樹(shù)上的每個(gè)結(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類(lèi)實(shí)例的方法是從這棵樹(shù)的根結(jié)點(diǎn)開(kāi)始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng)。決策樹(shù)方法是要應(yīng)用于數(shù)據(jù)挖掘的分類(lèi)方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無(wú)指導(dǎo)聚類(lèi),無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類(lèi)多種神經(jīng)元網(wǎng)絡(luò),具有非線(xiàn)形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。每一步,通過(guò)使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來(lái)更新當(dāng)前群體的一組假設(shè),來(lái)實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類(lèi)能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問(wèn)題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類(lèi)規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱(chēng)為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱(chēng)為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類(lèi)、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來(lái)的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類(lèi)精確性,能有效的解決過(guò)學(xué)習(xí)問(wèn)題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問(wèn)題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類(lèi)、回歸、對(duì)未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問(wèn)題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問(wèn)題而定。
三、結(jié)束語(yǔ)
目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問(wèn)題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。
參考文獻(xiàn):
蘇新寧楊建林鄧三鴻等:數(shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003
[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無(wú)法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢(xún)、報(bào)表工具無(wú)法滿(mǎn)足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類(lèi)問(wèn)題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線(xiàn)性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線(xiàn)的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類(lèi)分析。聚類(lèi)分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類(lèi)和增量聚類(lèi)。聚類(lèi)方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類(lèi)分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類(lèi)分析算法得到的類(lèi)對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類(lèi)趨勢(shì)進(jìn)行檢驗(yàn)。
4.決策樹(shù)方法。決策樹(shù)學(xué)習(xí)是一種通過(guò)逼近離散值目標(biāo)函數(shù)的方法,通過(guò)把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類(lèi)實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類(lèi)。樹(shù)上的每個(gè)結(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類(lèi)實(shí)例的方法是從這棵樹(shù)的根結(jié)點(diǎn)開(kāi)始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng)。決策樹(shù)方法是要應(yīng)用于數(shù)據(jù)挖掘的分類(lèi)方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無(wú)指導(dǎo)聚類(lèi),無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類(lèi)多種神經(jīng)元網(wǎng)絡(luò),具有非線(xiàn)形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。每一步,通過(guò)使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來(lái)更新當(dāng)前群體的一組假設(shè),來(lái)實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類(lèi)能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問(wèn)題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類(lèi)規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱(chēng)為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱(chēng)為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類(lèi)、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來(lái)的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類(lèi)精確性,能有效的解決過(guò)學(xué)習(xí)問(wèn)題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問(wèn)題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類(lèi)、回歸、對(duì)未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問(wèn)題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問(wèn)題而定。
三、結(jié)束語(yǔ)
目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問(wèn)題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。
[關(guān)鍵詞]數(shù)據(jù)挖掘客戶(hù)關(guān)系管理應(yīng)用步驟
根據(jù)波特的影響企業(yè)的利益相關(guān)者理論,企業(yè)有五個(gè)利益相關(guān)者,分別是客戶(hù)、競(jìng)爭(zhēng)對(duì)手、供應(yīng)商、分銷(xiāo)商和政府等其他利益相關(guān)者。其中,最重要的利益相關(guān)者就是客戶(hù)。現(xiàn)代企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)不僅體現(xiàn)在產(chǎn)品上,還體現(xiàn)在市場(chǎng)上,誰(shuí)能獲得更大的市場(chǎng)份額,誰(shuí)就能在競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)和主動(dòng)。而對(duì)市場(chǎng)份額的爭(zhēng)奪實(shí)質(zhì)上是對(duì)客戶(hù)的爭(zhēng)奪,因此,企業(yè)必須完成從“產(chǎn)品”導(dǎo)向向“客戶(hù)”導(dǎo)向的轉(zhuǎn)變,對(duì)企業(yè)與客戶(hù)發(fā)生的各種關(guān)系進(jìn)行管理。進(jìn)行有效的客戶(hù)關(guān)系管理,就要通過(guò)有效的途徑,從儲(chǔ)存大量客戶(hù)信息的數(shù)據(jù)倉(cāng)庫(kù)中經(jīng)過(guò)深層分析,獲得有利于商業(yè)運(yùn)作,提高企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的有效信息。而實(shí)現(xiàn)這些有效性的關(guān)鍵技術(shù)支持就是數(shù)據(jù)挖掘,即從海量數(shù)據(jù)中挖掘出更有價(jià)值的潛在信息。正是有了數(shù)據(jù)挖掘技術(shù)的支持,才使得客戶(hù)關(guān)系管理的理念和目標(biāo)得以實(shí)現(xiàn),滿(mǎn)足現(xiàn)代電子商務(wù)時(shí)代的需求和挑戰(zhàn)。
一、客戶(hù)關(guān)系管理(CRM)
CRM是一種旨在改善企業(yè)與客戶(hù)之間關(guān)系的新型管理方法。它是企業(yè)通過(guò)富有意義的交流和溝通,理解并影響客戶(hù)行為,最終實(shí)現(xiàn)提高客戶(hù)獲取、客戶(hù)保留、客戶(hù)忠誠(chéng)和客戶(hù)創(chuàng)利的目的。它包括的主要內(nèi)容有客戶(hù)識(shí)別、客戶(hù)關(guān)系的建立、客戶(hù)保持、客戶(hù)流失控制和客戶(hù)挽留。通過(guò)客戶(hù)關(guān)系管理能夠提高企業(yè)銷(xiāo)售收入,改善企業(yè)的服務(wù),提高客戶(hù)滿(mǎn)意度,同時(shí)能提高員工的生產(chǎn)能力。
二、數(shù)據(jù)挖掘(DM)
數(shù)據(jù)挖掘(DataMining,簡(jiǎn)稱(chēng)DM),簡(jiǎn)單的講就是從大量數(shù)據(jù)中挖掘或抽取出知識(shí)。數(shù)據(jù)挖掘概念的定義描述有若干版本。一個(gè)通用的定義是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱諱的、事先未知的、潛在有用的信息。
常用的數(shù)據(jù)挖掘方法有:(1)關(guān)聯(lián)分析。即從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識(shí)。例如,某商場(chǎng)通過(guò)關(guān)聯(lián)分析,可以找出若干個(gè)客戶(hù)在本商場(chǎng)購(gòu)買(mǎi)商品時(shí),哪些商品被購(gòu)置率較高,進(jìn)而可以發(fā)現(xiàn)數(shù)據(jù)庫(kù)中不同商品的聯(lián)系,進(jìn)而反映客戶(hù)的購(gòu)買(mǎi)習(xí)慣。(2)序列模式分析。它與關(guān)聯(lián)分析相似,其目的也是為了控制挖掘出的數(shù)據(jù)間的聯(lián)系。但序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后(因果)關(guān)系。例如,可以通過(guò)分析客戶(hù)在購(gòu)買(mǎi)A商品后,必定(或大部分情況下)隨著購(gòu)買(mǎi)B商品,來(lái)發(fā)現(xiàn)客戶(hù)潛在的購(gòu)買(mǎi)模式。(3)分類(lèi)分析。是找出一組能夠描述數(shù)據(jù)集合典型特征的模型,以便能夠分類(lèi)識(shí)別未知數(shù)據(jù)的歸屬或類(lèi)別。例如,銀行可以根據(jù)客戶(hù)的債務(wù)水平、收入水平和工作情況,可對(duì)給定用戶(hù)進(jìn)行信用風(fēng)險(xiǎn)分析。(4)聚類(lèi)分析。是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)對(duì)象之間所存在的有價(jià)值聯(lián)系。在商業(yè)上,聚類(lèi)可以通過(guò)顧客數(shù)據(jù)將顧客信息分組,并對(duì)顧客的購(gòu)買(mǎi)模式進(jìn)行描述,找出他們的特征,制定針對(duì)性的營(yíng)銷(xiāo)方案。(5)孤立點(diǎn)分析。孤立點(diǎn)是數(shù)據(jù)庫(kù)中與數(shù)據(jù)的一般模式不一致的數(shù)據(jù)對(duì)象,它可能是收集數(shù)據(jù)的設(shè)備出現(xiàn)故障、人為輸入時(shí)的輸入錯(cuò)誤等。孤立點(diǎn)分析就是專(zhuān)門(mén)挖掘這些特殊信息的方法。例如,銀行可以利用孤立點(diǎn)分析發(fā)現(xiàn)信用卡詐騙,電信部門(mén)可以利用孤立點(diǎn)分析發(fā)現(xiàn)電話(huà)盜用等。
三、數(shù)據(jù)挖掘在客戶(hù)關(guān)系管理中的應(yīng)用
1.進(jìn)行客戶(hù)分類(lèi)
客戶(hù)分類(lèi)是將大量的客戶(hù)分成不同的類(lèi)別,在每一類(lèi)別里的客戶(hù)具有相似的屬性,而不同類(lèi)別里的客戶(hù)的屬性不同。數(shù)據(jù)挖掘可以幫助企業(yè)進(jìn)行客戶(hù)分類(lèi),針對(duì)不同類(lèi)別的客戶(hù),提供個(gè)性化的服務(wù)來(lái)提高客戶(hù)的滿(mǎn)意度,提高現(xiàn)有客戶(hù)的價(jià)值。細(xì)致而可行的客戶(hù)分類(lèi)對(duì)企業(yè)的經(jīng)營(yíng)策略有很大益處。例如,保險(xiǎn)公司在長(zhǎng)期的保險(xiǎn)服務(wù)中,積累了很多的數(shù)據(jù)信息,包括對(duì)客戶(hù)的服務(wù)歷史、對(duì)客戶(hù)的銷(xiāo)售歷史和收入,以及客戶(hù)的人口統(tǒng)計(jì)學(xué)資料和生活方式等。保險(xiǎn)公司必須將這些眾多的信息資源綜合起來(lái),以便在數(shù)據(jù)庫(kù)里建立起一個(gè)完整的客戶(hù)背景。在客戶(hù)背景信息中,大批客戶(hù)可能在保險(xiǎn)種類(lèi)、保險(xiǎn)年份和保險(xiǎn)金額上具有極高的相似性,因而形成了具有共性的客戶(hù)群體。經(jīng)過(guò)數(shù)據(jù)挖掘的聚類(lèi)分析,可以發(fā)現(xiàn)他們的共性,掌握他們的保險(xiǎn)理念,提供有針對(duì)性的服務(wù),提高保險(xiǎn)公司的綜合服務(wù)水平,并可以降低業(yè)務(wù)服務(wù)成本,取得更高的收益。
2.進(jìn)行客戶(hù)識(shí)別和保留
(1)在CRM中,首先應(yīng)識(shí)別潛在客戶(hù),然后將他們轉(zhuǎn)化為客戶(hù)
這時(shí)可以采用DM中的分類(lèi)方法。首先是通過(guò)對(duì)數(shù)據(jù)庫(kù)中各數(shù)據(jù)進(jìn)行分析,從而建立一個(gè)描述已知數(shù)據(jù)集類(lèi)別或概念的模型,然后對(duì)每一個(gè)測(cè)試樣本,用其已知的類(lèi)別與學(xué)習(xí)所獲模型的預(yù)測(cè)類(lèi)別做比較,如果一個(gè)學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測(cè)試被認(rèn)可,就可以用這個(gè)模型對(duì)未來(lái)對(duì)象進(jìn)行分類(lèi)。例如,圖書(shū)發(fā)行公司利用顧客郵件地址數(shù)據(jù)庫(kù),給潛在顧客發(fā)送用于促銷(xiāo)的新書(shū)宣傳冊(cè)。該數(shù)據(jù)庫(kù)內(nèi)容有客戶(hù)情況的描述,包括年齡、收入、職業(yè)、閱讀偏好、訂購(gòu)習(xí)慣、購(gòu)書(shū)資金、計(jì)劃等屬性的描述,顧客被分類(lèi)為“是”或“否”會(huì)成為購(gòu)買(mǎi)書(shū)籍的顧客。當(dāng)新顧客的信息被輸入到數(shù)據(jù)庫(kù)中時(shí),就對(duì)該新顧客的購(gòu)買(mǎi)傾向進(jìn)行分類(lèi),以決定是否給該顧客發(fā)送相應(yīng)書(shū)籍的宣傳手冊(cè)。
(2)在客戶(hù)保留中的應(yīng)用
客戶(hù)識(shí)別是獲取新客戶(hù)的過(guò)程,而客戶(hù)保留則是留住老顧客、防止客戶(hù)流失的過(guò)程。對(duì)企業(yè)來(lái)說(shuō),獲取一個(gè)新顧客的成本要比保留一個(gè)老顧客的成本高。在保留客戶(hù)的過(guò)程中,非常重要的一個(gè)工作就是要找出顧客流失的原因。例如,某專(zhuān)科學(xué)校的招生人數(shù)在逐漸減少,那么就要找出減少的原因,經(jīng)過(guò)廣泛的搜集信息,發(fā)現(xiàn)原因在于本學(xué)校對(duì)技能培訓(xùn)不夠重視,學(xué)生只能學(xué)到書(shū)本知識(shí),沒(méi)有實(shí)際的技能,在就業(yè)市場(chǎng)上找工作很難。針對(duì)這種情況,學(xué)校應(yīng)果斷的抽取資金,購(gòu)買(mǎi)先進(jìn)的、有針對(duì)性的實(shí)驗(yàn)實(shí)訓(xùn)設(shè)備,同時(shí)修改教學(xué)計(jì)劃,加大實(shí)驗(yàn)實(shí)訓(xùn)課時(shí)和考核力度,培訓(xùn)相關(guān)專(zhuān)業(yè)的教師。
(3)對(duì)客戶(hù)忠誠(chéng)度進(jìn)行分析
客戶(hù)的忠誠(chéng)意味著客戶(hù)不斷地購(gòu)買(mǎi)公司的產(chǎn)品或服務(wù)。數(shù)據(jù)挖掘在客戶(hù)忠誠(chéng)度分析中主要是對(duì)客戶(hù)持久性、牢固性和穩(wěn)定性進(jìn)行分析。比如大型超市通過(guò)會(huì)員的消費(fèi)信息,如最近一次消費(fèi)、消費(fèi)頻率、消費(fèi)金額三個(gè)指標(biāo)對(duì)數(shù)據(jù)進(jìn)行分析,可以預(yù)測(cè)出顧客忠誠(chéng)度的變化,據(jù)此對(duì)價(jià)格、商品的種類(lèi)以及銷(xiāo)售策略加以調(diào)整和更新,以便留住老顧客,吸引新顧客。
(4)對(duì)客戶(hù)盈利能力分析和預(yù)測(cè)
對(duì)于一個(gè)企業(yè)而言,如果不知道客戶(hù)的價(jià)值,就很難做出合適的市場(chǎng)策略。不同的客戶(hù)對(duì)于企業(yè)而言,其價(jià)值是不同的。研究表明,一個(gè)企業(yè)的80%的利潤(rùn)是由只占客戶(hù)總數(shù)的20%的客戶(hù)創(chuàng)造的,這部分客戶(hù)就是有價(jià)值的優(yōu)質(zhì)客戶(hù)。為了弄清誰(shuí)才是有價(jià)值的客戶(hù),就需要按照客戶(hù)的創(chuàng)利能力來(lái)劃分客戶(hù),進(jìn)而改進(jìn)客戶(hù)關(guān)系管理。數(shù)據(jù)挖掘技術(shù)可以用來(lái)分析和預(yù)測(cè)不同市場(chǎng)活動(dòng)情況下客戶(hù)盈利能力的變化,幫助企業(yè)制定合適的市場(chǎng)策略。商業(yè)銀行一般會(huì)利用數(shù)據(jù)挖掘技術(shù)對(duì)客戶(hù)的資料進(jìn)行分析,找出對(duì)提高企業(yè)盈利能力最重要的客戶(hù),進(jìn)而進(jìn)行針對(duì)性的服務(wù)和營(yíng)銷(xiāo)。
(5)交叉銷(xiāo)售和增量銷(xiāo)售
交叉銷(xiāo)售是促使客戶(hù)購(gòu)買(mǎi)尚未使用的產(chǎn)品和服務(wù)的營(yíng)銷(xiāo)手段,目的是可以拓寬企業(yè)和客戶(hù)間的關(guān)系。增量銷(xiāo)售是促使客戶(hù)將現(xiàn)有產(chǎn)品和服務(wù)升級(jí)的銷(xiāo)售活動(dòng),目的在于增強(qiáng)企業(yè)和客戶(hù)的關(guān)系。這兩種銷(xiāo)售都是建立在雙贏(yíng)的基礎(chǔ)上的,客戶(hù)因得到更多更好符合其需求的服務(wù)而獲益,公司也因銷(xiāo)售增長(zhǎng)而獲益。數(shù)據(jù)挖掘可以采用關(guān)聯(lián)性模型或預(yù)測(cè)性模型來(lái)預(yù)測(cè)什么時(shí)間會(huì)發(fā)生什么事件,判斷哪些客戶(hù)對(duì)交叉銷(xiāo)售和增量銷(xiāo)售很有意向,以達(dá)到交叉銷(xiāo)售和增量銷(xiāo)售的目的。例如,保險(xiǎn)公司的交叉營(yíng)銷(xiāo)策略:保險(xiǎn)公司對(duì)已經(jīng)購(gòu)買(mǎi)某險(xiǎn)種的客戶(hù)推薦其它保險(xiǎn)產(chǎn)品和服務(wù)。這種策略成功的關(guān)鍵是要確保推銷(xiāo)的保險(xiǎn)險(xiǎn)種是用戶(hù)所感興趣的,否則會(huì)造成用戶(hù)的反感。
四、客戶(hù)關(guān)系管理應(yīng)用數(shù)據(jù)挖掘的步驟
1.需求分析
只有確定需求,才有分析和預(yù)測(cè)的目標(biāo),然后才能提取數(shù)據(jù)、選擇方法,因此,需求分析是數(shù)據(jù)挖掘的基礎(chǔ)條件。數(shù)據(jù)挖掘的實(shí)施過(guò)程也是圍繞著這個(gè)目標(biāo)進(jìn)行的。在確定用戶(hù)的需求后,應(yīng)該明確所要解決的問(wèn)題屬于哪種應(yīng)用類(lèi)型,是屬于關(guān)聯(lián)分析、分類(lèi)、聚類(lèi)及預(yù)測(cè),還是其他應(yīng)用。應(yīng)對(duì)現(xiàn)有資源如已有的歷史數(shù)據(jù)進(jìn)行評(píng)估,確定是否能夠通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)解決用戶(hù)的需求,然后將進(jìn)一步確定數(shù)據(jù)挖掘的目標(biāo)和制定數(shù)據(jù)挖掘的計(jì)劃。
2.建立數(shù)據(jù)庫(kù)
這是數(shù)據(jù)挖掘中非常重要也非常復(fù)雜的一步。首先,要進(jìn)行數(shù)據(jù)收集和集成,其次,要對(duì)數(shù)據(jù)進(jìn)行描述和整合。數(shù)據(jù)主要有四個(gè)方面的來(lái)源:客戶(hù)信息、客戶(hù)行為、生產(chǎn)系統(tǒng)和其他相關(guān)數(shù)據(jù)。這些數(shù)據(jù)通過(guò)抽取、轉(zhuǎn)換和裝載,形成數(shù)據(jù)倉(cāng)庫(kù),并通過(guò)OLAP和報(bào)表,將客戶(hù)的整體行為結(jié)果分析等數(shù)據(jù)傳遞給數(shù)據(jù)庫(kù)用戶(hù)。
3.選擇合適的數(shù)據(jù)挖掘工具
如果從上一步的分析中發(fā)現(xiàn),所要解決的問(wèn)題能用數(shù)據(jù)挖掘比較好地完成,那么需要做的第三步就是選擇合適的數(shù)據(jù)挖掘技術(shù)與方法。將所要解決的問(wèn)題轉(zhuǎn)化成一系列數(shù)據(jù)挖掘的任務(wù)。數(shù)據(jù)挖掘主要有五種任務(wù):分類(lèi),估值預(yù)測(cè),關(guān)聯(lián)規(guī)則,聚集,描述。前三種屬于直接的數(shù)據(jù)挖掘。在直接數(shù)據(jù)挖掘中,目標(biāo)是應(yīng)用可得到的數(shù)據(jù)建立模型,用其它可得到的數(shù)據(jù)來(lái)描述感興趣的變量。后兩種屬于間接數(shù)據(jù)挖掘。在間接數(shù)據(jù)挖掘中,沒(méi)有單一的目標(biāo)變量,目標(biāo)是在所有變量中發(fā)現(xiàn)某些聯(lián)系。
4.建立模型
建立模型是選擇合適的方法和算法對(duì)數(shù)據(jù)進(jìn)行分析,得到一個(gè)數(shù)據(jù)挖掘模型的過(guò)程。一個(gè)好的模型沒(méi)必要與已有數(shù)據(jù)完全相符,但模型對(duì)未來(lái)的數(shù)據(jù)應(yīng)有較好的預(yù)測(cè)。需要仔細(xì)考察不同的模型以判斷哪個(gè)模型對(duì)所需解決的問(wèn)題最有用。如決策樹(shù)模型、聚類(lèi)模型都是分類(lèi)模型,它們將一個(gè)事件或?qū)ο髿w類(lèi)?;貧w是通過(guò)具有已知值的變量來(lái)預(yù)測(cè)其它變量的值。時(shí)間序列是用變量過(guò)去的值來(lái)預(yù)測(cè)未來(lái)的值。這一步是數(shù)據(jù)挖掘的核心環(huán)節(jié)。建立模型是一個(gè)反復(fù)進(jìn)行的過(guò)程,它需要不斷地改進(jìn)或更換算法以尋找對(duì)目標(biāo)分析作用最明顯的模型,最后得到一個(gè)最合理、最適用的模型。
5.模型評(píng)估
為了驗(yàn)證模型的有效性、可信性和可用性,從而選擇最優(yōu)的模型,需要對(duì)模型進(jìn)行評(píng)估。我們可以將數(shù)據(jù)中的一部分用于模型評(píng)估,來(lái)測(cè)試模型的準(zhǔn)確性,模型是否容易被理解模型的運(yùn)行速度、輸入結(jié)果的速度、實(shí)現(xiàn)代價(jià)、復(fù)雜度等。模型的建立和檢驗(yàn)是一個(gè)反復(fù)的過(guò)程,通過(guò)這個(gè)階段階段的工作,能使數(shù)據(jù)以用戶(hù)能理解的方式出現(xiàn),直至找到最優(yōu)或較優(yōu)的模型。
6.部署和應(yīng)用
將數(shù)據(jù)挖掘的知識(shí)歸檔和報(bào)告給需要的群體,根據(jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的知識(shí)采取必要的行動(dòng),以及消除與先前知識(shí)可能存在的沖突,并將挖掘的知識(shí)應(yīng)用于應(yīng)用系統(tǒng)。在模型的應(yīng)用過(guò)程中,也需要不斷地對(duì)模型進(jìn)行評(píng)估和檢驗(yàn),并做出適當(dāng)?shù)恼{(diào)整,以使模型適應(yīng)不斷變化的環(huán)境。
參考文獻(xiàn):
[1]羅納德.S.史威福特.客戶(hù)關(guān)系管理[M].楊東龍譯.北京:中國(guó)經(jīng)濟(jì)出版社,2002
[2]馬剛:客戶(hù)關(guān)系管理[M]大連:東北財(cái)經(jīng)大學(xué)出版社,2008
[3]朱美珍:以數(shù)據(jù)挖掘提升客戶(hù)關(guān)系管理[J].高科技產(chǎn)業(yè)技術(shù)與創(chuàng)新管理,2006,(27)
[4]顧桂芳何世友:數(shù)據(jù)挖掘在客戶(hù)關(guān)系管理中的應(yīng)用研究[J].企業(yè)管理,2007,(7)
數(shù)據(jù)挖掘技術(shù)是一種新型的技術(shù),在現(xiàn)代數(shù)據(jù)存儲(chǔ)以及測(cè)量技術(shù)的迅猛發(fā)展過(guò)程中,人們可以進(jìn)行信息的大量測(cè)量并進(jìn)行存儲(chǔ)。但是,在大量的信息背后卻沒(méi)有一種有效的手段和技術(shù)進(jìn)行直觀(guān)的表達(dá)和分析。而數(shù)據(jù)挖掘技術(shù)的出現(xiàn),是對(duì)目前大數(shù)據(jù)時(shí)代的一種應(yīng)急手段,使得有關(guān)計(jì)算機(jī)數(shù)據(jù)處理技術(shù)得到加快發(fā)展。數(shù)據(jù)挖掘技術(shù)最早是從機(jī)器學(xué)習(xí)的概念中而產(chǎn)生的,在對(duì)機(jī)器的學(xué)習(xí)過(guò)程中,一般不采用歸納或者較少使用這種方法,這是一種非常機(jī)械的操作辦法。而沒(méi)有指導(dǎo)性學(xué)習(xí)的辦法一般不從這些環(huán)境得出反饋,而是通過(guò)沒(méi)有干預(yù)的情況下進(jìn)行歸納和學(xué)習(xí),并建立一種理論模型。數(shù)據(jù)挖掘技術(shù)是屬于例子歸納學(xué)習(xí)的一種方式,這種從例子中進(jìn)行歸納學(xué)習(xí)的方式是介于上述無(wú)指導(dǎo)性學(xué)習(xí)以及較少使用歸納學(xué)習(xí)這兩種方式之間的一種方式。因此,可以說(shuō),數(shù)據(jù)挖掘技術(shù)的特征在出自于機(jī)器學(xué)習(xí)的背景下,與其相比機(jī)器主要關(guān)心的是如何才能有效提高機(jī)器的學(xué)習(xí)能力,但數(shù)據(jù)挖掘技術(shù)主要關(guān)心如何才能找到有用、有價(jià)值的信息。其第二個(gè)特征是,與機(jī)器學(xué)習(xí)特點(diǎn)相比較而言,機(jī)器關(guān)心的是小數(shù)據(jù),而數(shù)據(jù)挖掘技術(shù)所面臨的對(duì)象則是現(xiàn)實(shí)中海量規(guī)模的數(shù)據(jù)庫(kù),其作用主要是用來(lái)處理一些異?,F(xiàn)象,特別是處理殘缺的、有噪音以及維數(shù)很高的數(shù)據(jù)項(xiàng),甚至是一些不同類(lèi)型數(shù)據(jù)。以往的數(shù)據(jù)處理方法和現(xiàn)代的數(shù)據(jù)挖掘技術(shù)相比較而言,其不同點(diǎn)是以往的傳統(tǒng)數(shù)據(jù)處理方法前提是把理論作為一種指導(dǎo)數(shù)據(jù)來(lái)進(jìn)行處理,在現(xiàn)代數(shù)據(jù)挖掘技術(shù)的出發(fā)角度不同,主要運(yùn)用啟發(fā)式的歸納學(xué)習(xí)進(jìn)行理論以及假設(shè)來(lái)處理的。
2、數(shù)據(jù)挖掘技術(shù)主要步驟
數(shù)據(jù)挖掘技術(shù)首先要建立數(shù)據(jù)倉(cāng)庫(kù),要根據(jù)實(shí)際情況而定,在易出現(xiàn)問(wèn)題的有關(guān)領(lǐng)域建立有效的數(shù)據(jù)庫(kù)。主要是用來(lái)把數(shù)據(jù)庫(kù)中的所有的存儲(chǔ)數(shù)據(jù)進(jìn)行分析,而目前的一些數(shù)據(jù)庫(kù)雖然可以進(jìn)行大量的存儲(chǔ)數(shù)據(jù),同時(shí)也進(jìn)行了一系列的技術(shù)發(fā)展。比如,系統(tǒng)中的在線(xiàn)分析處理,主要是為用戶(hù)查詢(xún),但是卻沒(méi)有查詢(xún)結(jié)果的分析能力,而查詢(xún)的結(jié)果仍舊由人工進(jìn)行操作,依賴(lài)于對(duì)手工方式進(jìn)行數(shù)據(jù)測(cè)試并建模。其次,在數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)選一數(shù)據(jù)集,作為對(duì)數(shù)據(jù)挖掘算法原始輸入。此數(shù)據(jù)集所涉及到數(shù)據(jù)的時(shí)變性以及統(tǒng)一性等情況。然后,再進(jìn)行數(shù)據(jù)的預(yù)處理,在處理中主要對(duì)一些缺損數(shù)據(jù)進(jìn)行補(bǔ)齊,并消除噪聲,此外還應(yīng)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的處理。隨后,再對(duì)數(shù)據(jù)進(jìn)行降維和變換。如果數(shù)據(jù)的維數(shù)比較高,還應(yīng)找出維分量高的數(shù)據(jù),對(duì)高維數(shù)數(shù)據(jù)空間能夠容易轉(zhuǎn)化為檢點(diǎn)的低維數(shù)數(shù)據(jù)空間進(jìn)行處理。下一步驟就是確定任務(wù),要根據(jù)現(xiàn)實(shí)的需要,對(duì)數(shù)據(jù)挖掘目標(biāo)進(jìn)行確定,并建立預(yù)測(cè)性的模型、數(shù)據(jù)的摘要等。隨后再?zèng)Q定數(shù)據(jù)挖掘的算法,這一步驟中,主要是對(duì)當(dāng)前的數(shù)據(jù)類(lèi)型選擇有效的處理方法,此過(guò)程非常重要,在所有數(shù)據(jù)挖掘技術(shù)中起到較大作用。隨后再對(duì)數(shù)據(jù)挖掘進(jìn)行具體的處理和結(jié)果檢驗(yàn),在處理過(guò)程中,要按照不同的目的,選擇不同的算法,是運(yùn)用決策樹(shù)還是分類(lèi)等的算法,是運(yùn)用聚類(lèi)算法還是使用回歸算法,都要認(rèn)真處理,得出科學(xué)的結(jié)論。在數(shù)據(jù)挖掘結(jié)果檢驗(yàn)時(shí),要注意幾個(gè)問(wèn)題,要充分利用結(jié)論對(duì)照其他的信息進(jìn)行校核,可對(duì)圖表等一些直觀(guān)的信息和手段進(jìn)行輔助分析,使結(jié)論能夠更加科學(xué)合理。需要注意的是要根據(jù)用戶(hù)來(lái)決定結(jié)論有用的程度。最后一項(xiàng)步驟是把所得出的結(jié)論進(jìn)行應(yīng)用到實(shí)際,要對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行仔細(xì)的校驗(yàn),重點(diǎn)是解決好以前的觀(guān)點(diǎn)和看法有無(wú)差錯(cuò),使目前的結(jié)論和原先看法的矛盾有效解除。
3、數(shù)據(jù)挖掘技術(shù)的方法以及在電力營(yíng)銷(xiāo)系統(tǒng)中的應(yīng)用和發(fā)展
數(shù)控挖掘技術(shù)得到了非常廣泛的應(yīng)用,按照技術(shù)本身的發(fā)展出現(xiàn)了較多方法。例如,建立預(yù)測(cè)性建模方法,也就是對(duì)歷史數(shù)據(jù)進(jìn)行分析并歸納總結(jié),從而建立成預(yù)測(cè)性模型。根據(jù)此模型以及當(dāng)前的其他數(shù)據(jù)進(jìn)行推斷相關(guān)聯(lián)的數(shù)據(jù)。如果推斷的對(duì)象屬于連續(xù)型的變量,那么此類(lèi)的推斷問(wèn)題可屬回歸問(wèn)題。根據(jù)歷史數(shù)據(jù)來(lái)進(jìn)行分析和檢測(cè),再做出科學(xué)的架設(shè)和推定。在常用的回歸算法以及非線(xiàn)性變換進(jìn)行有效的結(jié)合,能夠使許多問(wèn)題得到解決。電力營(yíng)銷(xiāo)系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)應(yīng)用中關(guān)聯(lián)規(guī)則是最為關(guān)鍵的技術(shù)應(yīng)用之一。這種應(yīng)用可以有效地幫助決策人員進(jìn)行當(dāng)前有關(guān)數(shù)據(jù)以及歷史數(shù)據(jù)的規(guī)律分析,最后預(yù)測(cè)出未來(lái)情況。把關(guān)聯(lián)規(guī)則成功引入電力營(yíng)銷(xiāo)分析,通過(guò)FP-Growth算法對(duì)電力營(yíng)銷(xiāo)的有關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,從中得出各種電量銷(xiāo)售的影響因素以及外部因素、手電水平等的關(guān)聯(lián)信息,以便更好地為電力的市場(chǎng)營(yíng)銷(xiāo)策略提供參謀和決策。對(duì)電力營(yíng)銷(xiāo)系統(tǒng)的應(yīng)用中,時(shí)間序列挖掘以及序列挖掘非常經(jīng)典、系統(tǒng),是應(yīng)用最為廣泛的一種預(yù)測(cè)方法。這種方法的應(yīng)用中,對(duì)神經(jīng)網(wǎng)絡(luò)的研究非常之多。因此,在現(xiàn)實(shí)中應(yīng)用主要把時(shí)間序列挖掘以及神經(jīng)網(wǎng)絡(luò)兩者進(jìn)行有效地結(jié)合,然后再分析有關(guān)電力營(yíng)銷(xiāo)數(shù)據(jù)。此外,有關(guān)專(zhuān)家還提出應(yīng)用一種時(shí)間窗的序列挖掘算法,這種方式可以進(jìn)行有效地報(bào)警處理,使電力系統(tǒng)中的故障能夠準(zhǔn)確的定位并診斷事故。此算法對(duì)電力系統(tǒng)的分析和挖掘能力的提高非常有效,還可判定電力系統(tǒng)的運(yùn)行是否穩(wěn)定,對(duì)錯(cuò)誤模型的分析精度達(dá)到一定的精確度。
4、結(jié)語(yǔ)
1.較高的有效性新興起來(lái)的數(shù)據(jù)挖掘技術(shù)的應(yīng)用時(shí)間并不是很長(zhǎng),但是其在經(jīng)濟(jì)統(tǒng)計(jì)領(lǐng)域的應(yīng)用受到了良好的效果,其穩(wěn)定的工作性能,不僅能夠?qū)?jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析整理,更能深層次地開(kāi)發(fā)出更多的有用信息,在實(shí)際的應(yīng)用中展現(xiàn)出較高的有效性。
2.綜合應(yīng)用性強(qiáng)數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛地應(yīng)用在統(tǒng)計(jì)工作中的多個(gè)領(lǐng)域,并且發(fā)揮著重要的作用。數(shù)據(jù)挖掘技術(shù)不僅是一種綜合應(yīng)用性強(qiáng)的技術(shù)手段,同時(shí)又能滿(mǎn)足統(tǒng)計(jì)數(shù)據(jù)使用者的特定數(shù)據(jù)需要。因此,數(shù)據(jù)挖掘技術(shù)能夠?qū)?jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行定向的整理和開(kāi)發(fā),為數(shù)據(jù)使用者提供更好的服務(wù)。
3.宏觀(guān)型的數(shù)據(jù)庫(kù)有利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用當(dāng)前,我國(guó)的經(jīng)濟(jì)統(tǒng)計(jì)大多還是采用傳統(tǒng)的經(jīng)濟(jì)統(tǒng)計(jì)方法,統(tǒng)計(jì)收集的數(shù)據(jù)信息不能形成有機(jī)整體,在對(duì)數(shù)據(jù)進(jìn)行管理過(guò)程中,出現(xiàn)了很多問(wèn)題。因此。經(jīng)濟(jì)統(tǒng)計(jì)工作需要能夠提供數(shù)據(jù)整理開(kāi)發(fā)的新技術(shù)。宏觀(guān)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)庫(kù),為數(shù)據(jù)挖掘技術(shù)的開(kāi)展提供了平臺(tái)。數(shù)據(jù)管理系統(tǒng)的經(jīng)濟(jì)統(tǒng)計(jì)信息要正確無(wú)誤,然后經(jīng)過(guò)數(shù)據(jù)挖掘技術(shù)的整合,就能得到更豐富的數(shù)據(jù)資源。
二、數(shù)據(jù)挖掘技術(shù)的運(yùn)用
數(shù)據(jù)挖掘技術(shù)的特性決定了其對(duì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)整理的重要性,經(jīng)濟(jì)統(tǒng)計(jì)所得到的數(shù)據(jù)信息要求必須有實(shí)用性和真實(shí)性,數(shù)據(jù)挖掘技術(shù)的特性正好滿(mǎn)足了經(jīng)濟(jì)統(tǒng)計(jì)工作的需要。數(shù)據(jù)挖掘的過(guò)程主要包括以下四種方法:
1.預(yù)處理方法首先,要對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行預(yù)處理。由于經(jīng)濟(jì)統(tǒng)計(jì)信息在收集過(guò)程中存在一些問(wèn)題,導(dǎo)致收集到的數(shù)據(jù)存在缺失和模糊現(xiàn)象,這種有缺憾的數(shù)據(jù)信息不能作為數(shù)據(jù)挖掘的基礎(chǔ),因此一定要對(duì)數(shù)據(jù)挖掘?qū)ο筮M(jìn)行事先的處理。其中包括對(duì)基礎(chǔ)數(shù)據(jù)中不正確、不真實(shí)、不準(zhǔn)確和偏差較大的數(shù)據(jù)進(jìn)行甄別。
2.集成化處理方法其次,要對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行集成化處理。經(jīng)濟(jì)統(tǒng)計(jì)過(guò)程中,會(huì)出現(xiàn)對(duì)多個(gè)數(shù)據(jù)源進(jìn)行重疊統(tǒng)計(jì)的現(xiàn)象,這就要求對(duì)數(shù)據(jù)進(jìn)行挖掘之前,要有一個(gè)統(tǒng)一整理的過(guò)程,即數(shù)據(jù)的集成化處理。數(shù)據(jù)集成在統(tǒng)計(jì)中被廣泛的使用。經(jīng)過(guò)數(shù)據(jù)集成處理的統(tǒng)計(jì)信息更加全面,更加真實(shí),可以作為數(shù)據(jù)挖掘基礎(chǔ)信息。
3.轉(zhuǎn)換方法再有,要對(duì)統(tǒng)計(jì)數(shù)據(jù)根據(jù)需要進(jìn)行轉(zhuǎn)換。經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的描述形式比較單一,為了滿(mǎn)足數(shù)據(jù)信息使用者的需要,就要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使其的表現(xiàn)形式具有泛化或是更加規(guī)范。這里所說(shuō)的泛化指的是利用更深層次和更加抽象的定義來(lái)代替原有的低層數(shù)據(jù)。
4.決策樹(shù)方法除卻上述四種處理方法外,還有決策樹(shù)方法,指的是對(duì)龐雜的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分類(lèi),把有利用價(jià)值的統(tǒng)計(jì)數(shù)據(jù)提煉出來(lái),這種數(shù)據(jù)挖掘形式能夠?qū)Ψ治鰧?duì)象進(jìn)行體現(xiàn),并能快速的對(duì)信息進(jìn)行分類(lèi)處理,能夠解決在經(jīng)濟(jì)統(tǒng)計(jì)過(guò)程中出現(xiàn)的各種問(wèn)題。
三、結(jié)語(yǔ)