時間:2023-09-05 16:32:12
序論:在您撰寫數(shù)據(jù)分析分析技術(shù)時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導您走向新的創(chuàng)作高度。
關(guān)鍵詞 數(shù)據(jù)挖掘技術(shù) 警務(wù)系統(tǒng) 數(shù)據(jù)分析 應(yīng)用
中圖分類號:TP311 文獻標識碼:A
1數(shù)據(jù)挖掘技術(shù)在警務(wù)數(shù)據(jù)分析系統(tǒng)中的重要性
警務(wù)系統(tǒng)由于工作的特點,要不斷地接受外來數(shù)據(jù)和有序存儲舊數(shù)據(jù),這就對警務(wù)系統(tǒng)的數(shù)據(jù)處理系統(tǒng)有越來越高的要求,傳統(tǒng)的警務(wù)數(shù)據(jù)處理系統(tǒng)在信息量巨大的現(xiàn)今社會已經(jīng)不能再有效的完善數(shù)據(jù)庫的運行,這就需要新型的數(shù)據(jù)處理系統(tǒng)接替工作。新型的數(shù)據(jù)處理系統(tǒng)在案件的信息提取、視頻分析等方面都應(yīng)該有卓越的性能,將對案情有幫助的信息從大數(shù)據(jù)庫中有效的提取出來。數(shù)據(jù)挖掘技術(shù)是一項在能夠提高警務(wù)系統(tǒng)在數(shù)據(jù)的提取和挖掘效率的一項技術(shù),能在短時間內(nèi)將案件中的數(shù)據(jù)作為數(shù)據(jù)源,將其進行分析和建模,從而從這些數(shù)據(jù)中獲得有力的線索。
2目前警務(wù)系統(tǒng)特點
現(xiàn)今的警務(wù)系統(tǒng)是跟隨時代不斷發(fā)展的一個工作效率高、工作素質(zhì)強的組織系統(tǒng),有案件處理速度快、案件分析效率高的特點。這些特點,都需要警務(wù)系統(tǒng)中數(shù)據(jù)處理系統(tǒng)的有效應(yīng)用,通過對數(shù)據(jù)的處理分析、檢查對比得出較有價值的案件線索,從而提高效率。警務(wù)系統(tǒng)的正常運行離不開數(shù)據(jù)處理系統(tǒng),而數(shù)據(jù)挖掘技術(shù)更是數(shù)據(jù)處理系統(tǒng)的重要組成部分,它確保了整個系統(tǒng)的運行速度,對案件的偵查有促進作用。
3構(gòu)建警務(wù)系統(tǒng)數(shù)據(jù)存儲器
基于警務(wù)系統(tǒng)的數(shù)據(jù)特點,警務(wù)系統(tǒng)應(yīng)該建立一個高速運行的警務(wù)系統(tǒng)數(shù)據(jù)存儲器?!皵?shù)據(jù)存儲器”在結(jié)構(gòu)上分為三個部分,分別是關(guān)系系統(tǒng)、OLAP服務(wù)器以及客戶處理系統(tǒng)。這三個部分的作用效果如下:
3.1關(guān)系系統(tǒng)
關(guān)系系統(tǒng)是這三個組成部分的基礎(chǔ)部分,這個系統(tǒng)負責對系統(tǒng)中的數(shù)據(jù)進行整理和提取、刷新,將數(shù)據(jù)在整個系統(tǒng)中的存儲位置有序的排列好,防止數(shù)據(jù)丟失和數(shù)據(jù)殘缺的現(xiàn)象發(fā)生。關(guān)系系統(tǒng)在運行的過程中通過警務(wù)系統(tǒng)不斷的收集新的信息,將其整理保存,始終將數(shù)據(jù)系統(tǒng)中的有效信息得到較完好的保護。
3.2 OLAP服務(wù)器
OLAP是聯(lián)機處理的縮寫,是將多角度的信息共享并由一個關(guān)鍵的出發(fā)點而聯(lián)機進行數(shù)據(jù)處理分析的一個軟件技術(shù),在警務(wù)系統(tǒng)中可將需要處理的信息進行聯(lián)機處理分析,將信息較快的處理出來,得到有效的結(jié)論。
3.3客戶處理系統(tǒng)
客戶處理系統(tǒng)是將數(shù)據(jù)進行分析處理以及檢索和報告的一個系統(tǒng),通過對數(shù)據(jù)之間的聯(lián)系將數(shù)據(jù)的信息整理和挖掘出來,形成有用的線索,供警務(wù)系統(tǒng)人員進行案件的偵破和處理,是數(shù)據(jù)存儲器的重要部分,特別是數(shù)據(jù)挖掘技術(shù)的應(yīng)用時整個系統(tǒng)的運作重心。
4數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是將數(shù)據(jù)庫中的數(shù)據(jù)進行采集、集成以及分析的一項技術(shù),其應(yīng)用到警務(wù)系統(tǒng)中可以對案件相關(guān)信息進行檢索和分析,應(yīng)用了多維數(shù)據(jù)分析處理及關(guān)聯(lián)規(guī)則的應(yīng)用、聚類分析方法的實際處理等數(shù)據(jù)挖掘分析處理模式將警務(wù)系統(tǒng)中的數(shù)據(jù)有效的聯(lián)系起來,形成一個較為完整的數(shù)據(jù)挖掘模式。
在挖掘出境數(shù)據(jù)時,數(shù)據(jù)挖掘技術(shù)的決策樹技術(shù)有效應(yīng)用,與縣贏得算法技術(shù)相互應(yīng),將數(shù)據(jù)較為完整的從警務(wù)系統(tǒng)中巨大的信息庫中挖掘出來,實現(xiàn)了數(shù)據(jù)挖掘的分級處理模式的有效應(yīng)用。
5數(shù)據(jù)挖掘技術(shù)在現(xiàn)代警務(wù)系統(tǒng)中的應(yīng)用
在警務(wù)系統(tǒng)中,數(shù)據(jù)挖掘系統(tǒng)在案件的相關(guān)數(shù)據(jù)中整理生成了一個多維數(shù)據(jù)模型,使信息可視化、將案件信息的關(guān)系更加清楚的展現(xiàn)在警務(wù)系統(tǒng)的工作人員面前,通過多角度、多方面的分析和挖掘,將系統(tǒng)中的有用信息全部呈現(xiàn)在報告中,實現(xiàn)了信息的有效用。
6結(jié)語
警務(wù)系統(tǒng)中的信息有多樣化、復雜化、信息量巨大的特點,使用傳統(tǒng)的數(shù)據(jù)庫是不能按照現(xiàn)代的社會發(fā)展速度生存的,對數(shù)據(jù)進行高效的分析處理和采集,是現(xiàn)代警務(wù)數(shù)據(jù)處理系統(tǒng)應(yīng)該具有的一項特點。在數(shù)據(jù)處理速度快的前提下,數(shù)據(jù)處理系統(tǒng)的管理能力和聯(lián)系能力也應(yīng)該是突出的,本文中提到的數(shù)據(jù)挖掘技術(shù)就是解決數(shù)據(jù)處理問題的有效解決辦法,其運行通過對數(shù)據(jù)的建模、分析、采集等手段強化了數(shù)據(jù)處理系統(tǒng)的能力,為警務(wù)系統(tǒng)中案件處理效率的提升做出了一定的貢獻。目前社會的高速發(fā)展離不開大數(shù)據(jù)的支持,大數(shù)據(jù)時代對數(shù)據(jù)的處理系統(tǒng)要求越來越高,數(shù)據(jù)挖掘技術(shù)近些年在警務(wù)信息系統(tǒng)中的引用為警務(wù)系統(tǒng)的發(fā)展提供了技術(shù)上的有效支持,警務(wù)系統(tǒng)未來的發(fā)展肯定也離不開數(shù)據(jù)的有效處理工作,數(shù)據(jù)挖掘系統(tǒng)在未來的警務(wù)數(shù)據(jù)分析系統(tǒng)中也會有不斷地改善和提高。
參考文獻
[1] 劉敏,朱鵬,方有軒.面向市場分析人員的經(jīng)分模型庫的設(shè)計與實現(xiàn)[J].電腦與電信,2016(09) .
[關(guān)鍵詞]數(shù)據(jù)倉庫聯(lián)機分析處理多維數(shù)據(jù)分析
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)1110077-01
一、引言
聯(lián)機分析處理(Online Analytical Processing,OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的,OLAP是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析。通過對信息(維數(shù)據(jù))的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行深入地觀察。OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術(shù)核心是“維”這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。
二、OLAP的多維數(shù)據(jù)結(jié)構(gòu)
數(shù)據(jù)在多維空間中的分布總是稀疏的、不均勻的。在事件發(fā)生的位置,數(shù)據(jù)聚合在一起,其密度很大。因此,OLAP系統(tǒng)的開發(fā)者要設(shè)法解決多維數(shù)據(jù)空間的數(shù)據(jù)稀疏和數(shù)據(jù)聚合問題。事實上,有許多方法可以構(gòu)造多維數(shù)據(jù)。
(一)超立方結(jié)構(gòu)。超立方結(jié)構(gòu)指用三維或更多的維數(shù)來描述一個對象,每個維彼此垂直。數(shù)據(jù)的測量值發(fā)生在維的交叉點上,數(shù)據(jù)空間的各個部分都有相同的維屬性。
這種結(jié)構(gòu)可應(yīng)用在多維數(shù)據(jù)庫和面向關(guān)系數(shù)據(jù)庫的OLAP系統(tǒng)中,其主要特點是簡化終端用戶的操作。超立方結(jié)構(gòu)有一種變形,即收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維。
(二)多立方結(jié)構(gòu)。在多立方結(jié)構(gòu)中,將大的數(shù)據(jù)結(jié)構(gòu)分成多個多維結(jié)構(gòu)。這些多維結(jié)構(gòu)是大數(shù)據(jù)維數(shù)的子集,面向某一特定應(yīng)用對維進行分割,即將超立方結(jié)構(gòu)變?yōu)樽恿⒎浇Y(jié)構(gòu)。它具有很強的靈活性,提高了數(shù)據(jù)的分析效率。
一般來說,多立方結(jié)構(gòu)靈活性較大,但超立方結(jié)構(gòu)更易于理解。超立方結(jié)構(gòu)可以提供高水平的報告和多維視圖。多立方結(jié)構(gòu)具有良好的視圖翻轉(zhuǎn)性和靈活性。多立方結(jié)構(gòu)是存儲稀疏矩陣的一個更有效方法,并能減少計算量。因此,復雜的系統(tǒng)及預先建立的通用應(yīng)用傾向于使用多立方結(jié)構(gòu),以使數(shù)據(jù)結(jié)構(gòu)能更好地得到調(diào)整,滿足常用的應(yīng)用需求。
許多產(chǎn)品結(jié)合了上述兩種結(jié)構(gòu),它們的數(shù)據(jù)物理結(jié)構(gòu)是多立方結(jié)構(gòu),但卻利用超立方結(jié)構(gòu)來進行計算,結(jié)合了超立方結(jié)構(gòu)的簡化性和多立方結(jié)構(gòu)的旋轉(zhuǎn)存儲特性。
三、OLAP的多維數(shù)據(jù)分析
多維數(shù)據(jù)分析是指對以多維形式組織起來的數(shù)據(jù)采取切片、切塊、旋轉(zhuǎn)和鉆取等各種分析動作,以求剖析數(shù)據(jù),使最終用戶能從多個角度、多側(cè)面地觀察數(shù)據(jù)倉庫中的數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。多維分析方式迎合了人們的思維模式,因:
(一)切片。定義1:在多維數(shù)組的某一維上選定一維成員的動作成為切片,即在多維數(shù)組(維1、維2、....維n,變量)中選一維:維i,并取其一維成員(設(shè)為“維成員vi”),所得的多維數(shù)組的子集(維1,...維成員vi,...,維n,變量)稱為在維i上的一個切片。
按照定義1,一次切片一定是原來的維數(shù)減1。所以,所得的切片并不一定是二維的“平面”,其維數(shù)取決于原來的多維數(shù)據(jù)的維數(shù),這樣的切片定義不通俗易懂。下面給出另一個比較直觀的定義。
定義2:選定多維數(shù)組的一個二維子集的動作叫做切片,既選定多維數(shù)組(維1、維2、....維n,變量)中的兩個維:維i和維j,在這兩個維上取某一區(qū)間或者任意維成員,而將其余的維都取定一個維成員,則得到的就是多維數(shù)組在維i和維j上的一個二維子集,稱這個二維子集為多維數(shù)組在維i和維j上的一個切片,表示為(維i和維j,變量)。
按照定義2,不管原來的維數(shù)有多少,數(shù)據(jù)切片的結(jié)果一定是一個二維的“平面”。從另一個角度來講,切片就是在某個或某些維上選定一個維成員,而在某兩個維上取一定區(qū)間的維成員或全部維成員。從定義2可知:
1.一個多維數(shù)組的切片最終是由該數(shù)組中除切片所在平面的兩個維之外的其它維的成員值確定的。
2.維是觀察數(shù)據(jù)的角度,那么切片的作用或結(jié)果就是舍棄一些觀察角度,使人們能在兩個維上來集中觀察數(shù)據(jù),因為人的空間想象力有限,所以,對于維數(shù)較多的多維數(shù)據(jù)空間,進行數(shù)據(jù)切片是十分有意義的。比照定義1,我們可以將切片的這兩個定義聯(lián)系起來,對于一個n維數(shù)組,按定義1進行的n-2切片的結(jié)果,就必定對應(yīng)于按定義2進行的某一次切片的結(jié)果。
(二)切塊。定義1:在多維數(shù)組的某一維上選定某一區(qū)間的維成員的動作稱為切塊,即限制多維數(shù)組在某一維的取值區(qū)間。顯然,當這一區(qū)間只取一個維成員時,即得到一個切片。
定義2:選定多維數(shù)組的一個三維子集的動作稱為切塊,即選定多維數(shù)組(維1、維2、....維n,變量)中的三個維:維i、維j、維r,在這三個維上取某一區(qū)間或任意的維成員,而將其余的維都取定一個維成員,則得到的就是多維數(shù)組在維i、維j、維r上的三維子集,我們稱這個三維子集為多維數(shù)組在維i、維j、維r上的一個切塊,表示為(維i、維j、維r,變量)。切塊與切片的作用與目的是相似的。
(三)旋轉(zhuǎn)。旋轉(zhuǎn)既是改變一個報告或者頁面的維方向。例如:旋轉(zhuǎn)可能包含了交換行與列;或是把某一個行維移到列維,或是把頁面顯示中的一個維和頁面外的維進行交換(令其成為新的行或者列的一個)。
(四)鉆取。
鉆取處理是使用戶在數(shù)據(jù)倉庫的多層數(shù)據(jù)中,能夠通過導航信息而獲得更多的細節(jié)性數(shù)據(jù),鉆取一般是指向下鉆取。大多數(shù)的OLAP工具可以讓用戶鉆取至一個數(shù)據(jù)集中有更好細節(jié)描述的數(shù)據(jù)層,而更完整的工具可讓用戶隨處鉆取,即除一般往下鉆取外,隨處鉆取還包括向上鉆取和交叉鉆取。
(五)多視圖模式。人們發(fā)現(xiàn),獲取相同的信息,圖形顯示所帶來的直觀性有時是簡單的數(shù)據(jù)表所無法提供的。一個OLAP系統(tǒng),應(yīng)當采取多種不同的格式顯示數(shù)據(jù),使用戶能夠獲得最佳的觀察數(shù)據(jù)的視角。
四、結(jié)語
隨著數(shù)據(jù)倉庫的發(fā)展,OLAP也得到了迅猛的發(fā)展。數(shù)據(jù)倉庫側(cè)重于存儲和管理面向決策主題的數(shù)據(jù),而OLAP則側(cè)重于數(shù)據(jù)倉庫中的數(shù)據(jù)分析,并將其轉(zhuǎn)換成輔助決策信息。OLAP的一個重要特點是多維數(shù)據(jù)分析,這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補充的關(guān)系。將有助于我們解決數(shù)據(jù)處理中的復雜問題。
參考文獻:
[1]彭木根,數(shù)據(jù)倉庫技術(shù)與實現(xiàn),電子工業(yè)出版社,2002.9.
1計算機大數(shù)據(jù)分析中云計算技術(shù)作用分析
云計算技術(shù)可以給提供計算機數(shù)據(jù)傳遞與共享的條件,融合軟硬件數(shù)據(jù)保存,促進計算機處理工作更好的開展。云計算技術(shù)可以給用戶提供良好的網(wǎng)絡(luò)環(huán)境與保存空間,處理數(shù)據(jù)傳遞環(huán)節(jié)的各項問題。與傳統(tǒng)大數(shù)據(jù)分析技術(shù)相比,云計算計算可以提高大數(shù)據(jù)分析質(zhì)量。人們借助云計算技術(shù)獲得云終端的數(shù)據(jù),切實滿足人們對于數(shù)據(jù)的需求?,F(xiàn)階段計算機市場形成完善的結(jié)構(gòu)體系,圍繞云計算技術(shù)推動計算機大數(shù)據(jù)分析工作的開展,奠定后期云計算技術(shù)發(fā)展的基礎(chǔ)。目前,人們生活中全面運用云計算技術(shù),基于云計算技術(shù)研發(fā)的服務(wù)器及操作系統(tǒng)方便人們處理各類信息技術(shù)。同時,云計算技術(shù)數(shù)據(jù)保存有著較強的安全性,極小可能出現(xiàn)數(shù)據(jù)丟失情況,滿足人們的實際需求,直接體現(xiàn)出云計算技術(shù)的優(yōu)勢。優(yōu)化云計算環(huán)境下計算機的數(shù)據(jù)處理中心,就可以不斷提升計算機的云計算能力,讓云計算不僅為網(wǎng)絡(luò)信息所用,還在計算機網(wǎng)絡(luò)安全中發(fā)揮極為重要的作用。目前,計算機的使用人群更為注重的是在高速發(fā)達的信息社會,自己的信息,也就是使用計算機網(wǎng)絡(luò)的安全性能是否能得到保障,這時候考驗的就是云計系統(tǒng)的完善性。目前存在的最主要計算機安全問題就是黑客問題和系統(tǒng)漏洞問題。系統(tǒng)漏洞這一人為因素可以通過不斷檢索進行漏洞的發(fā)現(xiàn)和修補,面對黑客的攻擊,能夠做的就是防患于未然,不斷地升級和優(yōu)化系統(tǒng),最終達到完善的數(shù)據(jù)處理效果。
2云計算技術(shù)下計算機大數(shù)據(jù)分析面臨的問題
2.1網(wǎng)絡(luò)技術(shù)安全
由于相關(guān)技術(shù)的不斷發(fā)展,云計算環(huán)境下的網(wǎng)絡(luò)安全技術(shù)正在朝著穩(wěn)定和成熟的方向發(fā)展,但在具體的應(yīng)用過程中依然表現(xiàn)出一定的網(wǎng)絡(luò)安全問題,因此用戶在使用過程中應(yīng)該做好相關(guān)的應(yīng)對工作。網(wǎng)絡(luò)安全問題具體表現(xiàn)在用戶在使用信息傳輸?shù)倪^程中,一旦出現(xiàn)服務(wù)性中斷問題,難以保證數(shù)據(jù)的安全性,啟動被動保護模式的情況使信息的安全性更加難以保障,這也成為云計算模式下的網(wǎng)絡(luò)技術(shù)安全中的重點問題,一旦得不到及時有效的解決,用戶在使用過程中就會受到不同程度的威脅。
2.2網(wǎng)絡(luò)環(huán)境安全
網(wǎng)絡(luò)環(huán)境安全是保證網(wǎng)絡(luò)正常使用,信息傳輸質(zhì)量有保證的重要前提,一旦網(wǎng)絡(luò)環(huán)境存在不安全因素,將會引發(fā)病毒的入侵和黑客的攻擊。因此網(wǎng)絡(luò)環(huán)境安全也是云計算技術(shù)價值得以發(fā)揮的重要前提。計算機在使用過程中如果長期受到病毒的困擾和黑客的威脅,將會降低人們對計算機的信賴性,甚至在工作和生活中將會在網(wǎng)絡(luò)環(huán)境安全方面投入更多的成本。
3計算機大數(shù)據(jù)分析中云計算技術(shù)的具體應(yīng)用
3.1數(shù)據(jù)傳輸安全分析
在云計算的作用下,云安全含義逐漸形成,具體來說,云安全主要指在用戶借助云計算技術(shù)來實現(xiàn)計算機大數(shù)據(jù)分析時,讓數(shù)據(jù)安全性得到了保證。用戶端數(shù)據(jù)和數(shù)據(jù)安全往往呈現(xiàn)出正比關(guān)系,隨著應(yīng)用群體數(shù)量的增多,涉及的計算機數(shù)據(jù)范疇將不斷擴充,假設(shè)計算機遭受病毒的攻擊,可以在云計算技術(shù)的作用下實現(xiàn)病毒的攔截,以此讓計算機數(shù)據(jù)安全性得到保證。從云計算技術(shù)自身角度來說,其提供的各個服務(wù)均是由IaaS基礎(chǔ)設(shè)施級服務(wù)以及PaaS平臺級服務(wù)兩項內(nèi)容構(gòu)建而成。首先,IaaS基礎(chǔ)設(shè)施級服務(wù)其作用在于,可以給用戶提供對應(yīng)的服務(wù),也就是對各個計算機基礎(chǔ)設(shè)備進行操作和應(yīng)用,其中包含了CPU處理、數(shù)據(jù)保存、數(shù)據(jù)傳遞等。其次,PaaS平臺級服務(wù)則是指,把云計算中各個服務(wù)器及開發(fā)環(huán)境當作服務(wù),通過PaaS平臺用戶能夠結(jié)合自身需求實現(xiàn)對應(yīng)操作流程的部署和應(yīng)用。
3.2監(jiān)督數(shù)據(jù)資源共享
網(wǎng)絡(luò)資源在傳輸過程中遭遇到的安全威脅是用戶時時刻刻關(guān)注的問題,因此在具體的工作和管理中,需要提高云計算網(wǎng)絡(luò)安全技術(shù)的應(yīng)用程度,通過不斷創(chuàng)新安全模式,完善相應(yīng)的防護體系,從而有效消除安全性問題,提升數(shù)據(jù)傳輸?shù)陌踩院头€(wěn)定性。具體在應(yīng)用過程中,可以借助云計算技術(shù)的優(yōu)勢,對數(shù)據(jù)傳輸?shù)恼麄€路徑進行監(jiān)控,保證傳輸通道環(huán)境的安全性,一旦出現(xiàn)問題及時進行預警,有效預防黑客的攻擊,降低網(wǎng)絡(luò)安全事故發(fā)生的概率。對此,有關(guān)部門應(yīng)該提高重視程度,同時完善相應(yīng)的監(jiān)督管理制度,采用科學的管理方式,實現(xiàn)預期的監(jiān)測目標。
3.3提高數(shù)據(jù)使用安全
計算機用戶本身的安全意識也是當前需要關(guān)注的重要方面,為了進一步提升用戶數(shù)據(jù)信息和計算機系統(tǒng)的安全系數(shù),需要重視身份認證工作的提升,具體可以使用實名制的方式進行認證處理,從而不斷提升整個網(wǎng)絡(luò)結(jié)構(gòu)的安全性。對于網(wǎng)絡(luò)應(yīng)用過程中涉及到的安全問題,可以通過實名追蹤的方式進行可疑目標鎖定,從而有效控制惡意攻擊情況的發(fā)生。但在應(yīng)用過程中也需要重視假人名情況的出現(xiàn),提高網(wǎng)絡(luò)數(shù)據(jù)信息竊取的預防水平。計算機網(wǎng)絡(luò)環(huán)境算是一種相對開放的環(huán)境,在使用過程中會面向大量的用戶,通過重視用戶的身份認證,可以有效避免用戶對數(shù)據(jù)的非法訪問。同時在使用者進行計算機登錄和使用的時候,需要對用戶名和密碼進行核實。按照權(quán)限的不同,確保數(shù)據(jù)庫信息的安全有效性。通過對數(shù)據(jù)庫信息加密處理,可以確保數(shù)據(jù)庫信息的安全性。這種加密處理可以在原有數(shù)據(jù)信息的基礎(chǔ)上進行算法的處理改進,使用者可以通過自身的權(quán)限獲取想要了解的信息,如果沒有解密方式,不法分子將會難以獲取數(shù)據(jù)的原始信息。
3.4網(wǎng)絡(luò)安全等級防護
在云計算環(huán)境下的安全管理中心具備系統(tǒng)管理、安全管理和安全審計等功能,能夠滿足不同云計算環(huán)境下不同安全等級的保護要求,并且通過服務(wù)層的安全保護框架,實現(xiàn)對不同等級云服務(wù)客戶端的安全保護,為使用者提供安全可靠的資源訪問服務(wù)。在訪問云服務(wù)商時,用戶可通過通信網(wǎng)絡(luò)、API接口和Web服務(wù)方式訪問云服務(wù)器,但是用戶終端系統(tǒng)的安全防護不在網(wǎng)絡(luò)安全等級保護框架體系內(nèi)。在保護框架體系內(nèi),資源層和服務(wù)層安全是云計算環(huán)境安全保護的重點,資源層包括物理資源安全和虛擬資源安全,應(yīng)按照安全設(shè)計要求構(gòu)建資源層安全保護框架。云計算環(huán)境下的網(wǎng)絡(luò)安全等級保護要針對不同等級云計算平臺確定不同的安全目標,一般情況下安全保護等級最低為二級,并根據(jù)安全目標和等級要求實施安全設(shè)計步驟,具體包括:第一步,根據(jù)云平臺的租戶數(shù)量和業(yè)務(wù)系統(tǒng)情況確定云計算安全保護標準,制定云計算平臺的安全保護策略,以避免在云計算平臺上發(fā)生安全事件;第二步,細化安全技術(shù)要求,針對安全計算環(huán)境、安全區(qū)域邊界、安全通信網(wǎng)絡(luò)以及安全管理中心制定出相應(yīng)的安全保護策略;第三步,根據(jù)云計算功能框架中的各層功能和保護要求,制定安全技術(shù)機制,使其滿足云計算功能框架的安全保護要求。在完成云計算環(huán)境下的網(wǎng)絡(luò)安全等級保護設(shè)計之后,還應(yīng)增加虛擬化安全、鏡像安全、接口安全等安全控制點,并采用訪問控制技術(shù)、身份識別技術(shù)等安全防護技術(shù),實現(xiàn)與云計算平臺上各功能層次的對接,提出各層的安全保護措施。
3.5重視相應(yīng)程序開發(fā)
網(wǎng)絡(luò)安全應(yīng)用程序需要隨著技術(shù)的進步和人們生活和工作的需要進行逐步提升,從而及時對病毒程序進行開發(fā)和處理,確保計算機系統(tǒng)可以敏銳捕捉到病毒的活動跡象,提升自身的防御能力。通常情況下,對于計算機的服務(wù),內(nèi)網(wǎng)隱蔽處理,可以提升網(wǎng)站平臺的訪問速度,可以避免不安全網(wǎng)址帶來的不良效應(yīng),從而為計算機的安全防御提供一定的屏障。在計算機數(shù)據(jù)的使用中,由于安全性威脅導致的數(shù)據(jù)丟失問題,可以通過備份和恢復改善。這種恢復性功能也可以保證數(shù)據(jù)的一致性和完整性。通常由邏輯備份、動態(tài)備份以及靜態(tài)備份等幾種情況。計算機黑客數(shù)量增多,凈化網(wǎng)絡(luò)環(huán)境顯然存在較大難度,但通過必要的防范措施依然可以在數(shù)據(jù)庫信息的保護中起到關(guān)鍵作用。而使用防火墻保護工具就能很好的為計算機網(wǎng)絡(luò)提供一種安全保障。通過防火墻,可以在一定程度上防止黑客的侵害。
關(guān)鍵詞 數(shù)據(jù)挖掘 基因序列 生物信息學 遺傳疾病 患病家族連鎖分析
在生物信息學的成果的理論基礎(chǔ)之上,通過統(tǒng)計的方法查找未知的生物化學功能的疾病基因的位置。這個方法預先通過患病家族連鎖分析,再推斷包含這些基因的染色體區(qū)域片段,然后檢查該區(qū)域來尋找基因[1]。
數(shù)據(jù)挖掘在DNA數(shù)據(jù)分析的發(fā)展狀況
現(xiàn)今所采用的是分子生物學與微電子技術(shù)相結(jié)合的核酸分析檢測技術(shù)[2]。DNA芯片技術(shù)的基本原理是將cDNA或寡核昔酸探針以105~106位點/cm2>/sup>的密度結(jié)合在固相支持物(即芯片)上,每個位點上的cDNA或寡核昔酸探針的順序是已知的,將該探針與熒光標記的待測樣品DNA,RNA或cDNA在芯片上進行雜交,然后用激光共聚焦顯微鏡對芯片進行掃描,并配合計算機系統(tǒng)對雜交信號做出比較和檢測,從而迅速得出所需的信息。
基因數(shù)據(jù)挖掘常用的方法:①核酸與蛋白質(zhì)比較的預測分析:蛋白質(zhì)序列之間或核酸序列之間的兩兩比對,通過比較兩個序列之間的相似區(qū)域和保守性位點,尋找二者可能的分子進化關(guān)系。進一步的比對是將多個蛋白質(zhì)或核酸同時進行比較,尋找這些有進化關(guān)系的序列之間共同的保守區(qū)域、位點和profile,從而探索導致它們產(chǎn)生共同功能的序列模式。此外,還可以把蛋白質(zhì)序列與核酸序列相比來探索核酸序列可能的表達框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)折疊類型的信息。②針對核酸序列的預測方法:針對核酸序列的預測就是在核酸序列中尋找基因,找出基因的位置和功能位點的位置,以及標記已知的序列模式等過程。在此過程中,確認一段DNA序列是一個基因需要有多個證據(jù)的支持。一般而言,在重復片段頻繁出現(xiàn)的區(qū)域里,基因編碼區(qū)和調(diào)控區(qū)不太可能出現(xiàn);如果某段DN段的假想產(chǎn)物與某個已知的蛋白質(zhì)或其他基因的產(chǎn)物具有較高序列相似性的話,那么這個DN段就非??赡軐儆谕怙@子片段;在一段DNA序列上出現(xiàn)統(tǒng)計上的規(guī)律性,即所謂的“密碼子偏好性”,也是說明這段DNA是蛋白質(zhì)編碼區(qū)的有力證據(jù);其他的證據(jù)包括與“模板”序列的模式相匹配、簡單序列模式如TATA Box等相匹配等。
案例分析
疾病是由于基因的片段內(nèi)的某個位置存在或發(fā)生改變而引起的,也就是發(fā)生突變。能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正?;??這都需要數(shù)據(jù)挖掘技術(shù)的支持。對基因的數(shù)據(jù)挖掘,就是對這些突變位置的尋找,并且找出該位置與所有者身患的疾病之間的關(guān)系。
方法的選擇:筆者在設(shè)計中選用單純的DNA序列進行比較,基因在計算機的表示和存儲時,可以使用一條很長的字符串來表示基因的某一條序列,使用文件的形式進行對基因工作者的提取成果創(chuàng)建一級數(shù)據(jù)庫,使用文件修整的方法進行數(shù)據(jù)的清洗,以滿足數(shù)據(jù)在二級數(shù)據(jù)庫中的一致性。同時在文件比較過程中,生成某兩個數(shù)據(jù)文件的差異狀況,保存在二級數(shù)據(jù)庫庫中,進一步的操作是對差異的位置的某個類型所占的比例。最后通過事先的對患者患病信息的統(tǒng)計得到的某種疾病在群中所占的比例,與其相比較,如果這兩個比例相等,則可以認為這個位置的某個類型引起疾病的發(fā)生。從醫(yī)學院得到一些基因片段文件信息和患者(所有者)患病情況。
系統(tǒng)的實現(xiàn):基因片段在計算機中以文件形式存儲,用文件名標識其所有者(源體)。片段起始地址和長度信息和所有患者患病情況保存在本機數(shù)據(jù)庫中。在程序測試過程中,將片段復制成40份,對其中部分文件的序列進行稍作修改,對所有患者的患病狀況進行稍作修改,以創(chuàng)造測試環(huán)境。顯示在與基因數(shù)據(jù)挖掘軟件同在一根目錄下的序列文件的集合。
其中一個文件所存儲的基因信息,見圖1。
啟動統(tǒng)計程序界面,單擊清空數(shù)據(jù)庫中的臨時用表數(shù)據(jù),將數(shù)據(jù)庫中有可能的雜音信息去掉。并對其中的所有文件進行統(tǒng)計前片段剪切,使所有片段的起始地址和長度都相同,避免發(fā)生序列移位。
沒有進行片段剪切之前,瀏覽文件所存的片段信息,片段剪切完成之后,設(shè)置進行比較操作的甲、乙組的文件添加,因為本次測試只檢驗片段中的一塊區(qū)域(文件中片段的所有信息),所以在起始序號那里添加為0,終止序號那里添加為175。這樣則可以保證統(tǒng)計文件的所有信息都被統(tǒng)計。
單擊結(jié)果顯示按鈕,可以見到程序以表格和條形圖標方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的條形段較高。說明在這些接受統(tǒng)計的片段中,在上面提到的位置處存在的差異較大,與某遺傳疾病的關(guān)聯(lián)的可能性就越大。
如果用戶想要在初步統(tǒng)計結(jié)果的基礎(chǔ)上,按照數(shù)據(jù)庫中所有者的疾病狀況進行詳細統(tǒng)計的話,單擊菜單欄的詳細統(tǒng)計按鈕,選擇按疾病詳細統(tǒng)計,則將彈出窗口。
選擇弱視,輸入,則在文本框中顯示與其關(guān)聯(lián)的位置為1、3、5、12、14、16、18、13、31、34、87、94、139、166。
由此,用戶可以根據(jù)本系統(tǒng)所給出的預測對弱視遺傳疾病與序列中的特定位置,選擇適當算法進行進一步的計算及檢驗,證明預測結(jié)果是否符合關(guān)聯(lián)理論。數(shù)據(jù)挖掘方法體系中的智能聚類的相關(guān)技術(shù)則可較好的解決類別數(shù)判定、結(jié)果驗證等問題。
結(jié) 論
對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復雜得多。從分析算法上講,需要一些新的和好的算法;但技術(shù)和軟件還遠沒有達到成熟的地步,因此需要不斷探索及研究。
參考文獻
1 黃詒森.生物化學[M].北京:人民衛(wèi)生出版社,2002:29-37.
關(guān)鍵詞:告警數(shù)據(jù) Hadoop Spark
1 引言
隨著電信網(wǎng)絡(luò)的不斷演進,全省數(shù)據(jù)網(wǎng)、交換網(wǎng)、接入網(wǎng)設(shè)備單月產(chǎn)生告警原始日志近億條。以上告警通過網(wǎng)元網(wǎng)管、專業(yè)綜合網(wǎng)管、智能網(wǎng)管系統(tǒng)[1]三層收斂,監(jiān)控人員每月需處理影響業(yè)務(wù)或網(wǎng)絡(luò)質(zhì)量的告警事件為20萬條,但一些對網(wǎng)絡(luò)可能造成隱患的告警信息被過濾掉。如何從海量告警數(shù)據(jù)中獲取與網(wǎng)絡(luò)性能指標、運維效率相關(guān)的有價值的數(shù)據(jù),對于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫架構(gòu)而言,似乎是一個不可能完成的任務(wù)。
在一般告警量情況下,ORACLE數(shù)據(jù)處理能力基本可以滿足分析需求,但當告警分析量上升到億級,如果采用傳統(tǒng)的數(shù)據(jù)存儲和計算方式,一方面數(shù)據(jù)量過大,表的管理、維護開銷過大,要做到每個字段建索引,存儲浪費巨大;另一方面計算分析過程耗時過長,無法滿足實時和準實時分析需求。因此必須采用新的技術(shù)架構(gòu)來分析處理海量告警信息,支撐主動維護工作顯得尤為必要,為此我們引入了大數(shù)據(jù)技術(shù)。
2 分析目標
(1)數(shù)據(jù)源:電信運營商網(wǎng)絡(luò)設(shè)備告警日志數(shù)據(jù),每天50 G。
(2)數(shù)據(jù)分析目標:完成高頻翻轉(zhuǎn)類(瞬斷)告警分析;完成自定義網(wǎng)元、自定義告警等可定制告警分析;完成被過濾掉的告警分析、TOPN告警分析;核心設(shè)備和重要業(yè)務(wù)監(jiān)控。
(3)分析平臺硬件配置:云計算平臺分配8臺虛擬機,每臺虛機配置CPU16核;內(nèi)存32 G;硬盤2 T。
3 制定方案
進入大數(shù)據(jù)時代,行業(yè)內(nèi)涌現(xiàn)了大量的數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)處理和分析更高效、更有價值。Google、Facebook等公司提供可行的思路是通過類似Hadoop[2]的分布式計算、MapReduce[3]、Spark[4]算法等構(gòu)造而成的新型架構(gòu),挖掘有價值信息。
Hadoop是Apache基金會用JAVA語言開發(fā)的分布式框架,通過利用計算機集群對大規(guī)模數(shù)據(jù)進行分布式計算分析。Hadoop框架最重要的兩個核心是HDFS和MapReduce,HDFS用于分布式存儲,MapReduce則實現(xiàn)分布式任務(wù)計算。
一個HDFS集群包含元數(shù)據(jù)節(jié)點(NameNode)、若干數(shù)據(jù)節(jié)點(DataNode)和客戶端(Client)。NameNode管理HDFS的文件系統(tǒng),DataNode存儲數(shù)據(jù)塊文件。HDFS將一個文件劃分成若干個數(shù)據(jù)塊,這些數(shù)據(jù)塊存儲DataNode節(jié)點上。
MapReduce是Google公司提出的針對大數(shù)據(jù)的編程模型。核心思想是將計算過程分解成Map(映射)和Reduce(歸約)兩個過程,也就是將一個大的計算任務(wù)拆分為多個小任務(wù),MapReduce框架化繁為簡,輕松地解決了數(shù)據(jù)分布式存儲的計算問題,讓不熟悉并行編程的程序員也能輕松寫出分布式計算程序。MapReduce最大的不足則在于Map和Reduce都是以進程為單位調(diào)度、運行、結(jié)束的,磁盤I/O開銷大、效率低,無法滿足實時計算需求。
Spark是由加州伯克利大學AMP實驗室開發(fā)的類Hadoop MapReduce的分布式并行計算框架,主要特點是彈性分布式數(shù)據(jù)集RDD[5],中間輸出結(jié)果可以保存在內(nèi)存中,節(jié)省了大量的磁盤I/O操作。Spark除擁有Hadoop MapReduce所具有的優(yōu)點外,還支持多次迭代計算,特別適合流計算和圖計算。
基于成本、效率、復雜性等因素,我們選擇了HDFS+Spark實現(xiàn)對告警數(shù)據(jù)的挖掘分析。
4 分析平臺設(shè)計
4.1 Hadoop集群搭建
基于CentOS-6.5系統(tǒng)環(huán)境搭建Hadoop集群,配置如表1所示。
4.2 Spark參數(shù)設(shè)置[6]
Spark參數(shù)設(shè)置如表2所示。
4.3 數(shù)據(jù)采集層
數(shù)據(jù)采集:由于需采集的告警設(shè)備種類繁多,故采取分布式的告警采集,數(shù)據(jù)網(wǎng)設(shè)備、交換網(wǎng)設(shè)備、接入網(wǎng)設(shè)備分別通過IP綜合網(wǎng)管、天元綜合網(wǎng)管、PON綜合網(wǎng)管進行采集,采集周期5分鐘一次。采集機先將采集到的告警日志文件,通過FTP接口上傳到智能網(wǎng)管系統(tǒng)文件服務(wù)器上,再對文件進行校驗,通過Sqoop推送到Hadoop集群上。
4.4 邏輯處理層
(1)建立高頻翻轉(zhuǎn)告警監(jiān)控工作流程
先將海量告警進行初步刪選,通過數(shù)量、位置和時間三個維度的分析,得出高頻翻轉(zhuǎn)類告警清單列表,最后由專業(yè)工程師甄別確認,對某類告警進行重點關(guān)注和監(jiān)控。
(2)差異化定制方案
按組網(wǎng)架構(gòu)細分,針對核心重要節(jié)點的所有告警均納入實時監(jiān)控方案;
按業(yè)務(wù)網(wǎng)絡(luò)細分,針對不同業(yè)務(wù)網(wǎng)絡(luò)設(shè)計個性化的監(jiān)控方案;
按客戶業(yè)務(wù)細分,針對客戶數(shù)字出租電路設(shè)計個性化的監(jiān)控方案。
4.5 數(shù)據(jù)分析層
Spark讀取Hive[7]表的告警數(shù)據(jù),然后在Spark引擎中進行SQL統(tǒng)計分析。Spark SQL模K在進行分析時,將外部告警數(shù)據(jù)源轉(zhuǎn)化為DataFrame[8],并像操作RDD或者將其注冊為臨時表的方式處理和分析這些數(shù)據(jù)。一旦將DataFrame注冊成臨時表,就可以使用類SQL的方式操作查詢分析告警數(shù)據(jù)。表3是利用Spark SQL對告警工單做的一個簡單分析:
5 平臺實踐應(yīng)用
探索運維數(shù)據(jù)分析的新方法,利用大數(shù)據(jù)分析技術(shù),分析可能影響業(yè)務(wù)/設(shè)備整體性能的設(shè)備告警,結(jié)合網(wǎng)絡(luò)性能數(shù)據(jù),找到網(wǎng)絡(luò)隱患,實現(xiàn)主動維護的工作目標。
5.1 高頻翻轉(zhuǎn)類告警監(jiān)控
首先制定了高頻翻轉(zhuǎn)類告警分析規(guī)則,將連續(xù)7天每天原始告警發(fā)生24次以上定義為高頻翻轉(zhuǎn)類告警,并基于大數(shù)據(jù)平臺開發(fā)了相應(yīng)的分析腳本,目前已實現(xiàn)全專業(yè)所有告警類型的分析。表4是全省高頻翻轉(zhuǎn)類TOP10排名。
5.2 核心設(shè)備和重要業(yè)務(wù)監(jiān)控
目前以設(shè)備廠商或?qū)<医?jīng)驗評定告警監(jiān)控級別往往會與實際形成偏差,主要表現(xiàn)在以下幾個方面:監(jiān)控級別的差異化設(shè)定基于已知的告警類型,一旦網(wǎng)絡(luò)重大故障上報未知的告警類型就無法在第一時間有效監(jiān)控到;同一類型的故障告警出現(xiàn)在不同網(wǎng)絡(luò)層面可能影響業(yè)務(wù)的程度是完全不同的;不同保障級別的客戶對故障告警監(jiān)控的實時性要求也是不同的。
通過大數(shù)據(jù)分析平臺對差異化監(jiān)控提供了靈活的定制手段,可根據(jù)告警關(guān)鍵字,分專業(yè)、地市、網(wǎng)管、機房、告警頻次等維度自主定制需要的告警數(shù)據(jù),實現(xiàn)日、周、月、某個時間區(qū)等統(tǒng)計分析。
應(yīng)用案例:省NOC通過大數(shù)據(jù)分析出一條編號為CTVPN80113的中國平安大客戶電路在一段時間內(nèi)頻繁產(chǎn)生線路劣化告警,但用戶未申告,省NOC隨即預警給政企支撐工程師,政支工程師與用戶溝通后,派維護人員至現(xiàn)場處理,發(fā)現(xiàn)線路接頭松動,緊急處理后告警消除、業(yè)務(wù)恢復。
5.3 被過濾告警分析
全省每天網(wǎng)絡(luò)告警數(shù)據(jù)300萬條~500萬條,其中99%都會根據(jù)告警過濾規(guī)則進行過濾篩選,把過濾后的告警呈現(xiàn)給網(wǎng)絡(luò)監(jiān)控人員。過濾規(guī)則的準確性直接影響告警數(shù)據(jù)的質(zhì)量。一般來說告警過濾規(guī)則可以從具有豐富運維經(jīng)驗的網(wǎng)絡(luò)維護人員獲得,但是這個過程非常繁瑣,而且通過人工途徑獲得的告警過濾規(guī)則在不同的應(yīng)用環(huán)境可能存在差異,無法滿足網(wǎng)絡(luò)維護的整體需要。采用大數(shù)據(jù)技術(shù)對被過濾的告警進行分析可以很好地完善過濾規(guī)則,讓真正急迫需要處理的告警優(yōu)先呈現(xiàn)給維護人員及時處理,真正做到先于客戶發(fā)現(xiàn)故障。表5是動環(huán)專業(yè)被過濾的告警情況分布。
5.4 動環(huán)深放電分析
動環(huán)網(wǎng)管通過C接口采集蓄電池電壓數(shù)據(jù),在停電告警產(chǎn)生之后,電壓數(shù)據(jù)首次下降到45 V,表示該局站電池出現(xiàn)深放電現(xiàn)象,通過計算這一放電過程的持續(xù)時間,記為深放電時長,該時長可以初步反映電池的放電性能。一個局站每天產(chǎn)生幾十萬條電壓等動環(huán)實時數(shù)據(jù)。
在告警數(shù)據(jù)分析的基礎(chǔ)上,實現(xiàn)對蓄電池電壓變化數(shù)據(jù)的分析,提醒分公司關(guān)注那些深放電次數(shù)過多和放電時長過短的局站,核查蓄電池、油機配置、發(fā)電安排等,并進行整治。利用Spark SQL統(tǒng)計了一個月內(nèi)撫州、贛州、吉安三分公司幾十億條動環(huán)數(shù)據(jù),分析了其中深放電的情況如表6所示。
6 結(jié)論
本文利用HDFS+Spark技術(shù),實驗性地解決告警數(shù)據(jù)存儲和分析等相關(guān)問題:一是通過數(shù)據(jù)分析,從海量告警數(shù)據(jù)中發(fā)現(xiàn)潛在的網(wǎng)絡(luò)隱患;二是結(jié)合資源信息和不同專業(yè)的告警,最終為用戶提供綜合預警;三是轉(zhuǎn)變網(wǎng)絡(luò)監(jiān)控思路和方式,通過數(shù)據(jù)匯聚、數(shù)據(jù)相關(guān)性分析、數(shù)據(jù)可視化展示,提高了網(wǎng)絡(luò)監(jiān)控效率;最后還擴展到對動環(huán)實時數(shù)據(jù)、信令數(shù)據(jù)進行分析。
從實際運行效果來看,HDFS和Spark完全可以取代傳統(tǒng)的數(shù)據(jù)存儲和計算方式,滿足電信運營商主動運維的需求。
參考文獻:
[1] 中國電信股份有限公司. 中國電信智能網(wǎng)管技術(shù)規(guī)范-總體分冊[Z]. 2015.
[2] Tom white. Hadoop權(quán)威指南[M]. 4版. 南京: 東南大學出版社, 2015.
[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.
[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.
[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.
[6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業(yè)出版社, 2015.
[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.
[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.
[9] 員建廈. 基于動態(tài)存儲策略的數(shù)據(jù)管理系統(tǒng)[J]. 無線電工程, 2014,44(11): 52-54.
關(guān)鍵詞:大數(shù)據(jù) 智能 數(shù)據(jù)分析
中圖分類號:F503 文獻標識碼:A 文章編號:1674-098X(2014)04(a)-0021-01
對于數(shù)據(jù)分析來說,其主要的目的就是通過對數(shù)據(jù)的分析去發(fā)現(xiàn)問題或預測趨勢。從數(shù)據(jù)鉆取、大規(guī)模分析的技術(shù)手段、以及算法執(zhí)行上來說,大規(guī)模分析是和小規(guī)模數(shù)據(jù)在技術(shù)上是有很大差異的。想要探究大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù),首先要對數(shù)據(jù)分析這一概念進行深入研究。
1 數(shù)據(jù)分析
數(shù)據(jù)分析的過程其實簡單的說就是做報告,做什么樣的報告反映什么樣的指標。最開始的時候基本上是data processing。例如零售行業(yè)來說,最主要的指標就是庫存、銷售同比增長情況、利潤同比增長情況、促銷率等等。對于不同的行業(yè)會有不同的相關(guān)的KPI需要跟蹤,所以報告的內(nèi)容也會有所側(cè)重,但是只要你一個行業(yè)做久了,熟悉了套路之后,基本上就是以同樣的方法開展。
對于數(shù)據(jù)分析,如果公司部門分的比較細的(例如可能有建模組),那么做數(shù)據(jù)分析可能永遠都是做data processing了。對于模型的分析,需要你對業(yè)務(wù)有了深入的了解就可以建立一些模型出來(例如推薦模型)等等。
數(shù)據(jù)分析主要涉及的技能:
(1)數(shù)據(jù)庫的能力。越全面越好,如果不是理工科的,最起碼要會select那些簡單的查詢語句。
(2)EXCEL、PPT的能力。報告的呈現(xiàn)一般都是Excel+PPT的形式,最好VBA,這樣就可以將很多人工的工作轉(zhuǎn)化為自動化的能力,提高工作效率,領(lǐng)導也對你刮目相看,自己也有更多空余的時間準備其他方面的知識。
(3)市場分析能力。學會觀察市場的走向和關(guān)注的內(nèi)容,例如零售行業(yè),現(xiàn)在大家都對CRM很熱衷,那相關(guān)的分析方法和方式是怎么樣的,你要自己去了解。從來不會有人手把手的將所有東西都告訴你,你必須自己學會去增長知識。
(4)一些會計的知識。因為通過以上分析,就是會計管理的一部分內(nèi)容,最后還是公司盈利問題。有興趣的也可以去看看戰(zhàn)略管理方面的,對于做數(shù)據(jù)分析也很有好處的說。
綜合來看,可以說數(shù)據(jù)分析=技術(shù)+市場+戰(zhàn)略。
2 如何培養(yǎng)數(shù)據(jù)分析能力
理論:
基礎(chǔ)的數(shù)據(jù)分析知識,至少知道如何做趨勢分析、比較分析和細分,不然拿到一份數(shù)據(jù)就無從下手;
(2)基礎(chǔ)的統(tǒng)計學知識,至少基礎(chǔ)的統(tǒng)計量要認識,知道這些統(tǒng)計量的定義和適用條件,統(tǒng)計學方法可以讓分析過程更加嚴謹,結(jié)論更有說服力;
(3)對數(shù)據(jù)的興趣,以及其它的知識多多益善,讓分析過程有趣起來。
實踐:
(1)明確分析的目的。如果分析前沒有明確分析的最終目標,很容易被數(shù)據(jù)繞進去,最終自己都不知道自己得出的結(jié)論到底是用來干嘛的;
(2)多結(jié)合業(yè)務(wù)去看數(shù)據(jù)。數(shù)據(jù)從業(yè)務(wù)運營中來,分析當然要回歸到業(yè)務(wù)中去,多熟悉了解業(yè)務(wù)可以使數(shù)據(jù)看起來更加透徹;
(3)了解數(shù)據(jù)的定義和獲取。最好從數(shù)據(jù)最初是怎么獲取的開始了解,當然指標的統(tǒng)計邏輯和規(guī)則是必須熟記于心的,不然很容易就被數(shù)據(jù)給坑了;
(4)最后就是不斷地看數(shù)據(jù)、分析數(shù)據(jù),這是個必經(jīng)的過程,往往一個工作經(jīng)驗豐富的非數(shù)據(jù)分析的運營人員要比剛進來不久的數(shù)據(jù)分析師對數(shù)據(jù)的了解要深入得多,就是這個原因。
3 大數(shù)據(jù)
大數(shù)據(jù)就是通過統(tǒng)計分析計算機收集的數(shù)據(jù),在人們可能不知道“為什么”的前提下,了解到事物的狀態(tài)、趨勢、結(jié)果等“是什么”。
對于大數(shù)據(jù),一直來說,數(shù)據(jù)規(guī)模導致的存儲、運算等技術(shù)問題從來不是最重要的瓶頸。瓶頸只在于前端數(shù)據(jù)的收集途徑,以及后端商業(yè)思想引領(lǐng)的模型和算法問題。早期的各類OLAP工具已經(jīng)足夠了,后來類似海杜普這樣的研究則徹底降低了分布式數(shù)據(jù)的架構(gòu)成本和門檻,就徹底將大數(shù)據(jù)帶入了一個普及的領(lǐng)域。
從技術(shù)層面說,大數(shù)據(jù)和以前的數(shù)據(jù)時代的最大差異在于,以前是數(shù)據(jù)找應(yīng)用/算法的過程(例如各大銀行的大集中項目,以及數(shù)據(jù)建倉),而大數(shù)據(jù)時代的重要技術(shù)特征之一,是應(yīng)用/算法去找數(shù)據(jù)的過程,因為數(shù)據(jù)規(guī)模變成了技術(shù)上最大的挑戰(zhàn)。
大數(shù)據(jù)的特點:
(1)大數(shù)據(jù)不等同于數(shù)據(jù)大,我們處理問題是根據(jù)這個問題的所有數(shù)據(jù)而非樣本數(shù)據(jù),即樣本就是總體;不是精確性而是混雜性;不是因果關(guān)系而是相關(guān)關(guān)系。
(2)大數(shù)據(jù)應(yīng)用的幾個可能:當文字變成數(shù)據(jù),此時人可以用之閱讀,機器可以用之分析;當方位變成數(shù)據(jù),商業(yè)廣告,疫情傳染監(jiān)控,雅安地震時的谷歌尋人;當溝通變成數(shù)據(jù),就成了社交圖譜。一切都可以量化,將世界看作可以理解的數(shù)據(jù)的海洋,為我們提供了一個從來未有過的審視現(xiàn)實的視角。
(3)數(shù)據(jù)創(chuàng)新的價值:數(shù)據(jù)的再利用。例如重組數(shù)據(jù):隨著大數(shù)據(jù)出現(xiàn),數(shù)據(jù)的總和比部分更有價值,重組總和和本身價值也比單個總和更大;可擴展數(shù)據(jù):在設(shè)計數(shù)據(jù)收集時就設(shè)計好了它的可擴展性,可以增加數(shù)據(jù)的潛在價值;數(shù)據(jù)的折舊值:數(shù)據(jù)會無用,需淘汰更新;數(shù)據(jù)廢氣:比如語音識別,當用戶指出語音識別程序誤解了他的意思,實際上就有效的訓練了這個系統(tǒng)。
總之,大數(shù)據(jù)是因為對它的分析使用,才產(chǎn)生和體現(xiàn)它的價值,而不是因為其用到了突出的技術(shù)和算法才體現(xiàn)了它的價值。
4 大數(shù)據(jù)下的智能數(shù)據(jù)分析
在大數(shù)據(jù)的背景下,必須考慮數(shù)據(jù)之間的關(guān)聯(lián)性。一個單獨的數(shù)據(jù)是沒有意義的,實際中,選擇處在兩個極端的數(shù)據(jù)往往更容易找出它們之間的聯(lián)系,把它們放在一個框架中看才能發(fā)現(xiàn)問題。因此,可以用以下四種方法在大數(shù)據(jù)背景下進行智能數(shù)據(jù)分析:
(1)從解決問題的角度出發(fā)收集數(shù)據(jù);
(2)把收集的數(shù)據(jù)整理好,放入一個框架內(nèi),并利用這個框架幫助決策者做出決定;
(3)評估決定與行動的效果,這將告訴我們框架是否合理;
(4)如果有新的數(shù)據(jù)出現(xiàn),我們將考察能否利用它對前面三步做出改進,以及我們今天是否還需要收集更多種類的數(shù)據(jù)。
5 結(jié)語
數(shù)據(jù)分析的最終目的是幫助業(yè)務(wù)發(fā)現(xiàn)問題并解決問題,提升公司價值,而這些是從數(shù)據(jù)發(fā)覺的,而不是盲目下結(jié)論。每家公司都有自己業(yè)務(wù)生產(chǎn)的數(shù)據(jù),通過數(shù)據(jù)分析、同比環(huán)比、漏斗分析及模型等,發(fā)現(xiàn)業(yè)務(wù)上存在的問題,幫助公司業(yè)務(wù)的優(yōu)化。
參考文獻
[1] 李貴兵,羅洪.大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)研究[J].科技資訊,2013(30).
關(guān)鍵詞:聯(lián)機數(shù)據(jù)分析;處理數(shù)據(jù);分析和轉(zhuǎn)換數(shù)據(jù)
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)03-0006-03
為了提升大學物理公共課程的教學水平,更好地了解學生的學習情況,需要引用聯(lián)機數(shù)據(jù)技術(shù),通過科學建立模型對教學數(shù)據(jù)進行處理和分析。維度模型的建立是為了能夠全方位地剖析數(shù)據(jù)。
1 建立數(shù)據(jù)模型
建立模型是為了更加直觀地表達數(shù)據(jù)和事實。對于同一批數(shù)據(jù),人們總是會以不同的角度對其進行觀察,這就是維度。維度模型從不同的角度分析數(shù)據(jù),最終得出一張事實表。
如圖1所示,維度模型包括了教材維度表,學期維度表,教師維度表,學生維度表和教學事實表。為了更好地分析教學效果,維度模型從四個不同的角度進行分析,每一張維度表上都注明了詳細的數(shù)據(jù)內(nèi)容。最后,在總結(jié)四張維度表的基礎(chǔ)上,概括了最終的教學事實表。
2 OLAP技術(shù)
2.1 數(shù)據(jù)的采集
原有的Visual和SQL數(shù)據(jù)庫上儲存了學生的信息,教師的信息以及教學的數(shù)據(jù)等等。如圖二所示,教務(wù)數(shù)據(jù)庫中包含了課程信息表,學生信息表以及選課成績表。DTS工具能夠從不同的數(shù)據(jù)庫中自動抽取需要進行分析的數(shù)據(jù),并且將其全部集中在一個新的數(shù)據(jù)庫中。新的SQL數(shù)據(jù)庫既可以儲存信息,還能夠?qū)π畔⑦M行管理。聯(lián)機分析處理技術(shù)從不同的角度分析數(shù)據(jù),有助于全面了解學生的學習情況和教師的教學質(zhì)量。
2.2 數(shù)據(jù)分析的結(jié)構(gòu)
從圖2中可以看出,數(shù)據(jù)分析的結(jié)構(gòu)包括了四層,其中最底層的是各種信息數(shù)據(jù)庫和文本文件,在此基礎(chǔ)上建立數(shù)據(jù)ETL,然后建立相應(yīng)的維度模型,最后利用聯(lián)機分析技術(shù)對數(shù)據(jù)進行分析。采集數(shù)據(jù)和轉(zhuǎn)換數(shù)據(jù)是使用聯(lián)機分析技術(shù)的基礎(chǔ),也是必不可少的一步。多維度分析是該結(jié)構(gòu)中的最后一步,最終的結(jié)果將會把數(shù)據(jù)轉(zhuǎn)換成圖表的形式呈現(xiàn)出來。
2.3 轉(zhuǎn)換數(shù)據(jù)
由于不同數(shù)據(jù)的語法可能存在差異,因此,把不同的數(shù)據(jù)轉(zhuǎn)換成相同的結(jié)構(gòu)顯得尤為必要。在聯(lián)機分析技術(shù)應(yīng)用的過程中,轉(zhuǎn)換數(shù)據(jù)是關(guān)鍵的一步,能否成功轉(zhuǎn)換數(shù)據(jù),決定了維度模型的建立是否具有科學性與全面性。轉(zhuǎn)換數(shù)據(jù)是為了解決語法,語義結(jié)構(gòu)不同引起的問題。
和數(shù)據(jù)語義不同相比,處理不同語法的數(shù)據(jù)顯得更為簡單。如果數(shù)據(jù)本身和目標數(shù)據(jù)之間存在語法結(jié)構(gòu)不同的問題,那么只需要通過函數(shù)對其進行轉(zhuǎn)換即可。一般來說,數(shù)據(jù)本身的內(nèi)容并不會影響轉(zhuǎn)換過程,只要建立原數(shù)據(jù)和目標數(shù)據(jù)之間的對應(yīng)關(guān)系,就能解決數(shù)據(jù)名稱存在沖突的問題。例如,學生數(shù)據(jù)庫本身的信息包括了學生的ID和班級,這就相當于最終目標數(shù)據(jù)中學生對應(yīng)的名稱和班別。如果數(shù)據(jù)類型不同,可以運用相應(yīng)的函數(shù)對其進行轉(zhuǎn)換,例如trim()函數(shù)就能完成數(shù)據(jù)的轉(zhuǎn)換。下面是利用函數(shù)對原數(shù)據(jù)中學生的ID,專業(yè)以及院名進行轉(zhuǎn)換的過程,其轉(zhuǎn)換代碼如下:
Function Main()
DTSDestination(“ID”)=trim(DTSSourse(“名稱”))
DTSDestination(“專業(yè)”)=cstr(DTSSourse(“專業(yè)”))
DTSDestination(“院名”)=trim(DTSSourse(“學院”))
Main=DTSTransformStat_OK
End Function
轉(zhuǎn)換不同語義結(jié)構(gòu)的數(shù)據(jù)是一個復雜的過程,它需要重視數(shù)據(jù)本身的信息和內(nèi)容。因此,僅僅通過一步完成數(shù)據(jù)轉(zhuǎn)換的過程是幾乎不可能的,它需要將原數(shù)據(jù)進行一次次轉(zhuǎn)換,才能得到最終的目標數(shù)據(jù)。例如每一個教師都有以及開展項目,在原數(shù)據(jù)中只能看到項目的名稱和論文的名稱,如果需要將其轉(zhuǎn)換成教師的論文數(shù)量和項目數(shù)量,則需要經(jīng)過兩步的數(shù)據(jù)轉(zhuǎn)換。
2.4 數(shù)據(jù)結(jié)果分析
原數(shù)據(jù)從SQL中提取出來,然后通過函數(shù)對其進行轉(zhuǎn)換,最后利用聯(lián)機分析技術(shù)進行數(shù)據(jù)管理和分析,從不同的角度研究數(shù)據(jù),從而全面分析學生的學習情況和教師的教學情況。數(shù)據(jù)分析的方法有很多種,其目的都是為了全方位地剖析數(shù)據(jù)。
2.4.1 高校教師教學質(zhì)量的對比分析
在教師維度表中,我們已經(jīng)按照教師的從業(yè)年齡,學歷以及職稱對其進行劃分,不同職稱的教師,其教學質(zhì)量有著明顯的區(qū)別。教師的學歷不同,教齡有所差異,這都和教學效果息息相關(guān)。
2.4.2 不同時期對教學質(zhì)量的影響分析
聯(lián)機分析處理技術(shù)能夠從多角度分析數(shù)據(jù),教學質(zhì)量不可能是一成不變的,它與多個因素密不可分,時間也是其中一個因素。在不同的時期,由于政策的變動和外界因素的影響,教師的教學質(zhì)量也會隨之而受到不同程度的影響。
2.4.3 教學質(zhì)量和其他因素息息相關(guān)
除了時間和教師的水平會對教學質(zhì)量造成一定的影響,還有其他因素同樣會影響教學效果,例如:學生的學習能力,學校選用的課本等。綜合考慮各個因素對教學效果的影響,有利于教育部門更好地作出相應(yīng)的政策調(diào)整。
3 計算機分析處理技術(shù)中的數(shù)據(jù)處理方法分析
無可置疑,計算機技術(shù)的出現(xiàn)顛覆了人們傳統(tǒng)的思想和工作模式。如今,計算機技術(shù)已經(jīng)全面滲透到我們生活中和工作中的各個方面。不管是在工業(yè)生產(chǎn)還是科研數(shù)據(jù)處理中,計算機技術(shù)都發(fā)揮著不可替代的作用。如今我們需要處理的數(shù)據(jù)正與日俱增,這就意味著傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)無法滿足人們的需求了。儀表生產(chǎn)和系統(tǒng)控制要求數(shù)據(jù)具有高度精確性,這些數(shù)字在顯示之前,都必須經(jīng)過一系列的轉(zhuǎn)換,計算以及處理。首先,數(shù)據(jù)會以一種形式經(jīng)過轉(zhuǎn)換器,然后變成另一種新的形式,只有這樣計算機才能對數(shù)據(jù)進行處理和分析。處理數(shù)據(jù)是一個復雜多變的過程,它的方法并不是單一的,根據(jù)數(shù)據(jù)處理的目標不同,需要選擇不同的數(shù)據(jù)處理方法。例如,有的數(shù)據(jù)需要進行標度轉(zhuǎn)換,但有些數(shù)據(jù)只需要進行簡單計算即可,計算機技術(shù)的不斷進步是為了更好地應(yīng)對人們對數(shù)據(jù)處理新的需要。
計算機數(shù)據(jù)處理技術(shù)的應(yīng)用離不開系統(tǒng),它比傳統(tǒng)的系統(tǒng)更加具有優(yōu)越性:
1)自動更正功能,計算機系統(tǒng)在處理數(shù)據(jù)時,對于計算結(jié)果出現(xiàn)的誤差能夠及時修正,確保結(jié)果的準確度。
2)傳統(tǒng)模擬系統(tǒng)只能進行數(shù)據(jù)的簡單計算,而計算機系統(tǒng)則能夠處理復雜多變的數(shù)據(jù),其適用范圍和領(lǐng)域更加廣。
3)計算機系統(tǒng)不需要過多的硬件,只需要編寫相應(yīng)的程序就能夠完成數(shù)據(jù)的處理,在節(jié)省空間的同時也降低了數(shù)據(jù)處理的成本。
4)計算機系統(tǒng)特有的監(jiān)控系統(tǒng),能夠隨時監(jiān)測系統(tǒng)的安全性,從而確保數(shù)據(jù)的準確度。
對于不同的數(shù)據(jù),往往需要采用不同的處理方式,處理數(shù)據(jù)的簡單方法包括查表,計算等。除此之外,標度轉(zhuǎn)換,數(shù)字濾波同樣是應(yīng)用十分廣的處理技術(shù)。
3.1 數(shù)據(jù)計算
在各種數(shù)據(jù)處理方法中,計算法是最為簡單的一種,利用現(xiàn)有的數(shù)據(jù)設(shè)置程序,然后直接通過計算得出最終的目標數(shù)據(jù)。一般來說,利用這種方法處理數(shù)據(jù)需要遵循一個過程:首先,求表達式,這是計算法最基本的一步;其次,設(shè)計電路,在此之前必須將轉(zhuǎn)換器的位數(shù)確定下來;最后,利用第一步已經(jīng)求出的表達式運算數(shù)據(jù)。
3.2 數(shù)據(jù)查表
3.2.1 按順序查表格
當需要搜索表格中的數(shù)據(jù)時,往往需要按照一定的順序和步驟。首先,明確表格的地址和長度,然后再設(shè)置關(guān)鍵詞,最后按照順序進行搜索。
3.2.2 通過計算查表格
這是一種較為簡單的方法,適用范圍并不廣。只有當數(shù)據(jù)之間表現(xiàn)出明顯的規(guī)律或者數(shù)據(jù)之間存在某種關(guān)系時,才能夠使用這種方法查表格。
3.2.3 利用程序查表格
相比于上述的兩種方法,利用程序查表格是一種相對復雜的方法,但是這種方法的優(yōu)點在于查找效率高,并且準確度高。
3.3 數(shù)據(jù)濾波處理
采集數(shù)據(jù)并不難,但是確保每一個數(shù)據(jù)的真實性卻十分困難,尤其是在工業(yè)系統(tǒng)中,數(shù)據(jù)的測量難以確保絕對準確,因為在測量的過程中,外界環(huán)境對數(shù)據(jù)的影響往往是難以預估的。為了提高數(shù)據(jù)處理的精確度和準確率,需要借助檢測系統(tǒng)對采集的數(shù)據(jù)進行深加工。盡可能地讓處理的數(shù)據(jù)接近真實的數(shù)據(jù),并且在數(shù)據(jù)采集的過程中最大限度地減少外界因素對其的影響,從而提高計算結(jié)果的準確度。
濾波處理技術(shù)的應(yīng)用首先要確定數(shù)據(jù)的偏差,一般來說,每兩個測量數(shù)據(jù)之間都會存在一定的誤差,首先需要計算數(shù)據(jù)與數(shù)據(jù)之間可能出現(xiàn)的最大誤差。一旦超出這一數(shù)值,可以認定數(shù)據(jù)無效,只有符合偏差范圍內(nèi)的數(shù)據(jù),才能進行下一步的處理。
為了減少由于外界影響導致數(shù)據(jù)失真的情況,利用程序過濾數(shù)據(jù)是很有必要的。濾波技術(shù)有幾種,根據(jù)不同的需要可以選擇相應(yīng)的數(shù)據(jù)處理技術(shù),每一種數(shù)據(jù)濾波技術(shù)都有其適用范圍和優(yōu)點。數(shù)據(jù)濾波技術(shù)包括算術(shù)平均值濾波,加權(quán)平均值濾波,中值濾波,限幅濾波,限速濾波以及其他類型的濾波技術(shù)。
3.4 轉(zhuǎn)換量程和標度
在測量數(shù)據(jù)的過程中,每一種參數(shù)都有相應(yīng)的單位,為了方便數(shù)據(jù)處理,需要使用轉(zhuǎn)換器把數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的信號。標度轉(zhuǎn)換是必不可少的,為了加強系統(tǒng)的管理和監(jiān)測,需要不同單位的數(shù)字量。轉(zhuǎn)換方法包括非線性參數(shù)標度變換,參數(shù)標度變換,量程轉(zhuǎn)換,這幾種轉(zhuǎn)換方法在數(shù)據(jù)處理的過程中較為常見。當計算過程遇到困難,可以結(jié)合其他的標度轉(zhuǎn)換方法進行數(shù)據(jù)處理。
3.5 非線性補償計算法
3.5.1 線性插值計算方法
信號的輸入和輸出往往會存在一定的關(guān)系。曲線的斜率和誤差之間存在正相關(guān)關(guān)系,斜率越大,誤差越大。由此可見,這一計算方法僅僅適用于處理變化不大的數(shù)據(jù)。當曲線繪制選用的數(shù)據(jù)越多,曲線的準確程度越高,偏差越小。
3.5.2 拋物線計算方法
拋物線計算方法是一種常用的數(shù)據(jù)處理方法,只需要采集三組數(shù)據(jù),就可以連成一條拋物線。相比于直線,拋物線更加接近真實的曲線,從而提高數(shù)據(jù)的準確度。拋物線計算法的過程,只需要求出最后兩步計算中的M值,就能夠直接輸入數(shù)據(jù)得出結(jié)果。
3.6 數(shù)據(jù)長度的處理
當輸入數(shù)據(jù)和輸出數(shù)據(jù)的長度不一,需要對其進行轉(zhuǎn)換,使數(shù)據(jù)長度達到一致。由于采集數(shù)據(jù)所使用的轉(zhuǎn)換器和轉(zhuǎn)換數(shù)據(jù)所選擇的轉(zhuǎn)換器不同,因此,當輸入位數(shù)大于輸出位數(shù),可以通過移位的方法使位數(shù)變成相同。相反,當輸入位數(shù)少于輸出位數(shù)時,可以使用填充的方法將其轉(zhuǎn)換成相同的位數(shù)。
4 結(jié)語
本文對聯(lián)機分析技術(shù)進行了詳細的論述,該技術(shù)的應(yīng)用對于評價教學效果有著重要的意義。在物理公共課程中,教學數(shù)據(jù)數(shù)量巨大,如果利用傳統(tǒng)的方法對其進行分析,將會耗費大量的人力物力,而采用OLAP技術(shù)則能更加快速準確地分析處理數(shù)據(jù)。數(shù)據(jù)分析是評估教學質(zhì)量必經(jīng)的過程,而使用QLAP技術(shù)是為了能夠多層次,全方位地分析各個因素對教學質(zhì)量的影響,從而更好地改進高校教育中存在的不足。除了分析物理課程數(shù)據(jù),聯(lián)機分析技術(shù)同樣適用于其他課程的數(shù)據(jù)處理和分析。
參考文獻:
[1] Ralph kimball,Margy Ross.The Data Warehouse Toolkit:the Complete Guide to Dimensional Modeling[M]..北京:電子工業(yè)出版社,2003.