99热精品69堂国产-97超级碰在线精品视频-日韩欧美中文字幕在线视频-欧美日韩大尺码免费专区-最新国产三级在线不卡视频-在线观看成人免费视频-亚洲欧美国产精品完整版-色综久久天天综合绕视看-中文字幕免费在线看线人-久久国产精品99精品国产

歡迎來到優(yōu)發(fā)表網(wǎng)！

[ 登錄/注冊 ] 購物車(0)

期刊大全雜志訂閱 SCI期刊期刊投稿出版社公文范文精品范文

首頁 > 精品范文 > 數(shù)據(jù)分析分析技術(shù)

數(shù)據(jù)分析分析技術(shù)范文

時間：2023-09-05 16:32:12

序論：在您撰寫數(shù)據(jù)分析分析技術(shù)時，參考他人的優(yōu)秀作品可以開闊視野，小編為您整理的7篇范文，希望這些建議能夠激發(fā)您的創(chuàng)作熱情，引導您走向新的創(chuàng)作高度。

數(shù)據(jù)分析分析技術(shù)

第1篇

關(guān)鍵詞數(shù)據(jù)挖掘技術(shù) 警務(wù)系統(tǒng) 數(shù)據(jù)分析應(yīng)用

中圖分類號：TP311 文獻標識碼：A

1數(shù)據(jù)挖掘技術(shù)在警務(wù)數(shù)據(jù)分析系統(tǒng)中的重要性

警務(wù)系統(tǒng)由于工作的特點，要不斷地接受外來數(shù)據(jù)和有序存儲舊數(shù)據(jù)，這就對警務(wù)系統(tǒng)的數(shù)據(jù)處理系統(tǒng)有越來越高的要求，傳統(tǒng)的警務(wù)數(shù)據(jù)處理系統(tǒng)在信息量巨大的現(xiàn)今社會已經(jīng)不能再有效的完善數(shù)據(jù)庫的運行，這就需要新型的數(shù)據(jù)處理系統(tǒng)接替工作。新型的數(shù)據(jù)處理系統(tǒng)在案件的信息提取、視頻分析等方面都應(yīng)該有卓越的性能，將對案情有幫助的信息從大數(shù)據(jù)庫中有效的提取出來。數(shù)據(jù)挖掘技術(shù)是一項在能夠提高警務(wù)系統(tǒng)在數(shù)據(jù)的提取和挖掘效率的一項技術(shù)，能在短時間內(nèi)將案件中的數(shù)據(jù)作為數(shù)據(jù)源，將其進行分析和建模，從而從這些數(shù)據(jù)中獲得有力的線索。

2目前警務(wù)系統(tǒng)特點

現(xiàn)今的警務(wù)系統(tǒng)是跟隨時代不斷發(fā)展的一個工作效率高、工作素質(zhì)強的組織系統(tǒng)，有案件處理速度快、案件分析效率高的特點。這些特點，都需要警務(wù)系統(tǒng)中數(shù)據(jù)處理系統(tǒng)的有效應(yīng)用，通過對數(shù)據(jù)的處理分析、檢查對比得出較有價值的案件線索，從而提高效率。警務(wù)系統(tǒng)的正常運行離不開數(shù)據(jù)處理系統(tǒng)，而數(shù)據(jù)挖掘技術(shù)更是數(shù)據(jù)處理系統(tǒng)的重要組成部分，它確保了整個系統(tǒng)的運行速度，對案件的偵查有促進作用。

3構(gòu)建警務(wù)系統(tǒng)數(shù)據(jù)存儲器

基于警務(wù)系統(tǒng)的數(shù)據(jù)特點，警務(wù)系統(tǒng)應(yīng)該建立一個高速運行的警務(wù)系統(tǒng)數(shù)據(jù)存儲器?！皵?shù)據(jù)存儲器”在結(jié)構(gòu)上分為三個部分，分別是關(guān)系系統(tǒng)、OLAP服務(wù)器以及客戶處理系統(tǒng)。這三個部分的作用效果如下：

3.1關(guān)系系統(tǒng)

關(guān)系系統(tǒng)是這三個組成部分的基礎(chǔ)部分，這個系統(tǒng)負責對系統(tǒng)中的數(shù)據(jù)進行整理和提取、刷新，將數(shù)據(jù)在整個系統(tǒng)中的存儲位置有序的排列好，防止數(shù)據(jù)丟失和數(shù)據(jù)殘缺的現(xiàn)象發(fā)生。關(guān)系系統(tǒng)在運行的過程中通過警務(wù)系統(tǒng)不斷的收集新的信息，將其整理保存，始終將數(shù)據(jù)系統(tǒng)中的有效信息得到較完好的保護。

3.2 OLAP服務(wù)器

OLAP是聯(lián)機處理的縮寫，是將多角度的信息共享并由一個關(guān)鍵的出發(fā)點而聯(lián)機進行數(shù)據(jù)處理分析的一個軟件技術(shù)，在警務(wù)系統(tǒng)中可將需要處理的信息進行聯(lián)機處理分析，將信息較快的處理出來，得到有效的結(jié)論。

3.3客戶處理系統(tǒng)

客戶處理系統(tǒng)是將數(shù)據(jù)進行分析處理以及檢索和報告的一個系統(tǒng)，通過對數(shù)據(jù)之間的聯(lián)系將數(shù)據(jù)的信息整理和挖掘出來，形成有用的線索，供警務(wù)系統(tǒng)人員進行案件的偵破和處理，是數(shù)據(jù)存儲器的重要部分，特別是數(shù)據(jù)挖掘技術(shù)的應(yīng)用時整個系統(tǒng)的運作重心。

4數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)是將數(shù)據(jù)庫中的數(shù)據(jù)進行采集、集成以及分析的一項技術(shù)，其應(yīng)用到警務(wù)系統(tǒng)中可以對案件相關(guān)信息進行檢索和分析，應(yīng)用了多維數(shù)據(jù)分析處理及關(guān)聯(lián)規(guī)則的應(yīng)用、聚類分析方法的實際處理等數(shù)據(jù)挖掘分析處理模式將警務(wù)系統(tǒng)中的數(shù)據(jù)有效的聯(lián)系起來，形成一個較為完整的數(shù)據(jù)挖掘模式。

在挖掘出境數(shù)據(jù)時，數(shù)據(jù)挖掘技術(shù)的決策樹技術(shù)有效應(yīng)用，與縣贏得算法技術(shù)相互應(yīng)，將數(shù)據(jù)較為完整的從警務(wù)系統(tǒng)中巨大的信息庫中挖掘出來，實現(xiàn)了數(shù)據(jù)挖掘的分級處理模式的有效應(yīng)用。

5數(shù)據(jù)挖掘技術(shù)在現(xiàn)代警務(wù)系統(tǒng)中的應(yīng)用

在警務(wù)系統(tǒng)中，數(shù)據(jù)挖掘系統(tǒng)在案件的相關(guān)數(shù)據(jù)中整理生成了一個多維數(shù)據(jù)模型，使信息可視化、將案件信息的關(guān)系更加清楚的展現(xiàn)在警務(wù)系統(tǒng)的工作人員面前，通過多角度、多方面的分析和挖掘，將系統(tǒng)中的有用信息全部呈現(xiàn)在報告中，實現(xiàn)了信息的有效用。

6結(jié)語

警務(wù)系統(tǒng)中的信息有多樣化、復雜化、信息量巨大的特點，使用傳統(tǒng)的數(shù)據(jù)庫是不能按照現(xiàn)代的社會發(fā)展速度生存的，對數(shù)據(jù)進行高效的分析處理和采集，是現(xiàn)代警務(wù)數(shù)據(jù)處理系統(tǒng)應(yīng)該具有的一項特點。在數(shù)據(jù)處理速度快的前提下，數(shù)據(jù)處理系統(tǒng)的管理能力和聯(lián)系能力也應(yīng)該是突出的，本文中提到的數(shù)據(jù)挖掘技術(shù)就是解決數(shù)據(jù)處理問題的有效解決辦法，其運行通過對數(shù)據(jù)的建模、分析、采集等手段強化了數(shù)據(jù)處理系統(tǒng)的能力，為警務(wù)系統(tǒng)中案件處理效率的提升做出了一定的貢獻。目前社會的高速發(fā)展離不開大數(shù)據(jù)的支持，大數(shù)據(jù)時代對數(shù)據(jù)的處理系統(tǒng)要求越來越高，數(shù)據(jù)挖掘技術(shù)近些年在警務(wù)信息系統(tǒng)中的引用為警務(wù)系統(tǒng)的發(fā)展提供了技術(shù)上的有效支持，警務(wù)系統(tǒng)未來的發(fā)展肯定也離不開數(shù)據(jù)的有效處理工作，數(shù)據(jù)挖掘系統(tǒng)在未來的警務(wù)數(shù)據(jù)分析系統(tǒng)中也會有不斷地改善和提高。

參考文獻

[1] 劉敏，朱鵬，方有軒.面向市場分析人員的經(jīng)分模型庫的設(shè)計與實現(xiàn)[J].電腦與電信，2016（09） .

第2篇

[關(guān)鍵詞]數(shù)據(jù)倉庫聯(lián)機分析處理多維數(shù)據(jù)分析

中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)1110077-01

一、引言

聯(lián)機分析處理(Online Analytical Processing,OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的,OLAP是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析。通過對信息(維數(shù)據(jù))的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行深入地觀察。OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術(shù)核心是“維”這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。

二、OLAP的多維數(shù)據(jù)結(jié)構(gòu)

數(shù)據(jù)在多維空間中的分布總是稀疏的、不均勻的。在事件發(fā)生的位置,數(shù)據(jù)聚合在一起,其密度很大。因此,OLAP系統(tǒng)的開發(fā)者要設(shè)法解決多維數(shù)據(jù)空間的數(shù)據(jù)稀疏和數(shù)據(jù)聚合問題。事實上,有許多方法可以構(gòu)造多維數(shù)據(jù)。

(一)超立方結(jié)構(gòu)。超立方結(jié)構(gòu)指用三維或更多的維數(shù)來描述一個對象,每個維彼此垂直。數(shù)據(jù)的測量值發(fā)生在維的交叉點上,數(shù)據(jù)空間的各個部分都有相同的維屬性。

這種結(jié)構(gòu)可應(yīng)用在多維數(shù)據(jù)庫和面向關(guān)系數(shù)據(jù)庫的OLAP系統(tǒng)中,其主要特點是簡化終端用戶的操作。超立方結(jié)構(gòu)有一種變形,即收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維。

(二)多立方結(jié)構(gòu)。在多立方結(jié)構(gòu)中,將大的數(shù)據(jù)結(jié)構(gòu)分成多個多維結(jié)構(gòu)。這些多維結(jié)構(gòu)是大數(shù)據(jù)維數(shù)的子集,面向某一特定應(yīng)用對維進行分割,即將超立方結(jié)構(gòu)變?yōu)樽恿⒎浇Y(jié)構(gòu)。它具有很強的靈活性,提高了數(shù)據(jù)的分析效率。

一般來說,多立方結(jié)構(gòu)靈活性較大,但超立方結(jié)構(gòu)更易于理解。超立方結(jié)構(gòu)可以提供高水平的報告和多維視圖。多立方結(jié)構(gòu)具有良好的視圖翻轉(zhuǎn)性和靈活性。多立方結(jié)構(gòu)是存儲稀疏矩陣的一個更有效方法,并能減少計算量。因此,復雜的系統(tǒng)及預先建立的通用應(yīng)用傾向于使用多立方結(jié)構(gòu),以使數(shù)據(jù)結(jié)構(gòu)能更好地得到調(diào)整,滿足常用的應(yīng)用需求。

許多產(chǎn)品結(jié)合了上述兩種結(jié)構(gòu),它們的數(shù)據(jù)物理結(jié)構(gòu)是多立方結(jié)構(gòu),但卻利用超立方結(jié)構(gòu)來進行計算,結(jié)合了超立方結(jié)構(gòu)的簡化性和多立方結(jié)構(gòu)的旋轉(zhuǎn)存儲特性。

三、OLAP的多維數(shù)據(jù)分析

多維數(shù)據(jù)分析是指對以多維形式組織起來的數(shù)據(jù)采取切片、切塊、旋轉(zhuǎn)和鉆取等各種分析動作,以求剖析數(shù)據(jù),使最終用戶能從多個角度、多側(cè)面地觀察數(shù)據(jù)倉庫中的數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。多維分析方式迎合了人們的思維模式,因:

(一)切片。定義1:在多維數(shù)組的某一維上選定一維成員的動作成為切片,即在多維數(shù)組(維1、維2、....維n,變量)中選一維:維i,并取其一維成員(設(shè)為“維成員vi”),所得的多維數(shù)組的子集(維1,...維成員vi,...,維n,變量)稱為在維i上的一個切片。

按照定義1,一次切片一定是原來的維數(shù)減1。所以,所得的切片并不一定是二維的“平面”,其維數(shù)取決于原來的多維數(shù)據(jù)的維數(shù),這樣的切片定義不通俗易懂。下面給出另一個比較直觀的定義。

定義2:選定多維數(shù)組的一個二維子集的動作叫做切片,既選定多維數(shù)組(維1、維2、....維n,變量)中的兩個維:維i和維j,在這兩個維上取某一區(qū)間或者任意維成員,而將其余的維都取定一個維成員,則得到的就是多維數(shù)組在維i和維j上的一個二維子集,稱這個二維子集為多維數(shù)組在維i和維j上的一個切片,表示為(維i和維j,變量)。

按照定義2,不管原來的維數(shù)有多少,數(shù)據(jù)切片的結(jié)果一定是一個二維的“平面”。從另一個角度來講,切片就是在某個或某些維上選定一個維成員,而在某兩個維上取一定區(qū)間的維成員或全部維成員。從定義2可知:

1.一個多維數(shù)組的切片最終是由該數(shù)組中除切片所在平面的兩個維之外的其它維的成員值確定的。

2.維是觀察數(shù)據(jù)的角度,那么切片的作用或結(jié)果就是舍棄一些觀察角度,使人們能在兩個維上來集中觀察數(shù)據(jù),因為人的空間想象力有限,所以,對于維數(shù)較多的多維數(shù)據(jù)空間,進行數(shù)據(jù)切片是十分有意義的。比照定義1,我們可以將切片的這兩個定義聯(lián)系起來,對于一個n維數(shù)組,按定義1進行的n-2切片的結(jié)果,就必定對應(yīng)于按定義2進行的某一次切片的結(jié)果。

(二)切塊。定義1:在多維數(shù)組的某一維上選定某一區(qū)間的維成員的動作稱為切塊,即限制多維數(shù)組在某一維的取值區(qū)間。顯然,當這一區(qū)間只取一個維成員時,即得到一個切片。

定義2:選定多維數(shù)組的一個三維子集的動作稱為切塊,即選定多維數(shù)組(維1、維2、....維n,變量)中的三個維:維i、維j、維r,在這三個維上取某一區(qū)間或任意的維成員,而將其余的維都取定一個維成員,則得到的就是多維數(shù)組在維i、維j、維r上的三維子集,我們稱這個三維子集為多維數(shù)組在維i、維j、維r上的一個切塊,表示為(維i、維j、維r,變量)。切塊與切片的作用與目的是相似的。

(三)旋轉(zhuǎn)。旋轉(zhuǎn)既是改變一個報告或者頁面的維方向。例如:旋轉(zhuǎn)可能包含了交換行與列;或是把某一個行維移到列維,或是把頁面顯示中的一個維和頁面外的維進行交換(令其成為新的行或者列的一個)。

(四)鉆取。

鉆取處理是使用戶在數(shù)據(jù)倉庫的多層數(shù)據(jù)中,能夠通過導航信息而獲得更多的細節(jié)性數(shù)據(jù),鉆取一般是指向下鉆取。大多數(shù)的OLAP工具可以讓用戶鉆取至一個數(shù)據(jù)集中有更好細節(jié)描述的數(shù)據(jù)層,而更完整的工具可讓用戶隨處鉆取,即除一般往下鉆取外,隨處鉆取還包括向上鉆取和交叉鉆取。

(五)多視圖模式。人們發(fā)現(xiàn),獲取相同的信息,圖形顯示所帶來的直觀性有時是簡單的數(shù)據(jù)表所無法提供的。一個OLAP系統(tǒng),應(yīng)當采取多種不同的格式顯示數(shù)據(jù),使用戶能夠獲得最佳的觀察數(shù)據(jù)的視角。

四、結(jié)語

隨著數(shù)據(jù)倉庫的發(fā)展,OLAP也得到了迅猛的發(fā)展。數(shù)據(jù)倉庫側(cè)重于存儲和管理面向決策主題的數(shù)據(jù),而OLAP則側(cè)重于數(shù)據(jù)倉庫中的數(shù)據(jù)分析,并將其轉(zhuǎn)換成輔助決策信息。OLAP的一個重要特點是多維數(shù)據(jù)分析,這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補充的關(guān)系。將有助于我們解決數(shù)據(jù)處理中的復雜問題。

參考文獻:

[1]彭木根,數(shù)據(jù)倉庫技術(shù)與實現(xiàn),電子工業(yè)出版社,2002.9.

第3篇

1計算機大數(shù)據(jù)分析中云計算技術(shù)作用分析

云計算技術(shù)可以給提供計算機數(shù)據(jù)傳遞與共享的條件，融合軟硬件數(shù)據(jù)保存，促進計算機處理工作更好的開展。云計算技術(shù)可以給用戶提供良好的網(wǎng)絡(luò)環(huán)境與保存空間，處理數(shù)據(jù)傳遞環(huán)節(jié)的各項問題。與傳統(tǒng)大數(shù)據(jù)分析技術(shù)相比，云計算計算可以提高大數(shù)據(jù)分析質(zhì)量。人們借助云計算技術(shù)獲得云終端的數(shù)據(jù)，切實滿足人們對于數(shù)據(jù)的需求?，F(xiàn)階段計算機市場形成完善的結(jié)構(gòu)體系，圍繞云計算技術(shù)推動計算機大數(shù)據(jù)分析工作的開展，奠定后期云計算技術(shù)發(fā)展的基礎(chǔ)。目前，人們生活中全面運用云計算技術(shù)，基于云計算技術(shù)研發(fā)的服務(wù)器及操作系統(tǒng)方便人們處理各類信息技術(shù)。同時，云計算技術(shù)數(shù)據(jù)保存有著較強的安全性，極小可能出現(xiàn)數(shù)據(jù)丟失情況，滿足人們的實際需求，直接體現(xiàn)出云計算技術(shù)的優(yōu)勢。優(yōu)化云計算環(huán)境下計算機的數(shù)據(jù)處理中心，就可以不斷提升計算機的云計算能力，讓云計算不僅為網(wǎng)絡(luò)信息所用，還在計算機網(wǎng)絡(luò)安全中發(fā)揮極為重要的作用。目前，計算機的使用人群更為注重的是在高速發(fā)達的信息社會，自己的信息，也就是使用計算機網(wǎng)絡(luò)的安全性能是否能得到保障，這時候考驗的就是云計系統(tǒng)的完善性。目前存在的最主要計算機安全問題就是黑客問題和系統(tǒng)漏洞問題。系統(tǒng)漏洞這一人為因素可以通過不斷檢索進行漏洞的發(fā)現(xiàn)和修補，面對黑客的攻擊，能夠做的就是防患于未然，不斷地升級和優(yōu)化系統(tǒng)，最終達到完善的數(shù)據(jù)處理效果。

2云計算技術(shù)下計算機大數(shù)據(jù)分析面臨的問題

2.1網(wǎng)絡(luò)技術(shù)安全

由于相關(guān)技術(shù)的不斷發(fā)展，云計算環(huán)境下的網(wǎng)絡(luò)安全技術(shù)正在朝著穩(wěn)定和成熟的方向發(fā)展，但在具體的應(yīng)用過程中依然表現(xiàn)出一定的網(wǎng)絡(luò)安全問題，因此用戶在使用過程中應(yīng)該做好相關(guān)的應(yīng)對工作。網(wǎng)絡(luò)安全問題具體表現(xiàn)在用戶在使用信息傳輸?shù)倪^程中，一旦出現(xiàn)服務(wù)性中斷問題，難以保證數(shù)據(jù)的安全性，啟動被動保護模式的情況使信息的安全性更加難以保障，這也成為云計算模式下的網(wǎng)絡(luò)技術(shù)安全中的重點問題，一旦得不到及時有效的解決，用戶在使用過程中就會受到不同程度的威脅。

2.2網(wǎng)絡(luò)環(huán)境安全

網(wǎng)絡(luò)環(huán)境安全是保證網(wǎng)絡(luò)正常使用，信息傳輸質(zhì)量有保證的重要前提，一旦網(wǎng)絡(luò)環(huán)境存在不安全因素，將會引發(fā)病毒的入侵和黑客的攻擊。因此網(wǎng)絡(luò)環(huán)境安全也是云計算技術(shù)價值得以發(fā)揮的重要前提。計算機在使用過程中如果長期受到病毒的困擾和黑客的威脅，將會降低人們對計算機的信賴性，甚至在工作和生活中將會在網(wǎng)絡(luò)環(huán)境安全方面投入更多的成本。

3計算機大數(shù)據(jù)分析中云計算技術(shù)的具體應(yīng)用

3.1數(shù)據(jù)傳輸安全分析

在云計算的作用下，云安全含義逐漸形成，具體來說，云安全主要指在用戶借助云計算技術(shù)來實現(xiàn)計算機大數(shù)據(jù)分析時，讓數(shù)據(jù)安全性得到了保證。用戶端數(shù)據(jù)和數(shù)據(jù)安全往往呈現(xiàn)出正比關(guān)系，隨著應(yīng)用群體數(shù)量的增多，涉及的計算機數(shù)據(jù)范疇將不斷擴充，假設(shè)計算機遭受病毒的攻擊，可以在云計算技術(shù)的作用下實現(xiàn)病毒的攔截，以此讓計算機數(shù)據(jù)安全性得到保證。從云計算技術(shù)自身角度來說，其提供的各個服務(wù)均是由IaaS基礎(chǔ)設(shè)施級服務(wù)以及PaaS平臺級服務(wù)兩項內(nèi)容構(gòu)建而成。首先，IaaS基礎(chǔ)設(shè)施級服務(wù)其作用在于，可以給用戶提供對應(yīng)的服務(wù)，也就是對各個計算機基礎(chǔ)設(shè)備進行操作和應(yīng)用，其中包含了CPU處理、數(shù)據(jù)保存、數(shù)據(jù)傳遞等。其次，PaaS平臺級服務(wù)則是指，把云計算中各個服務(wù)器及開發(fā)環(huán)境當作服務(wù)，通過PaaS平臺用戶能夠結(jié)合自身需求實現(xiàn)對應(yīng)操作流程的部署和應(yīng)用。

3.2監(jiān)督數(shù)據(jù)資源共享

網(wǎng)絡(luò)資源在傳輸過程中遭遇到的安全威脅是用戶時時刻刻關(guān)注的問題，因此在具體的工作和管理中，需要提高云計算網(wǎng)絡(luò)安全技術(shù)的應(yīng)用程度，通過不斷創(chuàng)新安全模式，完善相應(yīng)的防護體系，從而有效消除安全性問題，提升數(shù)據(jù)傳輸?shù)陌踩院头€(wěn)定性。具體在應(yīng)用過程中，可以借助云計算技術(shù)的優(yōu)勢，對數(shù)據(jù)傳輸?shù)恼麄€路徑進行監(jiān)控，保證傳輸通道環(huán)境的安全性，一旦出現(xiàn)問題及時進行預警，有效預防黑客的攻擊，降低網(wǎng)絡(luò)安全事故發(fā)生的概率。對此，有關(guān)部門應(yīng)該提高重視程度，同時完善相應(yīng)的監(jiān)督管理制度，采用科學的管理方式，實現(xiàn)預期的監(jiān)測目標。

3.3提高數(shù)據(jù)使用安全

計算機用戶本身的安全意識也是當前需要關(guān)注的重要方面，為了進一步提升用戶數(shù)據(jù)信息和計算機系統(tǒng)的安全系數(shù)，需要重視身份認證工作的提升，具體可以使用實名制的方式進行認證處理，從而不斷提升整個網(wǎng)絡(luò)結(jié)構(gòu)的安全性。對于網(wǎng)絡(luò)應(yīng)用過程中涉及到的安全問題，可以通過實名追蹤的方式進行可疑目標鎖定，從而有效控制惡意攻擊情況的發(fā)生。但在應(yīng)用過程中也需要重視假人名情況的出現(xiàn)，提高網(wǎng)絡(luò)數(shù)據(jù)信息竊取的預防水平。計算機網(wǎng)絡(luò)環(huán)境算是一種相對開放的環(huán)境，在使用過程中會面向大量的用戶，通過重視用戶的身份認證，可以有效避免用戶對數(shù)據(jù)的非法訪問。同時在使用者進行計算機登錄和使用的時候，需要對用戶名和密碼進行核實。按照權(quán)限的不同，確保數(shù)據(jù)庫信息的安全有效性。通過對數(shù)據(jù)庫信息加密處理，可以確保數(shù)據(jù)庫信息的安全性。這種加密處理可以在原有數(shù)據(jù)信息的基礎(chǔ)上進行算法的處理改進，使用者可以通過自身的權(quán)限獲取想要了解的信息，如果沒有解密方式，不法分子將會難以獲取數(shù)據(jù)的原始信息。

3.4網(wǎng)絡(luò)安全等級防護

在云計算環(huán)境下的安全管理中心具備系統(tǒng)管理、安全管理和安全審計等功能，能夠滿足不同云計算環(huán)境下不同安全等級的保護要求，并且通過服務(wù)層的安全保護框架，實現(xiàn)對不同等級云服務(wù)客戶端的安全保護，為使用者提供安全可靠的資源訪問服務(wù)。在訪問云服務(wù)商時，用戶可通過通信網(wǎng)絡(luò)、API接口和Web服務(wù)方式訪問云服務(wù)器，但是用戶終端系統(tǒng)的安全防護不在網(wǎng)絡(luò)安全等級保護框架體系內(nèi)。在保護框架體系內(nèi)，資源層和服務(wù)層安全是云計算環(huán)境安全保護的重點，資源層包括物理資源安全和虛擬資源安全，應(yīng)按照安全設(shè)計要求構(gòu)建資源層安全保護框架。云計算環(huán)境下的網(wǎng)絡(luò)安全等級保護要針對不同等級云計算平臺確定不同的安全目標，一般情況下安全保護等級最低為二級，并根據(jù)安全目標和等級要求實施安全設(shè)計步驟，具體包括：第一步，根據(jù)云平臺的租戶數(shù)量和業(yè)務(wù)系統(tǒng)情況確定云計算安全保護標準，制定云計算平臺的安全保護策略，以避免在云計算平臺上發(fā)生安全事件；第二步，細化安全技術(shù)要求，針對安全計算環(huán)境、安全區(qū)域邊界、安全通信網(wǎng)絡(luò)以及安全管理中心制定出相應(yīng)的安全保護策略；第三步，根據(jù)云計算功能框架中的各層功能和保護要求，制定安全技術(shù)機制，使其滿足云計算功能框架的安全保護要求。在完成云計算環(huán)境下的網(wǎng)絡(luò)安全等級保護設(shè)計之后，還應(yīng)增加虛擬化安全、鏡像安全、接口安全等安全控制點，并采用訪問控制技術(shù)、身份識別技術(shù)等安全防護技術(shù)，實現(xiàn)與云計算平臺上各功能層次的對接，提出各層的安全保護措施。

3.5重視相應(yīng)程序開發(fā)

網(wǎng)絡(luò)安全應(yīng)用程序需要隨著技術(shù)的進步和人們生活和工作的需要進行逐步提升，從而及時對病毒程序進行開發(fā)和處理，確保計算機系統(tǒng)可以敏銳捕捉到病毒的活動跡象，提升自身的防御能力。通常情況下，對于計算機的服務(wù)，內(nèi)網(wǎng)隱蔽處理，可以提升網(wǎng)站平臺的訪問速度，可以避免不安全網(wǎng)址帶來的不良效應(yīng)，從而為計算機的安全防御提供一定的屏障。在計算機數(shù)據(jù)的使用中，由于安全性威脅導致的數(shù)據(jù)丟失問題，可以通過備份和恢復改善。這種恢復性功能也可以保證數(shù)據(jù)的一致性和完整性。通常由邏輯備份、動態(tài)備份以及靜態(tài)備份等幾種情況。計算機黑客數(shù)量增多，凈化網(wǎng)絡(luò)環(huán)境顯然存在較大難度，但通過必要的防范措施依然可以在數(shù)據(jù)庫信息的保護中起到關(guān)鍵作用。而使用防火墻保護工具就能很好的為計算機網(wǎng)絡(luò)提供一種安全保障。通過防火墻，可以在一定程度上防止黑客的侵害。

第4篇

關(guān)鍵詞數(shù)據(jù)挖掘基因序列生物信息學遺傳疾病患病家族連鎖分析

在生物信息學的成果的理論基礎(chǔ)之上，通過統(tǒng)計的方法查找未知的生物化學功能的疾病基因的位置。這個方法預先通過患病家族連鎖分析，再推斷包含這些基因的染色體區(qū)域片段，然后檢查該區(qū)域來尋找基因［1］。

數(shù)據(jù)挖掘在DNA數(shù)據(jù)分析的發(fā)展狀況

現(xiàn)今所采用的是分子生物學與微電子技術(shù)相結(jié)合的核酸分析檢測技術(shù)［2］。DNA芯片技術(shù)的基本原理是將cDNA或寡核昔酸探針以105～106位點/cm2>/sup>的密度結(jié)合在固相支持物（即芯片）上，每個位點上的cDNA或寡核昔酸探針的順序是已知的，將該探針與熒光標記的待測樣品DNA，RNA或cDNA在芯片上進行雜交，然后用激光共聚焦顯微鏡對芯片進行掃描，并配合計算機系統(tǒng)對雜交信號做出比較和檢測，從而迅速得出所需的信息。

基因數(shù)據(jù)挖掘常用的方法：①核酸與蛋白質(zhì)比較的預測分析：蛋白質(zhì)序列之間或核酸序列之間的兩兩比對，通過比較兩個序列之間的相似區(qū)域和保守性位點，尋找二者可能的分子進化關(guān)系。進一步的比對是將多個蛋白質(zhì)或核酸同時進行比較，尋找這些有進化關(guān)系的序列之間共同的保守區(qū)域、位點和profile，從而探索導致它們產(chǎn)生共同功能的序列模式。此外，還可以把蛋白質(zhì)序列與核酸序列相比來探索核酸序列可能的表達框架；把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比，從而獲得蛋白質(zhì)折疊類型的信息。②針對核酸序列的預測方法：針對核酸序列的預測就是在核酸序列中尋找基因，找出基因的位置和功能位點的位置，以及標記已知的序列模式等過程。在此過程中，確認一段DNA序列是一個基因需要有多個證據(jù)的支持。一般而言，在重復片段頻繁出現(xiàn)的區(qū)域里，基因編碼區(qū)和調(diào)控區(qū)不太可能出現(xiàn)；如果某段DN段的假想產(chǎn)物與某個已知的蛋白質(zhì)或其他基因的產(chǎn)物具有較高序列相似性的話，那么這個DN段就非?？赡軐儆谕怙@子片段；在一段DNA序列上出現(xiàn)統(tǒng)計上的規(guī)律性，即所謂的“密碼子偏好性”，也是說明這段DNA是蛋白質(zhì)編碼區(qū)的有力證據(jù)；其他的證據(jù)包括與“模板”序列的模式相匹配、簡單序列模式如TATA Box等相匹配等。

案例分析

疾病是由于基因的片段內(nèi)的某個位置存在或發(fā)生改變而引起的，也就是發(fā)生突變。能否找出其中不同的地方，進而對其不同之處加以改變，使之成為正?；?？這都需要數(shù)據(jù)挖掘技術(shù)的支持。對基因的數(shù)據(jù)挖掘，就是對這些突變位置的尋找，并且找出該位置與所有者身患的疾病之間的關(guān)系。

方法的選擇：筆者在設(shè)計中選用單純的DNA序列進行比較，基因在計算機的表示和存儲時，可以使用一條很長的字符串來表示基因的某一條序列，使用文件的形式進行對基因工作者的提取成果創(chuàng)建一級數(shù)據(jù)庫，使用文件修整的方法進行數(shù)據(jù)的清洗，以滿足數(shù)據(jù)在二級數(shù)據(jù)庫中的一致性。同時在文件比較過程中，生成某兩個數(shù)據(jù)文件的差異狀況，保存在二級數(shù)據(jù)庫庫中，進一步的操作是對差異的位置的某個類型所占的比例。最后通過事先的對患者患病信息的統(tǒng)計得到的某種疾病在群中所占的比例，與其相比較，如果這兩個比例相等，則可以認為這個位置的某個類型引起疾病的發(fā)生。從醫(yī)學院得到一些基因片段文件信息和患者（所有者）患病情況。

系統(tǒng)的實現(xiàn)：基因片段在計算機中以文件形式存儲，用文件名標識其所有者（源體）。片段起始地址和長度信息和所有患者患病情況保存在本機數(shù)據(jù)庫中。在程序測試過程中，將片段復制成40份，對其中部分文件的序列進行稍作修改，對所有患者的患病狀況進行稍作修改，以創(chuàng)造測試環(huán)境。顯示在與基因數(shù)據(jù)挖掘軟件同在一根目錄下的序列文件的集合。

其中一個文件所存儲的基因信息，見圖1。

啟動統(tǒng)計程序界面，單擊清空數(shù)據(jù)庫中的臨時用表數(shù)據(jù)，將數(shù)據(jù)庫中有可能的雜音信息去掉。并對其中的所有文件進行統(tǒng)計前片段剪切，使所有片段的起始地址和長度都相同，避免發(fā)生序列移位。

沒有進行片段剪切之前，瀏覽文件所存的片段信息，片段剪切完成之后，設(shè)置進行比較操作的甲、乙組的文件添加，因為本次測試只檢驗片段中的一塊區(qū)域（文件中片段的所有信息），所以在起始序號那里添加為0，終止序號那里添加為175。這樣則可以保證統(tǒng)計文件的所有信息都被統(tǒng)計。

單擊結(jié)果顯示按鈕，可以見到程序以表格和條形圖標方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的條形段較高。說明在這些接受統(tǒng)計的片段中，在上面提到的位置處存在的差異較大，與某遺傳疾病的關(guān)聯(lián)的可能性就越大。

如果用戶想要在初步統(tǒng)計結(jié)果的基礎(chǔ)上，按照數(shù)據(jù)庫中所有者的疾病狀況進行詳細統(tǒng)計的話，單擊菜單欄的詳細統(tǒng)計按鈕，選擇按疾病詳細統(tǒng)計，則將彈出窗口。

選擇弱視，輸入，則在文本框中顯示與其關(guān)聯(lián)的位置為1、3、5、12、14、16、18、13、31、34、87、94、139、166。

由此，用戶可以根據(jù)本系統(tǒng)所給出的預測對弱視遺傳疾病與序列中的特定位置，選擇適當算法進行進一步的計算及檢驗，證明預測結(jié)果是否符合關(guān)聯(lián)理論。數(shù)據(jù)挖掘方法體系中的智能聚類的相關(guān)技術(shù)則可較好的解決類別數(shù)判定、結(jié)果驗證等問題。

結(jié) 論

對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比，無論在數(shù)據(jù)的復雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言，都要復雜得多。從分析算法上講，需要一些新的和好的算法；但技術(shù)和軟件還遠沒有達到成熟的地步，因此需要不斷探索及研究。

參考文獻

1 黃詒森.生物化學［M］.北京:人民衛(wèi)生出版社,2002:29-37.

第5篇

關(guān)鍵詞：告警數(shù)據(jù) Hadoop Spark

1 引言

隨著電信網(wǎng)絡(luò)的不斷演進，全省數(shù)據(jù)網(wǎng)、交換網(wǎng)、接入網(wǎng)設(shè)備單月產(chǎn)生告警原始日志近億條。以上告警通過網(wǎng)元網(wǎng)管、專業(yè)綜合網(wǎng)管、智能網(wǎng)管系統(tǒng)[1]三層收斂，監(jiān)控人員每月需處理影響業(yè)務(wù)或網(wǎng)絡(luò)質(zhì)量的告警事件為20萬條，但一些對網(wǎng)絡(luò)可能造成隱患的告警信息被過濾掉。如何從海量告警數(shù)據(jù)中獲取與網(wǎng)絡(luò)性能指標、運維效率相關(guān)的有價值的數(shù)據(jù)，對于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫架構(gòu)而言，似乎是一個不可能完成的任務(wù)。

在一般告警量情況下，ORACLE數(shù)據(jù)處理能力基本可以滿足分析需求，但當告警分析量上升到億級，如果采用傳統(tǒng)的數(shù)據(jù)存儲和計算方式，一方面數(shù)據(jù)量過大，表的管理、維護開銷過大，要做到每個字段建索引，存儲浪費巨大；另一方面計算分析過程耗時過長，無法滿足實時和準實時分析需求。因此必須采用新的技術(shù)架構(gòu)來分析處理海量告警信息，支撐主動維護工作顯得尤為必要，為此我們引入了大數(shù)據(jù)技術(shù)。

2 分析目標

（1）數(shù)據(jù)源：電信運營商網(wǎng)絡(luò)設(shè)備告警日志數(shù)據(jù)，每天50 G。

（2）數(shù)據(jù)分析目標：完成高頻翻轉(zhuǎn)類（瞬斷）告警分析；完成自定義網(wǎng)元、自定義告警等可定制告警分析；完成被過濾掉的告警分析、TOPN告警分析；核心設(shè)備和重要業(yè)務(wù)監(jiān)控。

（3）分析平臺硬件配置：云計算平臺分配8臺虛擬機，每臺虛機配置CPU16核；內(nèi)存32 G；硬盤2 T。

3 制定方案

進入大數(shù)據(jù)時代，行業(yè)內(nèi)涌現(xiàn)了大量的數(shù)據(jù)挖掘技術(shù)，數(shù)據(jù)處理和分析更高效、更有價值。Google、Facebook等公司提供可行的思路是通過類似Hadoop[2]的分布式計算、MapReduce[3]、Spark[4]算法等構(gòu)造而成的新型架構(gòu)，挖掘有價值信息。

Hadoop是Apache基金會用JAVA語言開發(fā)的分布式框架，通過利用計算機集群對大規(guī)模數(shù)據(jù)進行分布式計算分析。Hadoop框架最重要的兩個核心是HDFS和MapReduce，HDFS用于分布式存儲，MapReduce則實現(xiàn)分布式任務(wù)計算。

一個HDFS集群包含元數(shù)據(jù)節(jié)點（NameNode）、若干數(shù)據(jù)節(jié)點（DataNode）和客戶端（Client）。NameNode管理HDFS的文件系統(tǒng)，DataNode存儲數(shù)據(jù)塊文件。HDFS將一個文件劃分成若干個數(shù)據(jù)塊，這些數(shù)據(jù)塊存儲DataNode節(jié)點上。

MapReduce是Google公司提出的針對大數(shù)據(jù)的編程模型。核心思想是將計算過程分解成Map（映射）和Reduce（歸約）兩個過程，也就是將一個大的計算任務(wù)拆分為多個小任務(wù)，MapReduce框架化繁為簡，輕松地解決了數(shù)據(jù)分布式存儲的計算問題，讓不熟悉并行編程的程序員也能輕松寫出分布式計算程序。MapReduce最大的不足則在于Map和Reduce都是以進程為單位調(diào)度、運行、結(jié)束的，磁盤I/O開銷大、效率低，無法滿足實時計算需求。

Spark是由加州伯克利大學AMP實驗室開發(fā)的類Hadoop MapReduce的分布式并行計算框架，主要特點是彈性分布式數(shù)據(jù)集RDD[5]，中間輸出結(jié)果可以保存在內(nèi)存中，節(jié)省了大量的磁盤I/O操作。Spark除擁有Hadoop MapReduce所具有的優(yōu)點外，還支持多次迭代計算，特別適合流計算和圖計算。

基于成本、效率、復雜性等因素，我們選擇了HDFS+Spark實現(xiàn)對告警數(shù)據(jù)的挖掘分析。

4 分析平臺設(shè)計

4.1 Hadoop集群搭建

基于CentOS-6.5系統(tǒng)環(huán)境搭建Hadoop集群，配置如表1所示。

4.2 Spark參數(shù)設(shè)置[6]

Spark參數(shù)設(shè)置如表2所示。

4.3 數(shù)據(jù)采集層

數(shù)據(jù)采集：由于需采集的告警設(shè)備種類繁多，故采取分布式的告警采集，數(shù)據(jù)網(wǎng)設(shè)備、交換網(wǎng)設(shè)備、接入網(wǎng)設(shè)備分別通過IP綜合網(wǎng)管、天元綜合網(wǎng)管、PON綜合網(wǎng)管進行采集，采集周期5分鐘一次。采集機先將采集到的告警日志文件，通過FTP接口上傳到智能網(wǎng)管系統(tǒng)文件服務(wù)器上，再對文件進行校驗，通過Sqoop推送到Hadoop集群上。

4.4 邏輯處理層

（1）建立高頻翻轉(zhuǎn)告警監(jiān)控工作流程

先將海量告警進行初步刪選，通過數(shù)量、位置和時間三個維度的分析，得出高頻翻轉(zhuǎn)類告警清單列表，最后由專業(yè)工程師甄別確認，對某類告警進行重點關(guān)注和監(jiān)控。

（2）差異化定制方案

按組網(wǎng)架構(gòu)細分，針對核心重要節(jié)點的所有告警均納入實時監(jiān)控方案；

按業(yè)務(wù)網(wǎng)絡(luò)細分，針對不同業(yè)務(wù)網(wǎng)絡(luò)設(shè)計個性化的監(jiān)控方案；

按客戶業(yè)務(wù)細分，針對客戶數(shù)字出租電路設(shè)計個性化的監(jiān)控方案。

4.5 數(shù)據(jù)分析層

Spark讀取Hive[7]表的告警數(shù)據(jù)，然后在Spark引擎中進行SQL統(tǒng)計分析。Spark SQL模K在進行分析時，將外部告警數(shù)據(jù)源轉(zhuǎn)化為DataFrame[8]，并像操作RDD或者將其注冊為臨時表的方式處理和分析這些數(shù)據(jù)。一旦將DataFrame注冊成臨時表，就可以使用類SQL的方式操作查詢分析告警數(shù)據(jù)。表3是利用Spark SQL對告警工單做的一個簡單分析：

5 平臺實踐應(yīng)用

探索運維數(shù)據(jù)分析的新方法，利用大數(shù)據(jù)分析技術(shù)，分析可能影響業(yè)務(wù)/設(shè)備整體性能的設(shè)備告警，結(jié)合網(wǎng)絡(luò)性能數(shù)據(jù)，找到網(wǎng)絡(luò)隱患，實現(xiàn)主動維護的工作目標。

5.1 高頻翻轉(zhuǎn)類告警監(jiān)控

首先制定了高頻翻轉(zhuǎn)類告警分析規(guī)則，將連續(xù)7天每天原始告警發(fā)生24次以上定義為高頻翻轉(zhuǎn)類告警，并基于大數(shù)據(jù)平臺開發(fā)了相應(yīng)的分析腳本，目前已實現(xiàn)全專業(yè)所有告警類型的分析。表4是全省高頻翻轉(zhuǎn)類TOP10排名。

5.2 核心設(shè)備和重要業(yè)務(wù)監(jiān)控

目前以設(shè)備廠商或?qū)＜医?jīng)驗評定告警監(jiān)控級別往往會與實際形成偏差，主要表現(xiàn)在以下幾個方面：監(jiān)控級別的差異化設(shè)定基于已知的告警類型，一旦網(wǎng)絡(luò)重大故障上報未知的告警類型就無法在第一時間有效監(jiān)控到；同一類型的故障告警出現(xiàn)在不同網(wǎng)絡(luò)層面可能影響業(yè)務(wù)的程度是完全不同的；不同保障級別的客戶對故障告警監(jiān)控的實時性要求也是不同的。

通過大數(shù)據(jù)分析平臺對差異化監(jiān)控提供了靈活的定制手段，可根據(jù)告警關(guān)鍵字，分專業(yè)、地市、網(wǎng)管、機房、告警頻次等維度自主定制需要的告警數(shù)據(jù)，實現(xiàn)日、周、月、某個時間區(qū)等統(tǒng)計分析。

應(yīng)用案例：省NOC通過大數(shù)據(jù)分析出一條編號為CTVPN80113的中國平安大客戶電路在一段時間內(nèi)頻繁產(chǎn)生線路劣化告警，但用戶未申告，省NOC隨即預警給政企支撐工程師，政支工程師與用戶溝通后，派維護人員至現(xiàn)場處理，發(fā)現(xiàn)線路接頭松動，緊急處理后告警消除、業(yè)務(wù)恢復。

5.3 被過濾告警分析

全省每天網(wǎng)絡(luò)告警數(shù)據(jù)300萬條～500萬條，其中99%都會根據(jù)告警過濾規(guī)則進行過濾篩選，把過濾后的告警呈現(xiàn)給網(wǎng)絡(luò)監(jiān)控人員。過濾規(guī)則的準確性直接影響告警數(shù)據(jù)的質(zhì)量。一般來說告警過濾規(guī)則可以從具有豐富運維經(jīng)驗的網(wǎng)絡(luò)維護人員獲得，但是這個過程非常繁瑣，而且通過人工途徑獲得的告警過濾規(guī)則在不同的應(yīng)用環(huán)境可能存在差異，無法滿足網(wǎng)絡(luò)維護的整體需要。采用大數(shù)據(jù)技術(shù)對被過濾的告警進行分析可以很好地完善過濾規(guī)則，讓真正急迫需要處理的告警優(yōu)先呈現(xiàn)給維護人員及時處理，真正做到先于客戶發(fā)現(xiàn)故障。表5是動環(huán)專業(yè)被過濾的告警情況分布。

5.4 動環(huán)深放電分析

動環(huán)網(wǎng)管通過C接口采集蓄電池電壓數(shù)據(jù)，在停電告警產(chǎn)生之后，電壓數(shù)據(jù)首次下降到45 V，表示該局站電池出現(xiàn)深放電現(xiàn)象，通過計算這一放電過程的持續(xù)時間，記為深放電時長，該時長可以初步反映電池的放電性能。一個局站每天產(chǎn)生幾十萬條電壓等動環(huán)實時數(shù)據(jù)。

在告警數(shù)據(jù)分析的基礎(chǔ)上，實現(xiàn)對蓄電池電壓變化數(shù)據(jù)的分析，提醒分公司關(guān)注那些深放電次數(shù)過多和放電時長過短的局站，核查蓄電池、油機配置、發(fā)電安排等，并進行整治。利用Spark SQL統(tǒng)計了一個月內(nèi)撫州、贛州、吉安三分公司幾十億條動環(huán)數(shù)據(jù)，分析了其中深放電的情況如表6所示。

6 結(jié)論

本文利用HDFS+Spark技術(shù)，實驗性地解決告警數(shù)據(jù)存儲和分析等相關(guān)問題：一是通過數(shù)據(jù)分析，從海量告警數(shù)據(jù)中發(fā)現(xiàn)潛在的網(wǎng)絡(luò)隱患；二是結(jié)合資源信息和不同專業(yè)的告警，最終為用戶提供綜合預警；三是轉(zhuǎn)變網(wǎng)絡(luò)監(jiān)控思路和方式，通過數(shù)據(jù)匯聚、數(shù)據(jù)相關(guān)性分析、數(shù)據(jù)可視化展示，提高了網(wǎng)絡(luò)監(jiān)控效率；最后還擴展到對動環(huán)實時數(shù)據(jù)、信令數(shù)據(jù)進行分析。

從實際運行效果來看，HDFS和Spark完全可以取代傳統(tǒng)的數(shù)據(jù)存儲和計算方式，滿足電信運營商主動運維的需求。

參考文獻：

[1] 中國電信股份有限公司. 中國電信智能網(wǎng)管技術(shù)規(guī)范-總體分冊[Z]. 2015.

[2] Tom white. Hadoop權(quán)威指南[M]. 4版. 南京：東南大學出版社， 2015.

[3] RP Raji. MapReduce： Simplified Data Processing on Large Clusters[Z]. 2004.

[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http：///.

[5] Matei Zaharia， Mosharaf Chowdhury， Tathagata Das， et al. Resilient Distributed Datasets： A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation， 2012，70（2）： 141-146.

[6] S鵬. Apache Spark源碼剖析[M]. 北京：電子工業(yè)出版社， 2015.

[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http：///.

[8] Holden Karau， Andy Konwinski， Patrick Wendell， et al. Learning Spark： Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc， 2015.

[9] 員建廈. 基于動態(tài)存儲策略的數(shù)據(jù)管理系統(tǒng)[J]. 無線電工程， 2014，44（11）： 52-54.

第6篇

關(guān)鍵詞：大數(shù)據(jù) 智能數(shù)據(jù)分析

中圖分類號：F503 文獻標識碼：A 文章編號：1674-098X（2014）04（a）-0021-01

對于數(shù)據(jù)分析來說，其主要的目的就是通過對數(shù)據(jù)的分析去發(fā)現(xiàn)問題或預測趨勢。從數(shù)據(jù)鉆取、大規(guī)模分析的技術(shù)手段、以及算法執(zhí)行上來說，大規(guī)模分析是和小規(guī)模數(shù)據(jù)在技術(shù)上是有很大差異的。想要探究大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)，首先要對數(shù)據(jù)分析這一概念進行深入研究。

1 數(shù)據(jù)分析

數(shù)據(jù)分析的過程其實簡單的說就是做報告，做什么樣的報告反映什么樣的指標。最開始的時候基本上是data processing。例如零售行業(yè)來說，最主要的指標就是庫存、銷售同比增長情況、利潤同比增長情況、促銷率等等。對于不同的行業(yè)會有不同的相關(guān)的KPI需要跟蹤，所以報告的內(nèi)容也會有所側(cè)重，但是只要你一個行業(yè)做久了，熟悉了套路之后，基本上就是以同樣的方法開展。

對于數(shù)據(jù)分析，如果公司部門分的比較細的（例如可能有建模組），那么做數(shù)據(jù)分析可能永遠都是做data processing了。對于模型的分析，需要你對業(yè)務(wù)有了深入的了解就可以建立一些模型出來（例如推薦模型）等等。

數(shù)據(jù)分析主要涉及的技能：

（1）數(shù)據(jù)庫的能力。越全面越好，如果不是理工科的，最起碼要會select那些簡單的查詢語句。

（2）EXCEL、PPT的能力。報告的呈現(xiàn)一般都是Excel+PPT的形式，最好VBA，這樣就可以將很多人工的工作轉(zhuǎn)化為自動化的能力，提高工作效率，領(lǐng)導也對你刮目相看，自己也有更多空余的時間準備其他方面的知識。

（3）市場分析能力。學會觀察市場的走向和關(guān)注的內(nèi)容，例如零售行業(yè)，現(xiàn)在大家都對CRM很熱衷，那相關(guān)的分析方法和方式是怎么樣的，你要自己去了解。從來不會有人手把手的將所有東西都告訴你，你必須自己學會去增長知識。

（4）一些會計的知識。因為通過以上分析，就是會計管理的一部分內(nèi)容，最后還是公司盈利問題。有興趣的也可以去看看戰(zhàn)略管理方面的，對于做數(shù)據(jù)分析也很有好處的說。

綜合來看，可以說數(shù)據(jù)分析=技術(shù)+市場+戰(zhàn)略。

2 如何培養(yǎng)數(shù)據(jù)分析能力

理論：

基礎(chǔ)的數(shù)據(jù)分析知識，至少知道如何做趨勢分析、比較分析和細分，不然拿到一份數(shù)據(jù)就無從下手；

（2）基礎(chǔ)的統(tǒng)計學知識，至少基礎(chǔ)的統(tǒng)計量要認識，知道這些統(tǒng)計量的定義和適用條件，統(tǒng)計學方法可以讓分析過程更加嚴謹，結(jié)論更有說服力；

（3）對數(shù)據(jù)的興趣，以及其它的知識多多益善，讓分析過程有趣起來。

實踐：

（1）明確分析的目的。如果分析前沒有明確分析的最終目標，很容易被數(shù)據(jù)繞進去，最終自己都不知道自己得出的結(jié)論到底是用來干嘛的；

（2）多結(jié)合業(yè)務(wù)去看數(shù)據(jù)。數(shù)據(jù)從業(yè)務(wù)運營中來，分析當然要回歸到業(yè)務(wù)中去，多熟悉了解業(yè)務(wù)可以使數(shù)據(jù)看起來更加透徹；

（3）了解數(shù)據(jù)的定義和獲取。最好從數(shù)據(jù)最初是怎么獲取的開始了解，當然指標的統(tǒng)計邏輯和規(guī)則是必須熟記于心的，不然很容易就被數(shù)據(jù)給坑了；

（4）最后就是不斷地看數(shù)據(jù)、分析數(shù)據(jù)，這是個必經(jīng)的過程，往往一個工作經(jīng)驗豐富的非數(shù)據(jù)分析的運營人員要比剛進來不久的數(shù)據(jù)分析師對數(shù)據(jù)的了解要深入得多，就是這個原因。

3 大數(shù)據(jù)

大數(shù)據(jù)就是通過統(tǒng)計分析計算機收集的數(shù)據(jù)，在人們可能不知道“為什么”的前提下，了解到事物的狀態(tài)、趨勢、結(jié)果等“是什么”。

對于大數(shù)據(jù)，一直來說，數(shù)據(jù)規(guī)模導致的存儲、運算等技術(shù)問題從來不是最重要的瓶頸。瓶頸只在于前端數(shù)據(jù)的收集途徑，以及后端商業(yè)思想引領(lǐng)的模型和算法問題。早期的各類OLAP工具已經(jīng)足夠了，后來類似海杜普這樣的研究則徹底降低了分布式數(shù)據(jù)的架構(gòu)成本和門檻，就徹底將大數(shù)據(jù)帶入了一個普及的領(lǐng)域。

從技術(shù)層面說，大數(shù)據(jù)和以前的數(shù)據(jù)時代的最大差異在于，以前是數(shù)據(jù)找應(yīng)用/算法的過程（例如各大銀行的大集中項目，以及數(shù)據(jù)建倉），而大數(shù)據(jù)時代的重要技術(shù)特征之一，是應(yīng)用/算法去找數(shù)據(jù)的過程，因為數(shù)據(jù)規(guī)模變成了技術(shù)上最大的挑戰(zhàn)。

大數(shù)據(jù)的特點：

（1）大數(shù)據(jù)不等同于數(shù)據(jù)大，我們處理問題是根據(jù)這個問題的所有數(shù)據(jù)而非樣本數(shù)據(jù)，即樣本就是總體；不是精確性而是混雜性；不是因果關(guān)系而是相關(guān)關(guān)系。

（2）大數(shù)據(jù)應(yīng)用的幾個可能：當文字變成數(shù)據(jù)，此時人可以用之閱讀，機器可以用之分析；當方位變成數(shù)據(jù)，商業(yè)廣告，疫情傳染監(jiān)控，雅安地震時的谷歌尋人；當溝通變成數(shù)據(jù)，就成了社交圖譜。一切都可以量化，將世界看作可以理解的數(shù)據(jù)的海洋，為我們提供了一個從來未有過的審視現(xiàn)實的視角。

（3）數(shù)據(jù)創(chuàng)新的價值：數(shù)據(jù)的再利用。例如重組數(shù)據(jù)：隨著大數(shù)據(jù)出現(xiàn)，數(shù)據(jù)的總和比部分更有價值，重組總和和本身價值也比單個總和更大；可擴展數(shù)據(jù)：在設(shè)計數(shù)據(jù)收集時就設(shè)計好了它的可擴展性，可以增加數(shù)據(jù)的潛在價值；數(shù)據(jù)的折舊值：數(shù)據(jù)會無用，需淘汰更新；數(shù)據(jù)廢氣：比如語音識別，當用戶指出語音識別程序誤解了他的意思，實際上就有效的訓練了這個系統(tǒng)。

總之，大數(shù)據(jù)是因為對它的分析使用，才產(chǎn)生和體現(xiàn)它的價值，而不是因為其用到了突出的技術(shù)和算法才體現(xiàn)了它的價值。

4 大數(shù)據(jù)下的智能數(shù)據(jù)分析

在大數(shù)據(jù)的背景下，必須考慮數(shù)據(jù)之間的關(guān)聯(lián)性。一個單獨的數(shù)據(jù)是沒有意義的，實際中，選擇處在兩個極端的數(shù)據(jù)往往更容易找出它們之間的聯(lián)系，把它們放在一個框架中看才能發(fā)現(xiàn)問題。因此，可以用以下四種方法在大數(shù)據(jù)背景下進行智能數(shù)據(jù)分析：

（1）從解決問題的角度出發(fā)收集數(shù)據(jù)；

（2）把收集的數(shù)據(jù)整理好，放入一個框架內(nèi)，并利用這個框架幫助決策者做出決定；

（3）評估決定與行動的效果，這將告訴我們框架是否合理；

（4）如果有新的數(shù)據(jù)出現(xiàn)，我們將考察能否利用它對前面三步做出改進，以及我們今天是否還需要收集更多種類的數(shù)據(jù)。

5 結(jié)語

數(shù)據(jù)分析的最終目的是幫助業(yè)務(wù)發(fā)現(xiàn)問題并解決問題，提升公司價值，而這些是從數(shù)據(jù)發(fā)覺的，而不是盲目下結(jié)論。每家公司都有自己業(yè)務(wù)生產(chǎn)的數(shù)據(jù)，通過數(shù)據(jù)分析、同比環(huán)比、漏斗分析及模型等，發(fā)現(xiàn)業(yè)務(wù)上存在的問題，幫助公司業(yè)務(wù)的優(yōu)化。

參考文獻

[1] 李貴兵，羅洪.大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)研究[J].科技資訊，2013（30）.

第7篇

關(guān)鍵詞：聯(lián)機數(shù)據(jù)分析；處理數(shù)據(jù)；分析和轉(zhuǎn)換數(shù)據(jù)

中圖分類號：TP311 文獻標識碼：A 文章編號：1009-3044（2016）03-0006-03

為了提升大學物理公共課程的教學水平，更好地了解學生的學習情況，需要引用聯(lián)機數(shù)據(jù)技術(shù)，通過科學建立模型對教學數(shù)據(jù)進行處理和分析。維度模型的建立是為了能夠全方位地剖析數(shù)據(jù)。

1 建立數(shù)據(jù)模型

建立模型是為了更加直觀地表達數(shù)據(jù)和事實。對于同一批數(shù)據(jù)，人們總是會以不同的角度對其進行觀察，這就是維度。維度模型從不同的角度分析數(shù)據(jù)，最終得出一張事實表。

如圖1所示，維度模型包括了教材維度表，學期維度表，教師維度表，學生維度表和教學事實表。為了更好地分析教學效果，維度模型從四個不同的角度進行分析，每一張維度表上都注明了詳細的數(shù)據(jù)內(nèi)容。最后，在總結(jié)四張維度表的基礎(chǔ)上，概括了最終的教學事實表。

2 OLAP技術(shù)

2.1 數(shù)據(jù)的采集

原有的Visual和SQL數(shù)據(jù)庫上儲存了學生的信息，教師的信息以及教學的數(shù)據(jù)等等。如圖二所示，教務(wù)數(shù)據(jù)庫中包含了課程信息表，學生信息表以及選課成績表。DTS工具能夠從不同的數(shù)據(jù)庫中自動抽取需要進行分析的數(shù)據(jù)，并且將其全部集中在一個新的數(shù)據(jù)庫中。新的SQL數(shù)據(jù)庫既可以儲存信息，還能夠?qū)π畔⑦M行管理。聯(lián)機分析處理技術(shù)從不同的角度分析數(shù)據(jù)，有助于全面了解學生的學習情況和教師的教學質(zhì)量。

2.2 數(shù)據(jù)分析的結(jié)構(gòu)

從圖2中可以看出，數(shù)據(jù)分析的結(jié)構(gòu)包括了四層，其中最底層的是各種信息數(shù)據(jù)庫和文本文件，在此基礎(chǔ)上建立數(shù)據(jù)ETL，然后建立相應(yīng)的維度模型，最后利用聯(lián)機分析技術(shù)對數(shù)據(jù)進行分析。采集數(shù)據(jù)和轉(zhuǎn)換數(shù)據(jù)是使用聯(lián)機分析技術(shù)的基礎(chǔ)，也是必不可少的一步。多維度分析是該結(jié)構(gòu)中的最后一步，最終的結(jié)果將會把數(shù)據(jù)轉(zhuǎn)換成圖表的形式呈現(xiàn)出來。

2.3 轉(zhuǎn)換數(shù)據(jù)

由于不同數(shù)據(jù)的語法可能存在差異，因此，把不同的數(shù)據(jù)轉(zhuǎn)換成相同的結(jié)構(gòu)顯得尤為必要。在聯(lián)機分析技術(shù)應(yīng)用的過程中，轉(zhuǎn)換數(shù)據(jù)是關(guān)鍵的一步，能否成功轉(zhuǎn)換數(shù)據(jù)，決定了維度模型的建立是否具有科學性與全面性。轉(zhuǎn)換數(shù)據(jù)是為了解決語法，語義結(jié)構(gòu)不同引起的問題。

和數(shù)據(jù)語義不同相比，處理不同語法的數(shù)據(jù)顯得更為簡單。如果數(shù)據(jù)本身和目標數(shù)據(jù)之間存在語法結(jié)構(gòu)不同的問題，那么只需要通過函數(shù)對其進行轉(zhuǎn)換即可。一般來說，數(shù)據(jù)本身的內(nèi)容并不會影響轉(zhuǎn)換過程，只要建立原數(shù)據(jù)和目標數(shù)據(jù)之間的對應(yīng)關(guān)系，就能解決數(shù)據(jù)名稱存在沖突的問題。例如，學生數(shù)據(jù)庫本身的信息包括了學生的ID和班級，這就相當于最終目標數(shù)據(jù)中學生對應(yīng)的名稱和班別。如果數(shù)據(jù)類型不同，可以運用相應(yīng)的函數(shù)對其進行轉(zhuǎn)換，例如trim（）函數(shù)就能完成數(shù)據(jù)的轉(zhuǎn)換。下面是利用函數(shù)對原數(shù)據(jù)中學生的ID，專業(yè)以及院名進行轉(zhuǎn)換的過程，其轉(zhuǎn)換代碼如下：

Function Main（）

DTSDestination（“ID”）=trim（DTSSourse（“名稱”））

DTSDestination（“專業(yè)”）=cstr（DTSSourse（“專業(yè)”））

DTSDestination（“院名”）=trim（DTSSourse（“學院”））

Main=DTSTransformStat_OK

End Function

轉(zhuǎn)換不同語義結(jié)構(gòu)的數(shù)據(jù)是一個復雜的過程，它需要重視數(shù)據(jù)本身的信息和內(nèi)容。因此，僅僅通過一步完成數(shù)據(jù)轉(zhuǎn)換的過程是幾乎不可能的，它需要將原數(shù)據(jù)進行一次次轉(zhuǎn)換，才能得到最終的目標數(shù)據(jù)。例如每一個教師都有以及開展項目，在原數(shù)據(jù)中只能看到項目的名稱和論文的名稱，如果需要將其轉(zhuǎn)換成教師的論文數(shù)量和項目數(shù)量，則需要經(jīng)過兩步的數(shù)據(jù)轉(zhuǎn)換。

2.4 數(shù)據(jù)結(jié)果分析

原數(shù)據(jù)從SQL中提取出來，然后通過函數(shù)對其進行轉(zhuǎn)換，最后利用聯(lián)機分析技術(shù)進行數(shù)據(jù)管理和分析，從不同的角度研究數(shù)據(jù)，從而全面分析學生的學習情況和教師的教學情況。數(shù)據(jù)分析的方法有很多種，其目的都是為了全方位地剖析數(shù)據(jù)。

2.4.1 高校教師教學質(zhì)量的對比分析

在教師維度表中，我們已經(jīng)按照教師的從業(yè)年齡，學歷以及職稱對其進行劃分，不同職稱的教師，其教學質(zhì)量有著明顯的區(qū)別。教師的學歷不同，教齡有所差異，這都和教學效果息息相關(guān)。

2.4.2 不同時期對教學質(zhì)量的影響分析

聯(lián)機分析處理技術(shù)能夠從多角度分析數(shù)據(jù)，教學質(zhì)量不可能是一成不變的，它與多個因素密不可分，時間也是其中一個因素。在不同的時期，由于政策的變動和外界因素的影響，教師的教學質(zhì)量也會隨之而受到不同程度的影響。

2.4.3 教學質(zhì)量和其他因素息息相關(guān)

除了時間和教師的水平會對教學質(zhì)量造成一定的影響，還有其他因素同樣會影響教學效果，例如：學生的學習能力，學校選用的課本等。綜合考慮各個因素對教學效果的影響，有利于教育部門更好地作出相應(yīng)的政策調(diào)整。

3 計算機分析處理技術(shù)中的數(shù)據(jù)處理方法分析

無可置疑，計算機技術(shù)的出現(xiàn)顛覆了人們傳統(tǒng)的思想和工作模式。如今，計算機技術(shù)已經(jīng)全面滲透到我們生活中和工作中的各個方面。不管是在工業(yè)生產(chǎn)還是科研數(shù)據(jù)處理中，計算機技術(shù)都發(fā)揮著不可替代的作用。如今我們需要處理的數(shù)據(jù)正與日俱增，這就意味著傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)無法滿足人們的需求了。儀表生產(chǎn)和系統(tǒng)控制要求數(shù)據(jù)具有高度精確性，這些數(shù)字在顯示之前，都必須經(jīng)過一系列的轉(zhuǎn)換，計算以及處理。首先，數(shù)據(jù)會以一種形式經(jīng)過轉(zhuǎn)換器，然后變成另一種新的形式，只有這樣計算機才能對數(shù)據(jù)進行處理和分析。處理數(shù)據(jù)是一個復雜多變的過程，它的方法并不是單一的，根據(jù)數(shù)據(jù)處理的目標不同，需要選擇不同的數(shù)據(jù)處理方法。例如，有的數(shù)據(jù)需要進行標度轉(zhuǎn)換，但有些數(shù)據(jù)只需要進行簡單計算即可，計算機技術(shù)的不斷進步是為了更好地應(yīng)對人們對數(shù)據(jù)處理新的需要。

計算機數(shù)據(jù)處理技術(shù)的應(yīng)用離不開系統(tǒng)，它比傳統(tǒng)的系統(tǒng)更加具有優(yōu)越性：

1）自動更正功能，計算機系統(tǒng)在處理數(shù)據(jù)時，對于計算結(jié)果出現(xiàn)的誤差能夠及時修正，確保結(jié)果的準確度。

2）傳統(tǒng)模擬系統(tǒng)只能進行數(shù)據(jù)的簡單計算，而計算機系統(tǒng)則能夠處理復雜多變的數(shù)據(jù)，其適用范圍和領(lǐng)域更加廣。

3）計算機系統(tǒng)不需要過多的硬件，只需要編寫相應(yīng)的程序就能夠完成數(shù)據(jù)的處理，在節(jié)省空間的同時也降低了數(shù)據(jù)處理的成本。

4）計算機系統(tǒng)特有的監(jiān)控系統(tǒng)，能夠隨時監(jiān)測系統(tǒng)的安全性，從而確保數(shù)據(jù)的準確度。

對于不同的數(shù)據(jù)，往往需要采用不同的處理方式，處理數(shù)據(jù)的簡單方法包括查表，計算等。除此之外，標度轉(zhuǎn)換，數(shù)字濾波同樣是應(yīng)用十分廣的處理技術(shù)。

3.1 數(shù)據(jù)計算

在各種數(shù)據(jù)處理方法中，計算法是最為簡單的一種，利用現(xiàn)有的數(shù)據(jù)設(shè)置程序，然后直接通過計算得出最終的目標數(shù)據(jù)。一般來說，利用這種方法處理數(shù)據(jù)需要遵循一個過程：首先，求表達式，這是計算法最基本的一步；其次，設(shè)計電路，在此之前必須將轉(zhuǎn)換器的位數(shù)確定下來；最后，利用第一步已經(jīng)求出的表達式運算數(shù)據(jù)。

3.2 數(shù)據(jù)查表

3.2.1 按順序查表格

當需要搜索表格中的數(shù)據(jù)時，往往需要按照一定的順序和步驟。首先，明確表格的地址和長度，然后再設(shè)置關(guān)鍵詞，最后按照順序進行搜索。

3.2.2 通過計算查表格

這是一種較為簡單的方法，適用范圍并不廣。只有當數(shù)據(jù)之間表現(xiàn)出明顯的規(guī)律或者數(shù)據(jù)之間存在某種關(guān)系時，才能夠使用這種方法查表格。

3.2.3 利用程序查表格

相比于上述的兩種方法，利用程序查表格是一種相對復雜的方法，但是這種方法的優(yōu)點在于查找效率高，并且準確度高。

3.3 數(shù)據(jù)濾波處理

采集數(shù)據(jù)并不難，但是確保每一個數(shù)據(jù)的真實性卻十分困難，尤其是在工業(yè)系統(tǒng)中，數(shù)據(jù)的測量難以確保絕對準確，因為在測量的過程中，外界環(huán)境對數(shù)據(jù)的影響往往是難以預估的。為了提高數(shù)據(jù)處理的精確度和準確率，需要借助檢測系統(tǒng)對采集的數(shù)據(jù)進行深加工。盡可能地讓處理的數(shù)據(jù)接近真實的數(shù)據(jù)，并且在數(shù)據(jù)采集的過程中最大限度地減少外界因素對其的影響，從而提高計算結(jié)果的準確度。

濾波處理技術(shù)的應(yīng)用首先要確定數(shù)據(jù)的偏差，一般來說，每兩個測量數(shù)據(jù)之間都會存在一定的誤差，首先需要計算數(shù)據(jù)與數(shù)據(jù)之間可能出現(xiàn)的最大誤差。一旦超出這一數(shù)值，可以認定數(shù)據(jù)無效，只有符合偏差范圍內(nèi)的數(shù)據(jù)，才能進行下一步的處理。

為了減少由于外界影響導致數(shù)據(jù)失真的情況，利用程序過濾數(shù)據(jù)是很有必要的。濾波技術(shù)有幾種，根據(jù)不同的需要可以選擇相應(yīng)的數(shù)據(jù)處理技術(shù)，每一種數(shù)據(jù)濾波技術(shù)都有其適用范圍和優(yōu)點。數(shù)據(jù)濾波技術(shù)包括算術(shù)平均值濾波，加權(quán)平均值濾波，中值濾波，限幅濾波，限速濾波以及其他類型的濾波技術(shù)。

3.4 轉(zhuǎn)換量程和標度

在測量數(shù)據(jù)的過程中，每一種參數(shù)都有相應(yīng)的單位，為了方便數(shù)據(jù)處理，需要使用轉(zhuǎn)換器把數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的信號。標度轉(zhuǎn)換是必不可少的，為了加強系統(tǒng)的管理和監(jiān)測，需要不同單位的數(shù)字量。轉(zhuǎn)換方法包括非線性參數(shù)標度變換，參數(shù)標度變換，量程轉(zhuǎn)換，這幾種轉(zhuǎn)換方法在數(shù)據(jù)處理的過程中較為常見。當計算過程遇到困難，可以結(jié)合其他的標度轉(zhuǎn)換方法進行數(shù)據(jù)處理。

3.5 非線性補償計算法

3.5.1 線性插值計算方法

信號的輸入和輸出往往會存在一定的關(guān)系。曲線的斜率和誤差之間存在正相關(guān)關(guān)系，斜率越大，誤差越大。由此可見，這一計算方法僅僅適用于處理變化不大的數(shù)據(jù)。當曲線繪制選用的數(shù)據(jù)越多，曲線的準確程度越高，偏差越小。

3.5.2 拋物線計算方法

拋物線計算方法是一種常用的數(shù)據(jù)處理方法，只需要采集三組數(shù)據(jù)，就可以連成一條拋物線。相比于直線，拋物線更加接近真實的曲線，從而提高數(shù)據(jù)的準確度。拋物線計算法的過程，只需要求出最后兩步計算中的M值，就能夠直接輸入數(shù)據(jù)得出結(jié)果。

3.6 數(shù)據(jù)長度的處理

當輸入數(shù)據(jù)和輸出數(shù)據(jù)的長度不一，需要對其進行轉(zhuǎn)換，使數(shù)據(jù)長度達到一致。由于采集數(shù)據(jù)所使用的轉(zhuǎn)換器和轉(zhuǎn)換數(shù)據(jù)所選擇的轉(zhuǎn)換器不同，因此，當輸入位數(shù)大于輸出位數(shù)，可以通過移位的方法使位數(shù)變成相同。相反，當輸入位數(shù)少于輸出位數(shù)時，可以使用填充的方法將其轉(zhuǎn)換成相同的位數(shù)。

4 結(jié)語

本文對聯(lián)機分析技術(shù)進行了詳細的論述，該技術(shù)的應(yīng)用對于評價教學效果有著重要的意義。在物理公共課程中，教學數(shù)據(jù)數(shù)量巨大，如果利用傳統(tǒng)的方法對其進行分析，將會耗費大量的人力物力，而采用OLAP技術(shù)則能更加快速準確地分析處理數(shù)據(jù)。數(shù)據(jù)分析是評估教學質(zhì)量必經(jīng)的過程，而使用QLAP技術(shù)是為了能夠多層次，全方位地分析各個因素對教學質(zhì)量的影響，從而更好地改進高校教育中存在的不足。除了分析物理課程數(shù)據(jù)，聯(lián)機分析技術(shù)同樣適用于其他課程的數(shù)據(jù)處理和分析。

參考文獻：

[1] Ralph kimball，Margy Ross.The Data Warehouse Toolkit：the Complete Guide to Dimensional Modeling[M]..北京：電子工業(yè)出版社，2003.

相關(guān)范文

相關(guān)期刊

熱門文章