99热精品69堂国产-97超级碰在线精品视频-日韩欧美中文字幕在线视频-欧美日韩大尺码免费专区-最新国产三级在线不卡视频-在线观看成人免费视频-亚洲欧美国产精品完整版-色综久久天天综合绕视看-中文字幕免费在线看线人-久久国产精品99精品国产

歡迎來(lái)到優(yōu)發(fā)表網(wǎng)!

購(gòu)物車(chē)(0)

期刊大全 雜志訂閱 SCI期刊 期刊投稿 出版社 公文范文 精品范文

大數(shù)據(jù)處理論文

時(shí)間:2022-05-21 10:30:09

序論:在您撰寫(xiě)大數(shù)據(jù)處理論文時(shí),參考他人的優(yōu)秀作品可以開(kāi)闊視野,小編為您整理的1篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。

大數(shù)據(jù)處理論文

數(shù)據(jù)處理論文:D2D通信中大數(shù)據(jù)處理關(guān)鍵技術(shù)分析與展望

【摘 要】

分析了D2D通信中大數(shù)據(jù)的特征,重點(diǎn)闡述了數(shù)據(jù)篩選、預(yù)處理、建模等大數(shù)據(jù)處理的關(guān)鍵技術(shù),并對(duì)提高大數(shù)據(jù)無(wú)線(xiàn)傳輸?shù)姆€(wěn)定性、可靠性和高效性進(jìn)行了探討和展望。

【關(guān)鍵詞】

5G 大數(shù)據(jù) D2D

1 引言

在當(dāng)前移動(dòng)通信系統(tǒng)中,數(shù)據(jù)要經(jīng)過(guò)基站、基站控制器、網(wǎng)關(guān)和交換機(jī)。隨著大數(shù)據(jù)背景下網(wǎng)絡(luò)流量迅猛增長(zhǎng),基站將不堪重荷。終端直通(D2D,Device-to-Device)通信作為第五代移動(dòng)通信系統(tǒng)(5G)中的關(guān)鍵技術(shù)之一[1-2],可實(shí)現(xiàn)數(shù)據(jù)不經(jīng)過(guò)基站直接傳輸(如圖1所示),借助提高空間利用率來(lái)進(jìn)一步提高無(wú)線(xiàn)頻譜利用率,可使移動(dòng)通信在眾多場(chǎng)景下變得更加直接和高效[1-3]。

但面對(duì)爆炸式的業(yè)務(wù)量,僅僅依靠D2D通信技術(shù)是遠(yuǎn)遠(yuǎn)不夠的。提升如何從各種各樣的數(shù)據(jù)(包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)等)中快速獲取有價(jià)值的信息的能力對(duì)于大數(shù)據(jù)分析與處理來(lái)說(shuō)十分關(guān)鍵。業(yè)界對(duì)大數(shù)據(jù)的特征進(jìn)行歸納,主要包括4個(gè)“V”[4],即數(shù)據(jù)體量巨大(Volumn)、數(shù)據(jù)類(lèi)型繁多(Variety)、數(shù)據(jù)價(jià)值密度低(Value)、有很多實(shí)時(shí)數(shù)據(jù)要求快速處理(Velocity)。因此,傳統(tǒng)的數(shù)據(jù)表示方法不能適用于大數(shù)據(jù)的表示。如何對(duì)體量巨大、結(jié)構(gòu)繁多的數(shù)據(jù)進(jìn)行有效表示?如何通過(guò)結(jié)合D2D通信的特點(diǎn),最大程度地壓縮數(shù)據(jù)的冗余度,挖掘出隱藏在數(shù)據(jù)背后的規(guī)律,從而使數(shù)據(jù)發(fā)揮出最大的價(jià)值?是D2D通信中大數(shù)據(jù)處理技術(shù)的核心目標(biāo)。

本文首先從分析D2D通信系統(tǒng)中大數(shù)據(jù)的典型特征出發(fā),分析大數(shù)據(jù)處理過(guò)程中所面臨的挑戰(zhàn);然后具體分析了D2D通信系統(tǒng)中大數(shù)據(jù)的表示和處理方法;最后對(duì)未來(lái)研究方向做了展望。

2 D2D通信系統(tǒng)中大數(shù)據(jù)的典型特征

(1)數(shù)據(jù)量大

D2D通信為海量多媒體服務(wù)提供了一個(gè)強(qiáng)大的通信平臺(tái),如海量文本、圖像、語(yǔ)音、音視頻等應(yīng)用。但是,隨著采集設(shè)備成本的降低和存儲(chǔ)容量的增大,訓(xùn)練樣本的數(shù)量往往非常巨大,如在很短的時(shí)間內(nèi)所采集到的數(shù)據(jù)可以輕易地達(dá)到幾百TB。由于D2D通信中終端計(jì)算及存儲(chǔ)能力有限,如何有效地表示采集到的大數(shù)據(jù)集十分關(guān)鍵。由于D2D大數(shù)據(jù)集中數(shù)據(jù)的分布復(fù)雜多樣,因而需要采用具有較高普適性和較大靈活性的模型和方法來(lái)對(duì)數(shù)據(jù)的特征屬性進(jìn)行表示和處理[5]。傳統(tǒng)的基于參數(shù)建立起的模型及其學(xué)習(xí)算法由于模型的結(jié)構(gòu)固定,因此限定了其可以表示的數(shù)據(jù)特征。與參數(shù)模型相比,采用具有結(jié)構(gòu)可調(diào)節(jié)的非參數(shù)模型及其學(xué)習(xí)算法在這樣的情況下具有更好的效果。

(2)數(shù)據(jù)的維度高

由于D2D通信中終端的異構(gòu)性以及用戶(hù)需求的異構(gòu)性,高維和超高維的數(shù)據(jù)不斷涌現(xiàn)。很顯然,數(shù)據(jù)維數(shù)越高(屬性越多),就可以更加全面地刻畫(huà)所描述的對(duì)象以及更好地分辨對(duì)象。然而,過(guò)高的維數(shù)不可避免地對(duì)數(shù)據(jù)的表示與處理提出了嚴(yán)峻的挑戰(zhàn)。研究表明,對(duì)于大部分觀(guān)測(cè)或采集到的高維數(shù)據(jù)而言,其主要信息存在于一個(gè)低維空間中。換句話(huà)說(shuō),該低維空間包含了高維數(shù)據(jù)中的全部或絕大部分的有用信息。因此,如何在低維空間中有效地刻畫(huà)高維數(shù)據(jù)的有用信息,也是D2D通信中大數(shù)據(jù)處理領(lǐng)域一個(gè)不容忽視并且極具挑戰(zhàn)性的問(wèn)題。目前已經(jīng)有一些隱空間模型和方法,如主成分分析、因子分析、獨(dú)立成分分析等可以用于完成此項(xiàng)任務(wù),找到這樣的低維空間并將數(shù)據(jù)進(jìn)行高效表示[7]。

(3)模型的復(fù)雜度和計(jì)算時(shí)間

傳統(tǒng)的通信系統(tǒng)處理數(shù)據(jù)時(shí),由于數(shù)據(jù)量不大,因此可以采用較為復(fù)雜的模型來(lái)描述數(shù)據(jù)的特征。而在與D2D通信大數(shù)據(jù)相關(guān)的應(yīng)用中,終端處理能力受限,如果仍然采用復(fù)雜的模型來(lái)處理大數(shù)據(jù),則計(jì)算和時(shí)間成本將大大增加;另一方面,如果采用較為簡(jiǎn)單的模型,可能不能完全表示和挖掘出大數(shù)據(jù)的關(guān)鍵特性。解決方法是:一方面,盡可能設(shè)計(jì)簡(jiǎn)潔的模型及高計(jì)算效率的算法,從而降低模型的復(fù)雜度和計(jì)算時(shí)間;另一方面,利用終端的靈活性,可以采用并行計(jì)算和分布式計(jì)算技術(shù),把原先一個(gè)終端上的數(shù)據(jù)表示和任務(wù)處理分?jǐn)偟蕉鄠€(gè)終端。通過(guò)設(shè)計(jì)相應(yīng)的算法,實(shí)現(xiàn)多個(gè)節(jié)點(diǎn)的信息共享和協(xié)作,從而降低每個(gè)終端上模型的復(fù)雜度和計(jì)算時(shí)間[7]。

(4)算法的實(shí)時(shí)性和可擴(kuò)展性

在D2D通信系統(tǒng)的大數(shù)據(jù)處理中,都需要對(duì)其中的大數(shù)據(jù)進(jìn)行實(shí)時(shí)性表示與處理,即當(dāng)新數(shù)據(jù)到來(lái)以及新類(lèi)型出現(xiàn)時(shí),算法能夠根據(jù)實(shí)際情況進(jìn)行自適應(yīng)的調(diào)節(jié),以適應(yīng)數(shù)據(jù)的變化。而傳統(tǒng)的學(xué)習(xí)算法偏重于離線(xiàn)算法,因此需要設(shè)計(jì)一些在線(xiàn)學(xué)習(xí)算法,對(duì)描述或表示數(shù)據(jù)的模型進(jìn)行在線(xiàn)學(xué)習(xí)。其中,貝葉斯技術(shù)可以很方便地用于在線(xiàn)學(xué)習(xí)[8]。此外,在設(shè)計(jì)模型及其學(xué)習(xí)算法時(shí),也需要考慮其多媒體應(yīng)用的可擴(kuò)展性。

3 D2D通信系統(tǒng)中大數(shù)據(jù)處理方法

基于D2D通信中大數(shù)據(jù)處理的具體特征,本文擬從用戶(hù)的感受出發(fā),設(shè)計(jì)如下方案來(lái)高效地表示和處理D2D通信系統(tǒng)中的大數(shù)據(jù),提取其中的有效信息,具體如下:

首先,從應(yīng)用的內(nèi)容出發(fā),根據(jù)具體用戶(hù)業(yè)務(wù)需求和應(yīng)用背景對(duì)大數(shù)據(jù)進(jìn)行初步篩選。即只需要保存與所需任務(wù)相關(guān)的數(shù)據(jù),去除無(wú)關(guān)數(shù)據(jù),從而提高后續(xù)處理的效率。

其次,設(shè)計(jì)合理的算法,對(duì)大數(shù)據(jù)進(jìn)行預(yù)處理,并且依據(jù)用戶(hù)體驗(yàn)提取特征屬性。如前文所述,D2D通信中所采集到的大數(shù)據(jù)的維度(屬性)較大,因此對(duì)于大數(shù)據(jù)有效特征屬性的提取十分重要。此處可采用貝葉斯因子混合分析方法,通過(guò)該方法,可以找到一個(gè)數(shù)據(jù)有效信息相對(duì)集中的低維空間,從而可以將高維數(shù)據(jù)投影到低維空間中,最大程度地降低數(shù)據(jù)的冗余,完成數(shù)據(jù)的降維過(guò)程,從而可以在低維空間中完成后續(xù)的操作(如圖2所示)[9]。此外,該方法的另一個(gè)優(yōu)點(diǎn)在于,由于得到了高維數(shù)據(jù)的低維有效表示,從而可以在某些條件下實(shí)現(xiàn)數(shù)據(jù)的可視化。

圖2 數(shù)據(jù)冗余度降低過(guò)程

最后,設(shè)計(jì)合適的模型來(lái)精確地描述提取出的大數(shù)據(jù)屬性,從而進(jìn)一步用高效、簡(jiǎn)約的形式來(lái)表示大數(shù)據(jù)。在現(xiàn)有的工作中,在用模型對(duì)大數(shù)據(jù)進(jìn)行表示和處理方面已經(jīng)開(kāi)展了一些研究,取得了一些研究成果。具體地,選用混合模型來(lái)描述建模大數(shù)據(jù)的分布已成為主流,主要原因有兩點(diǎn):

(1)D2D通信中業(yè)務(wù)種類(lèi)多、網(wǎng)絡(luò)數(shù)據(jù)的分布較為復(fù)雜,而混合模型在理論上可以建模和描述任意復(fù)雜的數(shù)據(jù)分布。

(2)混合模型及其學(xué)習(xí)算法屬于生成方式的學(xué)習(xí)范疇,只要獲得準(zhǔn)確的模型,則可以用該模型作為大數(shù)據(jù)的緊湊表示形式,因此,其比判別方式的學(xué)習(xí)具有更小的存儲(chǔ)、更低的傳輸和處理復(fù)雜度,并且有利于在線(xiàn)操作[10]。

此外,根據(jù)不同目標(biāo)場(chǎng)景中的不同類(lèi)型的數(shù)據(jù),需要提出與之相對(duì)應(yīng)的模型和配套學(xué)習(xí)算法,用其來(lái)表示大數(shù)據(jù)。例如,對(duì)于屬性較少(數(shù)據(jù)維度較低)的數(shù)據(jù),采用所提出的無(wú)限成分t混合模型及其學(xué)習(xí)算法,估計(jì)出模型的參數(shù),在后續(xù)的處理任務(wù)中只要關(guān)注參數(shù)就可以準(zhǔn)確把握數(shù)據(jù)的特性。對(duì)于屬性較多的高維數(shù)據(jù),則采用所提出的無(wú)限成分t因子混合分析器及其學(xué)習(xí)算法,對(duì)數(shù)據(jù)進(jìn)行有效地表示。對(duì)于具有時(shí)間或空間相關(guān)性的數(shù)據(jù)而言,則可以采用所提出的具有stick-breaking先驗(yàn)分布的t隱馬爾可夫模型及其學(xué)習(xí)算法對(duì)數(shù)據(jù)進(jìn)行表示[11]。隱馬爾可夫模型的最大特點(diǎn)在于結(jié)構(gòu)較為靈活,其可以根據(jù)數(shù)據(jù)的分布自適應(yīng)確定模型的結(jié)構(gòu)(如混合成分?jǐn)?shù)目、因子維數(shù)等),并且對(duì)大數(shù)據(jù)中出現(xiàn)的離群點(diǎn)也具有較強(qiáng)的魯棒性。由于通過(guò)學(xué)習(xí)算法得到的模型精確描述了數(shù)據(jù)的分布,較好地完成了后續(xù)任務(wù),網(wǎng)絡(luò)業(yè)務(wù)流量的識(shí)別與預(yù)測(cè)的正確率有了較大的提升[6]。

進(jìn)一步考慮到大數(shù)據(jù)表示和處理中對(duì)于模型復(fù)雜度和計(jì)算時(shí)間的需求,需要設(shè)計(jì)與上述模型相關(guān)的分布式算法。通過(guò)該類(lèi)算法,網(wǎng)絡(luò)中的各個(gè)終端只需要采集到部分?jǐn)?shù)據(jù),就可以通過(guò)節(jié)點(diǎn)間的協(xié)作來(lái)協(xié)同估計(jì)出反映整個(gè)數(shù)據(jù)特性的模型參數(shù)。需要注意的是,在通信網(wǎng)絡(luò)中,傳輸?shù)拇鷥r(jià)比本地終端計(jì)算的代價(jià)要高得多。因而在協(xié)作過(guò)程中,各個(gè)終端只需要和在其通信范圍內(nèi)的鄰居節(jié)點(diǎn)進(jìn)行通信,并且只傳輸用于估計(jì)最終模型參數(shù)的充分統(tǒng)計(jì)量,而無(wú)需把自己持有的那部分?jǐn)?shù)據(jù)傳輸給鄰居終端。這樣做的優(yōu)點(diǎn)在于可以將對(duì)大數(shù)據(jù)的表示和處理分?jǐn)偟礁鱾€(gè)終端上,從而最大程度降低了D2D終端的計(jì)算量。另一方面,由于充分統(tǒng)計(jì)量比原始數(shù)據(jù)量少很多,因此可以最大程度地降低傳輸代價(jià),并且減少由于傳輸中丟包或其他錯(cuò)誤、干擾等引起的系統(tǒng)性能的下降。

4 研究展望

對(duì)于未來(lái)D2D通信中大數(shù)據(jù)處理技術(shù)的研究可以從幾個(gè)方向開(kāi)展:

(1)進(jìn)一步地從高維大數(shù)據(jù)特征中壓縮冗余,剔除無(wú)關(guān)無(wú)用屬性,提取與應(yīng)用目標(biāo)相關(guān)的有用特征,將核學(xué)習(xí)、流形學(xué)習(xí)方法引入,解決大數(shù)據(jù)表示問(wèn)題。

(2)利用半監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)、集成學(xué)習(xí)等理論和技術(shù),最大程度地挖掘大數(shù)據(jù)間的內(nèi)在關(guān)聯(lián)信息。

(3)在現(xiàn)有模型和方法的基礎(chǔ)上,開(kāi)發(fā)設(shè)計(jì)在線(xiàn)學(xué)習(xí)算法,實(shí)時(shí)完成大數(shù)據(jù)的處理任務(wù)。

(4)設(shè)計(jì)分布式學(xué)習(xí)以及大數(shù)據(jù)處理算法,進(jìn)一步提高網(wǎng)絡(luò)節(jié)點(diǎn)之間協(xié)同處理和通信的能力,進(jìn)一步降低網(wǎng)絡(luò)節(jié)點(diǎn)之前傳輸?shù)臄?shù)據(jù)量。

(5)針對(duì)具體應(yīng)用,設(shè)計(jì)結(jié)構(gòu)更加靈活,更具有普適性、魯棒性的模型,并且開(kāi)發(fā)設(shè)計(jì)快速、高效的模型參數(shù)及結(jié)構(gòu)估計(jì)方法,從而獲得更簡(jiǎn)潔的大數(shù)據(jù)表示形式。

5 結(jié)束語(yǔ)

D2D技術(shù)被廣泛認(rèn)為是5G的關(guān)鍵技術(shù)和解決無(wú)線(xiàn)大數(shù)據(jù)傳輸?shù)挠辛ぞ?。本文從D2D通信中大數(shù)據(jù)特征入手,分析面臨的挑戰(zhàn),提出應(yīng)對(duì)策略,展望研究方向,綜合探討了如何提高D2D大數(shù)據(jù)無(wú)線(xiàn)傳輸?shù)姆€(wěn)定性、可靠性和高效性的問(wèn)題。

大數(shù)據(jù)處理論文:大數(shù)據(jù)時(shí)代下的電力自動(dòng)化系統(tǒng)數(shù)據(jù)處理

[摘 要]計(jì)算機(jī)技術(shù)與網(wǎng)絡(luò)通信技術(shù)已經(jīng)開(kāi)始逐漸廣泛應(yīng)用于電力自動(dòng)化系統(tǒng),電力自動(dòng)化系統(tǒng)的數(shù)據(jù)處理呈現(xiàn)多樣化趨勢(shì),更加復(fù)雜化。筆者主要是從電力自動(dòng)化系統(tǒng)數(shù)據(jù)類(lèi)型角度考慮,對(duì)于電力系統(tǒng)的快速準(zhǔn)確處理進(jìn)行了分析,對(duì)電力自動(dòng)化系統(tǒng)中數(shù)據(jù)處理的相關(guān)問(wèn)題進(jìn)行了闡述和分析。同時(shí)探討了作為電力自動(dòng)化系統(tǒng)發(fā)展方向的智能電網(wǎng),對(duì)其拓?fù)浣Y(jié)構(gòu)和通信系統(tǒng)進(jìn)行介紹。

[關(guān)鍵詞]大數(shù)據(jù)時(shí)代;電力自動(dòng)化;數(shù)據(jù)處理

引言

電力系統(tǒng)是一個(gè)動(dòng)態(tài)的系統(tǒng),主要包含發(fā)電、變電、輸電和配電四個(gè)部分。 電力系統(tǒng)的動(dòng)態(tài)性和實(shí)時(shí)性是由于電能不能存儲(chǔ)的特性決定的。 正是電力系統(tǒng)的動(dòng)態(tài)性和實(shí)時(shí)性使得其在具體的運(yùn)行過(guò)程中,會(huì)產(chǎn)生大量的實(shí)時(shí)數(shù)據(jù),為電力系統(tǒng)中調(diào)度部門(mén)的操作帶來(lái)了巨大的困難, 電力自動(dòng)化系統(tǒng)也就應(yīng)運(yùn)而生。 電力自動(dòng)化系統(tǒng)為電力系統(tǒng)運(yùn)行過(guò)程中產(chǎn)生大量實(shí)時(shí)數(shù)據(jù)的準(zhǔn)確處理創(chuàng)造了條件?!按髷?shù)據(jù)”時(shí)代最先被全球知名的咨詢(xún)公司麥肯錫提出來(lái),其是生產(chǎn)決策的重要依據(jù)。 所謂的大數(shù)據(jù)時(shí)代,是指在互聯(lián)網(wǎng)技術(shù)下,企業(yè)的生產(chǎn)運(yùn)營(yíng)過(guò)程中相關(guān)數(shù)據(jù)的積累,其在商業(yè)、經(jīng)濟(jì)和其他領(lǐng)域越來(lái)越突出,對(duì)相關(guān)決策具有十分重要的作用。

一、電力自動(dòng)化系統(tǒng)的類(lèi)型分類(lèi)

1.基礎(chǔ)型數(shù)據(jù):主要是與電力自動(dòng)化系統(tǒng)中的電力設(shè)施設(shè)備屬性相關(guān)的數(shù)據(jù),如,發(fā)電機(jī)、變壓器等電力設(shè)施設(shè)備的基礎(chǔ)數(shù)據(jù)。 對(duì)于這些數(shù)據(jù)一般是電力單位根據(jù)相關(guān)的數(shù)據(jù)規(guī)劃各自進(jìn)行管理, 并通過(guò)相關(guān)數(shù)據(jù)服務(wù)器對(duì)其數(shù)據(jù)進(jìn)行數(shù)據(jù)同步,便于調(diào)度中心對(duì)這些數(shù)據(jù)進(jìn)行集中存儲(chǔ)、整理和相關(guān)計(jì)算。

2.實(shí)時(shí)數(shù)據(jù):大多數(shù)是在電力系統(tǒng)運(yùn)行過(guò)程中進(jìn)行實(shí)時(shí)采集的數(shù)據(jù),其數(shù)據(jù)量很大,對(duì)存儲(chǔ)空間的要求比較高。 這些數(shù)據(jù)是在電力系統(tǒng)運(yùn)行過(guò)程中產(chǎn)生的, 通過(guò)對(duì)其進(jìn)行糾錯(cuò)處理后,能夠?yàn)檎{(diào)度部門(mén)或市場(chǎng)運(yùn)營(yíng)提供決策參考依據(jù)。 目前,我國(guó)電力自動(dòng)化系統(tǒng)在實(shí)時(shí)數(shù)據(jù)處理方面比較成熟,對(duì)收集到的實(shí)時(shí)數(shù)據(jù)不需要進(jìn)行相關(guān)的處理,只需要在數(shù)據(jù)輸入、輸出過(guò)程中建立一個(gè)穩(wěn)定的接口即可。

3.日常管理的數(shù)據(jù):主要是在電力系統(tǒng)運(yùn)行過(guò)程中對(duì)各種相關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),各部門(mén)對(duì)在工作中遇到的問(wèn)題進(jìn)行相關(guān)處理后的數(shù)據(jù)信息。 一般情況下,這些數(shù)據(jù)只需要在特定的范圍內(nèi)進(jìn)行同步和共享即可。 在電力系統(tǒng)運(yùn)行過(guò)程中,建立這一類(lèi)型數(shù)據(jù)同步和共享的數(shù)據(jù)平臺(tái)是十分必要的。 主要原因表現(xiàn)在以下幾個(gè)方面: ① 這些日常管理的數(shù)據(jù)在某種程度上反映電力系統(tǒng)中電力設(shè)施設(shè)備的運(yùn)行情況; ② 方便電力系統(tǒng)中各個(gè)部門(mén)對(duì)日常管理數(shù)據(jù)的獲取,以便更好的開(kāi)展部門(mén)工作。

4.市場(chǎng)經(jīng)濟(jì)數(shù)據(jù):隨著市場(chǎng)經(jīng)濟(jì)的發(fā)展,電力系統(tǒng)的經(jīng)濟(jì)效益越來(lái)越突出,電力系統(tǒng)運(yùn)行中的相關(guān)數(shù)據(jù)對(duì)電力單位的發(fā)展具有重要影響,將其作為經(jīng)濟(jì)性數(shù)據(jù)十分有必要。 市場(chǎng)經(jīng)濟(jì)數(shù)據(jù)對(duì)城市建設(shè)規(guī)劃中的電力規(guī)劃有很重要的決策參考依據(jù)。 市場(chǎng)經(jīng)濟(jì)數(shù)據(jù)具有非常大的擴(kuò)展空間,其數(shù)據(jù)規(guī)劃的重點(diǎn)將是實(shí)時(shí)數(shù)據(jù)。

二、電力自動(dòng)化系統(tǒng)中的數(shù)據(jù)統(tǒng)一性

數(shù)據(jù)一致性即數(shù)據(jù)的唯一性。 電力自動(dòng)化系統(tǒng)在運(yùn)行過(guò)程中,會(huì)產(chǎn)生大量的數(shù)據(jù)信息,這些數(shù)據(jù)信息大部分都是其子系統(tǒng)中特有的信息, 還有一部分是部分子系統(tǒng)中共有的數(shù)據(jù)信息,也就是各子系統(tǒng)之間的數(shù)據(jù)信息交叉現(xiàn)象。 每個(gè)子系統(tǒng)中的數(shù)據(jù)均存儲(chǔ)在其數(shù)據(jù)庫(kù)系統(tǒng)中,會(huì)對(duì)整個(gè)系統(tǒng)的數(shù)據(jù)存儲(chǔ)造成大量的數(shù)據(jù)冗余,使得電力系統(tǒng)中數(shù)據(jù)系統(tǒng)處理數(shù)據(jù)信息的效率不高,數(shù)據(jù)信息更新緩慢,甚至?xí)斐蓴?shù)據(jù)信息的混亂,很大程度上降低了電力系統(tǒng)中數(shù)據(jù)系統(tǒng)的使用效率和可信度。在實(shí)際電力自動(dòng)化系統(tǒng)運(yùn)行過(guò)程中,通過(guò)對(duì)整個(gè)系統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行統(tǒng)一管理,能夠在很大程度上保證數(shù)據(jù)信息的一致性。 對(duì)于部分離線(xiàn)數(shù)據(jù)庫(kù)系統(tǒng)來(lái)說(shuō),其數(shù)據(jù)信息的唯一性主要是通過(guò)利用離線(xiàn)數(shù)據(jù)庫(kù)在數(shù)據(jù)庫(kù)系統(tǒng)的服務(wù)器上,對(duì)數(shù)據(jù)庫(kù)系統(tǒng)的服務(wù)器進(jìn)行統(tǒng)一維護(hù)。 對(duì)實(shí)時(shí)數(shù)據(jù)庫(kù)而言,主要是通過(guò)電力自動(dòng)化系統(tǒng)在運(yùn)行過(guò)程中,由實(shí)時(shí)數(shù)據(jù)庫(kù)系統(tǒng)中的管理系統(tǒng)進(jìn)行統(tǒng)一、實(shí)時(shí)的管理,確保數(shù)據(jù)信息的一致性。

三、電力自動(dòng)化系統(tǒng)中的數(shù)據(jù)容災(zāi)

通常情況下,需要對(duì)電力自動(dòng)化系統(tǒng)中的重要數(shù)據(jù)信息進(jìn)行數(shù)據(jù)備份,再通過(guò)網(wǎng)絡(luò)通信技術(shù)將其傳輸?shù)疆惖剡M(jìn)行數(shù)據(jù)信息保存。 當(dāng)發(fā)生災(zāi)難后,可以由相關(guān)的計(jì)算機(jī)專(zhuān)業(yè)人員根據(jù)備份的數(shù)據(jù)對(duì)電力自動(dòng)化系統(tǒng)中的數(shù)據(jù)進(jìn)行程序恢復(fù)和數(shù)據(jù)恢復(fù)。 這有利于降低電力單位在數(shù)據(jù)信息備份方面的成本,操作也相對(duì)而言較為簡(jiǎn)單方便。當(dāng)電力自動(dòng)化系統(tǒng)中需要備份的數(shù)據(jù)量逐漸增加時(shí),就會(huì)出現(xiàn)數(shù)據(jù)信息存儲(chǔ)介質(zhì)不易管理的問(wèn)題,在發(fā)生災(zāi)難后,也不

能夠及時(shí)的將大量的數(shù)據(jù)信息進(jìn)行恢復(fù)。

四、電力自動(dòng)化系統(tǒng)數(shù)據(jù)收集過(guò)程

電力自動(dòng)化系統(tǒng)運(yùn)行過(guò)程中的數(shù)據(jù),主要是通過(guò)數(shù)據(jù)信息的采集、集中、整理和轉(zhuǎn)發(fā)來(lái)實(shí)現(xiàn)的。 根據(jù)數(shù)據(jù)類(lèi)型的不同,采用不同的傳輸介質(zhì)進(jìn)行傳輸。 數(shù)據(jù)信息的通信方式主要有兩種: ① 有線(xiàn)傳輸,如,光纖、電纜等多種介質(zhì),具有數(shù)據(jù)信息傳輸?shù)膶?shí)時(shí)性和可靠性等優(yōu)點(diǎn); ② 無(wú)線(xiàn)傳輸,如,微波、無(wú)線(xiàn)擴(kuò)頻等通信模式,具有無(wú)需鋪設(shè)通信通道、工作量少等優(yōu)點(diǎn)。在實(shí)際的電力自動(dòng)化系統(tǒng)運(yùn)行過(guò)程中, 其涉及面十分廣、系統(tǒng)種類(lèi)多,根據(jù)不同的部門(mén)需求的多個(gè)系統(tǒng)組成,能夠滿(mǎn)足每個(gè)部門(mén)在數(shù)據(jù)系統(tǒng)中獲取數(shù)據(jù)信息。 電力自動(dòng)化系統(tǒng)中的設(shè)施設(shè)備的采購(gòu),可以適當(dāng)?shù)膶⒁恍┫冗M(jìn)的技術(shù)和經(jīng)濟(jì)性能的指標(biāo)進(jìn)行考慮,再在操作技術(shù)上進(jìn)行優(yōu)化處理,以最大程度的實(shí)現(xiàn)電力單位的經(jīng)濟(jì)效益和社會(huì)效益。

五、智能電網(wǎng)

1.智能電網(wǎng)中的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)

智能電網(wǎng)中的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)具有堅(jiān)強(qiáng)、靈活的特點(diǎn),能夠有效的解決電力系統(tǒng)中能源和生產(chǎn)力分布不均勻的問(wèn)題,滿(mǎn)足電力企業(yè)大規(guī)模生產(chǎn)運(yùn)輸過(guò)程中產(chǎn)生大規(guī)模數(shù)據(jù)的處理功能,實(shí)現(xiàn)資源的優(yōu)化配置,減少電能損耗。 同時(shí),智能電網(wǎng)中的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)能夠有效的應(yīng)對(duì)一些自然災(zāi)害,如雨、雪等。

2.開(kāi)放、 標(biāo)準(zhǔn)、 集成的通信系統(tǒng)

智能電網(wǎng)能夠?qū)﹄娏ψ詣?dòng)化系統(tǒng)進(jìn)行及時(shí)有效的監(jiān)控,主要在其具有識(shí)別故障早期征兆的預(yù)測(cè)能力和對(duì)故障做出相關(guān)的相應(yīng)的能力。 智能電網(wǎng)是電力自動(dòng)化企業(yè)的發(fā)展方向,能夠?yàn)殡娋W(wǎng)規(guī)劃、建設(shè)和運(yùn)行管理提供全面的數(shù)據(jù)信息,有利于大數(shù)據(jù)時(shí)代下電力自動(dòng)化運(yùn)行系統(tǒng)的穩(wěn)定、安全和高效的運(yùn)行。

六、結(jié)語(yǔ)

自動(dòng)化系統(tǒng)的正常運(yùn)行,一定要充分考慮到系統(tǒng)運(yùn)行中數(shù)據(jù)信息的數(shù)量信息,便于數(shù)據(jù)的維修和存儲(chǔ)空間的無(wú)限擴(kuò)展。文章主要是分析了自動(dòng)化系統(tǒng)的數(shù)據(jù)類(lèi)型,并且對(duì)其進(jìn)行了詳盡的分析,對(duì)于相關(guān)問(wèn)題進(jìn)行了闡述,給電力自動(dòng)化系統(tǒng)提供了更加廣闊的空間,并探究了智能電網(wǎng)在電力自動(dòng)化運(yùn)行系統(tǒng)中運(yùn)行的優(yōu)勢(shì)和未來(lái)的發(fā)展方向。

大數(shù)據(jù)處理論文:智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀和面臨的挑戰(zhàn)

[摘 要]在當(dāng)前新時(shí)期環(huán)境下,智能電網(wǎng)大數(shù)據(jù)處理技術(shù)在獲得飛速發(fā)展的同時(shí)也面臨著新的挑戰(zhàn),本文首先對(duì)智能電網(wǎng)大數(shù)據(jù)的特點(diǎn)進(jìn)行了分析,并且探討了智能電網(wǎng)大數(shù)據(jù)處理技術(shù)的發(fā)展現(xiàn)狀,重點(diǎn)分析其在當(dāng)今新時(shí)期環(huán)境中面臨的挑戰(zhàn)。

[關(guān)鍵詞]智能電網(wǎng) 大數(shù)據(jù)處理技術(shù) 現(xiàn)狀 挑戰(zhàn)

隨著我國(guó)智能電網(wǎng)建設(shè)進(jìn)程的不斷推進(jìn)與深入,電網(wǎng)運(yùn)行與設(shè)備監(jiān)測(cè)過(guò)程中也產(chǎn)生了大量的數(shù)據(jù)信息,逐漸構(gòu)成了當(dāng)今信息學(xué)姐與研究人員重點(diǎn)關(guān)注的發(fā)數(shù)據(jù),但大數(shù)據(jù)時(shí)代下電網(wǎng)的高效、穩(wěn)定運(yùn)行離不開(kāi)相應(yīng)的處理與存儲(chǔ)技術(shù)作為支撐。

1.智能電網(wǎng)大數(shù)據(jù)的應(yīng)用特征

電網(wǎng)業(yè)務(wù)數(shù)據(jù)可以大致劃分為三類(lèi):第一是數(shù)據(jù)監(jiān)測(cè)、設(shè)備檢測(cè)及電網(wǎng)運(yùn)行;第二是電力企業(yè)營(yíng)銷(xiāo)數(shù)據(jù),如用電客戶(hù)、銷(xiāo)售量、交易電價(jià)等方面的信息數(shù)據(jù);第三是電力企業(yè)的管理數(shù)據(jù)。[1]數(shù)據(jù)信息量十分巨大,并且隨著電網(wǎng)數(shù)據(jù)的不斷更新升級(jí),數(shù)據(jù)類(lèi)型也變得繁雜多樣。電網(wǎng)數(shù)據(jù)種類(lèi)眾多、分布較廣,主要包括多媒體數(shù)據(jù)、文本數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)、時(shí)間序列變化等半結(jié)構(gòu)化、非結(jié)構(gòu)化以及結(jié)構(gòu)化數(shù)據(jù),不同類(lèi)別的數(shù)據(jù)在查詢(xún)、處理方面的性能與頻度要求也存在很大差異。智能電網(wǎng)運(yùn)行時(shí)的數(shù)據(jù)價(jià)值密度較低,例如電網(wǎng)監(jiān)控視頻,其在實(shí)際監(jiān)控管理的過(guò)程中,總數(shù)據(jù)中十分有用的信息量是非常少的,多數(shù)的數(shù)據(jù)都是正常數(shù)據(jù)。

2.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)發(fā)展現(xiàn)狀分析

2.1 并行數(shù)據(jù)庫(kù)

關(guān)系數(shù)據(jù)庫(kù)主要負(fù)責(zé)對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ),從而提供嚴(yán)格依據(jù)規(guī)則快速處理事務(wù)的能力、邊界的數(shù)據(jù)查詢(xún)與分析能力、數(shù)據(jù)安全性保障以及多用戶(hù)并發(fā)訪(fǎng)問(wèn)能力。應(yīng)用強(qiáng)大的數(shù)據(jù)分析能力以及SQL查詢(xún)語(yǔ)言以及獨(dú)特的程序優(yōu)勢(shì)獲得了廣泛的應(yīng)用。[2]經(jīng)管隨著智能電網(wǎng)建設(shè)的不斷加快,數(shù)據(jù)超出了關(guān)系型數(shù)據(jù)庫(kù)的管理范疇,地理信息圖片與音頻、圖片以及視頻等非結(jié)構(gòu)化的數(shù)據(jù)逐漸成為需要處理與存儲(chǔ)的信息的一項(xiàng)重要組成部分。

2.2 云計(jì)算技術(shù)

隨著云計(jì)算平臺(tái)的出現(xiàn)及完善,大數(shù)據(jù)技術(shù)的需求也相繼出現(xiàn),云計(jì)算的關(guān)鍵是數(shù)據(jù)并行處理與海量數(shù)據(jù)存儲(chǔ)技術(shù)。而在智能電網(wǎng)中,電力設(shè)備狀態(tài)監(jiān)測(cè)設(shè)備的數(shù)據(jù)量應(yīng)當(dāng)是最為龐大的,而狀態(tài)監(jiān)測(cè)數(shù)據(jù)不但包含了在線(xiàn)數(shù)據(jù),還應(yīng)當(dāng)包括缺陷記錄、實(shí)驗(yàn)記錄以及基本信息等,由于數(shù)據(jù)量極大,其對(duì)于實(shí)時(shí)性要求比企業(yè)的數(shù)據(jù)管理更高。當(dāng)前,云計(jì)算技術(shù)在電力行業(yè)的發(fā)展依然處于初級(jí)的階段,現(xiàn)行的云計(jì)算平臺(tái)能夠充分滿(mǎn)足職能電網(wǎng)監(jiān)控軟件運(yùn)行的可擴(kuò)展性與可靠性要求,但在數(shù)據(jù)隱私、安全性、一致性以及實(shí)時(shí)性方面存在缺陷,依然需要進(jìn)一步優(yōu)化與完善。

3. 智能電網(wǎng)大數(shù)據(jù)處理技術(shù)面臨的挑戰(zhàn)分析

3.1 大數(shù)據(jù)傳輸與儲(chǔ)存技術(shù)

隨著智能化的不斷發(fā)展,電力系統(tǒng)在運(yùn)行過(guò)程中的電力設(shè)備監(jiān)測(cè)數(shù)據(jù)與其他數(shù)據(jù)都會(huì)被記錄下來(lái),數(shù)據(jù)量不斷增加,這對(duì)于電網(wǎng)運(yùn)行監(jiān)控以及數(shù)據(jù)的傳輸、存儲(chǔ)造成巨大的壓力,同時(shí)在一定程度上影響了電網(wǎng)智能化的發(fā)展。在智能電網(wǎng)大數(shù)據(jù)存儲(chǔ)方面,通過(guò)分布式文件保存的形式可以進(jìn)行大數(shù)據(jù)存儲(chǔ),然而可能對(duì)電力系統(tǒng)在數(shù)據(jù)實(shí)時(shí)處理方面產(chǎn)生影響。[3]因此,需要對(duì)電網(wǎng)大數(shù)據(jù)進(jìn)行分門(mén)別類(lèi)后再存儲(chǔ)。而重點(diǎn)是將其中非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),對(duì)于智能大數(shù)據(jù)處理技術(shù)來(lái)說(shuō)依然較為困難。

3.2 數(shù)據(jù)處理時(shí)效性技術(shù)

對(duì)于大數(shù)據(jù)來(lái)說(shuō),其數(shù)據(jù)處理的速度是非常重要的。通常而言,數(shù)據(jù)的規(guī)模越大,需要分析與處理的時(shí)間也會(huì)越長(zhǎng)。以往的數(shù)據(jù)存儲(chǔ)方案針對(duì)一定要求的數(shù)據(jù)量進(jìn)行設(shè)計(jì),其在大數(shù)據(jù)方面并不適用。[4]而在未來(lái)智能電網(wǎng)的大環(huán)境下,如何在發(fā)電、輸變電、用電等環(huán)節(jié)進(jìn)行數(shù)據(jù)實(shí)時(shí)性處理是一個(gè)非常關(guān)鍵的問(wèn)題。

3.3 異構(gòu)多數(shù)據(jù)源處理技術(shù)

在未來(lái)智能電網(wǎng)要求貫通電網(wǎng)運(yùn)行的每一個(gè)環(huán)節(jié)之中,時(shí)間新信息的高效采集與處理,并且逐漸朝著業(yè)務(wù)流、信息流以及電力流高度一體化的方向進(jìn)行發(fā)展。所以,首先要做的就是如何整合大規(guī)模多源異構(gòu)信息,為智能電網(wǎng)提供一個(gè)資源高度集約化配置的數(shù)據(jù)處理中心。對(duì)于海量的異構(gòu)數(shù)據(jù)來(lái)說(shuō),如何構(gòu)建出科學(xué)的模型進(jìn)行規(guī)范表達(dá)以及如何在這個(gè)模型的基礎(chǔ)上實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)、融合、查詢(xún)等是亟待解決的重要問(wèn)題。

結(jié)語(yǔ)

我國(guó)智能電網(wǎng)系統(tǒng)的應(yīng)用廣度與深度在不斷加強(qiáng),大數(shù)據(jù)處理技術(shù)逐漸成為維護(hù)電網(wǎng)智能安全運(yùn)行的一項(xiàng)重要手段。然而隨著電網(wǎng)智能運(yùn)行的不斷發(fā)展,其在大數(shù)據(jù)處理一致性、隱私性、實(shí)時(shí)性等方面也面臨著相應(yīng)的挑戰(zhàn),未來(lái)智能電網(wǎng)的主要依托依然是大數(shù)據(jù)處理分析技術(shù),所以必須尋找出妥善應(yīng)對(duì)挑戰(zhàn)的策略,最終推動(dòng)我國(guó)電力事業(yè)的長(zhǎng)久穩(wěn)定發(fā)展。

大數(shù)據(jù)處理論文:移動(dòng)互聯(lián)網(wǎng)的大數(shù)據(jù)處理關(guān)鍵技術(shù)

【摘 要】通過(guò)大數(shù)據(jù)的研究處理將獲得的有用信息服務(wù)于企業(yè)或機(jī)構(gòu),使其在競(jìng)爭(zhēng)中取得優(yōu)勢(shì),來(lái)為企業(yè)提供更好的處理大數(shù)據(jù)的方法,幫助企業(yè)更深刻的理解客戶(hù)對(duì)其的需求和體驗(yàn),以利于業(yè)務(wù)的發(fā)展,用戶(hù)也可以更好地體驗(yàn)移動(dòng)互聯(lián)網(wǎng)各種資源。本文首先對(duì)移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)做了概述,然后分析了移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)處理中存在的問(wèn)題,最后詳細(xì)闡述了移動(dòng)互聯(lián)網(wǎng)的大數(shù)據(jù)處理關(guān)鍵技術(shù)。

【關(guān)鍵詞】移動(dòng)互聯(lián)網(wǎng);大數(shù)據(jù);處理;排重;整合

一、移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)概述

移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)是指用戶(hù)使用智能終端在移動(dòng)網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù),主要包括:與網(wǎng)絡(luò)信令、協(xié)議、流量等相關(guān)的網(wǎng)絡(luò)信息數(shù)據(jù);與用戶(hù)信息相關(guān)的用戶(hù)數(shù)據(jù);與業(yè)務(wù)相關(guān)的數(shù)據(jù)。

大數(shù)據(jù)提供客戶(hù)經(jīng)歷的各種體驗(yàn)的完整信息,可以詳盡到在任何時(shí)間、地點(diǎn),結(jié)合移動(dòng)客戶(hù)體驗(yàn)方案來(lái)分析相關(guān)數(shù)據(jù),從而幫助運(yùn)營(yíng)商更詳細(xì)掌握客戶(hù)體驗(yàn)情況,提前預(yù)知網(wǎng)絡(luò)上可能發(fā)生的問(wèn)題,及時(shí)做出合理響應(yīng),這些信息對(duì)運(yùn)營(yíng)商的服務(wù)提供很大的幫助。大數(shù)據(jù)分析為整個(gè)電信產(chǎn)業(yè)帶來(lái)了前所未有的機(jī)遇與挑戰(zhàn),如何高效地發(fā)揮這些數(shù)據(jù)資源的作用,是擺在為運(yùn)營(yíng)商面前的關(guān)鍵問(wèn)題。

二、移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)處理中存在的問(wèn)題

(一)多源數(shù)據(jù)采集問(wèn)題

大數(shù)據(jù)時(shí)代的數(shù)據(jù)存在如下幾個(gè)特點(diǎn):多源異構(gòu)、分布廣泛、動(dòng)態(tài)增長(zhǎng)、先有數(shù)據(jù)后有模式。舉例來(lái)說(shuō),一個(gè)用戶(hù)的一條位置信息的價(jià)值是很小的,但是很多這樣的低價(jià)值數(shù)據(jù)可以完整刻畫(huà)出用戶(hù)的運(yùn)動(dòng)軌跡,獲得本質(zhì)上的價(jià)值提升。然而,在已有的數(shù)據(jù)采集系統(tǒng)中,數(shù)據(jù)收集不全面是一個(gè)普遍的問(wèn)題,如何處理來(lái)自多源的數(shù)據(jù)是移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代面臨的新挑戰(zhàn)。其中,迫切需要解決如下幾個(gè)問(wèn)題:

1.無(wú)線(xiàn)移動(dòng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,需要在網(wǎng)絡(luò)中高效地采集數(shù)據(jù)。

2.多源數(shù)據(jù)集成和多類(lèi)型數(shù)據(jù)集成的技術(shù)。

3.兼顧用戶(hù)的隱私和數(shù)據(jù)的所有權(quán)和使用權(quán)等。

(二)移動(dòng)互聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)管理問(wèn)題

據(jù)統(tǒng)計(jì),2003年前人類(lèi)共創(chuàng)造了5艾字節(jié)(Exabytes)的數(shù)據(jù),而今天兩天的時(shí)間就可以創(chuàng)造如此大量的數(shù)據(jù)。這些數(shù)據(jù)大部分是異構(gòu)數(shù)據(jù),有些具有用戶(hù)標(biāo)注、有些沒(méi)有;有些是結(jié)構(gòu)化的(比如數(shù)值、符號(hào))、有些是非結(jié)構(gòu)化話(huà)的(比如圖片、聲音);有些時(shí)效性強(qiáng)、有些時(shí)效性弱;有些價(jià)值度高、有些價(jià)值度低。移動(dòng)互聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)管理平臺(tái)包含以下關(guān)鍵研究和技術(shù):海量異構(gòu)大數(shù)據(jù)傳輸控制、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)質(zhì)量管理。

(三)移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)挖掘問(wèn)題

傳統(tǒng)意義上的數(shù)據(jù)分析(Analysis)主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)展開(kāi),且已經(jīng)形成了一整套行之有效的分析體系。首先,利用數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),在此基礎(chǔ)上構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),根據(jù)需要構(gòu)建數(shù)據(jù)立方體進(jìn)行聯(lián)機(jī)分析處理(OLAP,Online Analytical Processing),可以進(jìn)行多個(gè)維度的下鉆(Drill-down)或上卷(Roll-up)操作。對(duì)于從數(shù)據(jù)中提煉更深層次的知識(shí)的需求促使了數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,并發(fā)明了聚類(lèi)、關(guān)聯(lián)分析等一系列在實(shí)踐中行之有效的方法。這一整套處理流程在處理相對(duì)較少的結(jié)構(gòu)化數(shù)據(jù)時(shí)極為高效。但是,對(duì)于移動(dòng)互聯(lián)網(wǎng)來(lái)說(shuō),涉及更多的是多模態(tài)數(shù)據(jù)挖掘,這些數(shù)據(jù)包括手機(jī)上的傳感器,包括加速度計(jì)、陀螺儀、指南針、GPS、麥克風(fēng)、攝像頭、以及各種無(wú)線(xiàn)信號(hào)(如GSM、WiFi)和藍(lán)牙等。這些原始數(shù)據(jù)在不同維度上刻畫(huà)被感知的對(duì)象,需要經(jīng)過(guò)不同層次的加工和提煉才能形成從數(shù)據(jù)到信息再到知識(shí)的飛躍。移動(dòng)互聯(lián)網(wǎng)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的迅猛增長(zhǎng),給傳統(tǒng)的分析技術(shù)帶來(lái)了巨大的沖擊和挑戰(zhàn)。

三、移動(dòng)互聯(lián)網(wǎng)的大數(shù)據(jù)處理關(guān)鍵技術(shù)

(一)數(shù)據(jù)處理的整體框架

數(shù)據(jù)處理的整個(gè)過(guò)程如圖1所示,主要包括四個(gè)模塊:分詞(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和數(shù)據(jù)。

這四個(gè)模塊的主要功能如下。

分詞:對(duì)抓取到的網(wǎng)頁(yè)內(nèi)容進(jìn)行切詞處理。

排重:對(duì)眾多的網(wǎng)頁(yè)內(nèi)容進(jìn)行排重。

整合:對(duì)不同來(lái)源的數(shù)據(jù)內(nèi)容進(jìn)行格式上的整合。

數(shù)據(jù):包含兩方面的數(shù)據(jù),Spider Data(爬蟲(chóng)從網(wǎng)頁(yè)中抽取出來(lái)的數(shù)據(jù))和 Dp Data(在整個(gè)數(shù)據(jù)處理過(guò)程中產(chǎn)生的的數(shù)據(jù))。

(二)數(shù)據(jù)處理的基本流程

整個(gè)數(shù)據(jù)處理過(guò)程的基本步驟如下:

1.對(duì)抓取來(lái)的網(wǎng)頁(yè)內(nèi)容進(jìn)行分詞。

2.將分詞處理的結(jié)果寫(xiě)入數(shù)據(jù)庫(kù)。

3.對(duì)抓取來(lái)的網(wǎng)頁(yè)內(nèi)容進(jìn)行排重。

4.將排重處理后的數(shù)據(jù)寫(xiě)入數(shù)據(jù)庫(kù)。

5.根據(jù)之前的處理結(jié)果,對(duì)數(shù)據(jù)進(jìn)行整合。

6.將整合后的結(jié)果寫(xiě)入數(shù)據(jù)庫(kù)。

(三)數(shù)據(jù)處理的關(guān)鍵技術(shù)

1.排重。

排重就是排除掉與主題相重復(fù)項(xiàng)的過(guò)程,網(wǎng)頁(yè)排重就是通過(guò)兩個(gè)網(wǎng)頁(yè)之間的相似度來(lái)排除重復(fù)項(xiàng)。Simhash算法是一種高效的海量文本排重算法,相比于余弦角、歐式距離、Jaccard相似系數(shù)等算法,Simhash避免了對(duì)文本兩兩進(jìn)行相似度比較的復(fù)雜方式,從而大大提高了效率。

采用Simhash算法來(lái)進(jìn)行抓取網(wǎng)頁(yè)內(nèi)容的排重,可以容納更大的數(shù)據(jù)量,提供更快的數(shù)據(jù)處理速度,實(shí)現(xiàn)大數(shù)據(jù)的快速處理。

Simhash算法的基本思想描述如下:輸入為一個(gè)N維向量V,比如文本的特征向量,每個(gè)特征具有一定權(quán)重。輸出是一個(gè)C位的二進(jìn)制簽名S。

(1)初始化一個(gè)C維向量Q為0,C位的二進(jìn)制簽名S為0。

(2)對(duì)向量V中的每一個(gè)特征,使用傳統(tǒng)的Hash算法計(jì)算出一個(gè)C位的散列值H。對(duì)1

(3)如果Q的第i個(gè)元素大于0,則S的第i位為1;否則為0。

(4)返回簽名S。

對(duì)每篇文檔根據(jù)SimHash算出簽名后,再計(jì)算兩個(gè)簽名的海明距離(兩個(gè)二進(jìn)制異或后1的個(gè)數(shù))即可。根據(jù)經(jīng)驗(yàn)值,對(duì)64位的SimHash,海明距離在3以?xún)?nèi)的可以認(rèn)為相似度比較高。

2.整合。

整合就是把抓取來(lái)的網(wǎng)頁(yè)內(nèi)容與各個(gè)公司之間建立對(duì)應(yīng)關(guān)系。對(duì)于每一個(gè)公司來(lái)說(shuō),可以用一組關(guān)鍵詞來(lái)對(duì)該公司進(jìn)行描述,同樣的,經(jīng)過(guò)dp處理之后的網(wǎng)頁(yè)內(nèi)容,也可以用一組關(guān)鍵詞來(lái)進(jìn)行描述。因此,整合就變成了兩組關(guān)鍵詞(公司關(guān)鍵詞,內(nèi)容關(guān)鍵詞)之間的匹配。

對(duì)于網(wǎng)頁(yè)內(nèi)容的分詞結(jié)果來(lái)說(shuō),存在著兩個(gè)特點(diǎn):(1)分詞結(jié)果的數(shù)量很大;(2)大多數(shù)的分詞對(duì)描述該網(wǎng)頁(yè)內(nèi)容來(lái)說(shuō)是沒(méi)有貢獻(xiàn)的。因此,對(duì)網(wǎng)頁(yè)的分詞結(jié)果進(jìn)行一下簡(jiǎn)化,使用詞頻最高的若干個(gè)詞匯來(lái)描述該網(wǎng)頁(yè)內(nèi)容。

3.流處理系統(tǒng)。

移動(dòng)互聯(lián)網(wǎng)的多源異構(gòu)數(shù)據(jù)每時(shí)每刻都在大量產(chǎn)生著。數(shù)據(jù)探測(cè)模塊根據(jù)這些數(shù)據(jù)處理的不同要求,將數(shù)據(jù)分別送給實(shí)時(shí)處理系統(tǒng)和批處理系統(tǒng)。很多互聯(lián)網(wǎng)公司將根據(jù)業(yè)務(wù)的需求和處理的時(shí)間將劃分為在線(xiàn)、近線(xiàn)和離線(xiàn)三種方式來(lái)處理業(yè)務(wù)消耗的時(shí)間。這其中,在線(xiàn)處理的處理時(shí)間通常在毫秒級(jí),一般采用流處理方式;離線(xiàn)處理的處理時(shí)間通常以天為單位,一般采用批處理方式。這樣會(huì)最大程度地利用好輸入/輸出系統(tǒng)。近線(xiàn)處理對(duì)其處理模式?jīng)]有特別的要求,處理的時(shí)間一般在分鐘級(jí)或小時(shí)級(jí),在實(shí)際情況中多采用此處理方式,可根據(jù)需求靈活選擇。

四、結(jié)語(yǔ)

綜上,隨著移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展,客戶(hù)處理的業(yè)務(wù)越來(lái)越復(fù)雜,與其相關(guān)的大數(shù)據(jù)正逐漸增長(zhǎng),大數(shù)據(jù)分析技術(shù)已經(jīng)成為各方關(guān)注的焦點(diǎn)。合理使用大數(shù)據(jù)將有效的發(fā)揮移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)的資源作用,使大數(shù)據(jù)為用戶(hù)獲得前所未有的體驗(yàn),為企業(yè)發(fā)展提供完整清晰的指引。

大數(shù)據(jù)處理論文:大數(shù)據(jù)時(shí)代下管理會(huì)計(jì)數(shù)據(jù)處理的新變革

摘要:隨著大數(shù)據(jù)時(shí)代的到來(lái),各行各業(yè)都受到不同程度的沖擊,管理會(huì)計(jì)也面臨著前所未有的挑戰(zhàn),尤其在數(shù)據(jù)處理方面發(fā)生了巨大的變革。這些變革包括管理會(huì)計(jì)大數(shù)據(jù)的思維模式,數(shù)據(jù)的收集、存儲(chǔ)、加工、分析等數(shù)據(jù)處理方面的變革。

關(guān)鍵詞:管理會(huì)計(jì) 大數(shù)據(jù)時(shí)代 云計(jì)算

隨著互聯(lián)網(wǎng)時(shí)代的開(kāi)啟,大數(shù)據(jù)概念開(kāi)始在全球蔓延,我國(guó)也于2014年將“大數(shù)據(jù)戰(zhàn)略”上升為國(guó)家戰(zhàn)略,基于互聯(lián)網(wǎng)的大數(shù)據(jù)逐漸正改變著各行各業(yè)的傳統(tǒng)模式,作為會(huì)計(jì)重要分支的管理會(huì)計(jì)工作也遇到了前所未有的挑戰(zhàn)。

一、大數(shù)據(jù)時(shí)代的到來(lái)

(一)大數(shù)據(jù)時(shí)代的特點(diǎn)

“大數(shù)據(jù)時(shí)代”這一概念最早是由全球知名咨詢(xún)公司麥肯錫提出的,“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)要素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)?!睒I(yè)界普遍認(rèn)為大數(shù)據(jù)的特點(diǎn)可以由四個(gè)“V”概括,即Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價(jià)值)。大量是指相對(duì)于傳統(tǒng)的數(shù)據(jù)產(chǎn)生方式,現(xiàn)在的數(shù)據(jù)呈現(xiàn)出爆炸式增長(zhǎng)的特點(diǎn);多樣是指數(shù)據(jù)來(lái)源多樣繁雜,如數(shù)字、文字、圖片、音頻、圖像、網(wǎng)頁(yè)、地理位置信息等五花八門(mén)的數(shù)據(jù)形式;高速是指隨著云計(jì)算等先進(jìn)技術(shù)的發(fā)展使得數(shù)據(jù)的計(jì)算能力突飛猛進(jìn),數(shù)據(jù)庫(kù)實(shí)時(shí)更新;價(jià)值是指價(jià)值密度低,比如一個(gè)小時(shí)的視頻也許只能采集到幾秒鐘有用的數(shù)據(jù)。自古以來(lái)商業(yè)的發(fā)展都是基于數(shù)據(jù)分析作出決策,但從未有一個(gè)時(shí)代像大數(shù)據(jù)時(shí)代這樣出現(xiàn)如此大規(guī)模的數(shù)據(jù),如今的企業(yè)就像是漂浮在數(shù)據(jù)海洋上的巨輪,而管理會(huì)計(jì)需要做的就是及時(shí)準(zhǔn)確地挖掘出有用的數(shù)據(jù)。

(二)大數(shù)據(jù)拉啟了管理會(huì)計(jì)新發(fā)展的序幕

1、海量數(shù)據(jù)為管理會(huì)計(jì)提供了重要的經(jīng)營(yíng)管理資源

管理會(huì)計(jì)職能的有效發(fā)揮必須建立在對(duì)數(shù)據(jù)的準(zhǔn)確分析上,大數(shù)據(jù)時(shí)代數(shù)據(jù)呈現(xiàn)出樣本數(shù)據(jù)向全數(shù)據(jù)轉(zhuǎn)變的趨勢(shì),使得管理會(huì)計(jì)的處理對(duì)象更加完整。對(duì)于任何企業(yè)來(lái)說(shuō),數(shù)據(jù)都是商業(yè)皇冠上最為耀眼奪目的寶石,在未來(lái)的商業(yè)競(jìng)爭(zhēng)中,誰(shuí)能夠占有更及時(shí)、更豐富的數(shù)據(jù),誰(shuí)才有可能在瞬息多變的市場(chǎng)中站穩(wěn)腳跟。管理會(huì)計(jì)工作者要應(yīng)勢(shì)而動(dòng),建立數(shù)據(jù)倉(cāng)庫(kù),做好數(shù)據(jù)資源的收集、存儲(chǔ)、挖掘及整理分析和共享的工作。

2、傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)已無(wú)法滿(mǎn)足管理會(huì)計(jì)的決策需求

一直以來(lái),結(jié)構(gòu)化數(shù)字?jǐn)?shù)據(jù)作為管理會(huì)計(jì)的主要處理對(duì)象在企業(yè)決策中發(fā)揮了重要的作用,但隨著數(shù)據(jù)的爆炸式發(fā)展,企業(yè)自身信息系統(tǒng)中產(chǎn)生的標(biāo)準(zhǔn)化、結(jié)構(gòu)化數(shù)據(jù)在企業(yè)所能獲得的數(shù)據(jù)中所占的比重越來(lái)越小,甚至不足15%,顯而易見(jiàn),結(jié)構(gòu)化數(shù)據(jù)在企業(yè)決策中所發(fā)揮的作用已非常有限。據(jù)統(tǒng)計(jì)資料顯示,企業(yè)的數(shù)據(jù)資源中85%屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)等之中的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)被用來(lái)優(yōu)化生產(chǎn)流程,增強(qiáng)客戶(hù)體驗(yàn)。因此,企業(yè)管理者必須重視數(shù)據(jù)資源的全面性,特別是半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的收集,為管理決策提供完整、準(zhǔn)確的依據(jù)。

3、實(shí)時(shí)更新的動(dòng)態(tài)數(shù)據(jù)促進(jìn)企業(yè)數(shù)據(jù)處理能力的提高

大數(shù)據(jù)時(shí)代下,企業(yè)每天需要處理的數(shù)據(jù)以驚人的速度不斷增長(zhǎng),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)已成為管理會(huì)計(jì)發(fā)展過(guò)程中的主要瓶頸,以沃爾瑪為例,通過(guò)建立數(shù)據(jù)倉(cāng)庫(kù),其每小時(shí)可以處理的交易記錄高達(dá)一百萬(wàn)次,存儲(chǔ)數(shù)據(jù)規(guī)模多達(dá)2500TB,這是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)絕對(duì)做不到的。鑒于人腦對(duì)數(shù)據(jù)處理能力的有限性,處理完的數(shù)據(jù)也需要以可視化的界面呈現(xiàn)出來(lái),這也對(duì)管理會(huì)計(jì)提出了新的要求。

4、數(shù)據(jù)的價(jià)值取決于其及時(shí)性和預(yù)測(cè)性

大數(shù)據(jù)分析最重要的一點(diǎn)是保證數(shù)據(jù)的及時(shí)性,其次是預(yù)測(cè)性。以很多企業(yè)投入使用的臉譜識(shí)別系統(tǒng)為例,從進(jìn)門(mén)的那一刻,人臉就被快速抓拍,通過(guò)技術(shù)分析可以明確地知道這個(gè)人是誰(shuí),他將要去哪里,這些曾經(jīng)看似天方夜譚的事情已經(jīng)實(shí)實(shí)在在的發(fā)生了,這個(gè)世界正在發(fā)生改變。數(shù)據(jù)的及時(shí)性和預(yù)測(cè)性對(duì)管理會(huì)計(jì)提出了更高的要求,構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)、應(yīng)用數(shù)據(jù)挖掘技術(shù)已是勢(shì)在必行。

二、大數(shù)據(jù)時(shí)代引發(fā)管理會(huì)計(jì)數(shù)據(jù)處理模式的重大變革

(一)管理會(huì)計(jì)數(shù)據(jù)搜集方式與內(nèi)容的變革

傳統(tǒng)的會(huì)計(jì)核算系統(tǒng)中,數(shù)據(jù)源頭是各種紙質(zhì)原始憑證,隨著互聯(lián)網(wǎng)技術(shù)和各種電子設(shè)備的廣泛應(yīng)用,原始憑證由紙質(zhì)慢慢過(guò)渡成為電子數(shù)據(jù),并且不再由財(cái)務(wù)人員負(fù)責(zé)收集,而是廣泛分散在采購(gòu)部門(mén)、生產(chǎn)車(chē)間、銷(xiāo)售部門(mén)、后勤部門(mén)等各業(yè)務(wù)部門(mén),甚至是供應(yīng)商、客戶(hù)、政府機(jī)構(gòu)、中介機(jī)構(gòu)等外部相關(guān)組織中。通過(guò)管理信息系統(tǒng)和互聯(lián)網(wǎng)直接采集信息,節(jié)省時(shí)間和成本的同時(shí),也提高了數(shù)據(jù)的準(zhǔn)確性。

大數(shù)據(jù)時(shí)代下,相對(duì)于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的運(yùn)用是越來(lái)越廣泛。大量的數(shù)據(jù)出現(xiàn)在社交平臺(tái)、新聞網(wǎng)頁(yè)、各種客戶(hù)端等,并以音頻、視頻、圖片、符號(hào)等多種多樣的形式呈現(xiàn)出來(lái),這些數(shù)據(jù)都有別于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),呈現(xiàn)出非線(xiàn)性的特征,但對(duì)于管理決策卻發(fā)揮著日益重要的作用,管理會(huì)計(jì)如何處理這些數(shù)據(jù)已是當(dāng)務(wù)之急。如客戶(hù)在微信、微博、論壇等社交平臺(tái)中發(fā)表的對(duì)產(chǎn)品或服務(wù)的評(píng)價(jià),如果加以處理和分析,完全可以用于管理決策支持。

(二)管理會(huì)計(jì)數(shù)據(jù)存儲(chǔ)方式與內(nèi)容的變革

大數(shù)據(jù)時(shí)代,如何將復(fù)雜多樣的海量數(shù)據(jù)加工提煉成有用的信息以供管理者決策之用是所有企業(yè)需要解決的首要難題。目前的數(shù)據(jù)庫(kù)市場(chǎng)中,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)仍處于主導(dǎo)地位,這類(lèi)數(shù)據(jù)庫(kù)只能夠處理結(jié)構(gòu)化數(shù)據(jù),隨著數(shù)據(jù)來(lái)源與種類(lèi)形式的日益多樣化,關(guān)系型數(shù)據(jù)庫(kù)在高并發(fā)讀寫(xiě)、高吞吐率和海量數(shù)據(jù)存取、高可用性和高擴(kuò)展性需求等方面越來(lái)越無(wú)法適應(yīng)新的形勢(shì),操作復(fù)雜、成本高昂,最關(guān)鍵的是數(shù)據(jù)處理的有限性已成為制約企業(yè)發(fā)展的瓶頸,如不及時(shí)轉(zhuǎn)變思路和更新技術(shù),企業(yè)難逃被市場(chǎng)淘汰的命運(yùn)。大數(shù)據(jù)倉(cāng)庫(kù)是世界各國(guó)普遍采用的一種管理系統(tǒng),包括數(shù)據(jù)的收集、預(yù)處理、存儲(chǔ)、整合、分析、數(shù)據(jù)挖掘和價(jià)值再造等多種功能模塊,保證數(shù)據(jù)被充分提煉和處理。企業(yè)也可以根據(jù)自己的實(shí)際需要,將大數(shù)據(jù)倉(cāng)庫(kù)分為不同功能模塊,如存貨管理模塊、生產(chǎn)計(jì)劃模塊、銷(xiāo)售管理模塊等,明晰的模塊分類(lèi)有利于數(shù)據(jù)的管理和使用,在這個(gè)基礎(chǔ)上,企業(yè)可以利用數(shù)據(jù)挖掘技術(shù)尋找能為企業(yè)創(chuàng)造價(jià)值的潛在信息。

(三)管理會(huì)計(jì)數(shù)據(jù)加工分析方式的變革

大數(shù)據(jù)時(shí)代下,數(shù)據(jù)挖掘已經(jīng)成為一項(xiàng)應(yīng)對(duì)海量數(shù)據(jù)必不可少的技術(shù)?!捌【坪湍虿粷瘛币呀?jīng)成為了數(shù)據(jù)挖掘中最經(jīng)典的案例,零售連鎖舉頭沃爾瑪公司擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)之一,在這里集合了其所有門(mén)店的詳細(xì)原始交易數(shù)據(jù),在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘工具對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘,最后得出結(jié)論:跟尿不濕一起購(gòu)買(mǎi)最多的商品竟是啤酒。在數(shù)據(jù)挖掘過(guò)程中需要用到回歸分析、趨勢(shì)分析、決策樹(shù)分析、時(shí)間序列分析等算法,而這些對(duì)于管理會(huì)計(jì)工作者來(lái)說(shuō)顯得相當(dāng)陌生。

以企業(yè)常見(jiàn)的投資決策為例,傳統(tǒng)的投資決策分析方法有內(nèi)含報(bào)酬率法、凈現(xiàn)值法等,這些方法通常是依據(jù)單一渠道取得的相對(duì)準(zhǔn)確的歷史數(shù)據(jù)進(jìn)行分析,通過(guò)這種方法分析得出的結(jié)論相對(duì)滯后、單一,對(duì)于管理者決策只能發(fā)揮有限的參考作用。大數(shù)據(jù)時(shí)代下,企業(yè)投資決策通過(guò)搜集線(xiàn)上和線(xiàn)下數(shù)據(jù)、歷史資料和現(xiàn)時(shí)的業(yè)務(wù)數(shù)據(jù)、技術(shù)數(shù)據(jù)、企業(yè)上下游供應(yīng)鏈數(shù)據(jù)、用戶(hù)數(shù)據(jù)、競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)據(jù)、相關(guān)政策法規(guī)等一系列相關(guān)的完整數(shù)據(jù)后,再運(yùn)用先進(jìn)的數(shù)據(jù)挖掘技術(shù)做出最為可行的選擇。

(四)管理會(huì)計(jì)信息共享模式的變革

數(shù)據(jù)挖掘技術(shù)得以有效使用的前提是“信息孤島”現(xiàn)象的消失。傳統(tǒng)的數(shù)據(jù)庫(kù)模式下,不同業(yè)務(wù)部門(mén)之間都有自己獨(dú)享的數(shù)據(jù)中心,局部意識(shí)嚴(yán)重阻礙了信息共享觀(guān)念的普及,這種封閉的“信息孤島”管理模式在大數(shù)據(jù)時(shí)代下逐漸瓦解,在企業(yè)價(jià)值鏈甚至企業(yè)間價(jià)值鏈上正在逐步實(shí)現(xiàn)信息共享。如生產(chǎn)部門(mén)可以直接查詢(xún)庫(kù)存管理部門(mén)原材料的存儲(chǔ)情況,并根據(jù)生產(chǎn)需要及時(shí)通知采購(gòu)部門(mén),甚至在企業(yè)與供應(yīng)商及客戶(hù)之間都可以實(shí)現(xiàn)信息共享,增強(qiáng)彼此間合作的親密度,形成穩(wěn)固的伙伴關(guān)系以共同應(yīng)對(duì)瞬息萬(wàn)變的市場(chǎng)競(jìng)爭(zhēng),實(shí)現(xiàn)共贏的戰(zhàn)略合作局面。

三、積極應(yīng)對(duì)大數(shù)據(jù)時(shí)代管理會(huì)計(jì)面臨的挑戰(zhàn)

(一)正確認(rèn)識(shí)大數(shù)據(jù)時(shí)代對(duì)管理會(huì)計(jì)造成的沖擊

統(tǒng)計(jì)資料顯示,目前我國(guó)企業(yè)中約有50%的管理者并未對(duì)大數(shù)據(jù)戰(zhàn)略及互聯(lián)網(wǎng)時(shí)代對(duì)企業(yè)的影響引起重視,而且有38%的被調(diào)查者并不清楚大數(shù)據(jù)的概念,25%的被調(diào)查者對(duì)于大數(shù)據(jù)的理解存在偏差,甚至有些管理者認(rèn)為大數(shù)據(jù)時(shí)代對(duì)其所在的企業(yè)不會(huì)產(chǎn)生任何影響。而對(duì)于中小企業(yè)來(lái)說(shuō),大數(shù)據(jù)戰(zhàn)略更是遙不可及,單是人才的培養(yǎng)就需要一筆不菲的投資,完全不符合成本效益原則。因此,大數(shù)據(jù)時(shí)代雖然已大踏步來(lái)到,并對(duì)很多傳統(tǒng)行業(yè)造成了巨大的沖擊,卻并未引起管理者的足夠重視,或者因?yàn)楦鞣N條件的限制而選擇了視而不見(jiàn),這勢(shì)必會(huì)影響到大數(shù)據(jù)在管理會(huì)計(jì)中的應(yīng)用。

(二)構(gòu)建基于云計(jì)算的管理信息系統(tǒng)

大數(shù)據(jù)時(shí)代信息的存儲(chǔ)量相當(dāng)可觀(guān),據(jù)統(tǒng)計(jì),百度每天新增的數(shù)據(jù)就有10TB,系統(tǒng)每天需要處理的數(shù)據(jù)則超過(guò)1PB,而完全顛覆傳統(tǒng)銷(xiāo)售模式的淘寶商城每天需要處理的數(shù)據(jù)高達(dá)50TB。隨著物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的廣泛使用,不同形式的數(shù)據(jù)鋪天蓋地,同樣需要巨大的存儲(chǔ)空間,而現(xiàn)有的數(shù)據(jù)庫(kù)幾乎無(wú)法存儲(chǔ)TB級(jí)別的數(shù)據(jù),分析整理更無(wú)從談起。因此,能否對(duì)現(xiàn)有數(shù)據(jù)存儲(chǔ)系統(tǒng)更新?lián)Q代,建立巨大的TB級(jí)的數(shù)據(jù)倉(cāng)庫(kù),將直接決定企業(yè)能否實(shí)現(xiàn)對(duì)數(shù)據(jù)的及時(shí)、完整的收集、存儲(chǔ)、分析、整理,最終決定企業(yè)的成敗與否。云計(jì)算模式應(yīng)運(yùn)而生,借助互聯(lián)網(wǎng)這一平臺(tái)提供快速、動(dòng)態(tài)、虛擬、規(guī)?;男畔①Y源,滿(mǎn)足用戶(hù)結(jié)構(gòu)化、半結(jié)構(gòu)化乃至非結(jié)構(gòu)化信息的多種分析需求。

(三)完善信息安全技術(shù)制度

如何保障信息安全是大數(shù)據(jù)時(shí)代及互聯(lián)網(wǎng)廣泛應(yīng)用過(guò)程中必須要重視的一個(gè)問(wèn)題。企業(yè)收集的數(shù)據(jù)中常常包含著其他企業(yè)、組織或者個(gè)人的隱私,這些信息一旦泄露,會(huì)給當(dāng)事人、客戶(hù)、供應(yīng)商等造成難以挽回的損失。在拉斯維加斯每年夏天舉辦的全球性的“黑客大會(huì)”上,讓人眼花繚亂的黑客技術(shù)輪番上演,這也為各大企業(yè)、組織、政府部門(mén)等敲響了警鐘,信息安全技術(shù)的發(fā)展和維護(hù)任重而道遠(yuǎn),如何保證信息安全成為了擺在每一個(gè)人面前的重大課題。

(四)注重適應(yīng)大數(shù)據(jù)時(shí)代要求的管理人才的培養(yǎng)

目前,世界各國(guó)的大數(shù)據(jù)專(zhuān)業(yè)人才都面臨巨大的缺口。一項(xiàng)預(yù)測(cè)顯示,在未來(lái)六年內(nèi),僅美國(guó)一國(guó)就可能面臨14 萬(wàn)至 19 萬(wàn)擁有扎實(shí)分析技能的人才缺口,面臨的懂得使用相應(yīng)工具分析大數(shù)據(jù)、作出合理決策的管理和分析人員的人才缺口更是高達(dá) 150 萬(wàn)。人才的短缺勢(shì)必會(huì)阻礙企業(yè)開(kāi)發(fā)、利用管理會(huì)計(jì)信息工作的進(jìn)程。因此,能否及時(shí)培養(yǎng)掌握此類(lèi)分析所需知識(shí)與技術(shù)的管理會(huì)計(jì)人才,對(duì)企業(yè)的發(fā)展至關(guān)重要。

大數(shù)據(jù)處理論文:智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)

大數(shù)據(jù)是人們認(rèn)知世界的一種新的渠道和新的方法。大數(shù)據(jù)的應(yīng)用可以看做是知識(shí)在計(jì)算機(jī)網(wǎng)絡(luò)上的新呈現(xiàn),本文詳盡闡述了智能電網(wǎng)中大數(shù)據(jù)的特點(diǎn),智能電網(wǎng)中大數(shù)據(jù)處理技術(shù)現(xiàn)狀和智能電網(wǎng)大數(shù)據(jù)處理技術(shù)面臨的挑戰(zhàn)等方面進(jìn)行了深入的探討。

【關(guān)鍵詞】智能電網(wǎng) 大數(shù)據(jù) 云計(jì)算 并行數(shù)據(jù)庫(kù) 應(yīng)用現(xiàn)狀

隨著智能電網(wǎng)建設(shè)的不斷深入和推進(jìn),電網(wǎng)運(yùn)行和設(shè)備檢、監(jiān)測(cè)產(chǎn)生的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),使電力企業(yè)進(jìn)入了大數(shù)據(jù)時(shí)代,對(duì)目前的數(shù)據(jù)存儲(chǔ)和處理技術(shù)提出了更高的要求。同時(shí)也對(duì)智能電網(wǎng)大數(shù)據(jù)的處理效率提出了更加嚴(yán)苛的要求,本文以現(xiàn)階段智能電網(wǎng)大數(shù)據(jù)處理的技術(shù)應(yīng)用為出發(fā)點(diǎn),基于大數(shù)據(jù)處理目前的技術(shù)水平,分別從傳輸性、存儲(chǔ)性、時(shí)效性、集成性和可視性等方面探討新技術(shù)背景下智能電網(wǎng)大數(shù)據(jù)處理面臨的機(jī)遇與挑戰(zhàn)。

1 智能電網(wǎng)中大數(shù)據(jù)的特點(diǎn)

智能電網(wǎng)業(yè)務(wù)中的基本數(shù)據(jù)按內(nèi)容可以劃分成三大類(lèi)。

(1)運(yùn)行數(shù)據(jù)、設(shè)備檢測(cè)數(shù)據(jù)、設(shè)備實(shí)時(shí)狀態(tài)參數(shù)數(shù)據(jù)。

(2)電力企業(yè)營(yíng)銷(xiāo)數(shù)據(jù)(用電客戶(hù)、電量報(bào)價(jià)等)。

(3)電力企業(yè)管理數(shù)據(jù)。

在上述類(lèi)目可以再次細(xì)化為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩大類(lèi)。但無(wú)論基于何種分類(lèi)方式,大數(shù)據(jù)在智能電網(wǎng)中體現(xiàn)出來(lái)的特點(diǎn)是不變的,簡(jiǎn)單概括為體量大、類(lèi)型多,具體如下:

(1)數(shù)據(jù)體量大:即數(shù)據(jù)的數(shù)量和體積較為龐大。在智能時(shí)代的推動(dòng)下,電網(wǎng)在數(shù)據(jù)吞吐量的級(jí)別已經(jīng)從以往的TB級(jí)飆升為PB級(jí)。

(2)數(shù)據(jù)類(lèi)型繁雜:由于電力企業(yè)自身存在的特殊性,加之其地理分布情況在區(qū)域上的差異性,電網(wǎng)企業(yè)涉及到的數(shù)據(jù)有著極為復(fù)雜的類(lèi)別劃分,細(xì)分后的子類(lèi)和子項(xiàng)同樣在數(shù)量上非常龐大,也正是由于這一特點(diǎn),不同的數(shù)據(jù)類(lèi)別對(duì)服務(wù)器端硬件設(shè)備及用戶(hù)端的系統(tǒng)平臺(tái)均有不同程度的配置、性能及處理需求,從而更是增加了電網(wǎng)企業(yè)內(nèi)網(wǎng)及外設(shè)雙重建設(shè)項(xiàng)目的難度。

(3)數(shù)據(jù)價(jià)值密度低:異常數(shù)據(jù)出現(xiàn)的頻率低,同時(shí)也是對(duì)電網(wǎng)軟、硬件設(shè)備維修和檢測(cè)最有價(jià)值的。

2 智能電網(wǎng)中大數(shù)據(jù)處理技術(shù)現(xiàn)狀

2.1 并行數(shù)據(jù)庫(kù)

關(guān)系數(shù)據(jù)庫(kù)常用于結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、整合及維護(hù),可以實(shí)現(xiàn)的具體功能如下:

(1)可實(shí)現(xiàn)數(shù)據(jù)查詢(xún)及邏輯分析的快捷化、靈活性操作。

(2)可提供高標(biāo)準(zhǔn)規(guī)則強(qiáng)制下業(yè)務(wù)事項(xiàng)的高效處理。

(3)可承載一定數(shù)量的用戶(hù)同時(shí)發(fā)起數(shù)據(jù)訪(fǎng)問(wèn)的系統(tǒng)壓力。

(4)可執(zhí)行高級(jí)別安全機(jī)制。

得益于SQL嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)查詢(xún)語(yǔ)言、高效率的數(shù)據(jù)分析層級(jí)以及脫離對(duì)程序依賴(lài)的高效率獨(dú)立化協(xié)同運(yùn)行等絕對(duì)優(yōu)勢(shì),關(guān)系數(shù)據(jù)庫(kù)得到了業(yè)界的一致認(rèn)可和推廣。但是智能電網(wǎng)的開(kāi)發(fā)和組建已經(jīng)今非昔比,其進(jìn)展的速度早已將關(guān)系型數(shù)據(jù)庫(kù)的能力范圍甩在了身后,僅在非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)這一點(diǎn)能力上的局限,就使得目前多種主流數(shù)據(jù)類(lèi)型如地理信息、高像素圖片以及各種音、視頻等格式文件無(wú)法滿(mǎn)足電力企業(yè)在數(shù)據(jù)存儲(chǔ)方面提出的全新的、更高標(biāo)準(zhǔn)的需求。

2.2 云計(jì)算技術(shù)

云計(jì)算平臺(tái)的誕生使得大數(shù)據(jù)技術(shù)尤為必要,能夠存儲(chǔ)海量數(shù)據(jù)并具備數(shù)據(jù)并行處理功能等核心技術(shù),因此為電力設(shè)備實(shí)時(shí)狀態(tài)數(shù)據(jù)提供了強(qiáng)大的技術(shù)支持。實(shí)時(shí)狀態(tài)數(shù)據(jù)不僅類(lèi)目眾多,數(shù)據(jù)量龐大,可靠性和實(shí)時(shí)性的標(biāo)準(zhǔn)高,使基于云計(jì)算技術(shù)的海量數(shù)據(jù)研究仍處在起步階段,即便能夠確保監(jiān)控程序的延展性和可靠性,但更高標(biāo)準(zhǔn)的性能如安全和數(shù)據(jù)隱私等并未實(shí)現(xiàn),仍需不斷探索。

3 智能電網(wǎng)大數(shù)據(jù)處理技術(shù)面臨的挑戰(zhàn)

3.1 大數(shù)據(jù)傳輸及存儲(chǔ)技術(shù)

智能時(shí)代數(shù)據(jù)量的日漸增多極大程度影響了電網(wǎng)智能化的發(fā)展,并在存儲(chǔ)系統(tǒng)、電網(wǎng)運(yùn)行監(jiān)控設(shè)備以及數(shù)據(jù)傳輸方面形成了諸多負(fù)擔(dān)。因此要進(jìn)行分類(lèi)存儲(chǔ)和分析系統(tǒng)中現(xiàn)有的大數(shù)據(jù)性能。非結(jié)構(gòu)化數(shù)據(jù)在智能電網(wǎng)中存有的百分比較大,將此類(lèi)非結(jié)構(gòu)化數(shù)據(jù)演變成結(jié)構(gòu)化數(shù)據(jù),是當(dāng)前智能大數(shù)據(jù)在存儲(chǔ)方面處理技術(shù)上存在的難題。

3.2 數(shù)據(jù)處理的時(shí)效性技術(shù)

大數(shù)據(jù)重點(diǎn)在于處理速度。一般情況下,處理時(shí)間與數(shù)據(jù)規(guī)模成正比,規(guī)模大的數(shù)據(jù)集處理的時(shí)間就越長(zhǎng)。傳統(tǒng)的存儲(chǔ)方案僅能夠處理能力范圍內(nèi)的一定量的數(shù)據(jù),對(duì)大數(shù)據(jù)卻難以駕馭。隨著智能電網(wǎng)的不斷應(yīng)用,實(shí)時(shí)數(shù)據(jù)處理將需貫穿于用電、輸變電和發(fā)電等各項(xiàng)關(guān)鍵環(huán)節(jié)中。

3.3 異構(gòu)多數(shù)據(jù)源處理技術(shù)

未來(lái)智能電網(wǎng)能夠?qū)⒇炌òl(fā)電、調(diào)度以及變電、輸電、配電等幾項(xiàng)環(huán)節(jié)得以滿(mǎn)足,能夠?qū)⑿畔⒌娜娌杉?、高效處理、流暢傳輸以及業(yè)務(wù)流、信息流和支撐電力流實(shí)現(xiàn)高度的一體化。因此,其主要功能是能夠整合出規(guī)模較大的多源異構(gòu)信息,可以由資源集約化配置的數(shù)據(jù)中心提供給智能電網(wǎng)。目前海量異構(gòu)數(shù)據(jù)需首要處理的問(wèn)題在于,怎樣構(gòu)建出一個(gè)能夠規(guī)范表達(dá)的模型,同時(shí)何以才能以該模型為基礎(chǔ)將數(shù)據(jù)融合以及查詢(xún)存儲(chǔ)同時(shí)高效進(jìn)行。

3.4 大數(shù)據(jù)可視化化分析技術(shù)

針對(duì)難以量化的智能電網(wǎng)數(shù)據(jù),在屏幕空間自身局限的顯示情況下,面向用戶(hù)提供一種更為簡(jiǎn)便直觀(guān)的方式,是跨越性較大、難度較高的一項(xiàng)工作。在實(shí)踐中,可視化方法能夠分析規(guī)模較大的數(shù)據(jù),將數(shù)據(jù)繪制為分辨率和精度較高的圖片,同時(shí)輔以交互工具,結(jié)合人的視覺(jué)系統(tǒng),對(duì)算法參數(shù)和實(shí)時(shí)處理做出決定,并通過(guò)數(shù)據(jù)展開(kāi)定量、定性的分析和觀(guān)察。

4 結(jié)語(yǔ)

智能電網(wǎng)系統(tǒng)在我國(guó)的應(yīng)用日漸廣泛,大數(shù)據(jù)處理技術(shù)已然是智能電網(wǎng)安全運(yùn)行的有利武器。但在電網(wǎng)智能化的發(fā)展進(jìn)程中,實(shí)時(shí)、隱私等方面的性能需求對(duì)大數(shù)據(jù)技術(shù)本身提出了更嚴(yán)峻的挑戰(zhàn),為了向全景實(shí)時(shí)電網(wǎng)時(shí)期邁進(jìn),我們必須制定有針對(duì)性的解決方案,為電力事業(yè)得以持續(xù)穩(wěn)定發(fā)展貢獻(xiàn)出力量;推動(dòng)我國(guó)社會(huì)主義現(xiàn)代化建設(shè)的步伐更快的向前邁進(jìn)。

大數(shù)據(jù)處理論文:基于云計(jì)算的大數(shù)據(jù)處理技術(shù)探討

信息爆炸時(shí)代,大數(shù)據(jù)超大體量、離散性和非(半)結(jié)構(gòu)化的特點(diǎn)已經(jīng)遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)數(shù)據(jù)管理方式所能夠承載的范疇。大數(shù)據(jù)要求全面革新原有的數(shù)據(jù)處理架構(gòu)和有關(guān)技術(shù),實(shí)現(xiàn)超大體量和復(fù)雜數(shù)據(jù)的存儲(chǔ)、高效傳輸和有用信息提取。圍繞大數(shù)據(jù),云計(jì)算技術(shù)營(yíng)運(yùn)而生。云計(jì)算的出現(xiàn)為大數(shù)據(jù)的存儲(chǔ)和處理提供了可能,也為數(shù)據(jù)處理系統(tǒng)的功能擴(kuò)展提供了重要保障。本文主要分析了大數(shù)據(jù)和云計(jì)算之間的關(guān)系,以及云計(jì)算環(huán)境下大數(shù)據(jù)處理技術(shù)。

【關(guān)鍵詞】云計(jì)算技術(shù) 大數(shù)據(jù) 數(shù)據(jù)處理

隨著物聯(lián)網(wǎng)、網(wǎng)絡(luò)、移動(dòng)通信等的快速發(fā)展,特別是互聯(lián)網(wǎng)的普及使得信息傳播的規(guī)模和速度呈現(xiàn)幾何增長(zhǎng),人們獲取信息的途徑和方式開(kāi)始變得異常豐富,人們事實(shí)上已經(jīng)進(jìn)入了“信息大爆炸”時(shí)代。與此同時(shí)信息傳播的大容量、高效性和準(zhǔn)確性也對(duì)現(xiàn)有的數(shù)據(jù)處理體系提出了更高要求。根據(jù)大數(shù)據(jù)摩爾定律,人類(lèi)世界的數(shù)據(jù)產(chǎn)生量將按照每?jī)赡暌槐兜乃俾试鲩L(zhǎng),預(yù)計(jì)2020年世界數(shù)據(jù)量將超過(guò)35億GB,“大數(shù)據(jù)”時(shí)代迫在眉睫?!按髷?shù)據(jù)”具有離散型、隨機(jī)性、發(fā)散性、爆發(fā)性等特點(diǎn)。近年來(lái),隨著云技術(shù)的興起全面革新了傳統(tǒng)的數(shù)據(jù)技術(shù),大容量、多樣化、快速處理、信息價(jià)值性和準(zhǔn)確性為了云技術(shù)背景下大數(shù)據(jù)處理的五大主要特征。如何利用云計(jì)算技術(shù)對(duì)大數(shù)據(jù)進(jìn)行高效處理已經(jīng)成為了信息技術(shù)發(fā)展亟待解決的關(guān)鍵問(wèn)題。

1 大數(shù)據(jù)和云計(jì)算的關(guān)系

云計(jì)算技術(shù)是指利用集中式遠(yuǎn)程計(jì)算資源池,通過(guò)按需分配的方式,為終端用戶(hù)提供強(qiáng)大而廉價(jià)的計(jì)算服務(wù)技術(shù)。云計(jì)算技術(shù)作為一種數(shù)據(jù)處理方式,其技術(shù)特點(diǎn)包括:一是資源池在物理上是對(duì)終端用戶(hù)完全透明的;二是能夠?yàn)槿魏涡袠I(yè)提供規(guī)?;?jì)算服務(wù),其服務(wù)能力可看做是“無(wú)限”的;三是其應(yīng)用部署快速便捷,服務(wù)能力和方式是可以完全按照終端客戶(hù)要求定制的,具有極強(qiáng)的彈性伸縮能力;四是云端數(shù)據(jù)獲取方便,能夠資源共享,用戶(hù)使用成本低廉。

云計(jì)算技術(shù)是目前最強(qiáng)大的數(shù)據(jù)存儲(chǔ)、傳輸和處理平臺(tái),它是大數(shù)據(jù)處理的最優(yōu)選擇。云計(jì)算能夠?yàn)榇髷?shù)據(jù)提供幾乎“無(wú)限”的存儲(chǔ)空間和處理能力,滿(mǎn)足其超大容量存儲(chǔ)和超級(jí)復(fù)雜的處理需求,也是傳統(tǒng)存儲(chǔ)方式無(wú)法實(shí)現(xiàn)的。云計(jì)算側(cè)重?cái)?shù)據(jù)的計(jì)算處理,而大數(shù)據(jù)需要強(qiáng)大數(shù)據(jù)處理能力,因而它是云計(jì)算的處理對(duì)象。此外大數(shù)據(jù)所產(chǎn)生的業(yè)務(wù)需求也為云計(jì)算的實(shí)現(xiàn)提供了更多的形式。

2 基于云計(jì)算的大數(shù)據(jù)處理技術(shù)

2.1 大數(shù)據(jù)的采集技術(shù)

目前數(shù)據(jù)采集方式主要分為集中式和分布式兩大類(lèi)。其中分布式的靈活性較強(qiáng),而集中式的全局性較好。實(shí)際上大數(shù)據(jù)采集的對(duì)象通常包括組織內(nèi)部和相互獨(dú)立組織間的各類(lèi)數(shù)據(jù),而云計(jì)算恰好具有并行處理的優(yōu)勢(shì),因而可采取混合式采集方式能夠更加有效地完成數(shù)據(jù)采集任務(wù)。即在各個(gè)組織內(nèi)部采用集中式數(shù)據(jù)采集方式,通過(guò)在組織內(nèi)配置中心服務(wù)器,作為集中式數(shù)據(jù)注冊(cè)機(jī)構(gòu),用于存儲(chǔ)和共享內(nèi)部的數(shù)據(jù)。在相互獨(dú)立組織間,采用云計(jì)算的集群技術(shù)、虛擬化技術(shù)等在各獨(dú)立組織中心服務(wù)器間采用分布式采集方式實(shí)現(xiàn)數(shù)據(jù)采集、組織間對(duì)接和共享。大數(shù)據(jù)結(jié)構(gòu)類(lèi)型包括結(jié)構(gòu)化、半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù),因而在應(yīng)用云計(jì)算技術(shù)進(jìn)行分布式采集時(shí),可依托其超強(qiáng)的擴(kuò)展性和容錯(cuò)力,將數(shù)據(jù)池內(nèi)數(shù)據(jù)進(jìn)行同構(gòu)化,從而實(shí)現(xiàn)數(shù)據(jù)進(jìn)行分類(lèi)存儲(chǔ)。

2.2 大數(shù)據(jù)的存儲(chǔ)技術(shù)

由于超大體量、離散、復(fù)雜的數(shù)據(jù)特點(diǎn),傳統(tǒng)數(shù)據(jù)存儲(chǔ)模式已經(jīng)難以滿(mǎn)足大數(shù)據(jù)存儲(chǔ)要求。一方面單結(jié)點(diǎn)的數(shù)據(jù)倉(cāng)庫(kù)在容量上難以滿(mǎn)足呈幾何增長(zhǎng)的數(shù)據(jù)量,在運(yùn)行效率上也難以滿(mǎn)足大數(shù)據(jù)的分析處理需求。另一方面?zhèn)鹘y(tǒng)數(shù)據(jù)倉(cāng)庫(kù)按行存儲(chǔ)模式,雖然可以實(shí)現(xiàn)大容量索引和視圖,但實(shí)際操作中其時(shí)間和空間過(guò)高。而云計(jì)算主要采取列式存儲(chǔ)模式,即區(qū)分?jǐn)?shù)據(jù)不同屬性,不同屬性列都單獨(dú)存放。云計(jì)算中列式存儲(chǔ)的優(yōu)勢(shì)在于在投影數(shù)據(jù)時(shí)只需查詢(xún)其屬性列,系統(tǒng)處理量和處理效率顯著提升。此外按數(shù)據(jù)屬性進(jìn)行列式存儲(chǔ),數(shù)據(jù)倉(cāng)庫(kù)中相鄰列數(shù)據(jù)的相似性更高,因而能夠得到更高的數(shù)據(jù)壓縮率,進(jìn)一步減少存儲(chǔ)所需空間。

2.3 大數(shù)據(jù)的挖掘技術(shù)

聯(lián)機(jī)分析能夠完成數(shù)據(jù)的復(fù)雜處理,得到直觀(guān)結(jié)果,實(shí)現(xiàn)決策性分析。云計(jì)算并行模式下聯(lián)機(jī)分析能夠基于數(shù)據(jù)全局,建立多維分析模型對(duì)數(shù)據(jù)進(jìn)行多維度分析,從而盡可能獲得全面的分析結(jié)構(gòu)。由此可見(jiàn)多維度分析是聯(lián)機(jī)分析的重要特征,而云計(jì)算技術(shù)下數(shù)據(jù)倉(cāng)庫(kù)正好是通過(guò)多維數(shù)據(jù)組織的。

聯(lián)機(jī)分析對(duì)數(shù)據(jù)的處理僅僅只是表面的,其獲取的信息價(jià)值并不高,難以得到數(shù)據(jù)深層次的含義與內(nèi)在關(guān)聯(lián)。而數(shù)據(jù)挖掘正是在聯(lián)機(jī)分析的基礎(chǔ)上,從超大體量的數(shù)據(jù)倉(cāng)庫(kù)中提取數(shù)據(jù)所蘊(yùn)含的隱性信息,并將這些信息用規(guī)律、概念或是模型等表現(xiàn)出來(lái)?;谠朴?jì)算的數(shù)據(jù)挖掘主要采用分布式并行挖掘技術(shù)。與其他串行方式相比,云計(jì)算技術(shù)下并行數(shù)據(jù)挖掘能夠利用機(jī)器集群拆分分布式系統(tǒng)中的并行任務(wù),并將拆分后的各個(gè)任務(wù)分別交由不同的機(jī)器去處理,從而實(shí)現(xiàn)大規(guī)模數(shù)據(jù)處理,其時(shí)間成本也大大降低。

2.4 大數(shù)據(jù)的可視化技術(shù)

上文所述數(shù)據(jù)挖掘可實(shí)現(xiàn)大數(shù)據(jù)的深層次、多維度分析,獲取更多有用信息。而云計(jì)算平臺(tái)下可視化技術(shù)則能夠?qū)⑸鲜鲂畔⒕唧w化,從而使數(shù)據(jù)及其有關(guān)結(jié)構(gòu)的相關(guān)信息能夠更直觀(guān)地表現(xiàn)出來(lái),更容易被發(fā)覺(jué)和理解??梢暬夹g(shù)是指在存儲(chǔ)空間中,將數(shù)據(jù)庫(kù)及其中數(shù)據(jù)以圖像(圖形)的形式表示出來(lái),并在其中再采用其他的分析手段獲取圖像中所蘊(yùn)含的未知信息。而原有的數(shù)據(jù)處理僅僅只能夠從數(shù)據(jù)本身入手,分析和觀(guān)察數(shù)據(jù)中的內(nèi)在信息。云計(jì)算下的可視化技術(shù)不但能夠?qū)崿F(xiàn)非空間數(shù)據(jù)的多維度圖像顯示,而且能夠?qū)崿F(xiàn)檢索過(guò)程的直觀(guān)圖形顯示,從而幫助人們更好地挖掘和理解信息,信息檢索效率也大大提升。

3 結(jié)語(yǔ)

在數(shù)據(jù)爆炸時(shí)代,云計(jì)算的出現(xiàn)為大數(shù)據(jù)的存儲(chǔ)和處理提供了可能,也為數(shù)據(jù)處理系統(tǒng)的功能擴(kuò)展提供了重要保障。以往的數(shù)據(jù)管理將收集和存儲(chǔ)作為重點(diǎn),而在云計(jì)算模式下,大數(shù)據(jù)管理將更多地側(cè)重?cái)?shù)據(jù)分析、挖掘及管理模式的創(chuàng)新。目前數(shù)據(jù)采集和統(tǒng)計(jì)技術(shù)已經(jīng)較為成熟,利用云計(jì)算進(jìn)一步豐富大數(shù)據(jù)的存儲(chǔ)和處理方式,實(shí)現(xiàn)更高層次的數(shù)據(jù)挖掘和可視化將是今后需要解決的問(wèn)題之一。

大數(shù)據(jù)處理論文:投資統(tǒng)計(jì)大數(shù)據(jù)處理關(guān)鍵技術(shù)

摘 要

大數(shù)據(jù)主要包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)兩部分,目前已具備應(yīng)用價(jià)值大、數(shù)據(jù)量大、速度快等特點(diǎn),這些特點(diǎn)對(duì)今后投資統(tǒng)計(jì)數(shù)據(jù)處理技術(shù)將帶來(lái)顛覆性變化,為此,本人結(jié)合從事多年統(tǒng)計(jì)數(shù)據(jù)處理經(jīng)驗(yàn),重點(diǎn)闡述投資統(tǒng)計(jì)大數(shù)據(jù)在數(shù)據(jù)采集、存儲(chǔ)和分析涉及的主要關(guān)鍵技術(shù)。

【關(guān)鍵詞】投資統(tǒng)計(jì) 大數(shù)據(jù)處理 關(guān)鍵技術(shù)

本人從事多年統(tǒng)計(jì)工作,對(duì)投資統(tǒng)計(jì)大數(shù)據(jù)有著天然的親近感,投資統(tǒng)計(jì)就是搜集、整理、分析、應(yīng)用數(shù)據(jù)。目前投資統(tǒng)計(jì)改革正在有序開(kāi)展,我們要抓住改革契機(jī),充分利用投資統(tǒng)計(jì)大數(shù)據(jù)具有海量、實(shí)時(shí)、多元處理特點(diǎn),深刻解讀數(shù)據(jù),創(chuàng)新研究思路,提高投資統(tǒng)計(jì)數(shù)據(jù)處理能力,提供投資統(tǒng)計(jì)分析具有數(shù)據(jù)全、分析深、研究透、成果新、有理有據(jù)的可行建議,成為黨政府、部門(mén)決策的重要參謀。

1 概述

1.1 大數(shù)據(jù)

投資系統(tǒng)中數(shù)據(jù)有三種類(lèi)型分別是項(xiàng)目投資管理數(shù)據(jù)、聯(lián)網(wǎng)直報(bào)房地產(chǎn)投資數(shù)據(jù)、規(guī)下投資抽樣數(shù)據(jù)。根據(jù)投資數(shù)據(jù)內(nèi)在結(jié)構(gòu),可以分為兩類(lèi),一類(lèi)是結(jié)構(gòu)化數(shù)據(jù),統(tǒng)計(jì)系統(tǒng)的企業(yè)原始數(shù)據(jù)可以通過(guò)二維表形式反映的數(shù)據(jù);另一類(lèi)是非結(jié)構(gòu)化數(shù)據(jù),不能以二維表的形式來(lái)反映的數(shù)據(jù),如文本、圖片、音頻、視頻等產(chǎn)生的數(shù)據(jù)。

與傳統(tǒng)投資統(tǒng)計(jì)不同,投資統(tǒng)計(jì)大數(shù)據(jù)可利用遙感技術(shù)和GIS技術(shù)進(jìn)行動(dòng)態(tài)監(jiān)測(cè),能夠獲取定期數(shù)據(jù),對(duì)現(xiàn)有投資統(tǒng)計(jì)業(yè)務(wù)系統(tǒng)進(jìn)行分析,主要表現(xiàn)在:一是為了能夠?qū)ν顿Y統(tǒng)計(jì)系統(tǒng)運(yùn)行獲取定期數(shù)據(jù),要對(duì)投資項(xiàng)目進(jìn)行定位,每個(gè)月節(jié)點(diǎn)都會(huì)產(chǎn)生大量的數(shù)據(jù)。二是PDA設(shè)備對(duì)投資統(tǒng)計(jì)項(xiàng)目樣本點(diǎn)的經(jīng)常性變化。三是為了能夠把握重大項(xiàng)目投資進(jìn)度,要求對(duì)投資統(tǒng)計(jì)系統(tǒng)運(yùn)行中相關(guān)信息定期變樣采集。四是投資統(tǒng)計(jì)數(shù)據(jù)能夠定期與發(fā)改、住建、稅務(wù)等部門(mén)數(shù)據(jù)共享和數(shù)據(jù)比對(duì)。

1.2 特點(diǎn)

投資統(tǒng)計(jì)大數(shù)據(jù)具有以下特點(diǎn):一是數(shù)據(jù)量大。隨著大數(shù)據(jù)的發(fā)展,投資統(tǒng)計(jì)數(shù)據(jù)TB級(jí)逐步上升到PB級(jí)。二是類(lèi)型種類(lèi)多?,F(xiàn)在黨政領(lǐng)導(dǎo)對(duì)投資統(tǒng)計(jì)數(shù)據(jù)需求越來(lái)越準(zhǔn),要進(jìn)行處理結(jié)構(gòu)化和非結(jié)構(gòu)化投資統(tǒng)計(jì)也越來(lái)越多,才能夠滿(mǎn)足需求。三是利用率低。如在定期監(jiān)測(cè)重大投資項(xiàng)目過(guò)程中, 大部分監(jiān)測(cè)過(guò)程中的數(shù)據(jù)在正常范圍之內(nèi),而非常少的監(jiān)測(cè)異常數(shù)據(jù)是非常有用的,特別是投資項(xiàng)目數(shù)據(jù)異常值(如極大、極小值),要通過(guò)這些數(shù)據(jù)對(duì)比驗(yàn)證,數(shù)據(jù)是否正確,因此有利用價(jià)值的數(shù)據(jù)占總數(shù)據(jù)的比例少。四是處理要快。處理投資統(tǒng)計(jì)大數(shù)據(jù)速度要求快,可以利用小型計(jì)算機(jī)和云技術(shù)在非常短時(shí)間內(nèi)能夠分析數(shù)據(jù),為黨政領(lǐng)導(dǎo)決策提供高質(zhì)量的數(shù)據(jù)作為依據(jù)。

2 關(guān)鍵技術(shù)

2.1 采集技術(shù)

大數(shù)據(jù)的采集指利用很多個(gè)數(shù)據(jù)庫(kù)同時(shí)接收,從客戶(hù)端的傳輸來(lái)的數(shù)據(jù),一般用戶(hù)可以通過(guò)這些數(shù)據(jù)庫(kù),在客戶(hù)端能夠達(dá)到一般查詢(xún)和處理過(guò)程。 但是在大數(shù)據(jù)的采集過(guò)程中,最大的難點(diǎn)數(shù)據(jù)并發(fā)高,很有可能會(huì)同時(shí)成千上萬(wàn)的用戶(hù)來(lái)進(jìn)行訪(fǎng)問(wèn)和操作,采用在采集端部署大量數(shù)據(jù)庫(kù)作為支持,能夠有效、科學(xué)地在投資數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片,是數(shù)據(jù)采集技術(shù)的關(guān)鍵環(huán)節(jié)。

各類(lèi)大數(shù)據(jù)分部不同的部門(mén)或項(xiàng)目,給數(shù)據(jù)的收集帶來(lái)一定難度,采用關(guān)系數(shù)據(jù)管理模型,運(yùn)用Google 文件系統(tǒng)GFS 技術(shù),具有縱向擴(kuò)展功能,應(yīng)對(duì)數(shù)據(jù)采集并發(fā)數(shù)高,也是確保實(shí)現(xiàn)高效獲取大數(shù)據(jù)的核心。

2.2 傳輸、存儲(chǔ)技術(shù)

投資統(tǒng)計(jì)系統(tǒng)采用聯(lián)網(wǎng)直報(bào)平臺(tái),運(yùn)行時(shí)會(huì)實(shí)時(shí)產(chǎn)生各式各樣的原始數(shù)據(jù),特別定期用投資遙感監(jiān)測(cè)中數(shù)據(jù)也會(huì)產(chǎn)生更多的數(shù)據(jù),經(jīng)過(guò)日月積累海量的數(shù)據(jù),會(huì)給投資監(jiān)控設(shè)備及數(shù)據(jù)傳輸、存儲(chǔ)系統(tǒng)造成沉重的負(fù)擔(dān),并對(duì)投資統(tǒng)計(jì)系統(tǒng)發(fā)展造成很大的影響。

目前投資統(tǒng)計(jì)系統(tǒng)數(shù)據(jù)的傳輸,為了減輕數(shù)據(jù)傳輸量,大部分采用數(shù)據(jù)壓縮的方式,可以應(yīng)用到投資統(tǒng)計(jì)數(shù)據(jù)傳輸,大大提速整個(gè)系統(tǒng)數(shù)據(jù)的傳輸,從而有效降低數(shù)據(jù)儲(chǔ)存的空間。若沒(méi)有建立有效批處理模型,在壓縮、解壓過(guò)程中仍然占用系統(tǒng)資源較大,浪費(fèi)也很大,因此更急需建立有效的批處理模型是重要的?,F(xiàn)在普遍采用MapReduce批處理模型,能夠在平常配置的計(jì)算機(jī)上實(shí)現(xiàn)并行化處理,且能夠分割輸入數(shù)據(jù),在計(jì)算機(jī)組成的集群上統(tǒng)一調(diào)度,確保計(jì)算機(jī)的集群之間順暢的通信。

投資統(tǒng)計(jì)大數(shù)據(jù)存儲(chǔ)一般采用分布式保存方式,具有性能可靠性,可以解決海量數(shù)據(jù)的存儲(chǔ)問(wèn)題,可有局限性,如投資統(tǒng)計(jì)系統(tǒng)運(yùn)行時(shí),隨時(shí)產(chǎn)生實(shí)時(shí)性數(shù)據(jù),處理過(guò)程中還是不能夠全面應(yīng)對(duì),最好要根據(jù)不同類(lèi)型的大數(shù)據(jù)性能先分析,然后再進(jìn)行實(shí)時(shí)分類(lèi)存儲(chǔ)。特別是投資遙感監(jiān)測(cè)系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)占大數(shù)據(jù)比重非常大,需要解決大量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù)處理能力,是投資統(tǒng)計(jì)系統(tǒng)在大數(shù)據(jù)處理技術(shù)解決的關(guān)鍵問(wèn)題。采用GFS的分布式文件系統(tǒng)主要對(duì)海量大文件而設(shè)計(jì),而海量小文件可以用Haystack系統(tǒng),可以用多個(gè)邏輯文件共同使用一個(gè)文件,解決小文件存儲(chǔ)的問(wèn)題。

2.3 實(shí)時(shí)處理技術(shù)

解決投資統(tǒng)計(jì)大數(shù)據(jù)處理速度是至關(guān)重要,數(shù)據(jù)處理范圍越來(lái)越大,數(shù)據(jù)處理時(shí)間就越長(zhǎng),假如數(shù)據(jù)量處理的范圍超過(guò)了數(shù)據(jù)本來(lái)的處理能力,缺乏整個(gè)系統(tǒng)穩(wěn)定運(yùn)行,就會(huì)對(duì)投資統(tǒng)計(jì)系統(tǒng)運(yùn)行產(chǎn)生不可估量的影響。雖然可以利用云計(jì)算系統(tǒng),能夠提供投資統(tǒng)計(jì)系統(tǒng)服務(wù),但是對(duì)特別聯(lián)網(wǎng)直報(bào)時(shí)間高峰期,現(xiàn)在也經(jīng)常出現(xiàn)堵塞事件,造成企業(yè)統(tǒng)計(jì)人員無(wú)法準(zhǔn)時(shí)上報(bào)數(shù)據(jù),也對(duì)投資統(tǒng)計(jì)系統(tǒng)運(yùn)行提出更高要求。

大數(shù)據(jù)產(chǎn)生的過(guò)程比較復(fù)雜,對(duì)有投資統(tǒng)計(jì)數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù))進(jìn)行基于各種統(tǒng)計(jì)算法的計(jì)算,必然存在數(shù)據(jù)的內(nèi)涵不一致、記錄重復(fù)、或者感興趣擬處理的屬性指標(biāo)不完整、或者含有噪聲(數(shù)據(jù)中存在錯(cuò)誤和異常值)等各種問(wèn)題,必須實(shí)時(shí)進(jìn)行清洗和預(yù)處理,去掉噪聲和無(wú)關(guān)數(shù)據(jù),便于后續(xù)的分析、分析處理。使用Sector廣域網(wǎng)的分布式系統(tǒng),利用Sphere基本數(shù)據(jù)處理模型,針對(duì)不同的數(shù)據(jù),能夠統(tǒng)一輸入數(shù)據(jù)流方式,進(jìn)行實(shí)時(shí)大規(guī)模并行計(jì)算,在對(duì)數(shù)據(jù)進(jìn)行分割,分割后數(shù)據(jù)轉(zhuǎn)交給SPE(具有處理引擎功能),能夠起到負(fù)載平衡。

2.4 分析技術(shù)

投資大數(shù)據(jù)分析主要通過(guò)分布式數(shù)據(jù)庫(kù)或者分布式計(jì)算集群,對(duì)現(xiàn)有已存儲(chǔ)的大量數(shù)據(jù)庫(kù),分步驟能夠簡(jiǎn)單的分類(lèi)匯總、統(tǒng)計(jì)分析等,能夠?qū)崿F(xiàn)普遍常見(jiàn)的分析需求,但是對(duì)于一些需要批處理基于半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),利用可視化分析技術(shù)、高度集成技術(shù),對(duì)圖像和投資原始數(shù)據(jù)及專(zhuān)業(yè)的大數(shù)據(jù)分析工具,進(jìn)行與部門(mén)數(shù)據(jù)之間統(tǒng)計(jì)分析或比對(duì)。統(tǒng)計(jì)與分析這環(huán)節(jié)的主要特點(diǎn)涉及的面廣、量大,運(yùn)行系統(tǒng)資源占用也非常高,特別是輸入輸出資源占用率高。隨著大數(shù)據(jù)的發(fā)展,用Bigtable分布式、按列存儲(chǔ)、多維表結(jié)構(gòu)的實(shí)時(shí)分布式數(shù)據(jù)庫(kù),可以對(duì)大數(shù)據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)讀寫(xiě)操作,使用SQL 語(yǔ)言進(jìn)行大量數(shù)據(jù)的統(tǒng)計(jì)、查詢(xún)和分析操作,解決了可視化分析技術(shù)的擴(kuò)展性,能夠有效提取重要數(shù)據(jù)、顯示合成圖像。用LOD技術(shù)采用策略處理大數(shù)據(jù)量的實(shí)時(shí)傳輸與可視化,實(shí)現(xiàn)按等級(jí)組織分塊,平常稱(chēng)為“金字塔”結(jié)構(gòu)。

大數(shù)據(jù)的分析技術(shù)與傳統(tǒng)的統(tǒng)計(jì)數(shù)據(jù)匯總分析方法有較大的差別,不能將原來(lái)的統(tǒng)計(jì)系統(tǒng)數(shù)據(jù)處理經(jīng)驗(yàn)簡(jiǎn)單的移植到大數(shù)據(jù)的數(shù)據(jù)處理中去,需要針對(duì)不同的大數(shù)據(jù)對(duì)象,部署相應(yīng)的數(shù)據(jù)采集環(huán)境,建立平值法、平滑法、預(yù)測(cè)法和頻率統(tǒng)計(jì)法等統(tǒng)計(jì)數(shù)據(jù)相關(guān)模型或算法,對(duì)投資統(tǒng)計(jì)大數(shù)據(jù)進(jìn)行深度和廣度的對(duì)比分析或核查。

3 結(jié)束語(yǔ)

伴隨現(xiàn)代信息技術(shù)的迅猛發(fā)展,傳統(tǒng)的投資統(tǒng)計(jì)知識(shí)、理論、技術(shù)、方法等正處于大變革、大跨越、大發(fā)展之中,投資統(tǒng)計(jì)也面臨良好機(jī)遇。特別大數(shù)據(jù)時(shí)代的到來(lái),投資統(tǒng)計(jì)大數(shù)據(jù)處理在遙感地理信息系統(tǒng)、全球定位系統(tǒng)等空間信息技術(shù)中應(yīng)用,極大豐富了投資統(tǒng)計(jì)的數(shù)據(jù)來(lái)源,使投資統(tǒng)計(jì)工作如虎添翼,同時(shí)也對(duì)投資統(tǒng)計(jì)理念、數(shù)據(jù)來(lái)源和數(shù)據(jù)生產(chǎn)方式提出全新挑戰(zhàn),繼續(xù)尋求有效的解決辦法,更要廣泛深入與國(guó)際、國(guó)內(nèi)科研機(jī)構(gòu)合作交流,不斷創(chuàng)新探索,有助于繁榮投資統(tǒng)計(jì)科學(xué),傳播先進(jìn)投資統(tǒng)計(jì)理念和方法,提升投資統(tǒng)計(jì)能力和水平。

大數(shù)據(jù)處理論文:對(duì)大數(shù)據(jù)處理技術(shù)的分析研究

摘要:隨著信息化技術(shù)的不斷發(fā)展,大數(shù)據(jù)處理技術(shù)給人們的生活和工作帶來(lái)了很多改變,要充分發(fā)揮大數(shù)據(jù)處理技術(shù)的作用,就要求深入、全面研究大數(shù)據(jù)處理技術(shù),摸索出大數(shù)據(jù)處理技術(shù)的改進(jìn)與完善對(duì)策?;诖?,本文首先分析大數(shù)據(jù)的特征,然后探討大數(shù)據(jù)處理技術(shù)的Hadoop架構(gòu)和Storm架構(gòu),并對(duì)比分析兩種架構(gòu)的優(yōu)缺點(diǎn)。

關(guān)鍵詞:大數(shù)據(jù)處理技術(shù) Hadoop架構(gòu) Storm架構(gòu)

大數(shù)據(jù)時(shí)代的超大數(shù)據(jù)體量以及占據(jù)一定比重的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存在,就決定了傳統(tǒng)數(shù)據(jù)庫(kù)管理難以滿(mǎn)足需求。大數(shù)據(jù)技術(shù)將會(huì)成為IT領(lǐng)域的新一代技術(shù)和架構(gòu),會(huì)幫助人們存儲(chǔ)并管理好大數(shù)據(jù),從復(fù)雜、龐大的數(shù)據(jù)里篩選出有價(jià)值的數(shù)據(jù),加之各種技術(shù)以及產(chǎn)品的出現(xiàn),很可能促使IT行業(yè)步入新的黃金時(shí)代。因此,分析研究大數(shù)據(jù)處理技術(shù)極具現(xiàn)實(shí)意義。

1 大數(shù)據(jù)特征

大數(shù)據(jù)具有以下四個(gè)特征:一是數(shù)據(jù)量龐大。大數(shù)據(jù)計(jì)算要存儲(chǔ)以及處理的數(shù)據(jù)量是十分龐大的,而且這些數(shù)據(jù)都處于不斷變化、增長(zhǎng)以及更新的狀態(tài),所以數(shù)據(jù)量就會(huì)越來(lái)越龐大。這就要求承擔(dān)處理數(shù)據(jù)任務(wù)的硬件設(shè)備必須具備很大的存儲(chǔ)能力和良好的處理技能。二是數(shù)據(jù)多樣化。在大數(shù)據(jù)時(shí)代需要處理的不單單是各種結(jié)構(gòu)化數(shù)據(jù),還有圖片、文字、聲音等非結(jié)構(gòu)化數(shù)據(jù),要識(shí)別并處理這些非結(jié)構(gòu)化數(shù)據(jù)要耗費(fèi)很大力量,而且識(shí)別度也需要進(jìn)一步提升。三是數(shù)據(jù)快速型。大數(shù)據(jù)處理技術(shù)的目就是要能處理變化迅速的數(shù)據(jù),摸索出其變化規(guī)律為決策提供輔助作用,確保數(shù)據(jù)的時(shí)效性以及各項(xiàng)決策的有效性。四是數(shù)據(jù)準(zhǔn)確性。在處理數(shù)據(jù)的過(guò)程中必須要控制數(shù)據(jù)來(lái)源,確保數(shù)據(jù)準(zhǔn)確性,而且要結(jié)合現(xiàn)實(shí)所需不斷更新數(shù)據(jù)處理技術(shù),確保數(shù)據(jù)處理結(jié)果具備準(zhǔn)確性和有效性。

2 大數(shù)據(jù)處理技術(shù)

2.1 Hadoop 架構(gòu)

Hadoop架構(gòu)的核心構(gòu)成部分是HDFS,即Hadoop分布式文件系統(tǒng),全稱(chēng)Hadoop Distributed File Sytstem,以及Map Reduce分布式計(jì)算架構(gòu)。其中HDFS以Master/Slave體系結(jié)構(gòu)為基礎(chǔ),在集群里任命一個(gè)主節(jié)點(diǎn)擔(dān)任Name Node,主要負(fù)責(zé)管理文件系統(tǒng)元數(shù)據(jù),其余子節(jié)點(diǎn)擔(dān)任Datanode,主要負(fù)責(zé)保存具體的數(shù)據(jù)塊[1]。

Hadoop架構(gòu)的關(guān)鍵點(diǎn)就是借助大量PC構(gòu)成一個(gè)PC群以實(shí)現(xiàn)對(duì)數(shù)據(jù)的處理。在處理數(shù)據(jù)的時(shí)候,先分解數(shù)據(jù),然后結(jié)合分配的相應(yīng)電腦處理數(shù)據(jù),最后整合數(shù)據(jù)處理結(jié)果。通過(guò)Hadoop平臺(tái)實(shí)際操作發(fā)現(xiàn),在Hadoop平臺(tái)運(yùn)行的時(shí)候,系統(tǒng)初始化需要較長(zhǎng)的時(shí)間,如果是處理更新速度快的數(shù)據(jù)這是不容忽視的一個(gè)問(wèn)題。并且,在處理某些小數(shù)據(jù)的時(shí)候,系統(tǒng)初始化時(shí)間就更久,對(duì)數(shù)據(jù)處理準(zhǔn)確性的影響也就更大。所以,系統(tǒng)不適合處理較小數(shù)據(jù)?;贖adoop架構(gòu)對(duì)reduce任務(wù)進(jìn)行處理的時(shí)候,各種技術(shù)問(wèn)題就更加突出,在利用相應(yīng)技術(shù)把數(shù)據(jù)轉(zhuǎn)為存儲(chǔ)實(shí)施處理的時(shí)候,不僅數(shù)據(jù)處理速度慢,還會(huì)占用很多的帶寬。所以,Hadoop架構(gòu)在處理變化速度較快的非離線(xiàn)數(shù)據(jù)時(shí)還存在很多問(wèn)題。

2.2 Storm架構(gòu)

和Hadoop主從架構(gòu)相同,Storm架構(gòu)也是以Master/Slave體系結(jié)構(gòu)為基礎(chǔ),通過(guò)Nimbus與Supervisor兩種服務(wù)進(jìn)程實(shí)現(xiàn)分布式計(jì)算機(jī),其中Nimbus進(jìn)程在集群主節(jié)點(diǎn)運(yùn)行,主要負(fù)責(zé)分派與分發(fā)任務(wù),Supervisor進(jìn)程在集群從節(jié)點(diǎn)運(yùn)行,主要負(fù)責(zé)任務(wù)的具體執(zhí)行。Storm架構(gòu)利用Spout/Bolt編程模型通過(guò)流式方式處理消息。消息流是Storm架構(gòu)里對(duì)數(shù)據(jù)的基本抽象,一個(gè)消息流對(duì)應(yīng)一條輸入數(shù)據(jù)封裝,不斷輸進(jìn)的消息流通過(guò)分布式方式得到處理。Spout組件是消息的生產(chǎn)者,在Storm架構(gòu)里屬于數(shù)據(jù)輸入源頭,能從多種異構(gòu)數(shù)據(jù)源里獲得數(shù)據(jù),同時(shí)發(fā)射消息流。Bolt組件主要負(fù)責(zé)對(duì)Spout組件發(fā)射的信息流進(jìn)行接收,同時(shí)完成相應(yīng)的處理邏輯。如果業(yè)務(wù)邏輯比較復(fù)雜,就可串聯(lián)多個(gè)Bolt組件,并且在每個(gè)組件里都編寫(xiě)相應(yīng)的功能,進(jìn)而呈現(xiàn)出整體的處理邏輯。

2.3 架構(gòu)對(duì)比

就總體結(jié)構(gòu)而言,Hadoop和Storm是相似的,具體構(gòu)成部分對(duì)比如表1所示。

通過(guò)對(duì)比,Storm架構(gòu)具有以下優(yōu)點(diǎn):在Storm架構(gòu)實(shí)際運(yùn)行時(shí),系統(tǒng)不用每次都初始化,數(shù)據(jù)處理效率較高,在處理較小數(shù)據(jù)時(shí)這一優(yōu)勢(shì)更加顯著;Storm架構(gòu)的信息處理模式能確保數(shù)據(jù)的高效處理,更好地滿(mǎn)足人們對(duì)UI數(shù)據(jù)的需求;spout組件能讀取不同形式數(shù)據(jù)里的消息流,并把讀取的消息流傳遞給bolt組件進(jìn)行處理;結(jié)合處理業(yè)務(wù)量的大小以及業(yè)務(wù)難度的高低,Storm架構(gòu)能串聯(lián)多個(gè)bolt組件實(shí)現(xiàn)消息流的有效處理,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)處理的高效性與快速性。

3 結(jié)語(yǔ)

在互聯(lián)網(wǎng)發(fā)展迅速的今天,新業(yè)務(wù)對(duì)數(shù)據(jù)處理的要求不斷提升,當(dāng)傳統(tǒng)離線(xiàn)處理架構(gòu)不能滿(mǎn)足需求時(shí),就可以使用大數(shù)據(jù)處理技術(shù)架構(gòu)。但信息社會(huì)的最大特點(diǎn)就是瞬息萬(wàn)變,因此,對(duì)大數(shù)據(jù)處理技術(shù)我們也要不斷變革與創(chuàng)新,使大數(shù)據(jù)處理技術(shù)得到更好地完善,這樣才能更好地服務(wù)于社會(huì)、服務(wù)于人們。

大數(shù)據(jù)處理論文:智能交通中的大數(shù)據(jù)處理技術(shù)

摘 要:本文主要針對(duì)大數(shù)據(jù)的概念與特點(diǎn)、交通行業(yè)大數(shù)據(jù)發(fā)展現(xiàn)狀以及大數(shù)據(jù)在交通行業(yè)發(fā)展的淺見(jiàn)進(jìn)行簡(jiǎn)要分析。

關(guān)鍵詞:智能電網(wǎng);交通運(yùn)輸;大數(shù)據(jù)處理技術(shù)

一、大數(shù)據(jù)的概念與特點(diǎn)

顧名思義,大數(shù)據(jù)即一個(gè)體量特別大的數(shù)據(jù)集,大到無(wú)法使用傳統(tǒng)的數(shù)據(jù)處理工具、技術(shù)對(duì)其進(jìn)行分析、加工、操作。而大數(shù)據(jù)技術(shù),就是對(duì)大數(shù)據(jù)的處理技術(shù)的集合??梢哉f(shuō),大數(shù)據(jù)興起并非科技的突變,而是隨著人類(lèi)社會(huì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的急速增長(zhǎng)應(yīng)對(duì)而生的技術(shù)進(jìn)步。大數(shù)據(jù)的特色之一是體量成級(jí)數(shù)增長(zhǎng)。由于互聯(lián)網(wǎng)技術(shù)逐漸滲透人類(lèi)生活的方方面面、以“物聯(lián)網(wǎng)”為方向的信息采集技術(shù)的逐漸普及以及包括“4G”在內(nèi)的網(wǎng)絡(luò)傳輸技術(shù)的迅猛發(fā)展,在全社會(huì),包括交通運(yùn)輸行業(yè),人類(lèi)所擁有的數(shù)據(jù)量及其增速已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)信息技術(shù)預(yù)設(shè)的處理極限。限于科技發(fā)展的規(guī)律與速度,或者是人類(lèi)智能體量的局限,信息技術(shù)專(zhuān)家們提出以“云計(jì)算”概念為核心的的一系列數(shù)據(jù)分布式處理技術(shù)作為階段性替代方案,以適應(yīng)現(xiàn)階段的信息爆炸。

大數(shù)據(jù)技術(shù)與傳統(tǒng)信息處理技術(shù)有如下不同:使用分布式技術(shù)實(shí)現(xiàn)海量數(shù)據(jù)的處理?,F(xiàn)代社會(huì),“人類(lèi)存儲(chǔ)信息量的增長(zhǎng)速度比世界經(jīng)濟(jì)的增長(zhǎng)速度快4倍”,“大約每三年就能增長(zhǎng)一倍”。為了解決這一問(wèn)題,分布式技術(shù)成為信息處理的必然選擇。早期的信息處理技術(shù)通過(guò)固定的數(shù)據(jù)存儲(chǔ)設(shè)備、運(yùn)算服務(wù)器實(shí)現(xiàn)信息化;隨著數(shù)據(jù)量以及運(yùn)算需求的增加,發(fā)展出部署集中的集群的信息存儲(chǔ)與處理方式,一定程度上擴(kuò)展了使用范圍;當(dāng)數(shù)據(jù)量進(jìn)一步增長(zhǎng),受益于網(wǎng)絡(luò)通信技術(shù)的升級(jí)換代和互聯(lián)網(wǎng)的飛速發(fā)展,“云計(jì)算”技術(shù)相應(yīng)而生,通過(guò)將分散于各地的存儲(chǔ)、處理設(shè)備,實(shí)現(xiàn)可與巨型計(jì)算機(jī)媲美的海量數(shù)據(jù)處理能力。

大數(shù)據(jù)技術(shù)善于由結(jié)果推斷模型。不同于傳統(tǒng)的智能化技術(shù),需要完善地建立數(shù)據(jù)模型,通過(guò)條件,推導(dǎo)結(jié)果。大數(shù)據(jù)技術(shù)著眼結(jié)果于海量數(shù)據(jù),通過(guò)大量的事實(shí)總結(jié)規(guī)律,形成知識(shí)。傳統(tǒng)的建模實(shí)現(xiàn)智能化技術(shù),一旦結(jié)果出現(xiàn)異常,就需要反溯,修訂模型,重新進(jìn)行實(shí)踐。而大數(shù)據(jù)技術(shù),則只通過(guò)對(duì)相關(guān)性的結(jié)果進(jìn)行比較,便能總結(jié)歸納相關(guān)原理。大數(shù)據(jù)技術(shù)著眼于動(dòng)態(tài),而不是靜態(tài)。傳統(tǒng)信息處理技術(shù)著眼于當(dāng)前數(shù)據(jù)的使用,業(yè)務(wù)辦理、行業(yè)監(jiān)控,數(shù)據(jù)一旦使用,則降低或失去其實(shí)用價(jià)值,歷史數(shù)據(jù)需要人工的比對(duì)、判斷。大數(shù)據(jù)技術(shù)著眼于一段時(shí)間或全部時(shí)間上的動(dòng)態(tài)發(fā)展數(shù)據(jù),著眼于動(dòng)態(tài)數(shù)據(jù)之間的聯(lián)系與發(fā)展規(guī)律,大數(shù)據(jù)技術(shù)長(zhǎng)于整體的運(yùn)算效率,而非個(gè)體的精確追蹤。由于數(shù)據(jù)處理能力的有限性,傳統(tǒng)的信息化技術(shù)對(duì)于有限的樣本進(jìn)行分析與統(tǒng)計(jì),更關(guān)注于奇異數(shù)值并加以分析,著力于對(duì)個(gè)體樣本的精確追蹤。而當(dāng)大數(shù)據(jù)處理成為可能,數(shù)據(jù)的總體成為一個(gè)獨(dú)立樣本,一些奇異值由于發(fā)生概率太小,完全可以忽略,數(shù)據(jù)整體的運(yùn)算效率成為重要指標(biāo)。

如同哲學(xué)上的量變引起質(zhì)變,大數(shù)據(jù)技術(shù)正是隨著信息化數(shù)據(jù)的不斷增長(zhǎng)而產(chǎn)生并從根本上改變?nèi)藢?duì)于數(shù)據(jù)存儲(chǔ)、應(yīng)用的理解與認(rèn)識(shí)。同時(shí)隨著數(shù)年的演進(jìn),大數(shù)據(jù)技術(shù)也正在逐步走向成熟。

2012年7月,美國(guó)知名IT咨詢(xún)顧問(wèn)公司Gartner《2012年大數(shù)據(jù)技術(shù)成熟度曲線(xiàn)》,對(duì)大數(shù)據(jù)涉及的46種技術(shù)進(jìn)行逐一分析。根據(jù)當(dāng)時(shí)報(bào)告內(nèi)容,對(duì)比當(dāng)前發(fā)展現(xiàn)狀,我們可以看到大數(shù)據(jù)技術(shù)的成熟度已經(jīng)達(dá)到一定的高度。2012年報(bào)告中提到的,將在2年內(nèi)實(shí)現(xiàn)主流應(yīng)用的列式存儲(chǔ)數(shù)據(jù)庫(kù)、預(yù)測(cè)分析、社交媒體監(jiān)測(cè)等技術(shù),已經(jīng)成為近些年IT行業(yè)普遍實(shí)用的技術(shù);報(bào)告中預(yù)測(cè)的2~5年內(nèi)成為主流的云計(jì)算、內(nèi)存數(shù)據(jù)庫(kù)、社交分析、文本分析等技術(shù),當(dāng)前在google、百度、facebook、阿里巴巴、新浪微博等處于IT技術(shù)前沿的互聯(lián)網(wǎng)公司,已經(jīng)分別得到廣泛應(yīng)用;而報(bào)高中認(rèn)為5~10年才會(huì)得到普及的內(nèi)容分析、混合云計(jì)算、社交網(wǎng)絡(luò)分析、地理信息系統(tǒng)等技術(shù),以及認(rèn)為10年以上才會(huì)普遍應(yīng)用的物聯(lián)網(wǎng)技術(shù)也已經(jīng)在不同程度上得到應(yīng)用和推廣。

二、交通行業(yè)大數(shù)據(jù)發(fā)展現(xiàn)狀

交通行業(yè)是天然的大數(shù)據(jù)應(yīng)用行業(yè)。傳統(tǒng)的靜態(tài)數(shù)據(jù)并非大數(shù)據(jù),如路網(wǎng)的基礎(chǔ)信息,戶(hù)、車(chē)、人基本信息,這些數(shù)據(jù)隨著產(chǎn)業(yè)增長(zhǎng)而逐步增長(zhǎng),一直在傳統(tǒng)信息處理技術(shù)預(yù)設(shè)的限度之內(nèi)。但隨著互聯(lián)網(wǎng)與產(chǎn)業(yè)結(jié)合的不斷升級(jí)、物聯(lián)網(wǎng)―――車(chē)聯(lián)網(wǎng)的快速興起,3G、4G無(wú)線(xiàn)網(wǎng)絡(luò)的普及,行業(yè)數(shù)據(jù)量已經(jīng)開(kāi)始成級(jí)數(shù)增長(zhǎng)。目前交通運(yùn)輸行業(yè)大數(shù)據(jù)來(lái)源主要在3個(gè)方面:

基于互聯(lián)網(wǎng)的公眾出行服務(wù)數(shù)據(jù),如大運(yùn)輸聯(lián)網(wǎng)、網(wǎng)上售票、城市公交刷卡、公眾在線(xiàn)交通路線(xiàn)查詢(xún)、網(wǎng)購(gòu)物流數(shù)據(jù)等。

如某公交一卡通截至2013年已經(jīng)發(fā)卡超過(guò)3200萬(wàn)張,日刷卡量超過(guò)1000萬(wàn)人次;百度地圖手機(jī)應(yīng)用日訪(fǎng)問(wèn)量1億次,PC上的搜索量50億次中20%訪(fǎng)問(wèn)和出行相關(guān),每天約有1000萬(wàn)人使用百度,其中70%和公交相關(guān)。

基于行業(yè)運(yùn)營(yíng)企業(yè)生產(chǎn)監(jiān)管數(shù)據(jù),如貨運(yùn)源頭稱(chēng)重?cái)?shù)據(jù),貨運(yùn)、危險(xiǎn)品運(yùn)輸電子運(yùn)單數(shù)據(jù),客運(yùn)進(jìn)出站報(bào)班及例檢數(shù)據(jù),營(yíng)運(yùn)車(chē)輛維修檢測(cè)數(shù)據(jù),郵政包裹數(shù)據(jù)等。

如國(guó)家郵政局的數(shù)據(jù)顯示,2013年中國(guó)快遞業(yè)務(wù)量完成92億件,居世界第二,僅次于美國(guó)。業(yè)務(wù)量同比增長(zhǎng)60%,最高日處理量已突破6500萬(wàn)件。

基于物聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)的終端設(shè)備傳感器采集數(shù)據(jù),包括車(chē)輛相關(guān)動(dòng)態(tài)數(shù)據(jù):GPS位置信息、車(chē)輛能耗、車(chē)輛技術(shù)狀況信息,路網(wǎng)監(jiān)控信息:卡口視頻監(jiān)測(cè)、基于傳感器的路況監(jiān)測(cè)、路上動(dòng)態(tài)稱(chēng)重設(shè)備、橋梁監(jiān)測(cè)GPS等。

車(chē)輛位置信息采集僅舉一市為例,2013年10月,杭州市符合交通運(yùn)輸部“兩客一?!倍x且經(jīng)營(yíng)范圍、營(yíng)運(yùn)狀態(tài)、營(yíng)運(yùn)證有效期等狀態(tài)正常的車(chē)輛上線(xiàn)數(shù)為6329輛。車(chē)輛位置信息假設(shè)每5s傳輸一次,則每日位置信息接近1.1億條。北京市6.67萬(wàn)輛的出租車(chē)GPS數(shù)據(jù)實(shí)時(shí)接入,日均數(shù)據(jù)量可以達(dá)到6G。

車(chē)流量監(jiān)控?cái)?shù)據(jù),筆者曾參與河南省新鄉(xiāng)市動(dòng)態(tài)稱(chēng)重系統(tǒng)建設(shè)項(xiàng)目,僅一個(gè)信息采集點(diǎn),2013年11月平均每天采集14000輛車(chē)左右,包括結(jié)構(gòu)化數(shù)據(jù)與照片信息,每天產(chǎn)生的數(shù)據(jù)量是1791MB。

三、大數(shù)據(jù)實(shí)時(shí)處理技術(shù)

隨著大數(shù)據(jù)時(shí)代的來(lái)臨,各種應(yīng)對(duì)大數(shù)據(jù)處理的解決方案應(yīng)時(shí)代而生,7 年前,雅虎創(chuàng)建了一個(gè)用于管理、存儲(chǔ)和分析大量數(shù)據(jù)的分布式計(jì)算平臺(tái) Hadoop,它作為一個(gè)批處理系統(tǒng)具有吞吐量大、自動(dòng)容錯(cuò)等優(yōu)點(diǎn),目前在海量數(shù)據(jù)處理方面已得到了廣泛應(yīng)用。但是,Hadoop 本身存在的缺點(diǎn)是不能有效適應(yīng)實(shí)時(shí)數(shù)據(jù)處理需求,為了克服該局限,一些實(shí)時(shí)處理平臺(tái)如 S4, Storm 等隨之產(chǎn)生了,他們?cè)谔幚聿婚g斷的流式數(shù)據(jù)方面有較大的優(yōu)勢(shì),下面將介紹和分析目前比較流行的大數(shù)據(jù)處理平臺(tái)。

1、Hadoop

Hadoop 是一個(gè)由 Apache 基金會(huì)開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu) [10] ,允許用戶(hù)在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式應(yīng)用程序。Hadoop 主要由分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)和 MapReduce 計(jì)算框架兩部分組成。

HDFS 結(jié)構(gòu)如圖 1 所示,三類(lèi)節(jié)點(diǎn) Namenode,Datanode,Client 之間的通信都是建立在 TCP/IP 的基礎(chǔ)之上的。Client 執(zhí)行讀或?qū)懖僮鲿r(shí)首先在本機(jī)臨時(shí)文件夾中緩存數(shù)據(jù),當(dāng)緩沖數(shù)據(jù)塊達(dá)到設(shè)定的Block 值(默認(rèn) 64M) ,Client 通知 Namenode,Namenode 響應(yīng) Client 的 RPC 請(qǐng)求,將新文件名插入到分布式文件系統(tǒng)結(jié)構(gòu)層次中,并在 Datanode 中找到存放該數(shù)據(jù)的 Block,同時(shí)將該 Datanode 及對(duì)應(yīng)的數(shù)據(jù)塊信息告訴 Client,Client 便將數(shù)據(jù)塊寫(xiě)入指定的數(shù)據(jù)節(jié)點(diǎn)。HDFS 有著高容錯(cuò)性的特點(diǎn),可以部署在低廉的(low-cost)硬件上,并且能提供高傳輸率(high throughput)來(lái)訪(fǎng)問(wèn)應(yīng)用程序的數(shù)據(jù)。

圖 1 HDFS 結(jié)構(gòu)圖

MapReduce 是一種并行處理模型,主要有兩個(gè)處理步驟:map 和 reduce 。

Map 端處理流程如下:計(jì)算框架先將要處理的數(shù)據(jù)進(jìn)行分片,方便 map 任務(wù)處理。分片完畢后,多臺(tái)機(jī)器就可以同時(shí)進(jìn)行 map 工作。map 對(duì)每條記錄的處理結(jié)果以的形式輸出中間結(jié)果,map 輸出的結(jié)果會(huì)暫且放在一個(gè)環(huán)形內(nèi)存緩沖區(qū)中,當(dāng)該緩沖區(qū)快要溢出時(shí),會(huì)在本地文件系統(tǒng)中創(chuàng)建一個(gè)溢出文件,將該緩沖區(qū)中的數(shù)據(jù)寫(xiě)入這個(gè)文件。寫(xiě)入磁盤(pán)之前,線(xiàn)程根據(jù) reduce 任務(wù)個(gè)數(shù)生成相同數(shù)量的分區(qū)。當(dāng) map 任務(wù)輸出記錄時(shí),會(huì)產(chǎn)生溢出文件,這時(shí)需將這些文件合并。文件不斷排序歸并后,最后生成一個(gè)已分區(qū)且有序的數(shù)據(jù)文件。最后將相應(yīng)分區(qū)中的數(shù)據(jù)拷貝給相應(yīng)的 reduce 任務(wù)。

Reduce 端處理流程如下:Reduce 會(huì)接收到不同 map 任務(wù)傳來(lái)的數(shù)據(jù),如果 reduce 端接受的數(shù)據(jù)量相當(dāng)小,則直接存儲(chǔ)在內(nèi)存中,如果數(shù)據(jù)量超過(guò)了該緩沖區(qū)大小的一定比例,則對(duì)數(shù)據(jù)合并后溢寫(xiě)到磁盤(pán)中。隨著溢寫(xiě)文件的增多,后臺(tái)線(xiàn)程會(huì)將它們合并成一個(gè)更大的有序的文件,然后交給 reduce 函數(shù)處理,reduce 函數(shù)安裝用戶(hù)定義的業(yè)務(wù)邏輯對(duì)數(shù)據(jù)進(jìn)行處理并輸出結(jié)果。

Hadoop 在本質(zhì)上是一個(gè)批處理系統(tǒng)。數(shù)據(jù)被引入 Hadoop 文件系統(tǒng) (HDFS) 并分發(fā)到各個(gè)節(jié)點(diǎn)進(jìn)行處理。最后將處理結(jié)果匯總,生成的結(jié)果文件存放在 HDFS 上。

2、Storm

Storm 是 Twitter 開(kāi)源的分布式實(shí)時(shí)計(jì)算系統(tǒng) [8] ,Storm 具有高容錯(cuò)性,水平擴(kuò)展性好,快速,可靠處理消息的優(yōu)點(diǎn)。Storm 的核心概念是“流(stream)”,流是一個(gè)無(wú)限的元組序列。Strom 為流轉(zhuǎn)換提供兩個(gè)基本組件:“Spouts”和“Bolts”。Spout 是一個(gè)輸入流組件,Spout 將數(shù)據(jù)傳遞給另一個(gè)組件(Bolt) 。Bolt 執(zhí)行任務(wù)并創(chuàng)建新的流作為下一個(gè) Bolt 的輸入流。 整個(gè)過(guò)程就是一個(gè) “topology”。

Strom 集群有主要有兩類(lèi)節(jié)點(diǎn):主節(jié)點(diǎn)和工作節(jié)點(diǎn)。主節(jié)點(diǎn)上運(yùn)行一個(gè)叫做“Nimbus”的守護(hù)進(jìn)程,它負(fù)責(zé)在集群分發(fā)代碼、 分配任務(wù)和故障監(jiān)測(cè)。 而每個(gè)工作節(jié)點(diǎn)運(yùn)行一個(gè)叫做“Supervisor”的守護(hù)進(jìn)程。Supervisor 監(jiān)聽(tīng)分配給它任務(wù)的機(jī)器,根據(jù) Nimbus 的委派在必要時(shí)啟動(dòng)和關(guān)閉工作進(jìn)程,每個(gè)工作進(jìn)程執(zhí)行 topology 的一個(gè)子集,一個(gè) topology 由很多運(yùn)行在機(jī)器上的工作進(jìn)程組成。

Nimbus 和 Supervisors 之間所有的協(xié)調(diào)工作是通過(guò)一個(gè) Zookeeper 集群,Nimbus 的守護(hù)進(jìn)程和Supervisors 守護(hù)進(jìn)程的狀態(tài)維持在 Zookeeper 中或保存在本地磁盤(pán)上。這意味著 Nimbus 或 Supervisors進(jìn)程殺掉,而不需要做備份,這種設(shè)計(jì)結(jié)構(gòu)使得 Storm 集群具有很高的穩(wěn)定性。

3、S4

S4(Simple Scalable Streaming System)是 Yahoo 的一個(gè)開(kāi)源流計(jì)算平臺(tái),它是一個(gè)通用的、分布式的、可擴(kuò)展性良好、具有分區(qū)容錯(cuò)能力、支持插件的分布式流計(jì)算平臺(tái)。S4 將流的處理分為多個(gè)流事件 Process Element(PE) ,每個(gè) PE 唯一處理一種流事件。S4 將用戶(hù)定制的 PE 放在名為 Processing Element Container(PEC)的容器中。PEC 加上通信處理模塊就形成了邏輯主機(jī) Processing Node(PN) 。PN 負(fù)責(zé)監(jiān)聽(tīng)事件,PEC 接收源 event,event 經(jīng)一系列 PE 處理后,在通信層 Communication Layer的協(xié)助下分發(fā)事件或輸出事件處理結(jié)果。在分發(fā)事件的過(guò)程中,S4 會(huì)通過(guò) hash 函數(shù),將事件路由到目標(biāo) PN 上,這個(gè) hash 函數(shù)作用于事件的所有已知屬性值上。通信層有“集群管理”,“故障恢復(fù)到備用節(jié)點(diǎn)”,“邏輯節(jié)點(diǎn)到物理節(jié)點(diǎn)映射”的作用。同時(shí)通信層還使用一個(gè)插件式的架構(gòu)來(lái)選擇網(wǎng)絡(luò)協(xié)議,使用 zookeeper 在 S4 集群節(jié)點(diǎn)之間做一致性協(xié)作。

四、大數(shù)據(jù)在交通行業(yè)拓展的困境

1、行業(yè)信息化整體水平較低、數(shù)據(jù)的采集與整合困難

目前交通運(yùn)輸行業(yè)信息化、智能化發(fā)展非常不均衡,廣大西部地區(qū)缺少信息化基礎(chǔ),信息系統(tǒng)應(yīng)用效果差,數(shù)據(jù)采集困難。信息化建設(shè)較早的省份,由于信息化建設(shè)缺乏統(tǒng)一規(guī)劃與頂層設(shè)計(jì),系統(tǒng)建設(shè)、使用單位均不相同,交通運(yùn)輸主管機(jī)構(gòu)與各二級(jí)單位、信息化主管部門(mén)與業(yè)務(wù)部門(mén)分頭建設(shè)業(yè)務(wù)系統(tǒng),系統(tǒng)技術(shù)架構(gòu)差距大,基層單位上級(jí)機(jī)構(gòu)多頭管理,造成數(shù)據(jù)來(lái)源不統(tǒng)一,信息孤島現(xiàn)象嚴(yán)重。各省信息化建設(shè)與應(yīng)用水平的差距同樣造成部級(jí)數(shù)據(jù)整合困難,無(wú)法發(fā)揮實(shí)際的應(yīng)用價(jià)值。

2、缺乏工作規(guī)范與要求,數(shù)據(jù)應(yīng)用機(jī)制困難

交通運(yùn)輸管理機(jī)構(gòu)人員信息化水平差距較大,系統(tǒng)用戶(hù)缺乏應(yīng)有的信息化思想,傳統(tǒng)的辦公方式與習(xí)慣難以改變。政府管理機(jī)構(gòu)沒(méi)有針對(duì)信息化應(yīng)用與數(shù)據(jù)的采集應(yīng)用形成上下聯(lián)動(dòng),獎(jiǎng)懲結(jié)合的管理機(jī)制。信息化應(yīng)用游離于業(yè)務(wù)辦理之外,信息管理部門(mén)與業(yè)務(wù)部門(mén)各管一攤,無(wú)法真正將實(shí)際業(yè)務(wù)實(shí)現(xiàn)在線(xiàn)辦理,真正提高辦公效率創(chuàng)造信息價(jià)值。行業(yè)主管部門(mén)缺乏對(duì)行業(yè)企業(yè)生產(chǎn)監(jiān)管數(shù)據(jù)進(jìn)行采集的法律法規(guī),也沒(méi)有面向企業(yè)提供數(shù)據(jù)服務(wù),既沒(méi)有通過(guò)信息化手段對(duì)行業(yè)生產(chǎn)狀況進(jìn)行全面掌握,也無(wú)法通過(guò)信息服務(wù)促進(jìn)產(chǎn)業(yè)升級(jí)和變革。

3、行業(yè)從業(yè)人員信息化意識(shí)不強(qiáng),大數(shù)據(jù)應(yīng)用思路缺乏

交通運(yùn)輸行業(yè)主管部門(mén)領(lǐng)導(dǎo)對(duì)數(shù)據(jù)指標(biāo)價(jià)值與數(shù)據(jù)應(yīng)用方式缺乏認(rèn)識(shí),一些信息化規(guī)劃、項(xiàng)目規(guī)劃不接地氣,系統(tǒng)重建設(shè)輕實(shí)用,實(shí)際應(yīng)用價(jià)值不高,數(shù)據(jù)采集需求無(wú)法得到貫徹。如交通運(yùn)輸部部省聯(lián)網(wǎng)項(xiàng)目,采集了全國(guó)絕大多數(shù)省份的戶(hù)車(chē)人基礎(chǔ)數(shù)據(jù),但是既沒(méi)有制定政策法規(guī),保證數(shù)據(jù)的更新與同步,也沒(méi)有進(jìn)行數(shù)據(jù)指標(biāo)的價(jià)值分析,實(shí)現(xiàn)真正有價(jià)值的應(yīng)用,造成后期維護(hù)困難,數(shù)據(jù)逐漸陳舊,實(shí)用價(jià)值迅速流失。此外,全國(guó)各省、各地交通運(yùn)輸行業(yè)信息化發(fā)展不均衡,部分地區(qū)信息化基礎(chǔ)設(shè)施較為落后,整體信息化水平有待加強(qiáng)。

五、大數(shù)據(jù)在交通行業(yè)發(fā)展的淺見(jiàn)

1、積極立法,確立數(shù)據(jù)采集與應(yīng)用的重要性

通過(guò)研究并制定政策法規(guī),面向部、省、市、縣各級(jí)交通主管部門(mén)及相關(guān)企業(yè),將數(shù)據(jù)采集、整合的責(zé)任與義務(wù)進(jìn)行明確規(guī)定,明確哪些信息化工作該哪級(jí)機(jī)構(gòu)做,該哪些部門(mén)做,同時(shí)明確科技信息化主管部門(mén)在信息化建設(shè)中的地位并給予相應(yīng)的監(jiān)察、評(píng)定的權(quán)利,對(duì)行業(yè)企業(yè)明確信息化建設(shè)與數(shù)據(jù)采集方面的社會(huì)責(zé)任。另外,對(duì)交通運(yùn)輸行業(yè)數(shù)據(jù)進(jìn)行全面的梳理,數(shù)據(jù)保密性與應(yīng)用價(jià)值進(jìn)行分級(jí),對(duì)數(shù)據(jù)的采集與應(yīng)用進(jìn)行立法,明確不同級(jí)別的管理機(jī)構(gòu)可以對(duì)哪些數(shù)據(jù)自行進(jìn)行分析和利用,那些數(shù)據(jù)可以開(kāi)放給社會(huì)或企業(yè)使用,真正實(shí)現(xiàn)大數(shù)據(jù)的應(yīng)用價(jià)值。

2、加快體制改革,設(shè)立數(shù)據(jù)采集與信息化和單位考評(píng)相結(jié)合的制度

結(jié)合國(guó)家行政體制改革,進(jìn)一步改變交通運(yùn)輸行業(yè)信息化項(xiàng)目建設(shè)傳統(tǒng)的上級(jí)規(guī)劃、立項(xiàng)、投資、監(jiān)管、評(píng)審一體化管理模式,實(shí)現(xiàn)規(guī)劃與立項(xiàng)、資金使用與審計(jì)、項(xiàng)目監(jiān)管與后評(píng)審的權(quán)責(zé)分離,讓信息化項(xiàng)目建設(shè)實(shí)際落地,上級(jí)單位更注重資金使用的控制與系統(tǒng)應(yīng)用效果的后評(píng)審。盡快制定政策,將指定數(shù)據(jù)指標(biāo)的采集和上報(bào)納入行業(yè)管理規(guī)定;通過(guò)體制改革,設(shè)立數(shù)據(jù)上報(bào)與信息化應(yīng)用水平考核制度并實(shí)現(xiàn)常態(tài)化,同時(shí)實(shí)現(xiàn)數(shù)據(jù)上報(bào)制度與行業(yè)統(tǒng)計(jì)工作的全面結(jié)合,改變傳統(tǒng)的統(tǒng)計(jì)人工上報(bào)模式,用信息化數(shù)據(jù)支撐行業(yè)統(tǒng)計(jì)。考核制度包括3個(gè)層面:管理機(jī)構(gòu)對(duì)企業(yè)考核;單位領(lǐng)導(dǎo)、信息化主管部門(mén)對(duì)業(yè)務(wù)部門(mén)的考核;上級(jí)主管部門(mén)對(duì)下級(jí)單位的考核。

3、加快信息化發(fā)展步伐,通過(guò)示范指導(dǎo),引導(dǎo)大數(shù)據(jù)技術(shù)的引入與發(fā)展

在交通運(yùn)輸行業(yè)信息化規(guī)劃與設(shè)計(jì)中,廣泛引入云計(jì)算等大數(shù)據(jù)處理技術(shù),選擇試點(diǎn)單位,建設(shè)應(yīng)用示范項(xiàng)目,總結(jié)大數(shù)據(jù)在交通運(yùn)輸行業(yè)的應(yīng)用方式方法與使用價(jià)值,對(duì)具有適用性的項(xiàng)目進(jìn)行全國(guó)推廣,引導(dǎo)大數(shù)據(jù)技術(shù)的不斷發(fā)展。

結(jié)束語(yǔ)

大數(shù)據(jù)時(shí)代隨著全國(guó)交通運(yùn)輸行業(yè)各機(jī)構(gòu)、各部門(mén)、各企業(yè)數(shù)據(jù)量的迅速增長(zhǎng),以及IT企業(yè)交通運(yùn)輸相關(guān)數(shù)據(jù)的迅速增長(zhǎng),逐漸在我們面前顯現(xiàn),發(fā)展大數(shù)據(jù)技術(shù),積極應(yīng)對(duì)、抓住下一次信息化變革、產(chǎn)業(yè)浪潮的機(jī)遇,是實(shí)現(xiàn)交通運(yùn)輸行業(yè)產(chǎn)業(yè)變革、結(jié)構(gòu)優(yōu)化、服務(wù)社會(huì)與公眾能力進(jìn)一步提升的關(guān)鍵。

大數(shù)據(jù)處理論文:用大數(shù)據(jù)武裝”云”:基于云計(jì)算的大數(shù)據(jù)處理技術(shù)

【摘要】 隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,我們已經(jīng)迎來(lái)了數(shù)據(jù)大爆炸的時(shí)代,數(shù)據(jù)的快速增長(zhǎng)帶來(lái)了數(shù)據(jù)存儲(chǔ)、處理、分析的巨大壓力,而大數(shù)據(jù)技術(shù)(Big data)的引入,不但滿(mǎn)足了系統(tǒng)功能和性能的要求,帶來(lái)良好的可擴(kuò)展性,降低了IT部署的成本,還拓展了數(shù)據(jù)智能分析的應(yīng)用領(lǐng)域。同時(shí),大數(shù)據(jù)分析與云計(jì)算的發(fā)展密切相關(guān),云計(jì)算是大數(shù)據(jù)處理的基礎(chǔ),而大數(shù)據(jù)技術(shù)是云計(jì)算的延伸,云計(jì)算的分布式存儲(chǔ)和計(jì)算架構(gòu)為大數(shù)據(jù)的快速處理和智能分析提供了一種合適的解決方案。本文將探討建立在云計(jì)算基礎(chǔ)上的大數(shù)據(jù)處理技術(shù),包括分布式計(jì)算框架、分布式文件系統(tǒng)、大數(shù)據(jù)管理技術(shù)、實(shí)時(shí)流數(shù)據(jù)處理、機(jī)器學(xué)習(xí)以及可視化技術(shù)等。

【關(guān)鍵詞】 云計(jì)算 大數(shù)據(jù) MapReduce Hadoop

一、大數(shù)據(jù)

1.1什么是大數(shù)據(jù)

大數(shù)據(jù)概念可以從四個(gè)維度去解,即三個(gè)V和一個(gè)C。三個(gè)V分別指的是數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類(lèi)多(Variety)和數(shù)據(jù)增長(zhǎng)速度快(Velocity),最后一個(gè)C指的是處理、升級(jí)或利用大數(shù)據(jù)的分析手段比處理結(jié)構(gòu)化數(shù)據(jù)要復(fù)雜的多(Complexity)。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像Map-Reduce一樣的并行計(jì)算框架將復(fù)雜的計(jì)算任務(wù)分配到“云”中成百上千的節(jié)點(diǎn)。

1.2大數(shù)據(jù)與云計(jì)算

大數(shù)據(jù)本身就是一個(gè)問(wèn)題集,云計(jì)算技術(shù)是目前解決大數(shù)據(jù)問(wèn)題集最重要最有效的手段。云計(jì)算提供了基礎(chǔ)的架構(gòu)平臺(tái),大數(shù)據(jù)應(yīng)用在這個(gè)平臺(tái)上運(yùn)行。目前公認(rèn)為分析大數(shù)據(jù)集最有效手段的分布式處理技術(shù),也是云計(jì)算思想的一種具體體現(xiàn)。

云計(jì)算是分布式處理、并行處理和網(wǎng)格計(jì)算的發(fā)展,或者說(shuō)是這些計(jì)算機(jī)科學(xué)概念的商業(yè)實(shí)現(xiàn)。云計(jì)算將網(wǎng)絡(luò)上分布的計(jì)算、存儲(chǔ)、服務(wù)構(gòu)件、網(wǎng)絡(luò)軟件等資源集中起來(lái),基于資源虛擬化的方式,為用戶(hù)提供方便快捷的服務(wù), 實(shí)現(xiàn)了資源和計(jì)算的分布式共享和并行處理,能夠很好地應(yīng)對(duì)當(dāng)前互聯(lián)網(wǎng)數(shù)據(jù)量高速增長(zhǎng)的勢(shì)頭。

1.3大數(shù)據(jù)與Hadoop

Hadoop是一個(gè)Apache的開(kāi)源項(xiàng)目,主要面向存儲(chǔ)和處理成百上千TB直至PB級(jí)別的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的大數(shù)據(jù)。Hadoop提供的Map-Reduce能將大數(shù)據(jù)問(wèn)題分解成多個(gè)子問(wèn)題,并將它們分配到成百上千個(gè)處理節(jié)點(diǎn)之上,再將結(jié)果匯集到一個(gè)小數(shù)據(jù)集當(dāng)中,從而更容易分析得出最后的結(jié)果。

Hadoop項(xiàng)目包括三部分,分別是Hadoop Distributed File System(HDFS)、Map Reduce編程模型,以及Hadoop Common。Hadoop具備低廉的硬件成本、開(kāi)源的軟件體系、較強(qiáng)的靈活性、允許用戶(hù)自己修改代碼等特點(diǎn),同時(shí)能支持海量數(shù)據(jù)的存儲(chǔ)和計(jì)算任務(wù)。這些特點(diǎn)讓Hadoop被公認(rèn)為是新一代的大數(shù)據(jù)處理平臺(tái)。 Hadoop同樣具備出色的大數(shù)據(jù)集處理能力,在獲取、存儲(chǔ)、管理和分析數(shù)據(jù)方面遠(yuǎn)遠(yuǎn)超越傳統(tǒng)的數(shù)據(jù)庫(kù)軟件工具。Hadoop經(jīng)常在構(gòu)建大數(shù)據(jù)解決方案時(shí)被用作基礎(chǔ)構(gòu)架軟件。

二、大數(shù)據(jù)技術(shù)綜述

大數(shù)據(jù)處理不僅僅是Hadoop,許多特定的數(shù)據(jù)應(yīng)用場(chǎng)景是需要實(shí)時(shí)分析和互動(dòng)反饋的,這時(shí)候就需要利用包括內(nèi)存檢索、流處理和實(shí)時(shí)計(jì)算等其他技術(shù)。而云計(jì)算的分布式存儲(chǔ)和計(jì)算架構(gòu)開(kāi)啟了大數(shù)據(jù)技術(shù)研究的大門(mén),打造健全的大數(shù)據(jù)生態(tài)環(huán)境,所有這些技術(shù)結(jié)合在一起,才是一個(gè)完整的大數(shù)據(jù)處理系統(tǒng)。

2.1分布式計(jì)算框架

MapReduce是Google開(kāi)發(fā)的一種簡(jiǎn)化的分布式編程模型和高效的任務(wù)調(diào)度模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算,使云計(jì)算環(huán)境下的編程變得十分簡(jiǎn)單。

MapReduce將數(shù)據(jù)處理任務(wù)抽象為一系列的Map(映射)和Reduce(化簡(jiǎn))操作對(duì)。Map主要完成數(shù)據(jù)的分解操作,Reduce主要完成數(shù)據(jù)的聚集操作.輸入輸出數(shù)據(jù)均以〈key,value〉格式存儲(chǔ).用戶(hù)在使用該編程模型時(shí),只需按照自己熟悉的語(yǔ)言實(shí)現(xiàn)Map函數(shù)和Reduce函數(shù)即可,MapReduce算法框架會(huì)自動(dòng)對(duì)任務(wù)進(jìn)行劃分以做到并行執(zhí)行。

Pregel是Google 提出的迭代處理計(jì)算框架,它具有高效、可擴(kuò)展和容錯(cuò)的特性,并隱藏了分布式相關(guān)的細(xì)節(jié),展現(xiàn)給人們的僅僅是一個(gè)表現(xiàn)力很強(qiáng)、很容易編程的大型圖算法處理的計(jì)算框架。Pregel的主要應(yīng)用場(chǎng)景是大型的圖計(jì)算,例如交通線(xiàn)路、疾病爆發(fā)路徑、WEB 搜索等相關(guān)領(lǐng)域。

2.2分布式文件系統(tǒng)

為保證高可用、高可靠和經(jīng)濟(jì)性,基于云計(jì)算的大數(shù)據(jù)處理系統(tǒng)采用分布式存儲(chǔ)的方式來(lái)保存數(shù)據(jù),用冗余存儲(chǔ)的方式保證數(shù)據(jù)的可靠性。目前廣泛使用的分布式文件系統(tǒng)是Google的GFS和Hadoop團(tuán)隊(duì)開(kāi)發(fā)的GFS的開(kāi)源實(shí)現(xiàn)HDFS。

GFS即Google文件系統(tǒng),是一個(gè)可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對(duì)大量數(shù)據(jù)進(jìn)行訪(fǎng)問(wèn)的應(yīng)用。GFS的設(shè)計(jì)思想不同于傳統(tǒng)的文件系統(tǒng),是針對(duì)大規(guī)模數(shù)據(jù)處理和Google應(yīng)用特性而設(shè)計(jì)的,運(yùn)行成本低廉,并提供容錯(cuò)功能。

HDFS即Hadoop分布式文件系統(tǒng),受到GFS很大啟發(fā),具有高容錯(cuò)性,并且可以被部署在低價(jià)的硬件設(shè)備之上。HDFS很適合那些有大數(shù)據(jù)集的應(yīng)用,并且提供了數(shù)據(jù)讀寫(xiě)的高吞吐率。HDFS是一個(gè)master/slave的結(jié)構(gòu),在master上只運(yùn)行一個(gè)Namenode,而在每一個(gè)slave上運(yùn)行一個(gè)Datanode。HDFS支持傳統(tǒng)的層次文件組織結(jié)構(gòu),對(duì)文件系統(tǒng)的操作(如建立、刪除文件和文件夾)都是通過(guò)Namenode來(lái)控制,Datanode用來(lái)存放數(shù)據(jù)塊。

2.3大數(shù)據(jù)管理技術(shù)

互聯(lián)網(wǎng)數(shù)據(jù)已超出關(guān)系型數(shù)據(jù)庫(kù)的管理范疇,電子郵件、超文本、博客、標(biāo)簽(Tag)以及圖片、音視頻等各種非結(jié)構(gòu)化數(shù)據(jù)逐漸成為大數(shù)據(jù)的重要組成部分,而面向結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)不能滿(mǎn)足數(shù)據(jù)快速訪(fǎng)問(wèn)、大規(guī)模數(shù)據(jù)分析的需求,隨之而來(lái),一系列新型的大數(shù)據(jù)管理技術(shù)和工具應(yīng)運(yùn)而生。

2.3.1 非關(guān)系型數(shù)據(jù)庫(kù)

NoSQL,也有人理解為Not Only SQL,它是一類(lèi)非關(guān)系型數(shù)據(jù)庫(kù)的統(tǒng)稱(chēng)。其特點(diǎn)是:沒(méi)有固定的數(shù)據(jù)表模式、可以分布式和水平擴(kuò)展。NoSQL并不是單純的反對(duì)關(guān)系型數(shù)據(jù)庫(kù),而是針對(duì)其缺點(diǎn)的一種補(bǔ)充和擴(kuò)展。典型的NoSQL數(shù)據(jù)存儲(chǔ)模型有文檔存儲(chǔ)、鍵-值存儲(chǔ)、圖存儲(chǔ)、對(duì)象數(shù)據(jù)、列存儲(chǔ)等。而比較流行的,不得不提到Google的Bigtable,它把所有數(shù)據(jù)都作為對(duì)象來(lái)處理,形成一個(gè)巨大的表格,用來(lái)分布存儲(chǔ)大規(guī)模結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量可達(dá)PB級(jí)。而HBase是Hadoop團(tuán)隊(duì)基于Bigtable的開(kāi)源實(shí)現(xiàn),使用HDFS作為其文件存儲(chǔ)系統(tǒng)。同時(shí),Cassandra(K/V型數(shù)據(jù)庫(kù))、MongoDB(文檔數(shù)據(jù)庫(kù))和Redis等一系列優(yōu)秀的非關(guān)系型數(shù)據(jù)庫(kù)產(chǎn)品如雨后春筍般問(wèn)世。

2.3.2 數(shù)據(jù)查詢(xún)工具

Hive是Facebook提出的基于Hadoop的大型數(shù)據(jù)倉(cāng)庫(kù),其目標(biāo)是簡(jiǎn)化Hadoop上的數(shù)據(jù)聚集、即席查詢(xún)及大數(shù)據(jù)集的分析等操作,以減輕程序員的負(fù)擔(dān).它借鑒關(guān)系數(shù)據(jù)庫(kù)的模式管理、SQL接口等技術(shù),把結(jié)構(gòu)化的數(shù)據(jù)文件映射為數(shù)據(jù)庫(kù)表,提供類(lèi)似于SQL的描述性語(yǔ)言HiveQL供程序員使用,可自動(dòng)將HiveQL語(yǔ)句解析成一優(yōu)化的MapReduce任務(wù)執(zhí)行序列.此外,它也支持用戶(hù)自定義的MapReduce函數(shù)。

PigLatin是Yahoo!提出的類(lèi)似于Hive的大數(shù)據(jù)集分析平臺(tái).兩者的區(qū)別主要在于語(yǔ)言接口.Hive提供了類(lèi)似SQL的接口,PigLatin提供的是一種基于操作符的數(shù)據(jù)流式的接口.可以說(shuō)Pig利用操作符來(lái)對(duì)Hadoop進(jìn)行封裝,Hive利用SQL進(jìn)行封裝。

Google Dremel是個(gè)可擴(kuò)展的、交互式的即時(shí)查詢(xún)系統(tǒng),用于完成大規(guī)模查詢(xún)結(jié)構(gòu)化數(shù)據(jù)集(如日志和事件文件)。它支持類(lèi)SQL語(yǔ)法,區(qū)別在于它只能查詢(xún),不支持修改或者創(chuàng)建功能,也沒(méi)有表索引。數(shù)據(jù)被列式存儲(chǔ),這樣有助于提升查詢(xún)的速度。Google將Dremel作為MapReduce的一種補(bǔ)充,被用于分析MapReduce的結(jié)果或者是作為大規(guī)模計(jì)算的測(cè)試。

2.4實(shí)時(shí)流處理技術(shù)

伴隨著互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展的步調(diào),以及業(yè)務(wù)流程的復(fù)雜化,企業(yè)的注意力越來(lái)越集中在“數(shù)據(jù)流”而非“數(shù)據(jù)集”上面,他們需要的是能夠處理隨時(shí)發(fā)生的數(shù)據(jù)流的架構(gòu),現(xiàn)有的分布式計(jì)算架構(gòu)并不適合數(shù)據(jù)流處理。流計(jì)算強(qiáng)調(diào)的是數(shù)據(jù)流的形式和實(shí)時(shí)性。MapReduce系統(tǒng)主要解決的是對(duì)靜態(tài)數(shù)據(jù)的批量處理,當(dāng)MapReduce任務(wù)啟動(dòng)時(shí),一般數(shù)據(jù)已經(jīng)到位了(比如保存到了分布式文件系統(tǒng)上),而流式計(jì)算系統(tǒng)在啟動(dòng)時(shí),一般數(shù)據(jù)并沒(méi)有完全到位,而是經(jīng)由外部數(shù)據(jù)源源不斷地流入,重視的是對(duì)數(shù)據(jù)處理的低延遲,希望進(jìn)入的數(shù)據(jù)越快處理越好。數(shù)據(jù)越快被處理,結(jié)果就越有價(jià)值,這也是實(shí)時(shí)處理的價(jià)值所在。

流計(jì)算的數(shù)據(jù)本身就是數(shù)據(jù)流,不需要數(shù)據(jù)準(zhǔn)備的時(shí)間,有數(shù)據(jù)流入就開(kāi)始計(jì)算,解決了數(shù)據(jù)準(zhǔn)備和延遲的兩個(gè)問(wèn)題?,F(xiàn)有的解決方案中,Twitter的Storm和雅虎的S4框架更適合數(shù)據(jù)流計(jì)算的場(chǎng)景。Storm是開(kāi)源的分布式實(shí)時(shí)計(jì)算系統(tǒng),可以可靠的處理流式數(shù)據(jù)并進(jìn)行實(shí)時(shí)計(jì)算,單機(jī)性能可達(dá)到百萬(wàn)記錄每秒,開(kāi)發(fā)語(yǔ)言為Clojure和Java,并具備容錯(cuò)特性。S4是面向流式數(shù)據(jù)和實(shí)時(shí)處理的,所以針對(duì)實(shí)時(shí)性較高的業(yè)務(wù),可以很好地對(duì)數(shù)據(jù)做出高效的分析處理,而且系統(tǒng)一旦上線(xiàn),很少需要人工干預(yù),源源不斷的數(shù)據(jù)流會(huì)被自動(dòng)路由并分析。對(duì)于海量數(shù)據(jù),它和MapReduce都可以應(yīng)對(duì),但它能比后者更快地處理數(shù)據(jù)。

三、思考與展望

以云計(jì)算為基礎(chǔ)的信息存儲(chǔ)、分享和挖掘手段為知識(shí)生產(chǎn)提供了工具,通過(guò)對(duì)大數(shù)據(jù)分析、預(yù)測(cè)會(huì)使得決策更為精準(zhǔn),這對(duì)媒體融合具有重要意義。

新聞媒體的數(shù)據(jù)庫(kù)中擁有海量信息存儲(chǔ),這些多媒體數(shù)據(jù)包括文字,圖片,視頻和音頻等多種格式,符合大數(shù)據(jù)處理的基本特征,利用大數(shù)據(jù)技術(shù)對(duì)這些資源進(jìn)行存儲(chǔ),計(jì)算和分析,了解用戶(hù)行為,挖掘數(shù)據(jù)本質(zhì)和關(guān)聯(lián),為領(lǐng)導(dǎo)提供決策支持,為終端用戶(hù)提供更好的服務(wù)和新聞定制,增強(qiáng)新聞信息產(chǎn)品的質(zhì)量和影響力。

如今,在開(kāi)源社區(qū),圍繞Google MapReduce框架,已經(jīng)成長(zhǎng)出了一批優(yōu)秀的開(kāi)源項(xiàng)目。這些項(xiàng)目在技術(shù)和實(shí)現(xiàn)上相互支持和依托,逐漸形成了一個(gè)特有的“大數(shù)據(jù)”生態(tài)系統(tǒng)。系統(tǒng)為我們實(shí)現(xiàn)優(yōu)質(zhì)廉價(jià)的大數(shù)據(jù)分析和管理提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。

新聞媒體可以順應(yīng)大數(shù)據(jù)的技術(shù)趨勢(shì),加強(qiáng)技術(shù)調(diào)研,早日選型,搭建大數(shù)據(jù)處理平臺(tái),利用云計(jì)算項(xiàng)目資源,將海量數(shù)據(jù)統(tǒng)籌管理,通過(guò)分析和挖掘,實(shí)現(xiàn)新聞產(chǎn)品的創(chuàng)新和跨越式發(fā)展,以現(xiàn)代化的傳播手段向世界展示中國(guó)。

大數(shù)據(jù)處理論文:智能電網(wǎng)大數(shù)據(jù)處理技術(shù)應(yīng)用現(xiàn)狀及困境探討

摘 要 隨著我國(guó)社會(huì)經(jīng)濟(jì)的快速發(fā)展,電力事業(yè)得到了長(zhǎng)足的發(fā)展,特別是科技的進(jìn)步,使得智能電網(wǎng)取得了一定程度的發(fā)展。智能電網(wǎng)的建立,有利于將電力系統(tǒng)發(fā)電、輸電、配電、用電實(shí)現(xiàn)全系統(tǒng)管理,隨著越來(lái)越多的新型技術(shù)應(yīng)用到電力網(wǎng)絡(luò)中,特別是云計(jì)算平臺(tái)的應(yīng)用,大量的異構(gòu)數(shù)據(jù)積累,大數(shù)據(jù)處理技術(shù)的研究也應(yīng)運(yùn)而生。在新的時(shí)期,智能電網(wǎng)大數(shù)據(jù)處理面臨著新的機(jī)遇與挑戰(zhàn),文章就分析智能電網(wǎng)大數(shù)據(jù)處理技術(shù)應(yīng)用現(xiàn)狀,并探討在新時(shí)期大數(shù)據(jù)處理技術(shù)面臨的機(jī)遇與挑戰(zhàn)。

關(guān)鍵詞 智能電網(wǎng);大數(shù)據(jù)處理技術(shù);應(yīng)用現(xiàn)狀;困境

在智能電網(wǎng)系統(tǒng)中,系統(tǒng)運(yùn)行的各個(gè)環(huán)節(jié)都會(huì)產(chǎn)生大量的數(shù)據(jù),如智能電表安裝、電力運(yùn)行等環(huán)節(jié)。電力企業(yè)在一定時(shí)間間隔內(nèi)對(duì)用電客戶(hù)的用電數(shù)據(jù)信息進(jìn)行收集,從而構(gòu)成電網(wǎng)客戶(hù)端大數(shù)據(jù),根據(jù)對(duì)這些數(shù)據(jù)的分析更好的了解用電用戶(hù)的實(shí)際情況,以便科學(xué)合理的設(shè)置大數(shù)據(jù)處理系統(tǒng)。

1 智能電網(wǎng)大數(shù)據(jù)概述

1.1 智能電網(wǎng)系統(tǒng)中的大數(shù)據(jù)

電網(wǎng)系統(tǒng)中的數(shù)據(jù)可以分為三種類(lèi)型,包括電網(wǎng)運(yùn)行中設(shè)備監(jiān)測(cè)數(shù)據(jù)、電網(wǎng)運(yùn)營(yíng)數(shù)據(jù)以及電網(wǎng)管理數(shù)據(jù)。

根據(jù)電網(wǎng)數(shù)據(jù)內(nèi)在結(jié)構(gòu),可以將其分為結(jié)構(gòu)數(shù)據(jù)以及非結(jié)構(gòu)數(shù)據(jù)。其中結(jié)構(gòu)數(shù)據(jù)包括關(guān)系庫(kù)中儲(chǔ)存的數(shù)據(jù),隨著我國(guó)科技的進(jìn)步,結(jié)構(gòu)數(shù)據(jù)不斷的增長(zhǎng)。跟結(jié)構(gòu)數(shù)據(jù)不同的是,非結(jié)構(gòu)數(shù)據(jù)不方便用二維邏輯表現(xiàn),主要包括圖形處理數(shù)據(jù)以及視頻監(jiān)控產(chǎn)生的數(shù)據(jù)。由于智能化的發(fā)展,非結(jié)構(gòu)數(shù)據(jù)每年以60%的指數(shù)上漲,逐漸成為智能電網(wǎng)中重要的組成部分。

與傳統(tǒng)電網(wǎng)不同的是,智能電網(wǎng)具有很強(qiáng)的智能化,這就需要能夠?qū)﹄娋W(wǎng)運(yùn)行實(shí)時(shí)數(shù)據(jù)及時(shí)的獲取,目前智能電網(wǎng)大數(shù)據(jù)表現(xiàn)在以下幾個(gè)方面。

1)為了能夠?qū)崿F(xiàn)對(duì)電網(wǎng)運(yùn)行中實(shí)時(shí)數(shù)據(jù)的獲取,就必須設(shè)置越來(lái)越多的采集點(diǎn),監(jiān)測(cè)設(shè)備應(yīng)用也越來(lái)越多,每一秒都會(huì)產(chǎn)生大量的數(shù)據(jù)。

2)設(shè)備對(duì)電網(wǎng)運(yùn)行信息采樣的頻率越來(lái)越快。

3)為了掌握電網(wǎng)運(yùn)行的細(xì)節(jié),就需要對(duì)電網(wǎng)運(yùn)行中相關(guān)信息的實(shí)時(shí)變樣采集。

1.2 智能電網(wǎng)大數(shù)據(jù)特點(diǎn)

智能電網(wǎng)中大數(shù)據(jù)具有以下幾個(gè)方面的特點(diǎn)。

1)智能電網(wǎng)數(shù)據(jù)量大。隨著智能化的發(fā)展,電網(wǎng)數(shù)據(jù)從TB級(jí)逐漸上升至PB級(jí)。

2)智能電網(wǎng)數(shù)據(jù)類(lèi)型種類(lèi)繁多。社會(huì)對(duì)電力需求量越來(lái)越多,為了能夠滿(mǎn)足電量數(shù)據(jù)要求,電網(wǎng)數(shù)據(jù)的種類(lèi)也越來(lái)越繁雜,包括文本數(shù)據(jù)、媒體數(shù)據(jù)等結(jié)構(gòu)數(shù)據(jù),還包括非結(jié)構(gòu)數(shù)據(jù),在數(shù)據(jù)的應(yīng)用以及處理上也不盡相同。

3)智能電網(wǎng)大數(shù)據(jù)利用價(jià)值密度較低。就以電網(wǎng)監(jiān)控視頻為例,在實(shí)時(shí)監(jiān)控的過(guò)程中,有用的數(shù)據(jù)占總數(shù)據(jù)的比例很少,絕大多數(shù)的數(shù)據(jù)都屬于正常數(shù)據(jù),而少數(shù)的異常數(shù)據(jù)正是有用的數(shù)據(jù),也才是對(duì)電網(wǎng)運(yùn)行檢修提供有力依據(jù)的數(shù)據(jù)。

4)數(shù)據(jù)處理速度快,智能電網(wǎng)大數(shù)據(jù)處理速度可以用微秒計(jì)算,能夠在極短時(shí)間內(nèi)分析數(shù)據(jù),為電網(wǎng)運(yùn)行決策的制定提供依據(jù)。

2 智能電網(wǎng)大數(shù)據(jù)處理技術(shù)應(yīng)用面臨的挑戰(zhàn)

2.1 智能電網(wǎng)大數(shù)據(jù)傳輸、存儲(chǔ)技術(shù)

智能化的發(fā)展,電力系統(tǒng)運(yùn)行過(guò)程中各項(xiàng)數(shù)據(jù)、以及電力設(shè)備監(jiān)測(cè)數(shù)據(jù)被全部記錄下來(lái),數(shù)據(jù)量越來(lái)越多,這給電網(wǎng)運(yùn)行監(jiān)控設(shè)備以及數(shù)據(jù)的傳輸、存儲(chǔ)系統(tǒng)造成巨大的負(fù)擔(dān),并對(duì)電網(wǎng)智能化發(fā)展造成很大的影響。

對(duì)于智能電網(wǎng)大數(shù)據(jù)的傳輸,采用數(shù)據(jù)壓縮的方式能夠提高數(shù)據(jù)傳輸?shù)男剩档蛿?shù)據(jù)傳輸量。所以越來(lái)越多的網(wǎng)絡(luò)數(shù)據(jù)壓縮技術(shù)被應(yīng)用到智能電網(wǎng)數(shù)據(jù)傳輸中,通過(guò)數(shù)據(jù)壓縮能降低數(shù)據(jù)儲(chǔ)存的空間,但在壓縮以及解壓過(guò)程中也會(huì)對(duì)系統(tǒng)中心帶來(lái)一定的資源浪費(fèi),需要更為合理的平臺(tái)支持。

對(duì)于智能電網(wǎng)大數(shù)據(jù)存儲(chǔ)方面,采用分布式文件保存的方式能夠?qū)崿F(xiàn)對(duì)大量數(shù)據(jù)的存儲(chǔ),但對(duì)電力系統(tǒng)實(shí)時(shí)性數(shù)據(jù)處理方面還有一定的局限性。所以需要對(duì)系統(tǒng)中大數(shù)據(jù)性能進(jìn)行分析并實(shí)行分類(lèi)存儲(chǔ)。

智能電網(wǎng)中非結(jié)構(gòu)化數(shù)據(jù)占據(jù)很大的比重,在存儲(chǔ)方面需要將這些海量的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),這正是目前智能大數(shù)據(jù)處理技術(shù)面臨的困境。

2.2 大數(shù)據(jù)實(shí)時(shí)處理技術(shù)

對(duì)于智能電網(wǎng)來(lái)說(shuō),大數(shù)據(jù)的處理速度至關(guān)重要,數(shù)據(jù)的規(guī)模越大,數(shù)據(jù)處理的時(shí)間就越久,如果數(shù)據(jù)量的規(guī)模超過(guò)了處理技術(shù)承受的能力,難免對(duì)電網(wǎng)正常運(yùn)行造成影響,這就需要確保數(shù)據(jù)傳輸、分析、處理的速度。云計(jì)算系統(tǒng)能夠?yàn)橹悄茈娋W(wǎng)提供快速的服務(wù),但也會(huì)造成網(wǎng)絡(luò)堵塞現(xiàn)象的發(fā)生,雖然堵塞的時(shí)間較短,也會(huì)對(duì)電網(wǎng)服務(wù)器造成障礙。

2.3 智能化大數(shù)據(jù)可視化分析技術(shù)

智能電網(wǎng)運(yùn)行中會(huì)產(chǎn)生海量的數(shù)據(jù),將這些數(shù)據(jù)及時(shí)分析處理,并在有限的屏幕中將其展示給電力用戶(hù),這也是目前智能電網(wǎng)運(yùn)行大數(shù)據(jù)處理面臨重要的挑戰(zhàn)??梢暬治黾夹g(shù)能夠有效的處理大數(shù)據(jù),并逐漸應(yīng)用到實(shí)際電網(wǎng)運(yùn)行中??梢暬治黾夹g(shù),利用高度集成技術(shù)、高分辨率圖像,以及交互工具,為電力用戶(hù)提供明朗的數(shù)據(jù)處理結(jié)果。

隨著科技水平的提升,可視化分析技術(shù)也面臨著挑戰(zhàn),包括該技術(shù)的擴(kuò)展性,以及重要數(shù)據(jù)的提取、顯示以及圖像合成方面的挑戰(zhàn)。

另外,還需要保證智能電網(wǎng)數(shù)據(jù)網(wǎng)絡(luò)的質(zhì)量,對(duì)其進(jìn)行定期檢修與維護(hù),如果在數(shù)據(jù)網(wǎng)絡(luò)運(yùn)行中出現(xiàn)故障,需要根據(jù)故障的現(xiàn)象,結(jié)合網(wǎng)絡(luò)診斷技術(shù),找出故障發(fā)生的原因,從根源上排除故障,使數(shù)據(jù)網(wǎng)絡(luò)恢復(fù)正常。進(jìn)行網(wǎng)絡(luò)故障診斷,不僅需要及時(shí)的恢復(fù)發(fā)生故障的網(wǎng)絡(luò),不斷的改善調(diào)度數(shù)據(jù)網(wǎng)絡(luò)的性能,還需要掌握數(shù)據(jù)網(wǎng)絡(luò)的運(yùn)行狀態(tài),確保數(shù)據(jù)網(wǎng)絡(luò)的通信質(zhì)量。

3 總結(jié)

我國(guó)智能化技術(shù)在電網(wǎng)系統(tǒng)中應(yīng)用越來(lái)越廣泛,大數(shù)據(jù)處理技術(shù)成為了維護(hù)智能電網(wǎng)安全運(yùn)行的主要手段。云計(jì)算為智能化數(shù)據(jù)處理、存儲(chǔ)提供有效的平臺(tái),也能夠保證智能電網(wǎng)大數(shù)據(jù)能夠得到及時(shí)的分析與處理,為電網(wǎng)安全運(yùn)行提供保障。但是隨著電網(wǎng)智能化程度逐漸深入,大數(shù)據(jù)處理技術(shù)在實(shí)時(shí)性、隱私性、一致性等方面也遇到了很大的挑戰(zhàn),必須找出有效的解決方法,這就需要有關(guān)人員加大科研力度,不斷的探索,相信我國(guó)智能電網(wǎng)系統(tǒng)運(yùn)行會(huì)越來(lái)越穩(wěn)定,必將推動(dòng)我國(guó)電力事業(yè)的健康發(fā)展。

大數(shù)據(jù)處理論文:試論云計(jì)算技術(shù)下的大數(shù)據(jù)處理系統(tǒng)

摘 要

隨著云計(jì)算技術(shù)的不斷完善,為了促進(jìn)大數(shù)據(jù)處理系統(tǒng)的功能多樣化,云計(jì)算技術(shù)在大數(shù)據(jù)處理系統(tǒng)上得到了廣泛的應(yīng)用。本文重點(diǎn)研究了在多元因素的影響下的數(shù)據(jù)模型對(duì)大數(shù)據(jù)處理的影響,并據(jù)此提出了一種基于融合思想,采用了混合架構(gòu)以及分散處理的云計(jì)算環(huán)境下的大數(shù)據(jù)處理系統(tǒng)的整體部署策略。

【關(guān)鍵詞】云計(jì)算 大數(shù)據(jù)處理 融合處理

1 引言

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,以及智能設(shè)備的普及,當(dāng)前的數(shù)據(jù)增長(zhǎng)速度已經(jīng)呈現(xiàn)爆炸式增長(zhǎng),大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨。目前專(zhuān)家對(duì)大數(shù)據(jù)處理系統(tǒng)方面的研究主要是基于云環(huán)境下的分布式部署以及網(wǎng)絡(luò)架構(gòu)的融合和動(dòng)態(tài)實(shí)時(shí)數(shù)據(jù)處理這三個(gè)方面。同時(shí)也取得了一定的研究成果,對(duì)于當(dāng)前的云計(jì)算環(huán)境下的大數(shù)據(jù)處理系統(tǒng)的發(fā)展提供了很多理論和實(shí)踐基礎(chǔ)。

2 基于融合思想的大數(shù)據(jù)處理方案分析

云計(jì)算技術(shù)模式下,人機(jī)交互和數(shù)據(jù)處理以及網(wǎng)絡(luò)邏輯處理技術(shù)等都相對(duì)交融,處于深度融合狀態(tài)。因此基于融合思想的大數(shù)據(jù)處理方案就是以融合思想為核心,將云計(jì)算技術(shù)模式下的各種分散的網(wǎng)絡(luò)資源進(jìn)行協(xié)同組織,然后再進(jìn)行融合,從而充分發(fā)揮分散狀態(tài)下的資源優(yōu)勢(shì),形成一種整體性的比較優(yōu)勢(shì),因此這種融合式的大數(shù)據(jù)處理方案的應(yīng)用前景十分廣闊。

在云計(jì)算技術(shù)模式下,大數(shù)據(jù)處理研究更多的著力點(diǎn)放在了大數(shù)據(jù)處理系統(tǒng)的構(gòu)建、分散資源的協(xié)同以及相關(guān)的輔助技術(shù)等。從宏觀(guān)角度來(lái)看,可以氛圍內(nèi)混合處理和混合管理兩個(gè)方面。其中混合管理的核心就是研究各種無(wú)線(xiàn)以及有線(xiàn)的處理機(jī)制和數(shù)據(jù)共享、資源共享機(jī)制的管理,同時(shí)還包括了分散數(shù)據(jù)管理機(jī)制和協(xié)同機(jī)制管理等。而混合處理的研究核心則是著力于系統(tǒng)運(yùn)行模型和相關(guān)輔助技術(shù)上。

3 大數(shù)據(jù)處理系統(tǒng)的應(yīng)用和處理系統(tǒng)分析

3.1 大數(shù)據(jù)處理系統(tǒng)的應(yīng)用

大數(shù)據(jù)處理系統(tǒng)的應(yīng)用主要包括三個(gè)方面:

(1)基于融合式架構(gòu)的應(yīng)用。這實(shí)際上就是一種客戶(hù)機(jī)/服務(wù)器架構(gòu)模式,其中服務(wù)器主要負(fù)責(zé)應(yīng)用系統(tǒng)的管理和控制以及相關(guān)應(yīng)用的邏輯處理和數(shù)據(jù)調(diào)度等。而客戶(hù)端則是專(zhuān)門(mén)進(jìn)行人機(jī)交互,當(dāng)用戶(hù)想要執(zhí)行數(shù)據(jù)處理分析人物時(shí),通過(guò)客戶(hù)機(jī)向服務(wù)器發(fā)送請(qǐng)求,然后有服務(wù)器完成并返回給客戶(hù)端。這個(gè)融合式架構(gòu)相對(duì)簡(jiǎn)單,且容易維護(hù),但是服務(wù)器功能有著極高的依賴(lài),這也往往成為數(shù)據(jù)處理系統(tǒng)應(yīng)用的瓶頸。

(2)分散式架構(gòu)。這種架構(gòu)的特點(diǎn)就是協(xié)同控制的節(jié)點(diǎn)都是平等地位,并且和處理系統(tǒng)有關(guān)的控制和管理模塊都是分散在各個(gè)客戶(hù)端上。客戶(hù)端擁有一定的自治屬性,因此具有通用性和靈活性和可擴(kuò)展性等諸多優(yōu)勢(shì)。但是由于數(shù)據(jù)采用分布存儲(chǔ)和分布操作,這樣在維護(hù)方面就變得較為困難,而且節(jié)點(diǎn)之間的實(shí)時(shí)同步和用戶(hù)動(dòng)態(tài)注冊(cè)的應(yīng)用也難以實(shí)現(xiàn)。

(3)混合式結(jié)構(gòu)。這種結(jié)構(gòu)擁有前兩兩種結(jié)構(gòu)有點(diǎn),通過(guò)服務(wù)器實(shí)現(xiàn)數(shù)據(jù)信息的統(tǒng)一維護(hù),而客戶(hù)端一方面實(shí)現(xiàn)信息傳輸功能,同時(shí)也能夠和用戶(hù)在某些應(yīng)用方面進(jìn)行充分的交互,因此能夠有效減輕服務(wù)器端的壓力,這樣也能夠消除服務(wù)器端的瓶頸。提升系統(tǒng)的魯棒性和靈活性。

3.2 云計(jì)算技術(shù)下的大數(shù)據(jù)處理系統(tǒng)具體分析

3.2.1 系統(tǒng)架構(gòu)

云計(jì)算技術(shù)環(huán)境下的大數(shù)據(jù)處理平臺(tái)的節(jié)點(diǎn)主要體現(xiàn)下面幾個(gè)特點(diǎn):其一是節(jié)點(diǎn)分散性;其二是數(shù)據(jù)處理動(dòng)態(tài)性;其三是數(shù)據(jù)來(lái)源混構(gòu)性。

這個(gè)處理平臺(tái)架構(gòu)采用了融合式的調(diào)度執(zhí)行層和任務(wù)融合調(diào)度管理,并根據(jù)處理規(guī)則和不同的參數(shù)來(lái)調(diào)整處理引擎的數(shù)據(jù)和算法組合以及計(jì)算資源。對(duì)大數(shù)據(jù)資源的數(shù)據(jù)交互和任務(wù)分工工作進(jìn)行了有效融合。同時(shí)在管理層,也對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分布式存儲(chǔ),提升了容錯(cuò)處理能力。

3.2.2 系統(tǒng)處理流程

系統(tǒng)處理流程主要是對(duì)分散狀態(tài)數(shù)據(jù)進(jìn)行處理,其關(guān)鍵就是對(duì)分散的數(shù)據(jù)進(jìn)行提取,因此首先給其他應(yīng)用提供數(shù)據(jù)接口。然后數(shù)據(jù)管理部分要融合數(shù)據(jù)資源,并在一定容忍度的基礎(chǔ)下,對(duì)不同的數(shù)據(jù)處理機(jī)制進(jìn)行比較,進(jìn)而優(yōu)勢(shì)融合。最后數(shù)據(jù)處理中心則是對(duì)數(shù)據(jù)進(jìn)行集中處理,然后統(tǒng)一分配數(shù)據(jù)資源,從而在數(shù)據(jù)中心實(shí)現(xiàn)數(shù)據(jù)處理的融合。

3.2.3 處理系統(tǒng)的部署

某信息產(chǎn)業(yè)園的大數(shù)據(jù)處理系統(tǒng)的部署是根據(jù)信息企業(yè)集群的需求,然后對(duì)現(xiàn)有分散數(shù)據(jù)資源進(jìn)行挖掘,比如企業(yè)內(nèi)部的ERP和SCM系統(tǒng)中的數(shù)據(jù),通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行深度挖掘從而為該企業(yè)提供戰(zhàn)略發(fā)展資源。圖1就顯示了這個(gè)部署圖。

從部署圖可以看出,在這家企業(yè)中,ERP和SCM和CRM是其數(shù)據(jù)源,然后經(jīng)過(guò)服務(wù)器處理之后,分布到n個(gè)數(shù)據(jù)庫(kù),然后進(jìn)行合并進(jìn)入到大數(shù)據(jù)管理模塊,最終能夠?qū)崿F(xiàn)數(shù)據(jù)查詢(xún)和數(shù)據(jù)決策服務(wù)。

4 結(jié)語(yǔ)

總而言之,目前采用融合式思想,在云計(jì)算技術(shù)條件下,對(duì)大數(shù)據(jù)處理系統(tǒng)進(jìn)行部署的研究相對(duì)較少,特別是當(dāng)前的信息產(chǎn)業(yè),由于其自身的解決方案并不能夠?qū)崿F(xiàn)大數(shù)據(jù)條件的比較優(yōu)勢(shì),所以本文提出的融合式的大數(shù)據(jù)處理技術(shù),有效的提升了數(shù)據(jù)利用深度,拓展了大數(shù)據(jù)處理系統(tǒng)的應(yīng)用范圍。