時(shí)間:2023-03-17 18:06:14
序論:在您撰寫大數(shù)據(jù)技術(shù)時(shí),參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)處理 相關(guān)技術(shù)
中圖分類號(hào):TP334 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)02(a)-0048-01
“大數(shù)據(jù)”是從英語(yǔ)“Big Data”一詞翻譯而來(lái)的,是當(dāng)前IT界熱議和追逐的對(duì)象,是繼物聯(lián)網(wǎng)、云計(jì)算技術(shù)后世界又一熱議的信息技術(shù),發(fā)展迅速。截至2011年年底,全球互聯(lián)網(wǎng)總數(shù)據(jù)存儲(chǔ)量已達(dá)100億TB以上,并且以59%以上的年增長(zhǎng)率遞增。麥肯錫公司在2011年的報(bào)告(Bigdata:the Next FrontierforInnovation)中,對(duì)這種密集型數(shù)據(jù)爆炸的現(xiàn)象稱為“大數(shù)據(jù)”時(shí)代的到來(lái)。大數(shù)據(jù)領(lǐng)域出現(xiàn)的許多新技術(shù),是大數(shù)據(jù)采集、存儲(chǔ)、處理和呈現(xiàn)的有力武器。
1 大數(shù)據(jù)概念
大數(shù)據(jù)概念的前身是海量數(shù)據(jù),但兩者有很大的區(qū)別。海量數(shù)據(jù)主要強(qiáng)調(diào)了數(shù)據(jù)量的規(guī)模,對(duì)其特性并沒(méi)有特別關(guān)注。而大數(shù)據(jù)對(duì)傳播速率、體積、特征等數(shù)據(jù)的各種特性進(jìn)行了描述。目前對(duì)大數(shù)據(jù)最廣泛的定義是:大數(shù)據(jù)是無(wú)法在一定時(shí)間內(nèi)用通常的軟件工具進(jìn)行收集、分析、管理的大量數(shù)據(jù)的集合。大數(shù)據(jù)的特點(diǎn)一般用“4V”概括,即:Volume:數(shù)據(jù)量大,目前大數(shù)據(jù)的最小單位一般被認(rèn)為是10~20TB的量級(jí);Variety:數(shù)據(jù)類型多,包括了結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù);value:數(shù)據(jù)的價(jià)值密度很低;velocity:數(shù)據(jù)產(chǎn)生和處理的速度非??臁?/p>
2 大數(shù)據(jù)相關(guān)技術(shù)
2.1 大數(shù)據(jù)處理通用技術(shù)架構(gòu)
大數(shù)據(jù)的基本處理流程與傳統(tǒng)數(shù)據(jù)處理流程的主要區(qū)別在于:由于大數(shù)據(jù)要處理大量、非結(jié)構(gòu)化的數(shù)據(jù),所以在各個(gè)處理環(huán)節(jié)中都可以采用并行處理。目前,MapReduce等分布式處理方式已經(jīng)成為大數(shù)據(jù)處理各環(huán)節(jié)的通用處理方法。
MapReduce分布式方法最先由谷歌設(shè)計(jì)并實(shí)現(xiàn),包括分布式文件系統(tǒng)GFS、MapReduce分布式編程環(huán)境以及分布式大規(guī)模數(shù)據(jù)庫(kù)管理系統(tǒng)Bigrable。MapReduce是一套軟件框架,包括Map和Reduce兩個(gè)階段,可以進(jìn)行海量數(shù)據(jù)分割、任務(wù)分解與結(jié)果匯總,從而完成海量數(shù)據(jù)的并行處理。MapReduce的工作原理是先分后合的數(shù)據(jù)處理方式。Map即“分解”,把海量數(shù)據(jù)分割成若干部分,分給多臺(tái)處理器并行處理;Reduce即“合并”,把各臺(tái)處理器處理后的結(jié)果進(jìn)行匯總操作,以得到最終結(jié)果。用戶只需要提供自己的Map函數(shù)以及Reduce函數(shù)就可以在集群上進(jìn)行大規(guī)模的分布式數(shù)據(jù)處理。MapReduce將處理任務(wù)分配到不同的處理節(jié)點(diǎn),因此具有更強(qiáng)的并行處理能力。
2.2 大數(shù)據(jù)采集
大數(shù)據(jù)的采集是指利用數(shù)據(jù)庫(kù)等方式接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù)。大數(shù)據(jù)采集的主要特點(diǎn)是并發(fā)訪問(wèn)量大,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶來(lái)進(jìn)行訪問(wèn)和操作,比如火車票售票網(wǎng)站的并發(fā)訪問(wèn)量在峰值時(shí)達(dá)到上百萬(wàn),這時(shí)傳統(tǒng)的數(shù)據(jù)采集工具很容易失效。大數(shù)據(jù)采集方法主要包括:系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)庫(kù)采集、其他數(shù)據(jù)采集等四種。
2.3 大數(shù)據(jù)分享
目前數(shù)據(jù)分享主要通過(guò)數(shù)據(jù)集市和開放數(shù)據(jù)平臺(tái)等方法實(shí)現(xiàn)。開放數(shù)據(jù)平臺(tái)可以提供涵蓋本地服務(wù)、娛樂(lè)、教育和醫(yī)療等方方面面的數(shù)據(jù)集合,用戶不但可以通過(guò)API訪問(wèn),還可以很方便地通過(guò)SDK集成到移動(dòng)應(yīng)用當(dāng)中。在線數(shù)據(jù)集市除了提供下載數(shù)據(jù)的功能外,還為用戶提供上傳和交流數(shù)據(jù)的場(chǎng)所。數(shù)據(jù)平臺(tái)和數(shù)據(jù)集市不但吸引有數(shù)據(jù)需求用戶,還能夠吸引很多數(shù)據(jù)開發(fā)者在平臺(tái)上進(jìn)行開發(fā)。
2.4 大數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理就是對(duì)采集的數(shù)據(jù)進(jìn)行清洗、填補(bǔ)、平滑、合并、規(guī)格化以及檢查一致性等處理,并對(duì)數(shù)據(jù)的多種屬性進(jìn)行初步組織,從而為數(shù)據(jù)的存儲(chǔ)、分析和挖掘做好準(zhǔn)備。通常數(shù)據(jù)預(yù)處理包含三個(gè)部分:數(shù)據(jù)清理、數(shù)據(jù)集成和變換和數(shù)據(jù)規(guī)約。
2.5 大數(shù)據(jù)存儲(chǔ)及管理
大數(shù)據(jù)需要行之有效的存儲(chǔ)和管理,否則人們不能處理和利用數(shù)據(jù),更不能從數(shù)據(jù)中得到有用的信息。目前,大數(shù)據(jù)的存儲(chǔ)和管理技術(shù)主要分三類:分布式文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)(NoSOL)。
2.6 大數(shù)據(jù)分析及挖掘
大數(shù)據(jù)的分析和挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)等技術(shù),高度自動(dòng)化地分析大數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,從而在大數(shù)據(jù)中提取有用信息。大數(shù)據(jù)的分析和挖掘與傳統(tǒng)的數(shù)據(jù)挖掘比較有兩個(gè)特點(diǎn):一是通常采用并行處理的方式;二是大數(shù)據(jù)分析對(duì)實(shí)時(shí)處理的要求很高,流處理等實(shí)時(shí)處理技術(shù)受到人們歡迎。常用的方法有:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識(shí)別、統(tǒng)計(jì)分析、并行處理。
2.7 大數(shù)據(jù)檢索
①數(shù)據(jù)庫(kù)實(shí)時(shí)檢索:在數(shù)據(jù)倉(cāng)庫(kù)或者NoSOL等大數(shù)據(jù)存儲(chǔ)平臺(tái)上,或者多個(gè)不同結(jié)構(gòu)的數(shù)據(jù)存儲(chǔ)平臺(tái)之間快速、實(shí)時(shí)地查詢和檢索不同結(jié)構(gòu)的數(shù)據(jù)。②實(shí)時(shí)搜索引擎:對(duì)互聯(lián)網(wǎng)上的大量數(shù)據(jù)和信息進(jìn)行即時(shí)、快速搜索,實(shí)現(xiàn)即搜即得的效果。目前各大搜索引擎都在致力于實(shí)時(shí)搜索的實(shí)現(xiàn)。
2.8 大數(shù)據(jù)可視化
可以提供更為清晰直觀的數(shù)據(jù)感官,將錯(cuò)綜復(fù)雜的數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系,通過(guò)圖片、映射關(guān)系或表格,以簡(jiǎn)單、友好、易用的圖形化、智能化的形式呈現(xiàn)給用戶供其分析使用,可通過(guò)數(shù)據(jù)訪問(wèn)接口或商業(yè)智能門戶實(shí)現(xiàn),通過(guò)直觀的方式表達(dá)出來(lái)??梢暬c可視分析通過(guò)交互可視界面來(lái)進(jìn)行分析、推理和決策;從海量、動(dòng)態(tài)、不確定甚至相互沖突的數(shù)據(jù)中整合信息,獲取對(duì)復(fù)雜情景的更深層的理解;可供人們檢驗(yàn)已有預(yù)測(cè),探索未知信息,同時(shí)提供快速、可檢驗(yàn)、易理解.的評(píng)估和更有效的交流手段??梢暬侨藗兝斫鈴?fù)雜現(xiàn)象,診釋復(fù)雜數(shù)據(jù)的重要手段和途徑。
2.9 大數(shù)據(jù)應(yīng)用
①視頻搜索;②內(nèi)容分析;③理賠分析;④社交網(wǎng)絡(luò)分析;⑤社會(huì)分析;⑥社交媒體監(jiān)控。
2.10 大數(shù)據(jù)安全
關(guān)鍵詞: 大數(shù)據(jù); 4V特征; Hadoop; 云計(jì)算
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2015)01-13-02
Overview on big data technology
Yang Jing
(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)
Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.
Key words: big data; 4V characteristics; Hadoop; cloud computing
0 引言
物聯(lián)網(wǎng)、云計(jì)算等新興技術(shù)的迅速發(fā)展開啟了大數(shù)據(jù)時(shí)代的帷幕。大數(shù)據(jù)技術(shù)是指從各種各樣的海量數(shù)據(jù)中,快速獲取有價(jià)值信息的技術(shù),大數(shù)據(jù)的核心問(wèn)題就是大數(shù)據(jù)技術(shù)。目前所說(shuō)的“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模大,還包括采集數(shù)據(jù)的工具、平臺(tái)和數(shù)據(jù)分析系統(tǒng)復(fù)雜程度大。大數(shù)據(jù)的研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,解決實(shí)際生產(chǎn)、生活中的各種問(wèn)題,從而推動(dòng)信息技術(shù)健康地可持續(xù)發(fā)展。
1 大數(shù)據(jù)的定義及主要特征
與其他新興學(xué)科一樣,目前大數(shù)據(jù)沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)和定義。一般認(rèn)為:大數(shù)據(jù)是由大量異構(gòu)數(shù)據(jù)組成的數(shù)據(jù)集合,可以應(yīng)用合理的數(shù)學(xué)算法或工具從中找出有價(jià)值的信息,并為人們帶來(lái)經(jīng)濟(jì)及社會(huì)效益的一門新興學(xué)科。大數(shù)據(jù)又被稱為海量數(shù)據(jù)、大資料、巨量數(shù)據(jù)等,指的是所涉及的數(shù)據(jù)量規(guī)模巨大,以至于無(wú)法在合理時(shí)間內(nèi)通過(guò)人工攫取、管理、處理并整理成為人類所能解讀的信息。這些數(shù)據(jù)來(lái)自方方面面,比如社交網(wǎng)絡(luò)、傳感器采集、安防監(jiān)控視頻、購(gòu)物交易記錄等。盡管尚無(wú)統(tǒng)一定義,但這些無(wú)比龐大的數(shù)據(jù)被稱為大數(shù)據(jù)。大數(shù)據(jù)具有如下4V特性[1]:
⑴ 體量Volume,是指數(shù)據(jù)存儲(chǔ)量大,計(jì)算量大;
⑵ 多樣Variety,是指大數(shù)據(jù)的異構(gòu)和多樣性,比如數(shù)據(jù)來(lái)源豐富,數(shù)據(jù)格式包括多種不同形式,如網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等;
⑶ 價(jià)值Value,是指大數(shù)據(jù)價(jià)值密度相對(duì)較低,信息海量,但是要挖掘出真正有價(jià)值的數(shù)據(jù)難度較大,浪里淘沙卻又彌足珍貴;
⑷ 速度Velocity,是指數(shù)據(jù)增長(zhǎng)速度快,處理速度要求快。
2 大數(shù)據(jù)技術(shù)的應(yīng)用領(lǐng)域
通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行采集、分析與處理,挖掘出潛藏在數(shù)據(jù)海洋里的稀疏但卻彌足珍貴的信息,大數(shù)據(jù)技術(shù)正在對(duì)經(jīng)濟(jì)建設(shè)、醫(yī)療教育、科學(xué)研究等領(lǐng)域產(chǎn)生著革命性的影響,其所帶來(lái)的巨大使用價(jià)值正逐漸被各行各業(yè)的人們所感知。
2.1 金融領(lǐng)域
大數(shù)據(jù)的火熱應(yīng)用突出體現(xiàn)在金融業(yè),各大互聯(lián)網(wǎng)企業(yè)(谷歌、阿里巴巴等)紛紛掘金大數(shù)據(jù),開創(chuàng)了新的互聯(lián)網(wǎng)金融模式。目前阿里巴巴的互聯(lián)網(wǎng)金融做得如火如荼:基金、小額信貸、余額寶和理財(cái)保險(xiǎn)產(chǎn)品等等,阿里巴巴之所以能夠做火金融服務(wù),其主要原因就在于阿里的大數(shù)據(jù),阿里巴巴的電商平臺(tái)存儲(chǔ)了大量微小企業(yè)客戶及數(shù)以億計(jì)的個(gè)人用戶行為信息、交易記錄、身份數(shù)據(jù)等,擁有最好、最全的數(shù)據(jù)以及最完整的產(chǎn)業(yè)鏈,做P2P及個(gè)人小額信貸,具有最大優(yōu)勢(shì)[2]。相反,傳統(tǒng)商業(yè)銀行早期就已推出的小額信貸業(yè)務(wù),開展得并不十分順利。
2.2 市場(chǎng)營(yíng)銷
今天的數(shù)字化營(yíng)銷與傳統(tǒng)市場(chǎng)營(yíng)銷最大的區(qū)別就在于精準(zhǔn)定位及個(gè)性化。如今企業(yè)與客戶的交流渠道發(fā)生了革命性的變化,從過(guò)去的電話及郵件,發(fā)展到今天的博客、論壇、社交媒體賬戶等,從這些五花八門的渠道里跟蹤客戶,將他們的每一次點(diǎn)擊、加好友、收藏、轉(zhuǎn)發(fā)、分享等行為納入到企業(yè)的銷售漏斗中并轉(zhuǎn)化成一項(xiàng)巨大的潛在價(jià)值,就是所謂的360度客戶視角。例如谷歌的銷售策略主要著眼于在線的免費(fèi)軟件,用戶使用這些軟件時(shí),無(wú)形中就把個(gè)人的喜好、消費(fèi)習(xí)慣等重要信息提交給了谷歌,因此谷歌的產(chǎn)品線越豐富,他們對(duì)用戶的理解就越深入,其廣告定位就越精準(zhǔn),廣告所攫取的價(jià)值就越高,這是正向的循環(huán)。
2.3 公眾服務(wù)
大數(shù)據(jù)的另一大應(yīng)用領(lǐng)域是公眾服務(wù)。如今數(shù)據(jù)挖掘已經(jīng)能夠預(yù)測(cè)海嘯、地震、疾病暴發(fā),理解交通模型并改善醫(yī)療和教育等。例如,可采用神經(jīng)網(wǎng)絡(luò)和基于地震時(shí)間序列的支持向量機(jī)方法來(lái)預(yù)測(cè)地震的大概方位、時(shí)間、震級(jí)大小等重要信息,為通用地震模擬程序提供關(guān)鍵的數(shù)據(jù),從而對(duì)地震進(jìn)行早期預(yù)警,以使防震抗災(zāi)部門可以提前做好應(yīng)對(duì)措施,避免大量的人員傷亡及財(cái)產(chǎn)損失;再如,將各個(gè)省市的城鎮(zhèn)醫(yī)療系統(tǒng)、新農(nóng)村合作醫(yī)療系統(tǒng)等全部整合起來(lái),建立通用的電子病歷等基礎(chǔ)數(shù)據(jù)庫(kù),實(shí)現(xiàn)醫(yī)院之間對(duì)病患信息的共享,提高患者就醫(yī)效率[3];電力管理系統(tǒng)通過(guò)記錄人們的用電行為信息(做飯、照明、取暖等),大數(shù)據(jù)智能電網(wǎng)就能實(shí)現(xiàn)優(yōu)化電的生產(chǎn)、分配及電網(wǎng)安全檢測(cè)與控制,包括大災(zāi)難預(yù)警與處理、供電與電力調(diào)度決策支持和更準(zhǔn)確的用電量預(yù)測(cè)等,并通過(guò)數(shù)據(jù)挖掘技術(shù)找出可行的節(jié)能降耗措施,以實(shí)現(xiàn)更科學(xué)的電力需求分配管理。
2.4 安防領(lǐng)域
安防領(lǐng)域中最重要的就是視頻監(jiān)控系統(tǒng),從早期看得見到現(xiàn)在看得遠(yuǎn)、看得清,視頻監(jiān)控是典型的數(shù)據(jù)依賴型業(yè)務(wù),依賴數(shù)據(jù)說(shuō)話。尤其是高清、超高清監(jiān)控時(shí)代的到來(lái),會(huì)產(chǎn)生巨量的視頻數(shù)據(jù)。這些巨量視頻監(jiān)控?cái)?shù)據(jù)中,多數(shù)是冗余無(wú)用的,只有少數(shù)是關(guān)鍵數(shù)據(jù),如何剔除這些無(wú)用數(shù)據(jù),一直是人們研究問(wèn)題的焦點(diǎn)。在大數(shù)據(jù)技術(shù)的支撐下,通過(guò)對(duì)巨量視頻數(shù)據(jù)的分析與處理,可實(shí)現(xiàn)模糊查詢、精準(zhǔn)定位、快速檢索等,能夠?qū)Ω咔灞O(jiān)控視頻畫質(zhì)進(jìn)行細(xì)節(jié)分析,智能挖掘出類似行為及特征的數(shù)據(jù),從而為業(yè)務(wù)分析和事件決策判斷提供精準(zhǔn)依據(jù)。
3 大數(shù)據(jù)處理關(guān)鍵技術(shù)
3.1 數(shù)據(jù)備份技術(shù)
在大數(shù)據(jù)時(shí)代,如何做好數(shù)據(jù)的安全備份至關(guān)重要。數(shù)據(jù)備份是數(shù)據(jù)容災(zāi)的前提,具體是指當(dāng)出現(xiàn)某種突發(fā)狀況導(dǎo)致存儲(chǔ)系統(tǒng)中的文件、數(shù)據(jù)、片段丟失或者嚴(yán)重?fù)p壞時(shí),系統(tǒng)可準(zhǔn)確而快速地將數(shù)據(jù)進(jìn)行恢復(fù)的技術(shù)。數(shù)據(jù)容災(zāi)備份是為防止偶發(fā)事件而采取的一種數(shù)據(jù)保護(hù)手段,其核心工作是數(shù)據(jù)恢復(fù),根本目的是數(shù)據(jù)資源再利用。
3.2 Hadoop
大數(shù)據(jù)時(shí)代對(duì)于數(shù)據(jù)分析、管理等都提出了更高層次的要求,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)和數(shù)據(jù)分析處理技術(shù)已經(jīng)不能滿足大數(shù)據(jù)橫向擴(kuò)展的需求。為了給大數(shù)據(jù)處理、分析提供一個(gè)性能更好、可靠性更高的平臺(tái),Apache基金會(huì)開發(fā)了一個(gè)開源平臺(tái)Hadoop[4],該平臺(tái)用Java語(yǔ)言編寫,可移植性強(qiáng),現(xiàn)在Hadoop已經(jīng)發(fā)展為一個(gè)包括HDFS(分布式文件系統(tǒng) )、HBase(分布式數(shù)據(jù)庫(kù))等功能模塊在內(nèi)的完整生態(tài)系統(tǒng),成為目前主流的大數(shù)據(jù)應(yīng)用平臺(tái)。
3.3 云計(jì)算
如果把各種各樣的大數(shù)據(jù)應(yīng)用比作在公路上行駛的各種汽車,那么支撐這些汽車快速運(yùn)行的高速公路就是云計(jì)算,云計(jì)算是大數(shù)據(jù)分析處理技術(shù)的核心。正是由于云計(jì)算在海量信息存儲(chǔ)、分析及管理方面的技術(shù)支持,大數(shù)據(jù)才有了如此廣闊的用武之地。谷歌的各種大數(shù)據(jù)處理技術(shù)和應(yīng)用平臺(tái)都是基于云計(jì)算,最典型的就是以UFS(UIT云存儲(chǔ)系統(tǒng))、MapReduce(批處理技術(shù))、BigTable(分布式數(shù)據(jù)庫(kù))為代表的大數(shù)據(jù)處理技術(shù)以及在此基礎(chǔ)上產(chǎn)生的開源數(shù)據(jù)處理平臺(tái)Hadoop[5]。
4 大數(shù)據(jù)應(yīng)用帶來(lái)的信息安全隱患及應(yīng)對(duì)策略
大數(shù)據(jù)時(shí)代,海量數(shù)據(jù)通常存儲(chǔ)在大規(guī)模分布式的網(wǎng)絡(luò)節(jié)點(diǎn)中,管理相對(duì)分散,而且系統(tǒng)也無(wú)法控制用戶進(jìn)行數(shù)據(jù)交易的場(chǎng)所,因此很難辨別用戶的身份(合法及非法用戶),容易導(dǎo)致不合法用戶篡改或竊取信息;此外,大數(shù)據(jù)存儲(chǔ)系統(tǒng)中包含了海量的個(gè)人用戶隱私數(shù)據(jù)及各種行為的記錄信息,如何在大數(shù)據(jù)的挖掘利用中確定一個(gè)信息保護(hù)和開放的尺度, 是大數(shù)據(jù)面臨的又一難題。為了合理利用大數(shù)據(jù)并有效規(guī)避風(fēng)險(xiǎn),我們提出以下四點(diǎn)建議:
⑴ 國(guó)家出臺(tái)相關(guān)政策,加強(qiáng)頂層設(shè)計(jì),保障數(shù)據(jù)存儲(chǔ)安全;
⑵ 增強(qiáng)網(wǎng)絡(luò)安全防護(hù)能力,抵御網(wǎng)絡(luò)犯罪,確保網(wǎng)絡(luò)信息安全;
⑶ 提高警惕積極探索,加大個(gè)人隱私數(shù)據(jù)保護(hù)力度;
⑷ 深化云計(jì)算安全領(lǐng)域研究,保障云端數(shù)據(jù)安全。
5 結(jié)束語(yǔ)
在當(dāng)今信息知識(shí)爆炸的時(shí)代,大數(shù)據(jù)技術(shù)已經(jīng)被廣泛應(yīng)用于商業(yè)金融、電力醫(yī)療、教育科研等領(lǐng)域。隨著數(shù)據(jù)挖掘技術(shù)的不斷進(jìn)步,相關(guān)信息行業(yè)競(jìng)相從規(guī)模龐大、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)海洋中攫取更多有價(jià)值的數(shù)據(jù)信息用于分析、解決現(xiàn)實(shí)生活中的各種實(shí)際問(wèn)題,從而實(shí)現(xiàn)信息技術(shù)的快速健康發(fā)展。本文梳理了大數(shù)據(jù)的基本概念及4V特征,總結(jié)歸納了大數(shù)據(jù)技術(shù)的四大熱門應(yīng)用領(lǐng)域及三大核心處理技術(shù),分析了大數(shù)據(jù)技術(shù)帶來(lái)的諸如信息竊取及篡改、個(gè)人隱私數(shù)據(jù)泄露等信息安全隱患,并提出了相應(yīng)的解決措施及建議。當(dāng)然,目前大數(shù)據(jù)技術(shù)的研究尚處在起步階段,還有許多深層次的問(wèn)題亟待解決,如大數(shù)據(jù)的存儲(chǔ)管理是通過(guò)硬件的簡(jiǎn)單升級(jí)還是通過(guò)系統(tǒng)的重新設(shè)計(jì)來(lái)解決,大數(shù)據(jù)4V特征中起關(guān)鍵作用的是什么,大數(shù)據(jù)技術(shù)的應(yīng)用前景是什么,等等。就目前來(lái)看,未來(lái)大數(shù)據(jù)技術(shù)的研究之路還很長(zhǎng),需要我們用更加敏銳的洞察力來(lái)分析和研究。
參考文獻(xiàn):
[1] BARWICK H. The "four Vs" of big data. Implementing Information
Infrastructure Symposium[EB/OL]. [2012-10-02]. http://.au/article/396198/iiis_four_vs_big_data/.
[2] 韋雪瓊,楊嘩,史超.大數(shù)據(jù)發(fā)展下的金融市場(chǎng)新生態(tài)[Jl.時(shí)代金融,
2012.7:173-174
[3] 張敬誼,佘盼,肖筱華.基于云計(jì)算的區(qū)域醫(yī)療信息化服務(wù)平臺(tái)的研
究[J].計(jì)算機(jī)科學(xué),2013.40(10):360-365
1.1 大數(shù)據(jù)及其影響
大數(shù)據(jù)(Big Data)是目前最重要的科學(xué)、技術(shù)和社會(huì)話題。借用IDC數(shù)據(jù)公司的定義:“大數(shù)據(jù)是一種新一代的技術(shù)和架構(gòu),具備高效率的捕捉、發(fā)現(xiàn)和分析能力,能夠經(jīng)濟(jì)地從類型繁雜、數(shù)量龐大的數(shù)據(jù)中挖掘出色價(jià)值?!?/p>
大數(shù)據(jù)定義有著如下的基本前提和含義。
① 大量的數(shù)據(jù):大數(shù)據(jù)概念源于數(shù)據(jù)的爆炸性增長(zhǎng)。用世界著名的咨詢公司高德納(Gartner)研究報(bào)告的描述:“同一類型的數(shù)據(jù)量快速增長(zhǎng);數(shù)據(jù)增長(zhǎng)速度的加快;數(shù)據(jù)多樣性、新數(shù)據(jù)來(lái)源和新數(shù)據(jù)種類的不斷增加。”
② 多種類型數(shù)據(jù)積累:新的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)采集的技術(shù)發(fā)展使巨量數(shù)據(jù)的采集、收集、存儲(chǔ)成為可能。網(wǎng)絡(luò)技術(shù)、移動(dòng)設(shè)備、數(shù)字傳感器、數(shù)碼攝影/攝像、監(jiān)控影像、衛(wèi)星定位系統(tǒng)、遙感技術(shù)、氣候和環(huán)境監(jiān)測(cè)技術(shù)等等,每時(shí)每刻都在各種形式、各種類型的大量數(shù)據(jù)。
③ 計(jì)算技術(shù)的進(jìn)步與發(fā)展:現(xiàn)代計(jì)算技術(shù)、網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)和數(shù)據(jù)庫(kù)處理技術(shù)等可以處理各種形式的海量數(shù)據(jù),產(chǎn)生出大量的高附加值的數(shù)據(jù)、結(jié)果、狀態(tài)和知識(shí)。
④ 數(shù)據(jù)處理能力成為戰(zhàn)略能力:數(shù)據(jù)量的激增、數(shù)據(jù)類型的多樣、技術(shù)平臺(tái)對(duì)數(shù)據(jù)的綜合處理,造成了知識(shí)邊界擴(kuò)展、知識(shí)價(jià)值提升、知識(shí)衍生能力加快,它極大地影響到了企業(yè)、個(gè)人、社會(huì)和政府的決策,極大地促進(jìn)了社會(huì)生產(chǎn)力的發(fā)展,使掌握大數(shù)據(jù)技術(shù)者獲得了競(jìng)爭(zhēng)優(yōu)勢(shì)和難于模仿的核心競(jìng)爭(zhēng)力。因此,大數(shù)據(jù)技術(shù)也成為了國(guó)家的核心戰(zhàn)略資源。
大數(shù)據(jù)的含義廣博、技術(shù)領(lǐng)域廣泛、技術(shù)平臺(tái)多樣、作用效果巨大、影響意義深遠(yuǎn)。理解大數(shù)據(jù)的理論、方法和架構(gòu),適應(yīng)大數(shù)據(jù)的變革與發(fā)展,分享大數(shù)據(jù)所帶來(lái)的種種便利和收益,便能夠在大數(shù)據(jù)時(shí)代占領(lǐng)先機(jī)。
1.2 大數(shù)據(jù)對(duì)數(shù)據(jù)庫(kù)技術(shù)的影響
大數(shù)據(jù)的宗旨是處理數(shù)據(jù),數(shù)據(jù)庫(kù)技術(shù)自然占據(jù)核心地位。而大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫(kù)技術(shù)也具有明顯的特殊性。
1.2.1 大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理技術(shù)面臨的新特點(diǎn)
數(shù)據(jù)量宏大。對(duì)數(shù)據(jù)庫(kù)技術(shù)影響最大、最直接的方面莫過(guò)于數(shù)據(jù)的爆炸性增長(zhǎng)。即使先不考慮數(shù)據(jù)類型的變化,需要處理的數(shù)據(jù)從MB擴(kuò)展到GB,現(xiàn)在再擴(kuò)展到TB,不遠(yuǎn)的將來(lái)數(shù)據(jù)庫(kù)將經(jīng)常面對(duì)PB量級(jí)的數(shù)據(jù),這必然對(duì)數(shù)據(jù)庫(kù)的硬件架構(gòu)、數(shù)據(jù)庫(kù)系統(tǒng)結(jié)構(gòu)和數(shù)據(jù)庫(kù)應(yīng)用產(chǎn)生重大的影響。
數(shù)據(jù)形式多樣。另外一個(gè)對(duì)數(shù)據(jù)庫(kù)技術(shù)產(chǎn)生重要影響的因子是數(shù)據(jù)的多樣化,傳統(tǒng)數(shù)字、圖像、照片、影像、聲音等多種數(shù)據(jù)資源需要進(jìn)行處理,并且和傳統(tǒng)關(guān)系式數(shù)據(jù)不同的,許多數(shù)據(jù)格式中的有價(jià)值數(shù)據(jù)并不多,例如多張圖片定對(duì)象的變化,連續(xù)視頻影像中對(duì)特殊對(duì)象的跟蹤等等,其數(shù)據(jù)抽取方式、過(guò)濾方法和存儲(chǔ)、計(jì)算方式均有別于傳統(tǒng)數(shù)據(jù)庫(kù)。
單機(jī)或小型局域網(wǎng)的數(shù)據(jù)庫(kù)處理無(wú)法滿足。當(dāng)前,數(shù)據(jù)量爆炸式增長(zhǎng),數(shù)據(jù)類型日趨多樣,傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的處理能力已難于滿足,需要新的數(shù)據(jù)庫(kù)處理技術(shù)。
傳統(tǒng)的并行數(shù)據(jù)庫(kù)的靈活性具有局限性。并行數(shù)據(jù)庫(kù)系統(tǒng)取得了輝煌的成績(jī),但是它的靈活性不佳,彈性受限,系統(tǒng)規(guī)模的收縮或擴(kuò)展成本非常高。這樣的系統(tǒng)適合于“相對(duì)固定結(jié)構(gòu)”的計(jì)算結(jié)構(gòu),例如機(jī)銀行業(yè)務(wù)管理系統(tǒng)或城市交通管理系統(tǒng)等。
結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化形式并存。讓數(shù)據(jù)庫(kù)有能力處理這些半結(jié)構(gòu)化和非結(jié)構(gòu)化(有時(shí)不作區(qū)分)數(shù)據(jù)變成了新型數(shù)據(jù)庫(kù)技術(shù)的一項(xiàng)迫切要求。
對(duì)結(jié)果要求的模糊化。在大數(shù)據(jù)的時(shí)代,計(jì)算技術(shù)不僅限于回答“是/非”問(wèn)題,而是需要更多的模糊化結(jié)果。例如,流感有很可能在一周后流行、近期可能發(fā)生5級(jí)左右地震、近一周國(guó)際往返機(jī)票將上漲……這些答案并不精確,但足以指導(dǎo)人們的活動(dòng)。非結(jié)構(gòu)化數(shù)據(jù)的處理結(jié)果常常是給出模糊化的答案。
新數(shù)據(jù)庫(kù)技術(shù)的出現(xiàn)與挑戰(zhàn)。新需求的出現(xiàn),促使了新技術(shù)的產(chǎn)生,為處理非結(jié)構(gòu)化數(shù)據(jù),Apache、Google、Amazon等公司分別開發(fā)了適應(yīng)各自需要的新型數(shù)據(jù)庫(kù)系統(tǒng),相關(guān)的專家經(jīng)過(guò)分析和總結(jié)提出了NoSQL的設(shè)計(jì)理念,并創(chuàng)建了許多成功的產(chǎn)品。
1.2.2 新型數(shù)據(jù)庫(kù)技術(shù)的特點(diǎn)
與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)相比較,新型數(shù)據(jù)庫(kù)技術(shù)具有一些明顯的特點(diǎn),具體如下:
可處理的數(shù)據(jù)總量和數(shù)據(jù)類型增加。不再為數(shù)據(jù)結(jié)構(gòu)化或數(shù)據(jù)代表性而人為地選取部分?jǐn)?shù)據(jù)或進(jìn)行數(shù)據(jù)抽樣;不再靠樣本規(guī)模的大小來(lái)控制結(jié)果的置信區(qū)間和置信度。新的數(shù)據(jù)庫(kù)處理技術(shù)試圖利用“全部數(shù)據(jù)”,完成對(duì)結(jié)果的計(jì)算和推斷。
使用更多的非結(jié)構(gòu)化數(shù)據(jù),而不是片面地強(qiáng)調(diào)全部使用結(jié)構(gòu)化數(shù)據(jù)。在非結(jié)構(gòu)化的高復(fù)雜度、高數(shù)據(jù)量、多種數(shù)據(jù)類型的情況下,允許結(jié)論和結(jié)果的“不精確”,允許追求“次優(yōu)解”。體現(xiàn)大數(shù)據(jù)技術(shù)“以概率說(shuō)話”的特點(diǎn)。
不再試圖避免或降低數(shù)據(jù)的混雜性,而是把“使用全部數(shù)據(jù)”作為追求“次優(yōu)解”的途徑。即在復(fù)雜、混亂、無(wú)結(jié)構(gòu)化與確定、規(guī)整、結(jié)構(gòu)化數(shù)據(jù)之間做出平衡。
在遇到“使用全部數(shù)據(jù),得出模糊化結(jié)果”與“實(shí)用部分?jǐn)?shù)據(jù),得出準(zhǔn)確結(jié)論”的選擇時(shí),新型數(shù)據(jù)庫(kù)技術(shù)一般會(huì)選擇前者,從一個(gè)更全面的角度利用更多的數(shù)據(jù)資源去尋找答案。
科學(xué)地在因果關(guān)系與相關(guān)關(guān)系中做出抉擇。如果數(shù)據(jù)總體支持因果關(guān)系的判別和斷言,則像傳統(tǒng)數(shù)據(jù)庫(kù)那樣提供因果關(guān)系斷語(yǔ);如果數(shù)據(jù)計(jì)算量宏大、成本高昂或條件不具備,則把關(guān)注點(diǎn)由“因果關(guān)系”調(diào)整為“相關(guān)關(guān)系”——將追求“最優(yōu)解”變?yōu)樽非蟆按蝺?yōu)解”或“模糊解”。自然地,這種相關(guān)關(guān)系的選擇不能是隨機(jī)的,而是預(yù)先設(shè)計(jì)和規(guī)劃好的。
不同的數(shù)據(jù)庫(kù)開發(fā)理念,不同的應(yīng)用目標(biāo),不同的技術(shù)方案,早就了新型數(shù)據(jù)庫(kù)豐富多彩、特點(diǎn)各異的局面。
1.3 從傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)到非關(guān)系數(shù)據(jù)
在計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)剛剛趨于穩(wěn)定的1970年,IBM公司的Edgar Codd(科德)首先提出了關(guān)系數(shù)據(jù)庫(kù)的概念和規(guī)則,這是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)重要的里程碑。科德定義的關(guān)系數(shù)據(jù)庫(kù)具有結(jié)構(gòu)化程度高、數(shù)據(jù)冗余量低、數(shù)據(jù)關(guān)系明確、一致性好的優(yōu)點(diǎn)。關(guān)系數(shù)據(jù)庫(kù)模型把數(shù)據(jù)庫(kù)操作抽象成選擇、映射、連接、集合的并差交除操作、數(shù)據(jù)的增刪改查操作等。而1976年Boyce和Chamberlin提出的SQL結(jié)構(gòu)化查詢語(yǔ)言則把關(guān)系數(shù)據(jù)庫(kù)及其操作模式完整地固定下來(lái),其理論和做法延續(xù)至今,被作為數(shù)據(jù)庫(kù)技術(shù)的重要基石。關(guān)系數(shù)據(jù)庫(kù)中定義的關(guān)系模型的實(shí)質(zhì)是二維表格模型,關(guān)系數(shù)據(jù)庫(kù)就是通過(guò)關(guān)系連接的多個(gè)二維表格之間的數(shù)據(jù)集合。當(dāng)前流行的數(shù)據(jù)庫(kù)軟件Oracal、DB2、SQL Server、MySQL和Access等均屬于關(guān)系數(shù)據(jù)庫(kù)。
到二十世紀(jì)八十年代后期,IBM的研究員提出了數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)的概念,4年后Bill Inmon給出了被大家廣泛接受的數(shù)據(jù)倉(cāng)庫(kù)定義:“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理中的決策制定?!睌?shù)據(jù)倉(cāng)庫(kù)的進(jìn)步在于,它把決策支持定為數(shù)據(jù)庫(kù)中數(shù)據(jù)組織和管理的目標(biāo),從而把智能性和決策能力融入到數(shù)據(jù)庫(kù)中。Inmon之后,Ralph Kimball建立了更加方便、實(shí)用的“自底向上”數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)并稱之為“數(shù)據(jù)集市”(Data Mart),這種技術(shù)受到企業(yè)及廠家的歡迎并采納實(shí)施。雖然數(shù)據(jù)集市被歸并為數(shù)據(jù)倉(cāng)庫(kù),但是它的出現(xiàn)誘發(fā)了商務(wù)智能和聯(lián)機(jī)分析技術(shù)的流行。
隨著數(shù)據(jù)庫(kù)在企業(yè)中的廣泛應(yīng)用,企業(yè)收集了大量的數(shù)據(jù),如何從已有數(shù)據(jù)中提取對(duì)企業(yè)運(yùn)營(yíng)和決策具有重要價(jià)值的信息,成為了數(shù)據(jù)庫(kù)使用者和開發(fā)者關(guān)系的話題?!瓣P(guān)系數(shù)據(jù)庫(kù)之父”科德再次走在了前面,提出多維數(shù)據(jù)庫(kù)和多維分析的概念,這便是“聯(lián)機(jī)分析處理”(OLAP),使得數(shù)據(jù)庫(kù)已經(jīng)顯現(xiàn)了“智能性”特點(diǎn)。從數(shù)據(jù)倉(cāng)庫(kù)中產(chǎn)生的OLAP又反過(guò)來(lái)促進(jìn)和推動(dòng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的更深層的發(fā)展。
2.1 大數(shù)據(jù)數(shù)據(jù)庫(kù)的特點(diǎn)
傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù),從其創(chuàng)立至現(xiàn)在,長(zhǎng)期占據(jù)數(shù)據(jù)庫(kù)的絕對(duì)統(tǒng)治地位。但是,數(shù)據(jù)挖掘、商業(yè)智能和可視化技術(shù)的發(fā)展,特別是它們處理非結(jié)構(gòu)化數(shù)據(jù)的能力,動(dòng)搖了傳統(tǒng)數(shù)據(jù)庫(kù)的牢固地位。于是善于處理非結(jié)構(gòu)化數(shù)據(jù)的種種數(shù)據(jù)庫(kù)工具大量產(chǎn)生,這其中必須優(yōu)先提及的便是NoSQL(意為Not Only SQL)及NewSQL(意為New SQL)兩大數(shù)據(jù)庫(kù)陣營(yíng)。
現(xiàn)在隨著大數(shù)據(jù)時(shí)代的到來(lái),由Carlo Strozzi開創(chuàng)的NoSQL以其技術(shù)上的先進(jìn)性、方便性得到了越來(lái)越多的認(rèn)可。NoSQL改變了數(shù)據(jù)的定義范圍,其“數(shù)據(jù)類型”可以是文本、圖片、影像、網(wǎng)頁(yè),也可以是整個(gè)文件;NoSQL數(shù)據(jù)庫(kù)是非關(guān)系式的、數(shù)據(jù)間的關(guān)系更加復(fù)雜、多樣,類型和相互關(guān)系具有多種擴(kuò)展可能、存儲(chǔ)方式也多采用分布式結(jié)構(gòu)。經(jīng)過(guò)十多年的發(fā)展,NoSQL取得了成功,采用NoSQL技術(shù)的產(chǎn)品也不斷增長(zhǎng),目前NoSQL網(wǎng)站上()已經(jīng)收集了150余個(gè)相關(guān)產(chǎn)品,人們也把采用類似NoSQL結(jié)構(gòu)和原理的數(shù)據(jù)庫(kù)統(tǒng)稱為NoSQL數(shù)據(jù)庫(kù)。
最初NoSQL有意排斥關(guān)系數(shù)據(jù)庫(kù)的ACID規(guī)則和SQL特性(后發(fā)現(xiàn)其弱點(diǎn)又在一定程度和一定范圍內(nèi)支持?jǐn)?shù)據(jù)的一致性要求和SQL特性)。NoSQL堅(jiān)持分布式領(lǐng)域的CAP理論,CAP的含義為:
Consistency,一致性。數(shù)據(jù)一致更新,所有節(jié)點(diǎn)訪問(wèn)同一份最新的數(shù)據(jù)副本;
Availability,可用性。對(duì)數(shù)據(jù)更新具備高可用性;
Partition tolerance,分區(qū)容錯(cuò)性。能容忍網(wǎng)絡(luò)分區(qū)。
CAP理論主張任何基于網(wǎng)絡(luò)的數(shù)據(jù)共享系統(tǒng),都最多只能擁有以下三條中的兩條。而這種“三取二”的法則以及具體理解與執(zhí)行的爭(zhēng)論就一直存在。想同時(shí)滿足三者,或者過(guò)分強(qiáng)化割舍三者之間聯(lián)系均會(huì)破壞數(shù)據(jù)系統(tǒng)的效率和效果。32歲便獲得加州大學(xué)伯克利分校終身教授的Eric Brewer提出了BASE理論(Basically Available, Soft state, Eventually consistent;基本可用、軟狀態(tài)、最終一致性),它用一種更注重可用性、更便于理解的方式解釋分布式系統(tǒng)的特點(diǎn)。
NewSQL注意到關(guān)系數(shù)據(jù)庫(kù)的靈活性不足、數(shù)據(jù)庫(kù)互鎖機(jī)制效率低下的特點(diǎn),同時(shí)也意識(shí)到NoSQL不支持SQL所帶來(lái)的不便,它采用了一種近似折中的方案,既支持SQL并保證一定程度的數(shù)據(jù)一致性,同時(shí)也提供NoSQL數(shù)據(jù)庫(kù)的非關(guān)系數(shù)據(jù)處理的擴(kuò)展功能,因而從產(chǎn)生之初便受到業(yè)界的喜愛(ài),相關(guān)產(chǎn)品不斷涌現(xiàn)。NoSQL和NewSQL常見產(chǎn)品及其分類情況如圖所示。
2.2 NoSQL及其發(fā)展趨勢(shì)
在NoSQL潮流中,最重要的莫過(guò)于Apache基金會(huì)的Hadoop。它是一個(gè)領(lǐng)導(dǎo)者,是一個(gè)典型的分布式文件系統(tǒng),是一個(gè)開源系統(tǒng)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,借助Hadoop開發(fā)分布式程序,它取得了成功,成為分布式數(shù)據(jù)處理界的巨獸(Hadoop的Logo就是只大象)。 現(xiàn)在甚至出來(lái)了“無(wú)分布不Hadoop”——每個(gè)傳統(tǒng)的數(shù)據(jù)庫(kù)提供商都急切地聲明支持Hadoop。關(guān)系數(shù)據(jù)庫(kù)的傳統(tǒng)霸主Oracle公司也將Hadoop集成到自己的NoSQL數(shù)據(jù)庫(kù)中,Microsoft、Sybase、IBM也加入了收納Hadoop功能的競(jìng)賽中。
第二位領(lǐng)導(dǎo)者,MongoDB,是一個(gè)成功的文檔處理型數(shù)據(jù)庫(kù)系統(tǒng),它被稱為“非關(guān)系式數(shù)據(jù)庫(kù)中最像關(guān)系式數(shù)據(jù)庫(kù)的產(chǎn)品”。MongoDB查詢功能強(qiáng)大,特別適合高性能的Web數(shù)據(jù)處理。
Cassandra是這個(gè)領(lǐng)域中的一個(gè)另類產(chǎn)品,它兼有鍵值數(shù)據(jù)庫(kù)和列值數(shù)據(jù)庫(kù)兩者的長(zhǎng)處,它的查詢功能很優(yōu)秀。雖然運(yùn)行Cassandra集群難度較高,但它升級(jí)后的分析能力使得很多人感到驚訝。
Redis也是相當(dāng)好的一個(gè)產(chǎn)品。對(duì)故障恢復(fù)的良好支持以及使用Lua的服務(wù)器端腳本語(yǔ)言是明顯區(qū)別于其他軟件之處。使用Lua確實(shí)帶來(lái)了一些震動(dòng),因?yàn)楦嗟娜讼矚g和習(xí)慣JavaScript服務(wù)器端語(yǔ)言。但是,Lua是一個(gè)整潔的語(yǔ)言,它并為Redis開啟了潘多拉盒子。
CouchBase在可擴(kuò)展性和其他潛在因素,使其看起來(lái)是一個(gè)很好的選擇,盡管Facebook以及Zynga面臨著關(guān)鍵開發(fā)者離開的風(fēng)波。CouchDB會(huì)變得更好抑或相反?只要數(shù)據(jù)庫(kù)做得好受眾就會(huì)歡迎,現(xiàn)在看來(lái),它確實(shí)做的很好。
還需要提及的是Riak,在功能性和監(jiān)控方面它也有了巨大的提升。在穩(wěn)定性方面,它繼續(xù)得到大家的贊美:“像巨石一般穩(wěn)定、可靠且不顯眼……”。Riak 數(shù)據(jù)模塊化方面做得很有特色。
在圖中,涉及了多個(gè)維度:關(guān)系型的與非關(guān)系型的、分析型的或操作型的、NoSQL類型與NewSQL類型的。最后的兩個(gè)分類中,對(duì)于NoSQL有著名的子分類“鍵值類數(shù)據(jù)庫(kù)、文檔數(shù)據(jù)庫(kù)、圖存數(shù)據(jù)庫(kù)和列存數(shù)據(jù)庫(kù)。對(duì)于NewSQL本已建立“存儲(chǔ)引擎、簇享數(shù)據(jù)、云服務(wù)”等類別。
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 營(yíng)銷
中圖分類號(hào):F49 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2015)030-0209-01
近幾年,大數(shù)據(jù)(big data)一詞越來(lái)越多地被提及,人們用它來(lái)描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。2012 年3 月,奧巴馬公布了美國(guó)《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,標(biāo)志著大數(shù)據(jù)已經(jīng)成為國(guó)家戰(zhàn)略,上升為國(guó)家意志。從硅谷到北京,大數(shù)據(jù)的話題傳播迅速。
1 大數(shù)據(jù)時(shí)代
隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,經(jīng)過(guò)半個(gè)多世紀(jì)的發(fā)展,信息爆炸已經(jīng)積累到了一個(gè)開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。最先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念。
1.1 大數(shù)據(jù)時(shí)代產(chǎn)生的背景
最早提出“大數(shù)據(jù)”時(shí)代到來(lái)的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。”大規(guī)模生產(chǎn)、分享和應(yīng)用海量數(shù)據(jù)的時(shí)代之所以能夠開啟,源于信息科技的進(jìn)步、互聯(lián)網(wǎng)與云計(jì)算技術(shù)和物聯(lián)網(wǎng)的發(fā)展。
(1)信息科技的進(jìn)步。信息處理、信息存儲(chǔ)和信息傳遞是信息科技的三個(gè)主要支撐,存儲(chǔ)設(shè)備性價(jià)比不斷提升、網(wǎng)絡(luò)帶寬的持續(xù)增加,為大數(shù)據(jù)的存儲(chǔ)和傳播提供了物質(zhì)基礎(chǔ)。
(2)互聯(lián)網(wǎng)與云計(jì)算技術(shù)?;ヂ?lián)網(wǎng)時(shí)代,電子商務(wù)、社交網(wǎng)絡(luò)和移動(dòng)通信產(chǎn)生了大量結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),以云計(jì)算為基礎(chǔ)的信息存儲(chǔ)、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數(shù)據(jù)存儲(chǔ)下來(lái),并隨時(shí)進(jìn)行分析與計(jì)算。互聯(lián)網(wǎng)領(lǐng)域的公司最早重視數(shù)據(jù)資產(chǎn)的價(jià)值,他們從大數(shù)據(jù)中淘金,并且引領(lǐng)著大數(shù)據(jù)的發(fā)展趨勢(shì)。
(3)物聯(lián)網(wǎng)的發(fā)展。眾所周知,物聯(lián)網(wǎng)時(shí)代所創(chuàng)造的數(shù)據(jù)不是互聯(lián)網(wǎng)時(shí)代所能比擬的,而且物聯(lián)網(wǎng)的數(shù)據(jù)是異構(gòu)的、多樣性的、非結(jié)構(gòu)和有噪聲的,最顯著的特點(diǎn)是是它的高增長(zhǎng)率。大數(shù)據(jù)是物聯(lián)網(wǎng)中的關(guān)鍵技術(shù),物聯(lián)網(wǎng)對(duì)大數(shù)據(jù)技術(shù)的要求更高,它的發(fā)展離不開大數(shù)據(jù)。
1.2 大數(shù)據(jù)與數(shù)據(jù)挖掘
Google、Amazon、Facebook、Twitter,這些稱霸全球互聯(lián)網(wǎng)的企業(yè),它們的成功都具備一個(gè)共同的因素,就是收集分析海量的各種類型的數(shù)據(jù),并能夠快速獲取影響未來(lái)的信息的能力?!百?gòu)買了此商品的顧客還購(gòu)買了這些商品”,這恐怕是世界上最廣為人知的一種商品推薦系統(tǒng)了,而創(chuàng)造出這個(gè)系統(tǒng)的正是Amazon。Amazon 通過(guò)分析商品的購(gòu)買記錄、瀏覽歷史記錄等龐大的用戶行為歷史數(shù)據(jù),并與行為模式相似的其他用戶的歷史數(shù)據(jù)進(jìn)行對(duì)照,提供出最適合的商品推薦信息。Facebook 可以為用戶提供類似“也許你還認(rèn)識(shí)這些人”的提示,這種提示可以準(zhǔn)確到令人恐怖的程度,而這正是對(duì)龐大的數(shù)據(jù)進(jìn)行分析而得到的結(jié)果。這種以數(shù)據(jù)分析為核心的技術(shù)就是數(shù)據(jù)挖掘(data mining)。
從技術(shù)角度看,數(shù)據(jù)挖掘是從大量的、復(fù)雜的、不規(guī)則的、隨機(jī)的、模糊的數(shù)據(jù)中獲取隱含的、人們事先沒(méi)有發(fā)覺(jué)的、有潛在價(jià)值的信息和知識(shí)的過(guò)程。從商業(yè)角度來(lái)說(shuō),數(shù)據(jù)挖掘是從龐大的數(shù)據(jù)庫(kù)中抽取、轉(zhuǎn)換、分析一些潛在規(guī)律和價(jià)值,從中獲取輔助商業(yè)決策的關(guān)鍵信息和有用知識(shí)。大數(shù)據(jù)概念的提出,將為數(shù)據(jù)挖掘技術(shù)的發(fā)展和應(yīng)用帶來(lái)一個(gè)很大的機(jī)遇。
2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘旨在從大數(shù)據(jù)中提取隱藏的預(yù)測(cè)性信息,用便于理解和觀察的方式反映給用戶,作為決策的依據(jù)。
2.1 數(shù)據(jù)挖掘原理
數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Diseoveryin Databases,KDD),是一個(gè)從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中發(fā)現(xiàn)并抽取隱含的、明顯未知的、具有潛在用處的信息的過(guò)程。數(shù)據(jù)挖掘一般流程主要包括三個(gè)階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果解釋和評(píng)價(jià)。在數(shù)據(jù)挖掘的處理過(guò)程中,數(shù)據(jù)挖掘分析方法是最為關(guān)鍵的。
(1)數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備是從海量數(shù)據(jù)源得到數(shù)據(jù)挖掘所用的數(shù)據(jù),將數(shù)據(jù)集成到一起的過(guò)程。由于數(shù)據(jù)收集階段得到的數(shù)據(jù)可能有一定的污染,即數(shù)據(jù)可能存在不一致,或有缺失數(shù)據(jù)、臟數(shù)據(jù)的存在,因此需通過(guò)數(shù)據(jù)整理,對(duì)數(shù)據(jù)進(jìn)行清洗及預(yù)處理。
(2)數(shù)據(jù)挖掘。是數(shù)據(jù)挖掘中最關(guān)鍵的一步,使用智能的方法提取數(shù)據(jù)模式,例如決策樹、分類和聚類、關(guān)聯(lián)規(guī)則和神經(jīng)網(wǎng)絡(luò)等。首先決定要提取什么樣的模型,然后選取相應(yīng)的算法參數(shù),分析數(shù)據(jù)從而得到可能形成知識(shí)的模式模型。
(3)結(jié)果解釋和評(píng)價(jià)。數(shù)據(jù)挖掘后的結(jié)果需要轉(zhuǎn)換成用戶能夠理解的規(guī)則或模式,并根據(jù)其是否對(duì)決策問(wèn)題具有實(shí)際意義進(jìn)行評(píng)價(jià)。
2.2 數(shù)據(jù)挖掘技術(shù)在營(yíng)銷中的應(yīng)用
無(wú)差別的大眾媒體營(yíng)銷已經(jīng)無(wú)法滿足零和的市場(chǎng)環(huán)境下的競(jìng)爭(zhēng)要求。精準(zhǔn)營(yíng)銷是企業(yè)現(xiàn)在及未來(lái)的發(fā)展方向,在精準(zhǔn)營(yíng)銷領(lǐng)域,最常用的數(shù)據(jù)挖掘分析方法包括分類、聚類和關(guān)聯(lián)三類。
(1)關(guān)聯(lián)規(guī)則。挖掘關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,例如空間關(guān)聯(lián)挖掘出啤酒與尿布效應(yīng);時(shí)間關(guān)聯(lián)挖掘出孕嬰用品與家居裝修關(guān)系;時(shí)間關(guān)聯(lián)挖掘出調(diào)味品、紙巾與化妝品的消費(fèi)等。
此外,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)也可用于序列模式發(fā)現(xiàn)。序列模式發(fā)現(xiàn)的側(cè)重點(diǎn)在于分析數(shù)據(jù)項(xiàng)集在時(shí)間上或序列上的前后(因果)規(guī)律,可以看作是一種特定的關(guān)聯(lián)規(guī)則。例如顧客在購(gòu)買了打印機(jī)后在一段時(shí)間內(nèi)是否會(huì)購(gòu)買墨盒。
(2)分類分析。分類是假定數(shù)據(jù)庫(kù)中的每個(gè)對(duì)象屬于一個(gè)預(yù)先給定的類,從而將數(shù)據(jù)庫(kù)中的數(shù)據(jù)分配到給定的類中。它屬于預(yù)測(cè)性模型,例如在銀行業(yè),事先定義用戶的信用狀況分為兩類:信用好和信用壞,對(duì)于一個(gè)信用狀態(tài)未知的用戶,如果需要確定其信用度,可以采用“決策樹”法構(gòu)建一個(gè)分類模型,決策樹方法著眼于從一組無(wú)次序、無(wú)規(guī)則的客戶數(shù)據(jù)庫(kù)中推理出決策樹表現(xiàn)形式的分類規(guī)則。決策樹的非葉子節(jié)點(diǎn)均是客戶的一些基本特征,葉子節(jié)點(diǎn)是客戶分類標(biāo)識(shí),由根節(jié)點(diǎn)至上而下,到每個(gè)葉子節(jié)點(diǎn),就生成了一條規(guī)則,由該決策樹可以得到很多規(guī)則,構(gòu)成了一個(gè)規(guī)則集合,從而進(jìn)行數(shù)據(jù)分析。
(3)聚類分析。聚類是將物理或抽象對(duì)象的集合進(jìn)行分組,然后組成為由類似或相似的對(duì)象組成的多個(gè)分類的分析過(guò)程,其目的就是通過(guò)相似的方法來(lái)收集數(shù)據(jù)分類。為品牌找客戶,回答品牌“誰(shuí)來(lái)賣”是精準(zhǔn)營(yíng)銷首先要解決的問(wèn)題,科學(xué)細(xì)分客戶是解決這一問(wèn)題的有效手段。聚類可以將目標(biāo)客戶分成多個(gè)類,同一個(gè)類中的客戶有很大的相似性,表現(xiàn)在購(gòu)買行為的高度一致,不同類間的客戶有很大的相異性,表現(xiàn)在購(gòu)買行為的截然不同。
3 結(jié)語(yǔ)
大數(shù)據(jù)時(shí)代背景下“數(shù)據(jù)成為資產(chǎn)”,數(shù)據(jù)挖掘技術(shù)作為支撐精準(zhǔn)營(yíng)銷的重要手段,將它應(yīng)用于營(yíng)銷行業(yè)的決策中,不僅拓展了數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍,而且大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)可以幫助企業(yè)獲得突破性回報(bào)。
參考文獻(xiàn)
[1]維克托?邁爾―舍恩伯格;肯尼思?庫(kù)克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].周濤譯.杭州:浙江人民出版社,2013.
[2]王偉玲.大數(shù)據(jù)產(chǎn)業(yè)的戰(zhàn)略價(jià)值研究與思考.技術(shù)經(jīng)濟(jì)與管理研究[J],2015(1).
[3]俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟(jì)學(xué)[J].中國(guó)軟科學(xué),2013(7):177-183.
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)庫(kù)集群技術(shù);分布集群
一、分布集群數(shù)據(jù)庫(kù)在大數(shù)據(jù)中的應(yīng)用
目前,許多數(shù)據(jù)增長(zhǎng)率很高的大型數(shù)據(jù)庫(kù)系統(tǒng)正被用于改善全球人類活動(dòng),如通信、社交網(wǎng)絡(luò)、交易、銀行等,分布集群數(shù)據(jù)庫(kù)已成為提高數(shù)據(jù)訪問(wèn)速度的解決方案之一。為多種類型的用戶在多個(gè)存儲(chǔ)中組織數(shù)據(jù)訪問(wèn),分布集群數(shù)據(jù)庫(kù)的問(wèn)題不僅在于如何管理大量的數(shù)據(jù),而且在于如何組織分布式存儲(chǔ)中的數(shù)據(jù)模式。智能數(shù)據(jù)組織是提高檢索速度、減少磁盤I/O數(shù)量、縮短查詢響應(yīng)時(shí)間的最佳方法之一?;谝?guī)則的聚類是提供數(shù)據(jù)庫(kù)自動(dòng)聚類和數(shù)據(jù)存儲(chǔ)模式解釋的解決方案之一,基于規(guī)則的集群通過(guò)分析屬性和記錄上的數(shù)據(jù)庫(kù)結(jié)構(gòu),將數(shù)據(jù)模式表示為規(guī)則。使用不同規(guī)則池分區(qū)的每個(gè)集群,每個(gè)規(guī)則與內(nèi)部集群中的規(guī)則相似,與外部集群中的規(guī)則不同。分布集群數(shù)據(jù)庫(kù)是一種有向圖結(jié)構(gòu)的進(jìn)化優(yōu)化技術(shù),用于數(shù)據(jù)分類,在緊湊的程序中具有顯著的表示能力,這源于節(jié)點(diǎn)的可重用性,而節(jié)點(diǎn)本身就是圖形結(jié)構(gòu)的功能。為了實(shí)現(xiàn)基于規(guī)則的集群,分布集群數(shù)據(jù)庫(kù)可以通過(guò)分析記錄來(lái)處理數(shù)據(jù)集的規(guī)則提取。分布集群數(shù)據(jù)庫(kù)的圖形結(jié)構(gòu)由三種節(jié)點(diǎn)組成:起始節(jié)點(diǎn)、判斷節(jié)點(diǎn)和處理節(jié)點(diǎn)。開始節(jié)點(diǎn)表示節(jié)點(diǎn)轉(zhuǎn)換的開始位置;判斷節(jié)點(diǎn)表示要在數(shù)據(jù)庫(kù)中檢查的屬性。分布集群數(shù)據(jù)庫(kù)規(guī)則提取的節(jié)點(diǎn)準(zhǔn)備包括兩個(gè)階段:節(jié)點(diǎn)定義和節(jié)點(diǎn)排列。節(jié)點(diǎn)定義的目的是準(zhǔn)備創(chuàng)建規(guī)則,節(jié)點(diǎn)排列是選擇重要的節(jié)點(diǎn),以便高效地提取大量規(guī)則。節(jié)點(diǎn)排列由以下兩個(gè)順序過(guò)程執(zhí)行,第一個(gè)過(guò)程是查找模板規(guī)則,第二個(gè)過(guò)程是結(jié)合第一個(gè)過(guò)程中創(chuàng)建的模板生成規(guī)則。提取模板以獲得數(shù)據(jù)集中經(jīng)常發(fā)生的屬性組合。在模板提取過(guò)程中,分布集群數(shù)據(jù)庫(kù)規(guī)則提取中只使用了少數(shù)幾個(gè)屬性,它旨在增加獲得高支持模板的可能性。與沒(méi)有模板規(guī)則的方法相比,該節(jié)點(diǎn)排列方法具有更好的聚類結(jié)果,這兩個(gè)過(guò)程中的規(guī)則生成都是通過(guò)圖結(jié)構(gòu)的演化來(lái)實(shí)現(xiàn)。
二、在線規(guī)則更新系統(tǒng)的應(yīng)用
在線規(guī)則更新系統(tǒng)用于通過(guò)分析所有記錄從數(shù)據(jù)集中提取規(guī)則,在大數(shù)據(jù)應(yīng)用中,每個(gè)節(jié)點(diǎn)都有自己的節(jié)點(diǎn)號(hào),描述每個(gè)節(jié)點(diǎn)號(hào)的節(jié)點(diǎn)信息。程序大小取決于節(jié)點(diǎn)的數(shù)量,這會(huì)影響程序創(chuàng)建的規(guī)則的數(shù)量。起始節(jié)點(diǎn)表示根據(jù)連接順序執(zhí)行的判斷節(jié)點(diǎn)序列的起始點(diǎn),開始節(jié)點(diǎn)的多個(gè)位置將允許一個(gè)人提取各種規(guī)則。判斷節(jié)點(diǎn)表示數(shù)據(jù)集的屬性,顯示屬性索引。在大數(shù)據(jù)應(yīng)用環(huán)節(jié),從每個(gè)起始節(jié)點(diǎn)開始的節(jié)點(diǎn)序列用虛線a、b和c表示,節(jié)點(diǎn)序列流動(dòng),直到支持判斷節(jié)點(diǎn)的下一個(gè)組合不滿足閾值。在節(jié)點(diǎn)序列中,如果具有已出現(xiàn)在上一個(gè)節(jié)點(diǎn)序列,將跳過(guò)這些節(jié)點(diǎn)。在更新每個(gè)集群中的規(guī)則時(shí),重要的是要找到與最新數(shù)據(jù)不匹配的屬性。因此,規(guī)則更新中要考慮的屬性由以下過(guò)程確定。當(dāng)計(jì)算集群中每個(gè)屬性和數(shù)據(jù)之間的輪廓值時(shí),閾值設(shè)置為0.85,只有輪廓值低于0.85的屬性。將為規(guī)則更新過(guò)程中的判斷節(jié)點(diǎn)的屬性選擇。一些數(shù)據(jù)的庫(kù)存值和權(quán)重值低于0.85,因此這些值不包括在國(guó)民生產(chǎn)總值的規(guī)則更新中。在線規(guī)則更新系統(tǒng)中包含用于更新規(guī)則的屬性,每個(gè)集群都具有屬性的主要值,這些屬性是集群質(zhì)量的錨定點(diǎn),進(jìn)而影響輪廓值。在線規(guī)則更新系統(tǒng)應(yīng)用中,完成主要的規(guī)則提取過(guò)程,這是一個(gè)標(biāo)準(zhǔn)的規(guī)則提取,在線規(guī)則更新系統(tǒng)考慮到數(shù)據(jù)集中的所有屬性。執(zhí)行該過(guò)程,對(duì)初始數(shù)據(jù)集進(jìn)行初始集群;改善規(guī)則更新過(guò)程,僅對(duì)輪廓值低于閾值的數(shù)據(jù)執(zhí)行。
三、大規(guī)模并行處理技術(shù)的應(yīng)用
大規(guī)模并行處理技術(shù)主要用于編寫和調(diào)試現(xiàn)代處理器的程序,而不是本地匯編程序,所有的書面代碼都是從C/C++語(yǔ)言翻譯成一個(gè)低級(jí)的核心匯編程序。在大數(shù)據(jù)應(yīng)用中,會(huì)產(chǎn)生很多數(shù)據(jù),在數(shù)據(jù)的分析和計(jì)算中,應(yīng)該結(jié)合編程技術(shù),標(biāo)準(zhǔn)語(yǔ)言是面向傳統(tǒng)體系結(jié)構(gòu)的,這就是為什么編譯器不能使用所有可能的DSP體系結(jié)構(gòu)以最佳效率生成代碼的原因。為了獲得一個(gè)良好的優(yōu)化代碼,有必要直接在低級(jí)匯編語(yǔ)言上編寫代碼。為了簡(jiǎn)化編寫程序的任務(wù),可以在某個(gè)處理器上使用面向代碼生成器。使用一個(gè)專門的匯編代碼生成器,使用并行結(jié)構(gòu)化的編程語(yǔ)言可以獲得比在C/C++中翻譯的應(yīng)用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內(nèi)核的并行性和其他特性。低級(jí)匯編代碼是由所有編譯器生成的,但是它們與傳統(tǒng)的基于文本的語(yǔ)言(如C/C++)一起工作。大數(shù)據(jù)應(yīng)用環(huán)節(jié),在數(shù)據(jù)分類和計(jì)算中,當(dāng)兩個(gè)計(jì)算操作在不同的操作單元上執(zhí)行時(shí),才能在一個(gè)dsp核心的vliw命令中并行執(zhí)行兩個(gè)計(jì)算操作。根據(jù)運(yùn)算執(zhí)行單元的不同,計(jì)算運(yùn)算可分為op1和op2兩種類型。屬于不同組使得在一個(gè)命令中執(zhí)行兩個(gè)操作成為可能。第一種類型包括由算術(shù)和邏輯單元執(zhí)行的操作,第二種類型包括由乘法器、移位器ms執(zhí)行的操作。在模板中,標(biāo)記“1”表示第一種類型的標(biāo)識(shí),標(biāo)記“2”分別表示第二種類型。如果兩個(gè)操作具有不同的類型并且沒(méi)有數(shù)據(jù)依賴關(guān)系,則可以進(jìn)行并行化,DSP核心的并行性是通過(guò)在一個(gè)核心中存在多個(gè)操作單元來(lái)保證的。在大數(shù)據(jù)計(jì)算和分析中,如果有足夠多的通用寄存器來(lái)執(zhí)行這兩個(gè)操作,并且它們可以并行執(zhí)行,代碼就會(huì)并行化,提升數(shù)據(jù)計(jì)算的效率。
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 方法
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2015)04-0222-01
1 大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘的重要性
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的快速發(fā)展,以及智能終端、網(wǎng)絡(luò)社會(huì)、數(shù)字地球等信息體的普及和建設(shè),全球數(shù)據(jù)量出現(xiàn)爆炸式增長(zhǎng),僅在2011年就達(dá)到1.8萬(wàn)億GB。IDC(Internet Data Center,互聯(lián)網(wǎng)絡(luò)數(shù)據(jù)中心)預(yù)計(jì),到2020 年全球數(shù)據(jù)量將增加50倍。毋庸置疑,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。一方面,云計(jì)算為這些海量的、多樣化的數(shù)據(jù)提供存儲(chǔ)和運(yùn)算平臺(tái),同時(shí)數(shù)據(jù)挖掘和人工智能從大數(shù)據(jù)中發(fā)現(xiàn)知識(shí)、規(guī)律和趨勢(shì),為決策提供信息參考。
如果運(yùn)用合理的方法和工具,在企業(yè)日積月累形成的浩瀚數(shù)據(jù)中,是可以淘到沙金的,甚至可能發(fā)現(xiàn)許多大的鉆石。在一些信息化較成熟的行業(yè),就有這樣的例子。比如銀行的信息化建設(shè)就非常完善,銀行每天生成的數(shù)據(jù)數(shù)以萬(wàn)計(jì),儲(chǔ)戶的存取款數(shù)據(jù)、ATM交易數(shù)據(jù)等。
數(shù)據(jù)挖掘是借助IT手段對(duì)經(jīng)營(yíng)決策產(chǎn)生決定性影響的一種管理手段。從定義上來(lái)看,數(shù)據(jù)挖掘是指一個(gè)完整的過(guò)程,該過(guò)程是從大量、不完全、模糊和隨機(jī)的數(shù)據(jù)集中識(shí)別有效的、可實(shí)用的信息,并運(yùn)用這些信息做出決策。
2 數(shù)據(jù)挖掘的分類
數(shù)據(jù)挖掘技術(shù)從開始的單一門類的知識(shí)逐漸發(fā)展成為一門綜合性的多學(xué)科知識(shí),并由此產(chǎn)生了很多的數(shù)據(jù)挖掘方法,這些方法種類多,類型也有很大的差別。為了滿足用戶的實(shí)際需要,現(xiàn)對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行如下幾種分類:
2.1 按挖掘的數(shù)據(jù)庫(kù)類型分類
利用數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)分類成為可能是因?yàn)閿?shù)據(jù)庫(kù)在對(duì)數(shù)據(jù)儲(chǔ)存時(shí)就可以對(duì)數(shù)據(jù)按照其類型、模型以及應(yīng)用場(chǎng)景的不同來(lái)進(jìn)行分類,根據(jù)這種分類得到的數(shù)據(jù)在采用數(shù)據(jù)挖掘技術(shù)時(shí)也會(huì)有滿足自身的方法。對(duì)數(shù)據(jù)的分類有兩種情況,一種是根據(jù)其模型來(lái)分類,另一種是根據(jù)其類型來(lái)分類,前者包括關(guān)系型、對(duì)象-關(guān)系型以及事務(wù)型和數(shù)據(jù)倉(cāng)庫(kù)型等,后者包括時(shí)間型、空間型和Web 型的數(shù)據(jù)挖掘方法。
2.2 按挖掘的知識(shí)類型分類
這種分類方法是根據(jù)數(shù)據(jù)挖掘的功能來(lái)實(shí)施的,其中包括多種分析的方式,例如相關(guān)性、預(yù)測(cè)及離群點(diǎn)分析方法,充分的數(shù)據(jù)挖掘不僅僅是一種單一的功能模式,而是各種不同功能的集合。同時(shí),在上述分類的情況下,還可以按照數(shù)據(jù)本身的特性和屬性來(lái)對(duì)其進(jìn)行分類,例如數(shù)據(jù)的抽象性和數(shù)據(jù)的粒度等,利用數(shù)據(jù)的抽象層次來(lái)分類時(shí)可以將數(shù)據(jù)分為三個(gè)層次,即廣義知識(shí)的高抽象層,原始知識(shí)的原始層以及到多層的知識(shí)的多個(gè)抽象層。一個(gè)完善的數(shù)據(jù)挖掘可以實(shí)現(xiàn)對(duì)多個(gè)抽象層數(shù)據(jù)的挖掘,找到其有價(jià)值的知識(shí)。同時(shí),在對(duì)數(shù)據(jù)挖掘進(jìn)行分類時(shí)還可以根據(jù)其表現(xiàn)出來(lái)的模式及規(guī)則性和是否檢測(cè)出噪聲來(lái)分類,一般來(lái)說(shuō),數(shù)據(jù)的規(guī)則性可以通過(guò)多種不同的方法挖掘,例如相關(guān)性和關(guān)聯(lián)分析以及通過(guò)對(duì)其概念描述和聚類分類、預(yù)測(cè)等方法,同時(shí)還可以通過(guò)這些挖掘方法來(lái)檢測(cè)和排除噪聲。
2.3 按所用的技術(shù)類型分類
數(shù)據(jù)挖掘的時(shí)候采用的技術(shù)手段千變?nèi)f化,例如可以采用面向數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)以及神經(jīng)網(wǎng)絡(luò)及其可視化等技術(shù)手段,同時(shí)用戶在對(duì)數(shù)據(jù)進(jìn)行分析時(shí)也會(huì)使用很多不同的分析方法,根據(jù)這些分析方法的不同可以分為遺傳算法、人工神經(jīng)網(wǎng)絡(luò)等等。一般情況下,一個(gè)龐大的數(shù)據(jù)挖掘系統(tǒng)是集多種挖掘技術(shù)和方法的綜合性系統(tǒng)。
2.4 按應(yīng)用分類
根據(jù)數(shù)據(jù)挖掘的應(yīng)用的領(lǐng)域來(lái)進(jìn)行分類,包括財(cái)經(jīng)行業(yè)、交通運(yùn)輸業(yè)、網(wǎng)絡(luò)通信業(yè)、生物醫(yī)學(xué)領(lǐng)域如DNA等,在這些行業(yè)或領(lǐng)域中都有滿足自身要求的數(shù)據(jù)挖掘方法。對(duì)于特定的應(yīng)用場(chǎng)景,此時(shí)就可能需要與之相應(yīng)的特殊的挖掘方法,并保證其有效性。綜上所述,基本上不存在某種數(shù)據(jù)挖掘技術(shù)可以在所有的行業(yè)中都能使用的技術(shù),每種數(shù)據(jù)挖掘技術(shù)都有自身的專用性。
3 數(shù)據(jù)挖掘中常用的方法
目前數(shù)據(jù)挖掘方法主要有4種,這四種算法包括遺傳、決策樹、粗糙集和神經(jīng)網(wǎng)絡(luò)算法。以下對(duì)這四種算法進(jìn)行一一解釋說(shuō)明。
遺傳算法:該算法依據(jù)生物學(xué)領(lǐng)域的自然選擇規(guī)律以及遺傳的機(jī)理發(fā)展而來(lái),是一種隨機(jī)搜索的算法,利用仿生學(xué)的原理來(lái)對(duì)數(shù)據(jù)知識(shí)進(jìn)行全局優(yōu)化處理。是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,是一種仿生全局優(yōu)化方法。這種算法具有隱含并行性、易與其它模型結(jié)合等優(yōu)點(diǎn)從而在數(shù)據(jù)挖掘中得到了應(yīng)用。
決策樹算法:在對(duì)模型的預(yù)測(cè)中,該算法具有很強(qiáng)的優(yōu)勢(shì),利用該算法對(duì)龐大的數(shù)據(jù)信息進(jìn)行分類,從而對(duì)有潛在價(jià)值的信息進(jìn)行定位,這種算法的優(yōu)勢(shì)也比較明顯,在利用這種算法對(duì)數(shù)據(jù)進(jìn)行分類時(shí)非常迅速,同時(shí)描述起來(lái)也很簡(jiǎn)潔,在大規(guī)模數(shù)據(jù)處理時(shí),這種方法的應(yīng)用性很強(qiáng)。
粗糙集算法:這個(gè)算法將知識(shí)的理解視為對(duì)數(shù)據(jù)的劃分,將這種劃分的一個(gè)整體叫做概念,這種算法的基本原理是將不夠精確的知識(shí)與確定的或者準(zhǔn)確的知識(shí)進(jìn)行類別同時(shí)進(jìn)行類別刻畫。
神經(jīng)網(wǎng)絡(luò)算法:在對(duì)模型的預(yù)測(cè)中,該算法具有很強(qiáng)的優(yōu)勢(shì),利用該算法對(duì)龐大的數(shù)據(jù)信息進(jìn)行分類,從而對(duì)有潛在價(jià)值的信息進(jìn)行定位,這種算法的優(yōu)勢(shì)也比較明顯,在利用這種算法對(duì)數(shù)據(jù)進(jìn)行分類時(shí)非常迅速,同時(shí)描述起來(lái)也很簡(jiǎn)潔,在大規(guī)模數(shù)據(jù)處理時(shí),這種方法的應(yīng)用性很強(qiáng)。光纜監(jiān)測(cè)及其故障診斷系統(tǒng)對(duì)于保證通信的順利至關(guān)重要,同時(shí)這種技術(shù)方法也是順應(yīng)當(dāng)今時(shí)代的潮流必須推廣使用的方法。同時(shí),該診斷技術(shù)為通信管網(wǎng)和日常通信提供了可靠的技術(shù)支持和可靠的后期保證。
參考文獻(xiàn)
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(01):146-169.