時間:2023-03-20 16:18:41
序論:在您撰寫計算機大數(shù)據(jù)論文時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導您走向新的創(chuàng)作高度。
大數(shù)據(jù)時代的到來,計算機信息處理技術也存在著很大風險,其中最突出的問題是計算機病毒以及惡意盜版軟件等,給用戶使用計算機產(chǎn)生了極大的消極影響。這些還是一些比較基礎的問題,隨著計算機技術的發(fā)展,還出現(xiàn)篡改數(shù)據(jù)、冒名頂替等問題,影響計算機技術服務質(zhì)量,計算機信息處理技術受到了前所未有的考驗。另外,大數(shù)據(jù)時代的到來,還出現(xiàn)了許多新型網(wǎng)絡技術,針對一些繁瑣的問題能夠有效解決,提高了人們的工作效率,然而,這也在一定程度上降低了網(wǎng)絡的真實性,特別是在網(wǎng)絡交流和溝通日益緊密的前提下,導致網(wǎng)絡信息真假難分,不僅增加了信息搜索難度,而且致使人們無法快速獲得真實信息。因此,提高計算機信息處理技術至關重要。
2大數(shù)據(jù)時代計算機信息處理技術
2.1信息采集、加工方面
計算機信息處理技術要進行工作,首先,要采集數(shù)據(jù)信息,計算機技術都是建立在數(shù)據(jù)采集基礎之上的,數(shù)據(jù)采集主要是針對目標信息源進行實時的信息監(jiān)督和控制,并將才覺得數(shù)據(jù)儲存在計算機數(shù)據(jù)庫中,為各個軟件提供信息支持,確保下一項工作順利進行;其次,對數(shù)據(jù)信息進行加工,按照用戶的要求,對數(shù)據(jù)信息進行加工;最后,將加工好的數(shù)據(jù)信系進行分類,最終傳送到用戶手中,實現(xiàn)數(shù)據(jù)采集、加工以及傳送目標。
2.2存儲方面
計算機存儲技術是將采集的信息儲存到計算機數(shù)據(jù)庫之中,在用戶需要某一項信息過程中,可以通過數(shù)據(jù)庫直接將數(shù)據(jù)調(diào)取出來,計算機以其儲存量大、速度快等優(yōu)勢,受到人們越來越多的關注,另外,計算機技術還能夠?qū)崿F(xiàn)長時間儲存。
2.3信息安全方面
大數(shù)據(jù)時代的到來,讓人們感受技術帶來的便捷的同時,也讓人們意識到數(shù)據(jù)信息安全對人們的重要性。因此,為了能夠提高數(shù)據(jù)信息的安全、可靠性,可以通過以下幾個方面進行:首先,建立計算機信息安全體系,加大專業(yè)技術人才的培養(yǎng)力度,投入資金,為構建計算機安全體系奠定堅實的基礎;其次,加大研究力度,開發(fā)信息安全技術產(chǎn)品。傳統(tǒng)信息安全技已經(jīng)無法滿足大數(shù)據(jù)時代數(shù)據(jù)安全需求,為了能夠盡快改善數(shù)據(jù)安全問題,應加大研究力度,尋求更好的解決方案,有效避免數(shù)據(jù)信息受到威脅;最后,重視對重要數(shù)據(jù)的檢測,大數(shù)據(jù)時代的突出特點是數(shù)據(jù)量大,無法實現(xiàn)對每一個數(shù)據(jù)的檢測。因此,為了提高數(shù)據(jù)安全系數(shù),應加強對重點數(shù)據(jù)信息的檢測,從而確保數(shù)據(jù)信息安全。
2.4信息處理技術的發(fā)展
計算機硬件具有一定局限性,在一定程度上阻礙了計算機網(wǎng)絡的發(fā)展,而云計算網(wǎng)絡能夠突破這一弊端。因此,推廣和應用云計算機網(wǎng)絡成為未來大數(shù)據(jù)時代計算機信息處理的主要發(fā)展趨勢。傳統(tǒng)計算機網(wǎng)絡是將硬件與網(wǎng)絡有機結合,抑制了計算機信息處理技術的發(fā)展,將二者分離開,促使云計算主筋形成云計算網(wǎng)絡,從而構建大數(shù)據(jù)信息網(wǎng)絡系統(tǒng),推動我國社會不斷發(fā)展。
3結論
目前,國內(nèi)高等院校的計算機基礎教育更多地沿用了傳統(tǒng)計算機教育的方法,只注重講授計算機的理論知識和操作要領,未考慮學生學習的效果。這導致學生只是記住一些概念和理論,能做基本的操作,卻很難用所學的知識靈活地解決實際問題。當前大學計算機基礎教育面臨以下4個問題:
(1)學生的計算機應用能力差異大
高等院校的學生來自全國各地,而不同地區(qū)的中小學計算機教育水平參差不齊。單一的課堂教學已無法保證所有的學生學得會、學得好,這給教學帶來了問題。
(2)教學和實驗的學時嚴重不足
目前,各個高校都在減少課時,教師只能在課堂上和實驗中加大講授的知識量,加快教學進度。當一個教師面對幾十個學生時,基礎較差的學生往往得不到教師足夠的指導和練習時間,這給輔導答疑帶來了問題。
(3)學習的結果與過程未被記錄下來
學生可以利用豐富的網(wǎng)絡資源鞏固課堂內(nèi)容,擴大知識面,加深對知識的理解。在傳統(tǒng)教學中,教師往往忽視了學生的課后學習,沒有記錄學習結果與過程,這給教育過程的改進帶來了問題。
(4)目前的網(wǎng)絡教學系統(tǒng)很少區(qū)分學習個體
網(wǎng)絡教學系統(tǒng)能夠提供大量的多媒體教學資源,幫助教師進行課后輔導答疑,卻很少區(qū)分學習個體,導致缺乏個體相關的數(shù)據(jù),從而難以提供個性化的指導,這給網(wǎng)絡教學系統(tǒng)的智能化帶來了問題。這些問題歸根結底是數(shù)據(jù)的問題,是數(shù)據(jù)沒有被有效地規(guī)劃和整合的問題。我們把與學習過程相關的大量數(shù)據(jù)收集起來,對這些數(shù)據(jù)進行分析,挖掘出有價值的信息,最后傳遞給學習者,這是一種解決計算機基礎教育所面臨問題的可行方法。
2面向計算機基礎教育的大數(shù)據(jù)
在當前知識大爆炸的時代,人們獲取知識的途徑不僅僅局限于課堂,更多的是網(wǎng)絡資源。當代的大學生接受新生事物更快,更愿意在特定的學習情境下去主動構建知識。因此,大學計算機基礎教育需要改革現(xiàn)有的教育模式,將大數(shù)據(jù)技術融入到大學計算機基礎教育中,建立與時俱進的大數(shù)據(jù)驅(qū)動的教育模式可以有效解決上述問題。在大數(shù)據(jù)時代涌現(xiàn)出大量的網(wǎng)絡教學系統(tǒng),隨著這些網(wǎng)絡教學系統(tǒng)的推廣和普遍應用,使用者數(shù)量急劇增加,產(chǎn)生了大量的數(shù)據(jù)。數(shù)據(jù)之間可能存在某種聯(lián)系,對這些聯(lián)系進行分析和挖掘可能會找到有價值的信息。將有價值的信息展現(xiàn)出來,能夠幫助我們做出正確的決策。在人類社會的發(fā)展已經(jīng)由動力驅(qū)動轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動的背景下,教育正在發(fā)生著一場新的變革,大學計算機基礎教育也面臨著類似的機遇和挑戰(zhàn)。通過網(wǎng)絡教學系統(tǒng),可以更加方便地獲取和利用大學計算機基礎教育相關的各種數(shù)據(jù)
。大學計算機基礎教育涉及的數(shù)據(jù)主要有以下幾種:
(1)課件。課件是文字、聲音、圖像、動畫等素材的集合,幫助教師更加生動地講解課程內(nèi)容,主要使用PPT和Flash兩種文件。
(2)視頻。視頻是將教師在課堂上的授課內(nèi)容錄制下來,為學生提供課后學習的方式。學生可以在教學系統(tǒng)中下載或在線學習視頻內(nèi)容。
(3)題目。題目主要用于測試學習效果,包括判斷題、填空題、選擇題、問答題、程序設計題等各種題型。
(4)問題。學生在學習過程中遇到的問題,通過教學系統(tǒng)提交給教師。這些問題反映了學習的難點,是教師在課堂上需要詳細講解的教學內(nèi)容。
(5)代碼。代碼是學生做程序設計類題目時所編寫的程序代碼。學生編寫代碼的質(zhì)量可以由教師評判,也可以由系統(tǒng)自動評判。
(6)行為。行為用來記錄學生的學習活動,如課件下載行為、視頻點播行為、作業(yè)瀏覽行為、編程行為等。這些行為能夠反映出學生的學習情況。
(7)缺陷。缺陷是學生提交的作業(yè)中包含的各種錯誤,反映了學習過程中存在的問題。對教學系統(tǒng)而言,這些數(shù)據(jù)是進行個性化推薦學習的參考依據(jù);對教師而言,這些數(shù)據(jù)能夠提示教學過程中需要特別關注的地方。
(8)過程。過程是指在教學過程中收集到的一些宏觀數(shù)據(jù),如課件學習過程、視頻學習過程、測試過程等。這些過程能夠反映出學生學習的個體差異。
3大數(shù)據(jù)驅(qū)動的新模式
在大數(shù)據(jù)時代,我們可以利用大數(shù)據(jù)技術在大量與學習相關的數(shù)據(jù)中挖掘出有價值的信息。這些信息能夠幫助學生更加科學有效地學習,較好地解決當前計算機基礎教育面臨的問題。因此,我們將大數(shù)據(jù)技術融入到大學計算機基礎教育中,提出一種大數(shù)據(jù)驅(qū)動的計算機基礎教育新模式。它是在有效規(guī)劃和整合計算機基礎教育大數(shù)據(jù)的前提下,為學生提供各種自主學習資源和服務的新模式。學生和教師在使用各種網(wǎng)絡教學系統(tǒng)時,輸入的數(shù)據(jù)和學習行為都被系統(tǒng)記錄下來。利用大數(shù)據(jù)技術對記錄下來的數(shù)據(jù)進行分析,挖掘出與學生學習特征相關的數(shù)據(jù)。這些數(shù)據(jù)為學生的后續(xù)學習提供個性化的推薦,規(guī)劃個性化的學習路線;向教師反饋學生的學習行為和效果,為后續(xù)教學提供個性化的推薦,幫助教師改進教學方法。以在線課程系統(tǒng)、在線編程系統(tǒng)和在線答疑系統(tǒng)為代表的各種網(wǎng)絡教學系統(tǒng)目前得到了廣泛的應用,這些系統(tǒng)本質(zhì)上都是大數(shù)據(jù)驅(qū)動。實踐證明,這些系統(tǒng)的應用將為學生學習和教師教學提供實質(zhì)性的幫助。
1)在線課程系統(tǒng)是課堂教學的延伸
大型開放式網(wǎng)絡課程MOOC是國際上流行的教學平臺。自2013年5月以來,北京大學、清華大學、復旦大學、上海交通大學等國內(nèi)一流高校紛紛宣布加入MOOC,向全球提供免費的在線課程。MOOC采用云計算架構,提供大量的視頻學習資源和人機交互功能。學生提交作業(yè)后,系統(tǒng)能自動評判作業(yè)的質(zhì)量,以評估學習效果。MOOC的出現(xiàn)給計算機基礎教育帶來巨大影響。MOOC解決了學生計算機應用能力差異大的問題,學生不管基礎如何,都能找到與之相應的學習內(nèi)容;MOOC彌補了課堂教學學時不足的問題,學生能在課后隨時隨地找到學習資源;MOOC能夠記錄學習的結果與過程以及作業(yè)中的錯誤等,這些對于改進教學方式和調(diào)整教學重點等都有意義。
2)在線編程系統(tǒng)是實驗環(huán)節(jié)的補充
隨著SaaS技術(軟件即服務)的不斷成熟,出現(xiàn)了許多功能強大的在線編程系統(tǒng)。這給大學計算機基礎教育中的程序設計類課程的實驗教學
帶來了巨大的幫助。使用在線編程系統(tǒng)進行實驗的好處有以下幾點:
(1)教師不用在實驗室的每臺計算機中安裝軟件,學生通過瀏覽器就可以編寫程序;
(2)學生編寫的代碼都存儲在云端,能上網(wǎng)的地方就能練習編程,并且隨時可以修改代碼,解決了實驗教學學時不足的問題;
(3)在線編程系統(tǒng)主要記錄代碼和代碼編寫的過程,能夠收集實驗過程中與學習相關的數(shù)據(jù)。國外在線編程系統(tǒng)CodeCademy提供了一種學習編程的新方式。它的用戶群是零基礎的學習者,所以CodeCademy創(chuàng)設趣味性的學習環(huán)境,手把手幫助學習者了解編程的過程。它的在線編輯器能讓學習者不用尋找、下載和安裝編程環(huán)境就可以在網(wǎng)絡上編程。在線編程系統(tǒng)不僅為實驗教學提供了方便的實驗環(huán)境,還能收集大量的程序代碼和學生的編程行為,有助于分析學生的學習特點與習慣,區(qū)分學習個體,為制訂個性化學習路線提供有價值的數(shù)據(jù)。
3)在線答疑系統(tǒng)是課后輔導的平臺
學生在學習過程中常常會遇到很多問題,這些問題如果能及時得到解答,就能促進學生更深入地學習;反之,就會影響學生的學習效果和積極性。目前,互聯(lián)網(wǎng)上已經(jīng)出現(xiàn)了許多人工解答和自動解答的系統(tǒng)。有代表性的是上海交通大學的遠程教育設計中心設計開發(fā)的AnswerWeb自動答疑系統(tǒng),它是一個動態(tài)的問題及答案的數(shù)據(jù)庫。學生輸入關鍵詞后可以在系統(tǒng)已有的問題和答案數(shù)據(jù)庫中查找相關的材料。如果沒有找到答案,則會自動轉(zhuǎn)發(fā)給教師請求幫助解答。隨后,新的提問和答案將被增加到系統(tǒng)庫中。系統(tǒng)會記錄所有的問題和答案以及學生提問過程中的行為。在線答疑系統(tǒng)應用到大學計算機基礎教育中,解決了教師無法在課后對每位學生進行輔導答疑的問題。同時,利用大數(shù)據(jù)技術,答疑系統(tǒng)將學生提問和獲得解答的行為記錄下來,自動的分析這些數(shù)據(jù),挖掘?qū)W習個體特征,為學生的后續(xù)學習提供個性化的推薦。
4結語
在大數(shù)據(jù)時代環(huán)境下,信息的獲取和選擇、信息技術的掌握應用,直接影響知識的生產(chǎn)、科技的創(chuàng)新和成果的轉(zhuǎn)化。大數(shù)據(jù)時代對高校的教學、學生的計算機應用能力提出了新的要求。產(chǎn)業(yè)界需求與關注點發(fā)生了重大轉(zhuǎn)變,企業(yè)關注的重點轉(zhuǎn)向數(shù)據(jù),計算機行業(yè)正在轉(zhuǎn)變?yōu)檎嬲男畔⑿袠I(yè),從追求計算速度轉(zhuǎn)變?yōu)殛P注大數(shù)據(jù)處理能力,軟件也將從編程為主轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。學生要學會對數(shù)據(jù)的去冗分類、去粗取精,從數(shù)據(jù)中挖掘知識,要能夠把大數(shù)據(jù)變成小數(shù)據(jù),要在不明顯增加采集成本的條件下盡可能提高數(shù)據(jù)的采集質(zhì)量。要研究如何科學合理地抽樣采集數(shù)據(jù),減少不必要的數(shù)據(jù)采集。
二、大數(shù)據(jù)時代背景下的教學策略
(一)營造適合學生全面發(fā)展的軟硬件環(huán)境信息時代的發(fā)展使得高職院校圖書館和數(shù)據(jù)中心具備了大數(shù)據(jù)的特征。科學研究和科技創(chuàng)新越來越依賴于對數(shù)據(jù)的管理和利用,打造良好、適宜的軟硬件環(huán)境是提高職業(yè)院校學生信息素養(yǎng)的基礎。目前互聯(lián)網(wǎng)技術及應用普及度較高,建設智慧校園可為學生提供更多的接觸信息資源的機會。加強高職院校數(shù)據(jù)中心和網(wǎng)絡中心的建設力度,在依托傳統(tǒng)圖書館文獻存儲量的基礎上,增加館藏圖文電子數(shù)據(jù)、電子文獻與多媒體文獻,打造信息化圖書館,為學生提供多元化的信息資源與服務。加強校園社交網(wǎng)絡平臺的建設,利用微信等新型傳播媒介,采用主動推送的方式傳遞正能量,提供有益于學生健康成長的信息,監(jiān)控、屏蔽不良信息的傳播,過濾影響學生身心健康的不良信息,構建適合高職院校學生學習的良好環(huán)境。
(二)發(fā)揮數(shù)字化圖書館在教育過程中的核心作用數(shù)字化圖書館的建設是圖書館業(yè)今后發(fā)展的主要方向。數(shù)字化圖書館也是一個科技含量較高的系統(tǒng)工程,高職院校各級領導應正確認識,加強資金投入,充分發(fā)揮其對教育過程的支持作用。數(shù)字化圖書館的典型特征是存儲數(shù)字化、操作計算機化、傳遞信息網(wǎng)絡化、信息存儲自由化和結構連接化,可與高職院校的基礎建設可以同步推進。在建設與發(fā)展過程中,教師要積極引導學生充分利用數(shù)字化信息資源。學生在使用數(shù)字化圖書館的過程中會產(chǎn)生一系列的行為特征數(shù)據(jù)。通過對學學習路徑和學習偏好的數(shù)據(jù)分析,根據(jù)其特點與實際量身設計合理的信息資源智慧導航,從而為學生學習新技術、新知識提供個性化的服務。
(三)加強學生創(chuàng)新能力的培養(yǎng)在知識經(jīng)濟時代,創(chuàng)新決定著一個國家和民族的綜合實力和核心競爭力。培養(yǎng)具有創(chuàng)新能力、實踐能力的高素質(zhì)技能人才,是高職院校人才培養(yǎng)的一個重點方向,也是高職辦學的特色及亮點。創(chuàng)新能力培養(yǎng)的關鍵是創(chuàng)新思維的培養(yǎng),而創(chuàng)新思維的核心在于思維的獨特性和新穎性。在大數(shù)據(jù)時代,學生面臨眾多數(shù)據(jù)資源。教師需要對學生提供專業(yè)的指導,讓學生學會利用互聯(lián)網(wǎng)技術和計算機軟件工具解決實際問題,在解決問題的過程中培養(yǎng)創(chuàng)新思維。高職院校應努力營造創(chuàng)新教育環(huán)境,結合創(chuàng)新教育,大力推進素質(zhì)教育。將“小發(fā)明、小創(chuàng)造”“大學生實踐技能展演”“大學生才藝展示”等活動納入校園文化活動中。組織學生參加各行業(yè)舉辦的職業(yè)技能大賽,實現(xiàn)從應試教育向素質(zhì)教育的轉(zhuǎn)軌,培養(yǎng)實用型、創(chuàng)新型的復合技能人才。充分重視學生的個性發(fā)展,建立專業(yè)的師資隊伍對學生的創(chuàng)造發(fā)明活動給予強有力的技術指導。對于技術含量高的、有市場推廣價值的創(chuàng)造發(fā)明活動,要引導學生進行自主創(chuàng)業(yè),帶動就業(yè)。加大創(chuàng)新教育課程的開發(fā)與建設力度,強化學生創(chuàng)新能力的培養(yǎng)。
(四)培養(yǎng)學生對信息技術的興趣與愛好興趣是最好的老師,是激發(fā)學生學習積極性的動力,是激發(fā)創(chuàng)新能力的必要條件。學生只有對身邊的事物發(fā)生了興趣,才會活躍思維,激發(fā)潛力。在課程設計中加入了生動、形象、貼近工作、貼近生活的典型案例,可以有效地激發(fā)學生的學習興趣,讓學生樂在其中,愉快地完成學習任務。教學實踐環(huán)節(jié)也應緊密圍繞著學生熟悉的事物、案例來開展教學。授課教師應了解信息技術在行業(yè)的實際應用狀況,根據(jù)不同專業(yè)的特點,結合學生,的知識體系結構精心準備授課內(nèi)容,確定課程的重難點。在教學過程中,通過師生互動了解學生對課程內(nèi)容的掌握程度,因材施教、精選案例、突出重點,從培養(yǎng)學生興趣與愛好入手,讓學生在輕松、愉悅的課堂教學中學習信息技術在專業(yè)領域的最新應用,了解最新的前沿學科理念,學握較新的實用技術。教師如果在教學活動中能及時、準確地解決學生在學習實踐中遇到的疑難,并指導他們完成實訓內(nèi)容,將有助于學生在學習過程中獲得成就感,激發(fā)學習的積極性、主動性和創(chuàng)造性。教師動手實踐能力將使得更多的學生得到有效指導和幫助,實現(xiàn)高質(zhì)量的課堂教學。
(五)探索高效教學模式根據(jù)高職人才培養(yǎng)目標的要求,計算機課程的教學需要與時俱進,隨著各行業(yè)大數(shù)據(jù)產(chǎn)業(yè)的不斷發(fā)展與應用而不斷進行調(diào)整、創(chuàng)新。通過對學生在校期間學習、生活的軌跡進行搜集、整理,形成基礎數(shù)據(jù),進而分析他們的學習行為、學習喜好和思維模式,制定適合他們?nèi)姘l(fā)展的教學方法,有針對性地培養(yǎng)和提高他們的計算機應用能力。利用各種輔助軟件,開展行之有效的教學實踐活動,讓學生在“做中學,學中做”。提高各專業(yè)學生的計算機應用操作能力,使他們掌握互聯(lián)網(wǎng)技術、計算機信息技術、電子商務等。以醫(yī)學影像技術專業(yè)為例,學生既要學會影像閱片操作,又要掌握最新的X線機、CT、MRI等先進檢查設備的使用與操作。如果能夠?qū)⑨t(yī)學影像技術專業(yè)與計算機應用實踐教學相結合,找出兩者的學科交叉點,構建適合時展需要的復合型人才培養(yǎng)模式,將會起到事半功倍的作用。在大數(shù)據(jù)的背景下,各行各業(yè)都需要利用信息技術,特別是數(shù)據(jù)庫技術、大數(shù)據(jù)分析技術,用以改變生產(chǎn)、經(jīng)營、管理、工作、生活等的方式。因此各專業(yè)的畢業(yè)生都面臨著行業(yè)對大數(shù)據(jù)的使用與開發(fā)的迫切需求。培養(yǎng)學生解決問題的實際操作能力,顯得尤為重要。在專業(yè)課程的教學中,通過對大數(shù)據(jù)的應用與計算機應用技術的滲透,不但能激發(fā)學生學習專業(yè)技能的積極性,而且可以引導學生形成應用計算機解決專業(yè)問題的思維模式,對他們將來適應大數(shù)據(jù)環(huán)境下工作具有積極的引導意義。以專業(yè)培養(yǎng)目標為基礎,合理對計算機課程進行設置與安排教學,將大數(shù)據(jù)知識、信息技術知識、計算機應用知識融入到各課程的教學中,構建適合高職類學生學習特點的高效教學模式。
(六)加強師資隊伍建設加強師資隊伍建設是提高學生計算機應用能力的關鍵。計算機應用基礎課程的教師,首先應該是計算機應用方面的專家,既能掌握扎實的理論基礎知識,又能熟練地操作計算機,善于使用相關行業(yè)軟件。在教學中能夠起到良好的操作示范作用,給予學生無形的感染力和號召力,增強學習的主動性與積極性。在實踐教學過程中,計算機任課教師不僅要與專業(yè)課教師緊密合作,整合校內(nèi)已有的專業(yè)資源和信息技術資源,充分利用好大數(shù)據(jù),而且要與行業(yè)、企業(yè)加強聯(lián)系,采取走出去、引進來的方式,讓學生在校期間就能充分接觸各種面向?qū)嶋H應用的信息技術產(chǎn)品與工具。學校要制定行之有效的師資隊伍培養(yǎng)計劃,緊密結合企業(yè)、行業(yè)的實際需求,建設“雙師型”教師隊伍,加強現(xiàn)代信息技術應用能力培訓。教師應深入企業(yè)、行業(yè),了解企業(yè)人才需求,了解企業(yè)使用的最新應用軟件動態(tài)與進展,充分利用好企業(yè)、行業(yè)大數(shù)據(jù)資源的研究最新成果,更新知識結構,提高實踐操作水平。
1.計算機網(wǎng)絡安全概述。
計算機網(wǎng)絡安全,是指利用相關網(wǎng)絡管理控制與技術,確保在一個網(wǎng)絡環(huán)境中數(shù)據(jù)的完整性、保密性及可用性。計算機網(wǎng)絡安全,主要包括邏輯安全與物理安全兩個方面,其中,邏輯安全包括數(shù)據(jù)的保密性、完整性及可用性,防止沒有經(jīng)過授權對數(shù)據(jù)進行隨意篡改或破壞的行為;物理安全包括相關設備與設施在受到物理保護的條件下保護設備上的數(shù)據(jù)免于丟失、破壞。
2.計算機網(wǎng)絡存在的主要安全問題。
目前,計算機已經(jīng)廣泛應用于各行各業(yè),人們對計算機網(wǎng)絡的認識與利用水平也顯著提升,辦公、社交、生活等方方面面都離不開計算機網(wǎng)絡。計算機網(wǎng)絡在豐富和改變?nèi)藗兩畹耐瑫r,其存在的安全問題也不得不讓人們警醒,經(jīng)過筆者梳理,計算機網(wǎng)絡安全問題主要存在以下幾個方面:
1)網(wǎng)絡病毒所導致的安全問題。
在計算機網(wǎng)絡技術快速發(fā)展的過程中,也出現(xiàn)了越來越多、感染力越來越強的新病毒,它們無時無刻地影響著計算機網(wǎng)絡的安全。由于計算機網(wǎng)絡病毒具有復制性,能夠感染其他程序和軟件,因此,一旦計算機中了病毒,其所運行的每一步都將是危險的,都會存在讓病毒也隨之運行并產(chǎn)生破壞行為,然后應用程序被破壞,機密數(shù)據(jù)被盜用或被破壞,甚至讓整個計算機系統(tǒng)癱瘓。
2)人為操作失誤所導致的安全問題。
在人們進行計算機相關操作過程中,人為操作失誤可能會引起計算機的安全漏洞,或者泄露了某些重要的信息,而這些信息一旦被不發(fā)分子所利用,便會造成難以挽回的損失。
3)網(wǎng)絡黑客攻擊所導致的安全問題。
在大數(shù)據(jù)時代下,網(wǎng)絡黑客對計算機網(wǎng)絡的攻擊具有更隱蔽、破壞性更強的特點。由于在大數(shù)據(jù)時代下,網(wǎng)絡黑客通過非正常手段竊取到某一重要數(shù)據(jù)時,一旦其利用這些數(shù)據(jù)進行非法行為時便會引起巨大的波及。同時,在海量的數(shù)據(jù)中,難以及時識別網(wǎng)絡黑客的攻擊行為,對于計算機網(wǎng)絡安全而言是一種嚴重的威脅。
4)網(wǎng)絡管理不到位所導致的安全問題。
在網(wǎng)絡安全維護中,網(wǎng)絡安全管理是非常重要的環(huán)節(jié),但是目前很多使用計算機的個人乃至企業(yè)、政府部門并沒有對網(wǎng)絡安全管理引起足夠的重視,從事使得計算機網(wǎng)絡的安全受到各種威脅,最終導致大量的計算機網(wǎng)絡安全事件頻繁發(fā)生。五是,網(wǎng)絡系統(tǒng)自身的漏洞所導致的安全問題。理論上而言,一切計算機網(wǎng)絡系統(tǒng)都存在某些漏洞。同時,在用戶使用各類程序、硬件過程中由于人為疏忽也會形成一些網(wǎng)絡系統(tǒng)漏洞。二者相比,后者的破壞性常常是巨大的,很多不法分子通過非法途徑給用戶造成計算機系統(tǒng)漏洞,進而竊取用戶信息,給用戶造成巨大的損失。
二、大數(shù)據(jù)時代下的計算機網(wǎng)絡安全防范對策
1.加強病毒治理及防范工作。
在大數(shù)據(jù)時代,計算機病毒的種類與數(shù)量與日俱增,對其進行治理與防范是較為困難的。在對計算機病毒進行治理與防范時,筆者認為最重要的是防范,這種防范是一種主動的、積極的治理,可以通過加強計算機防火墻部署來提高網(wǎng)絡環(huán)境的安全性,將那些不穩(wěn)定的、危險的網(wǎng)絡因素隔離在外,進而實現(xiàn)對網(wǎng)絡環(huán)境的安全保護。同時,計算機使用者樹立正確的病毒防范意識,在計算機日常使用中,能夠定期利用殺毒軟件對所使用的計算機網(wǎng)絡環(huán)境進行殺毒,并更新病毒樣本庫,進而確保對計算機網(wǎng)絡的掃描能及時識別計算機病毒并進行及時的處理。
2.加強黑客防范工作。
隱藏在大數(shù)據(jù)背后的網(wǎng)絡黑客一旦實施其不法行為,常常會產(chǎn)生巨大的安全問題,因此,為了防范計算機網(wǎng)絡安全,應當積極整合大數(shù)據(jù)的海量信息優(yōu)勢,建立科學的網(wǎng)絡黑客防范攻擊的模型,以此來提升識別網(wǎng)絡黑客的反應速度。通過加強計算機網(wǎng)絡的內(nèi)外網(wǎng)的割離、加強防火墻配置,能夠有效降低黑客攻擊的可能性。同時,還可以大力推廣數(shù)字認證技術,加強對訪問數(shù)據(jù)的有效控制,并合理認證,有效避免非法目的用戶的非法訪問,進而提升對網(wǎng)絡安全的有效保護。
3.加強網(wǎng)絡安全管理。
使用計算機的個人及機構,需要從思想上高度重視網(wǎng)絡安全管理的重要性,在熟悉大數(shù)據(jù)的特征與性能的基礎上采取安全的管理措施,時常關注網(wǎng)絡安全管理,從技術上給予網(wǎng)絡安全保障的同時,還需要通過有效的網(wǎng)絡安全管理來實現(xiàn)大數(shù)據(jù)時代下計算機網(wǎng)絡安全的防范目的。對于機構而言,需要從宏觀上認識到網(wǎng)絡安全管理的重要性,并建立動態(tài)的、有序的、系統(tǒng)的管理規(guī)章,依托于云計算技術構建一個更加高級的智慧平臺來加強網(wǎng)絡安全的防范,進而確保網(wǎng)絡安全。對于個人而言,需要從主觀上認識到網(wǎng)絡安全的重要行,在進行計算機操作中,要養(yǎng)成規(guī)范化的、文明的使用計算機網(wǎng)絡的習慣,尤其是對于一些釣魚網(wǎng)站、非法鏈接,要從主觀上認識到其危害,并做自我做起,將網(wǎng)絡安全問題盡可能消滅,不傳播有安全隱患的信息或鏈接。
4.加強網(wǎng)絡系統(tǒng)漏洞的修復工作。
大數(shù)據(jù)必將給教育帶來巨大的改變,曾經(jīng)依靠經(jīng)驗和靈感的授課過程,將被以數(shù)據(jù)分析為主的決策分析所代替。而計算機教學既是大數(shù)據(jù)技術的傳播載體,更是最應率先應用大數(shù)據(jù)技術的課程。無論如何,大數(shù)據(jù)已經(jīng)就在我們眼前,已經(jīng)悄然改變著教學過程,也必將深度改變學校的計算機教育模式。
(一)計算機教學內(nèi)容的變化
隨著大數(shù)據(jù)技術的發(fā)展和大數(shù)據(jù)分析的成熟,大數(shù)據(jù)技術及應用必然會成為各高校重要課程?,F(xiàn)在,美國的學校已經(jīng)開設相關課程,比如,大數(shù)據(jù)分析統(tǒng)計基礎、大數(shù)據(jù)分布式計算、大數(shù)據(jù)挖掘與機器學習等。國內(nèi)一些高校也正在嘗試開設大數(shù)據(jù)課程,幫助學生了解大數(shù)據(jù),學數(shù)據(jù)分析。下一步,大數(shù)據(jù)基礎、大數(shù)據(jù)分析、大數(shù)據(jù)處理的核心技術等等,必將成為計算機專業(yè)的必學內(nèi)容,也會成為高校重要的基礎課程。另外,計算機智能教學系統(tǒng)和教育測評軟件將更多地使用在教學中,以記錄學生的學習軌跡。而計算機專業(yè)的教師也必須熟練掌握大數(shù)據(jù)技術和分析方法。
(二)計算機教學思維的變化
原來的計算機教學基本是灌輸式教學,老師教授的是計算機基礎知識、C語言編程的模式、數(shù)據(jù)庫的基本架構,等等。大數(shù)據(jù)和互聯(lián)網(wǎng)的發(fā)展必然會改變這種授課方式,使知識的接受方式呈現(xiàn)多元化傾向。隨著移動互聯(lián)的發(fā)展,學生可以隨時隨地通過互聯(lián)網(wǎng)更便捷的獲取學習內(nèi)容。而課堂上單純的照本宣科、按部就班將不能吸引學生的注意力。因此,教師必須轉(zhuǎn)變教學思維,以更多的案例和互動式教學,引導學生去尋找解決問題的辦法,尋找“芝麻開門”的鑰匙,只有如此才能讓學生有興趣待在課堂。同時,大數(shù)據(jù)帶來的將是對海量教學案例的數(shù)據(jù)分析,讓教師對計算機教學的難點及教授方法優(yōu)劣有了更加清晰的認識,不必依靠教學經(jīng)驗去判斷教學效果,完全可以駕輕就熟地進行互動教學,啟發(fā)學生尋找最優(yōu)解決方案,將是大數(shù)據(jù)時代下計算機教學的突出特點,這是對計算機專業(yè)教學思維帶來的革命性變化。
(三)計算機教學模式的變化
目前,計算機教學主要模式是備課—教授—上機—測試,教師主要的精力放在了課前備課。而大數(shù)據(jù)技術的應用,將會讓教師把更多的精力放在課后分析上,形成“備課—教授—上機—測試—數(shù)據(jù)分析—改進”的模式。在這個模式中,課后的數(shù)據(jù)分析將是整個教學過程的關鍵環(huán)節(jié)。通過大數(shù)據(jù)分析,可以對一個班的學生進行整體學習行為評價,可以對學生上機測試情況進行細化分析,可以對每個學生的學習習慣進行學習評估,分析學生的學習中偏好、難點以及共同點等,從而得出學習過程中的規(guī)律,改進教學方式,提高教學質(zhì)量。
(四)個性化教學的深入開展
大數(shù)據(jù)技術的發(fā)展,使建立覆蓋學生學習全過程、全要素的信息庫成為可能,學生大量的試卷、課堂表現(xiàn)留存,學生的學習經(jīng)歷及成長軌跡,學生的家庭情況等等,都將被涵蓋在大數(shù)據(jù)分析中。另外,前述的計算機智能教學系統(tǒng)和教育測評軟件,將詳細記錄學生每次答題的背景、過程和結果。這些信息讓教學分析變得更加容易,教師可以利用數(shù)據(jù)挖掘的關聯(lián)分析和演變分析等功能,依靠學生的某些學習特征,比如答題持續(xù)時間,具體回答步驟和內(nèi)容(可以細化到每次擊鍵和每個筆劃),答對的要素和答錯的要素等等,在學生管理數(shù)據(jù)庫中挖掘有價值的數(shù)據(jù),并分析學生的日常行為,研究各種行為的內(nèi)在聯(lián)系,來據(jù)此形成針對學生個性化的教學策略,以幫助學生在學習方面取得更大的突破。
二、小結
大數(shù)據(jù)背景下的機器算法
專業(yè)
計算機科學與技術
學生姓名
楊宇瀟
學號
181719251864
一、 選題的背景、研究現(xiàn)狀與意義
為什么大數(shù)據(jù)分析很重要?大數(shù)據(jù)分析可幫助組織利用其數(shù)據(jù)并使用它來識別新的機會。反過來,這將導致更明智的業(yè)務移動,更有效的運營,更高的利潤和更快樂的客戶。
在許多早期的互聯(lián)網(wǎng)和技術公司的支持下,大數(shù)據(jù)在2000年代初的數(shù)據(jù)熱潮期間出現(xiàn)。有史以來第一次,軟件和硬件功能是消費者產(chǎn)生的大量非結構化信息。搜索引擎,移動設備和工業(yè)機械等新技術可提供公司可以處理并持續(xù)增長的數(shù)據(jù)。隨著可以收集的天文數(shù)據(jù)數(shù)量的增長,很明顯,傳統(tǒng)數(shù)據(jù)技術(例如數(shù)據(jù)倉庫和關系數(shù)據(jù)庫)不適合與大量非結構化數(shù)據(jù)一起使用。 Apache軟件基金會啟動了第一個大數(shù)據(jù)創(chuàng)新項目。最重要的貢獻來自Google,Yahoo,F(xiàn)acebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是復雜數(shù)據(jù)準備和ETL的旗艦,可以為許多數(shù)據(jù)存儲或分析環(huán)境提供信息以進行深入分析。 Apache Spark(由加州大學伯克利分校開發(fā))通常用于大容量計算任務。這些任務通常是批處理ETL和ML工作負載,但與Apache Kafka等技術結合使用。
隨著數(shù)據(jù)呈指數(shù)級增長,企業(yè)必須不斷擴展其基礎架構以最大化其數(shù)據(jù)的經(jīng)濟價值。在大數(shù)據(jù)的早期(大約2008年),Hadoop被大公司首次認可時,維護有用的生產(chǎn)系統(tǒng)非常昂貴且效率低下。要使用大數(shù)據(jù),您還需要適當?shù)娜藛T和軟件技能,以及用于處理數(shù)據(jù)和查詢速度的硬件。協(xié)調(diào)所有內(nèi)容同時運行是一項艱巨的任務,許多大數(shù)據(jù)項目都將失敗。如今,云計算已成為市場瞬息萬變的趨勢。因為各種規(guī)模的公司都可以通過單擊幾下立即訪問復雜的基礎架構和技術。在這里,云提供了強大的基礎架構,使企業(yè)能夠勝過現(xiàn)有系統(tǒng)。
二、 擬研究的主要內(nèi)容(提綱)和預期目標
隨著行業(yè)中數(shù)據(jù)量的爆炸性增長,大數(shù)據(jù)的概念越來越受到關注。 由于大數(shù)據(jù)的大,復雜和快速變化的性質(zhì),許多用于小數(shù)據(jù)的傳統(tǒng)機器學習算法不再適用于大數(shù)據(jù)環(huán)境中的應用程序問題。 因此,在大數(shù)據(jù)環(huán)境下研究機器學習算法已成為學術界和業(yè)界的普遍關注。 本文主要討論和總結用于處理大數(shù)據(jù)的機器學習算法的研究現(xiàn)狀。 另外,由于并行處理是處理大數(shù)據(jù)的主要方法,因此我們介紹了一些并行算法,介紹了大數(shù)據(jù)環(huán)境中機器學習研究所面臨的問題,最后介紹了機器學習的研究趨勢,我們的目標就是研究數(shù)據(jù)量大的情況下算法和模型的關系,同時也會探討大部分細分行業(yè)數(shù)據(jù)量不大不小的情況下算法的關系。
三、 擬采用的研究方法(思路、技術路線、可行性分析論證等)
1.視覺分析。大數(shù)據(jù)分析用戶包括大數(shù)據(jù)分析專業(yè)人士和一般用戶,但是大數(shù)據(jù)分析的最基本要求是視覺分析。視覺分析直觀地介紹了大數(shù)據(jù)的特征,并像閱讀照片的讀者一樣容易接受。 2.數(shù)據(jù)挖掘算法。大數(shù)據(jù)分析的理論中心是數(shù)據(jù)挖掘算法。不同的數(shù)據(jù)挖掘算法依賴于不同的數(shù)據(jù)類型和格式來更科學地表征數(shù)據(jù)本身。由于它們被全世界的統(tǒng)計學家所公認,因此各種統(tǒng)計方法(稱為真值)可以深入到數(shù)據(jù)中并挖掘公認的值。另一方面是這些數(shù)據(jù)挖掘算法可以更快地處理大數(shù)據(jù)。如果該算法需要花費幾年時間才能得出結論,那么大數(shù)據(jù)的價值是未知的。 3.預測分析。大數(shù)據(jù)分析的最后一個應用領域是預測分析,發(fā)現(xiàn)大數(shù)據(jù)功能,科學地建立模型以及通過模型吸收新數(shù)據(jù)以預測未來數(shù)據(jù)。 4.語義引擎。非結構化數(shù)據(jù)的多樣化為數(shù)據(jù)分析提出了新的挑戰(zhàn)。您需要一套工具來分析和調(diào)整數(shù)據(jù)。語義引擎必須設計有足夠的人工智能,以主動從數(shù)據(jù)中提取信息。 5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。大數(shù)據(jù)分析是數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理的組成部分。高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理確保了分析結果在學術研究和商業(yè)應用中的可靠性和價值。大數(shù)據(jù)分析的基礎是前五個方面。當然,如果您更深入地研究大數(shù)據(jù)分析,則還有更多特征,更深入,更專業(yè)的大數(shù)據(jù)分析方法。
四、 論文(設計)的工作進度安排
2020.03.18-2020.03.20 明確論文內(nèi)容,進行相關論文資料的查找與翻譯。2020.04.04-2020.04.27:撰寫開題報告 。
2020.04.28-2020.04.30 :設計實驗。
2020.05.01-2020.05.07 :開展實驗。
2020.05.08-2020.05.15 :準備中期檢查。
2020.05.16-2020.05.23:根據(jù)中期檢查的問題,進一步完善實驗2020.05.24-2020.05.28 :完成論文初稿。
2020.05.29-2020.06.26 :論文修改完善。
五、 參考文獻(不少于5篇)
1 . 王偉,王珊,杜小勇,覃雄派,王會舉.大數(shù)據(jù)分析——rdbms與mapreduce的競爭與共生 .計算機光盤軟件與應用,2012.被引量:273.
2 . 喻國明. 大數(shù)據(jù)分析下的中國社會輿情:總體態(tài)勢與結構性特征——基于百度熱搜詞(2009—2 012)的輿情模型構建.中國人民大學學報,2013.被引量:9. 3 . 李廣建,化柏林.大數(shù)據(jù)分析與情報分析關系辨析.中國圖書館學報,2014.被引量:16.
4 . 王智,于戈,郭朝鵬,張一川,宋杰.大數(shù)據(jù)分析的分布式molap技術 .軟件學報,2014.被引量:6.
5 . 王德文,孫志偉.電力用戶側(cè)大數(shù)據(jù)分析與并行負荷預測 .中國電機工程學報,2015.被引量:19.
6 . 江秀臣,杜修明,嚴英杰,盛戈皞,陳玉峰 ,郭志紅.基于大數(shù)據(jù)分析的輸變電設備狀態(tài)數(shù)據(jù)異常檢測方法 .中國電機工程學報,2015.被引量:8.
7 . 喻國明. 呼喚“社會最大公約數(shù)”:2012年社會輿情運行態(tài)勢研究——基于百度熱搜詞的大 數(shù)據(jù)分析.編輯之友,2013.被引量:4.
六、指導教師意見
簽字: 年 月 日
七、學院院長意見及簽字
1.1大數(shù)據(jù)的發(fā)展
通過對大數(shù)據(jù)的匯集、智能分析和挖掘技術,發(fā)現(xiàn)數(shù)據(jù)中的潛在價值信息,幫助人們做出正確決策,這就是大數(shù)據(jù)產(chǎn)業(yè)的利益。國外大數(shù)據(jù)的起步比較早,比較成功的大數(shù)據(jù)應用案例有:商業(yè)龍頭沃爾瑪公司通過對消費者的購物數(shù)據(jù)進行分析,了解顧客的行為喜好,對超市的商品結構進行搭配重置以增加銷售額;亞馬遜公司通過大數(shù)據(jù)構建自己的推薦系統(tǒng),每年可以靠此多收益20%;奧巴馬通過大數(shù)據(jù)分析系統(tǒng)進行數(shù)據(jù)挖掘,用科學的手段獲取選票、募集資金,贏得了總統(tǒng)競選的勝利。相比于國外,國內(nèi)的大數(shù)據(jù)研究和應用還處于起步和發(fā)展中的階段,比較成功的案例有:淘寶數(shù)據(jù)魔方平臺,通過大數(shù)據(jù),為買家量身打造完善的購物體驗產(chǎn)品;新浪微博大數(shù)據(jù)產(chǎn)品,通過大量的社交數(shù)據(jù),創(chuàng)造不同的社會經(jīng)濟價值等。
1.2云計算的發(fā)展
云計算可以像電力資源一樣提供彈性的按需服務,事實上它是集合了一系列的服務提供給用戶。云計算的核心可分為三個層次,分別為基礎設施層、平臺層、應用層,如圖2所示。云計算將基礎設施、軟件運行環(huán)境、應用程序抽象成服務,具有可靠性高、可用性強、規(guī)??缮炜s等特點,滿足了不同企業(yè)的發(fā)展需求,各個云服務提供商根據(jù)各自服務對象的差別分別開發(fā)了各具特色的云服務。(1)基礎設施即服務層基礎設施即服務(InfrastructureasaService,IaaS)層通過部署硬件基礎設施對外提供服務,用戶可以根據(jù)各自的需求購買虛擬或?qū)嶓w的計算、存儲、網(wǎng)絡等資源。用戶可以在購買的空間內(nèi)部署和運行軟件,包括操作系統(tǒng)和應用程序。消費者不能管理或控制任何云計算基礎設施,但能控制操作系統(tǒng)的選擇、存儲空間、部署的應用,也有可能獲得有限制的網(wǎng)絡組件(如防火墻、負載均衡器等)的控制。云服務提供商為了使硬件資源得到更有效的利用,引入了Xen、KVM、VMware等虛擬化技術,使得云服務商可以提供更個性化的IaaS服務。亞馬遜彈性云計算(AmazonElasticComputeCloud,AmazonEC2)是亞馬遜Web服務產(chǎn)品之一,AmazonEC2利用其全球性的數(shù)據(jù)中心網(wǎng)絡,為客戶提供虛擬主機服務,讓使用者可以租用云服務運行所需應用的系統(tǒng)。(2)平臺即服務層平臺即服務(PlatformasaService,PaaS)層是指云計算應用程序開發(fā)和部署的平臺,包括應用設計、應用開發(fā)、應用測試和應用托管,都作為一種服務提供給客戶。開發(fā)者只需要上傳代碼和數(shù)據(jù)就可以使用云服務,而無需關注底層的具體實現(xiàn)方式和管理模式。鑒于PaaS平臺的重要意義,國內(nèi)外廠商根據(jù)各自的戰(zhàn)略提出了相應的PaaS平臺,國外的如GoogleAppEngine(GAE),通過GAE,即使在重載和數(shù)據(jù)量極大的情況下,也可以輕松構建能安全運行的應用程序。國內(nèi)也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)軟件即服務層軟件即服務(SoftasaService,SaaS)層是為云計算終端用戶提供基于互聯(lián)網(wǎng)軟件應用服務的平臺。隨著Web服務、HTML5、AJAX、Mashup等技術的成熟與標準化,SaaS應用近年來發(fā)展迅速,典型的SaaS應用包括GoogleApps、SalesforceCRM等。國外云計算平臺比較成功的應用案例有:亞馬遜電子商務網(wǎng)站根據(jù)用戶的購買行為和搜索技術搭建Hadoop集群,構建推薦系統(tǒng);Twitter社交網(wǎng)站搭建Hadoop分布式系統(tǒng)用于用戶關聯(lián)的建立。國內(nèi)云計算平臺的成功案例有:阿里巴巴目前整個集群達到1700個節(jié)點,數(shù)據(jù)容量達到24.3PB,并且以每天255TB的速率不斷攀升;2013年,華為推出國內(nèi)首個運營云平臺,目前為止與該平臺簽訂協(xié)議的ISV有3000多家。
1.3云計算相關技術
(1)分布式文件系統(tǒng)分布式文件系統(tǒng)(GoogleFileSystem,GFS)[3]是Google公司針對云計算過程處理海量數(shù)據(jù)而專門設計的。一個GFS集群由一個主節(jié)點和多個從節(jié)點組成,用戶可以通過客戶端訪問文件系統(tǒng),進行正常的文件處理工作。在云計算中,海量數(shù)據(jù)文件被分割成多個固定大小的數(shù)據(jù)塊,這些數(shù)據(jù)塊被自動分配到不同的從節(jié)點存儲,并會在多個節(jié)點進行備份存儲,以免數(shù)據(jù)丟失。主服務器管理文件系統(tǒng)記錄文件的各種屬性,包括文件名、訪問控制權限、文件存儲塊映射、塊物理信息等數(shù)據(jù)。正是通過這個表,文件系統(tǒng)可以準確地找到文件存儲的位置,避免數(shù)據(jù)丟失,保證數(shù)據(jù)安全。圖3是GFS的體系結構示意,每一個節(jié)點都是普通的Linux服務器,GFS的工作就是協(xié)調(diào)成百上千的服務器為各種應用提供服務。(2)分布式并行數(shù)據(jù)庫BigTableBigTable[4]是一個為管理大規(guī)模結構化數(shù)據(jù)而設計的分布式存儲系統(tǒng),可以擴展到PB級數(shù)據(jù)和上千臺服務器。很多Google的項目使用BigTable存儲數(shù)據(jù),這些應用對BigTable提出了不同的挑戰(zhàn),比如對數(shù)據(jù)規(guī)模的要求、對時延的要求。BigTable能滿足這些多變的要求,為這些產(chǎn)品成功地提供了靈活、高性能的存儲解決方案。BigTable采用的鍵是三維的,分別是行鍵(RowKey)、列鍵(ColumnKey)和時間戳(Timestamp)。行鍵和列鍵都是字節(jié)串,時間戳是64位整型;值是一個字節(jié)串,可以用(row:string,column:string,time:int64)string來表示一條鍵值對記錄。(3)分布式計算框架MapReduceMapReduce[5]是Google公司提出的大數(shù)據(jù)技術計算框架,被廣泛應用于數(shù)據(jù)挖掘、海量數(shù)據(jù)處理以及機器學習等領域,由于其并行化處理數(shù)據(jù)的強大能力,越來越多的廠商根據(jù)MapReduce思想開發(fā)了各自的云計算平臺,其中以Apache公司的Hadoop最為典型。MapReduce由Map和Reduce兩個階段組成。用戶只需要編寫簡單的map()和reduce()函數(shù)就可以完成復雜分布式程序設計,而不用了解計算框架的底層實現(xiàn)。MapReduce的數(shù)據(jù)分析流程如圖4所示。分布在不同服務器節(jié)點上的海量數(shù)據(jù)首先通過split()函數(shù)被拆分成Key/Value鍵值對,map()函數(shù)以該鍵值對為輸入,將該鍵值對進行函數(shù)處理,產(chǎn)生一系列的中間結果并存入磁盤。MapReduce的中間過程shuffle()將所有具有相同Key值的鍵值對傳遞給Reduce環(huán)節(jié),Reduce會收集中間結果,并將相同的Value值合并,完成所有工作后將結果輸出給用戶。MapReduce是一個并行的計算框架,主要體現(xiàn)在不同的服務器節(jié)點同時啟動相同的工作,并且在每個獨立的服務器節(jié)點上又可以啟動多個map()、reduce()并行計算。
2基于云計算的大數(shù)據(jù)處理
目前大數(shù)據(jù)處理的基本流程如圖5所示,整個流程經(jīng)過數(shù)據(jù)源的采集,用不同的方式進行處理和加工,形成標準的格式,存儲下來;然后用合適的數(shù)據(jù)計算處理方式將數(shù)據(jù)推送到數(shù)據(jù)分析和挖掘平臺,通過有效的數(shù)據(jù)分析和挖掘手段,找出大數(shù)據(jù)中有價值的信息;最后通過可視化技術將信息展現(xiàn)給人們。
2.1數(shù)據(jù)采集存儲
大數(shù)據(jù)具有不同結構的數(shù)據(jù)(包括結構、半結構、非結構),針對不同類型的數(shù)據(jù),在進行云計算的分布采集時,需要選擇不同的數(shù)據(jù)采集方式收集數(shù)據(jù),這也是大數(shù)據(jù)處理中最基礎的一步。采集到的數(shù)據(jù)并不是都適合推送到后面的平臺,需要對其進一步處理,例如來源不同的數(shù)據(jù),需要對其進行加載合并;數(shù)據(jù)存在噪聲或者干擾點的,需要對其進行“清洗”和“去噪”等操作,從而保障數(shù)據(jù)的有效性;數(shù)據(jù)的格式或者量綱不統(tǒng)一的,需要對其進行標準化等轉(zhuǎn)換處理;最后處理生成的數(shù)據(jù),通過特定的數(shù)據(jù)庫,如NoSQL數(shù)據(jù)(Google的BigTable,Amazon的Dynamo)進行存儲,方便進行下一步的數(shù)據(jù)讀取。由于傳統(tǒng)的數(shù)據(jù)倉庫無法適應大數(shù)據(jù)的存儲要求,目前基于云計算的數(shù)據(jù)倉庫都是采用列式存儲。列式存儲的數(shù)據(jù)具有相同的數(shù)據(jù)類型,可以大大提高數(shù)據(jù)的壓縮率,例如華為的云存儲服務MOS(MassiveObjectService)的數(shù)據(jù)持久性高達99.9%,同時提供高效率的端到端保障。
2.2數(shù)據(jù)計算模式
這一環(huán)節(jié)需要根據(jù)處理的數(shù)據(jù)類型和既定目標,選擇合適的計算模型處理數(shù)據(jù)。由于數(shù)據(jù)量的龐大,會消耗大量的計算資源,因此,傳統(tǒng)的計算技術很難使用大數(shù)據(jù)的環(huán)境條件,取而代之的是分而治之的分布式計算模式,具有代表性的幾種計算模式的特點見表1。采用批處理方式計算的Hadoop平臺,例如,F(xiàn)acebook擁有全球最大規(guī)模的Hadoop集群,集群機器目前超過3000臺,CPU核心更是超過30000個,可以存儲的數(shù)據(jù)量能夠達到驚人的40PB;采用流處理方式計算的Storm平臺分布式計算的時延比Hadoop更小;實時處理方式計算的Spark是一種基于內(nèi)存的計算模式,例如,Yahoo運用Spark技術在廣告營銷中實時尋找目標用戶,目前在Yahoo部署的Spark集群有112臺節(jié)點和9.2TB內(nèi)存;交互處理方式計算的Dremel在處理PB級別的數(shù)據(jù)時耗時可以縮短至秒級,并且無需大量的并發(fā)。
2.3數(shù)據(jù)分析挖掘
數(shù)據(jù)分析挖掘環(huán)節(jié)是從海量數(shù)據(jù)中發(fā)現(xiàn)隱藏規(guī)律和有價值信息的過程,這個環(huán)節(jié)是大數(shù)據(jù)處理流程最為有價值和核心的部分,傳統(tǒng)的數(shù)據(jù)分析方法有機器學習、商業(yè)智能等。傳統(tǒng)的數(shù)據(jù)挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云計算環(huán)境下都得到了大幅度的并行優(yōu)化,在大數(shù)據(jù)的背景下,計算速度得到了很大程度的提升?,F(xiàn)在新興的深度學習是原始機器學習的一個新領域,動機是在于建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡,它模仿人腦的機制來解釋數(shù)據(jù),這種新的數(shù)據(jù)分析挖掘技術已經(jīng)在計算機視覺、語音識別、自然語言處理等領域有了成功的應用。
2.4數(shù)據(jù)解釋展現(xiàn)
將挖掘出來的復雜信息進行數(shù)據(jù)解釋和展現(xiàn)是整個大數(shù)據(jù)處理流程的最后一個環(huán)節(jié),數(shù)據(jù)分析的結果需要向客戶進行恰當?shù)恼宫F(xiàn)。與傳統(tǒng)的數(shù)據(jù)輸出和文本展示等方式不同,現(xiàn)在絕大部分的企業(yè)都通過引進“數(shù)據(jù)可視化”技術來展示大數(shù)據(jù)分析的結果信息,這種方式以圖像、動畫等方式,形象地向客戶展現(xiàn)數(shù)據(jù)處理分析的結果,也容易被客戶理解和接受,更為先進的是,現(xiàn)在逐步形成的“交互式可視化技術”,大大地方便了數(shù)據(jù)與人之間的“親密交流”。目前面向大數(shù)據(jù)主流應用的可視化技術見表2。
3大數(shù)據(jù)和云計算的未來挑戰(zhàn)
大數(shù)據(jù)需要超大存儲容量的計算能力,云計算作為一種新的計算模式,為大數(shù)據(jù)的應用研究提供了技術支持,大數(shù)據(jù)和云計算的完美結合,相得益彰,發(fā)揮了各自的最大優(yōu)勢,為社會創(chuàng)造了巨大的價值。雖然國內(nèi)大數(shù)據(jù)和云計算的研究還是處于初步階段,但隨著研究的不斷進行,所面臨的問題也越來越多。在大數(shù)據(jù)向前不斷邁進的階段里,如何讓我們對大數(shù)據(jù)的研究朝著有利于全人類的方向發(fā)展成為了重中之重。
3.1重要戰(zhàn)略資源
在這個信息社會里,大數(shù)據(jù)將會成為眾多企業(yè)甚至是國家層面的重要戰(zhàn)略資源。國家層面要將大數(shù)據(jù)上升為國家戰(zhàn)略。奧巴馬在2012年3月將“大數(shù)據(jù)戰(zhàn)略”上升為最高國策,像陸權、海權、空權一樣,將數(shù)據(jù)的占有和控制作為重要的國家核心能力。大數(shù)據(jù)資源也會成為各種機構和企業(yè)的重要資產(chǎn)以及提升企業(yè)社會競爭力的有力武器。在大數(shù)據(jù)市場里,客戶的各種數(shù)據(jù)信息都會為企業(yè)創(chuàng)造價值,也會在促進消費水平、提高廣告效應等方面扮演重要的角色。
3.2數(shù)據(jù)隱私安全
大數(shù)據(jù)如果運用得當,可以有效地幫助相關領域做出幫助和決策,但若這些數(shù)據(jù)被泄露和竊取,隨之而來的將是個人信息及財產(chǎn)的安全問題得不到保障。2011年索尼公司遭到黑客攻擊,造成一億份客戶資料泄露,經(jīng)濟虧損約1.71億美元。為了解決大數(shù)據(jù)的數(shù)據(jù)隱私安全問題,Roy等在2010年提出了一種隱私保護系統(tǒng),將信息流控制和差分隱私保護技術融入到云計算平臺中,防止MapReduce計算過程中的數(shù)據(jù)泄露問題。在數(shù)據(jù)更新飛速的情況下,如何維護數(shù)據(jù)的隱私安全成為大數(shù)據(jù)時代研究的重點方向。
3.3智慧城市
人口的增長給城市交通、醫(yī)療、建筑等各方面帶來了不小的壓力,智慧城市就是依靠大數(shù)據(jù)和云計算技術,實現(xiàn)城市高效的管理、便捷的民生服務、可持續(xù)的產(chǎn)業(yè)發(fā)展。在剛剛結束的“兩會”的政府工作報告中,總理也特意強調(diào)了智慧城市發(fā)展的重要性,目前國家智慧城市試點已遍布全國各地,多達409個。智慧安防、智慧交通、智慧醫(yī)療等都是智慧城市應用領域。智慧城市的建設也趨使大數(shù)據(jù)人才的培養(yǎng)。據(jù)預測,到2015年,大數(shù)據(jù)將會出現(xiàn)約100萬的人才缺口,全球?qū)⑿略?40萬個與大數(shù)據(jù)相關的工作崗位來填補這個空缺。
3.4能源消耗