時間:2022-04-30 18:12:47
序論:在您撰寫大數(shù)據(jù)分析論文時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
煤礦安全生產(chǎn)和管理是一個與時間和空間相關(guān)的過程,其綜合決策分析離不開時間和空間維度的參與,而現(xiàn)有的煤礦信息系統(tǒng)往往缺乏時空維度的決策分析工具,如拓撲分析、緩沖區(qū)分析、密度分析、疊置分析、時間和空間趨勢探測分析、時間/空間關(guān)聯(lián)分析、時間/空間自回歸分析等。煤礦安全生產(chǎn)內(nèi)涵豐富,既包含了日常性事務(wù)性的風險超前預(yù)控管理,又包含即時性的風險識別、監(jiān)測、預(yù)測乃至預(yù)警,這就給安全生產(chǎn)管理的各類信息系統(tǒng)建設(shè)提出了很高的要求,需要滿足監(jiān)控實時化、系統(tǒng)集成化、數(shù)據(jù)海量化、分析決策在線化和智能化,這些都是目前信息系統(tǒng)建設(shè)的短板。上述問題的存在使得我國煤礦安全生產(chǎn)形勢沒有本質(zhì)的好轉(zhuǎn),諸多信息化建設(shè)成果(硬件、軟件)在煤礦安全生產(chǎn)過程中也沒有起到預(yù)期的成效。
2煤礦安全生產(chǎn)大數(shù)據(jù)分析系統(tǒng)
2.1大數(shù)據(jù)分析的概念大數(shù)據(jù)分析
是指數(shù)據(jù)量急劇積累迅速超出主流軟件工具和人類思維處理的極限,大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)比較起來,有四大特征:數(shù)據(jù)體量巨大(Volume)、數(shù)據(jù)類型繁多(Variety)、數(shù)據(jù)價值密度低(Value)、更新速度快時效高(Velocity)。大數(shù)據(jù)分析需要全新的數(shù)據(jù)處理理念和分析工具,洞察發(fā)現(xiàn)海量高速增長信息中潛藏的價值[4]。從理念上,大數(shù)據(jù)分析與傳統(tǒng)數(shù)據(jù)分析有三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果。針對大數(shù)據(jù),既有的技術(shù)架構(gòu)和分析工具已經(jīng)無法滿足要求,需要全新的數(shù)據(jù)分析方法和技術(shù),這其中包括:(1)大數(shù)據(jù)分析可視化方法;(2)大數(shù)據(jù)挖掘算法;(3)預(yù)測性分析能力;(4)語義處理能力;(5)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理技術(shù)。
2.2大數(shù)據(jù)分析系統(tǒng)的建設(shè)
根據(jù)大數(shù)據(jù)處理和分析的理念,煤礦安全大數(shù)據(jù)分析系統(tǒng)的建設(shè)目標包括:數(shù)據(jù)綜合集成、安全知識集成、三維虛擬可視化展示、煤礦安全動態(tài)分析診斷。具體建設(shè)內(nèi)容包括:(1)基于物聯(lián)網(wǎng)/云計算技術(shù)的煤礦安全綜合數(shù)據(jù)庫。建設(shè)煤礦安全大數(shù)據(jù)分析診斷系統(tǒng),首先要利用物聯(lián)網(wǎng)和云計算技術(shù)實現(xiàn)全面綜合的數(shù)據(jù)集成,將基礎(chǔ)空間和屬性數(shù)據(jù)、在線監(jiān)測的實時性數(shù)據(jù)、專業(yè)業(yè)務(wù)系統(tǒng)的事務(wù)性數(shù)據(jù)綜合集成起來,構(gòu)建煤礦安全綜合數(shù)據(jù)庫。(2)基于專家系統(tǒng)的煤礦安全專家知識庫。針對知識集成的目標,整理規(guī)范規(guī)程體系中的經(jīng)驗或者理論知識(煤礦安全規(guī)程、煤礦作業(yè)規(guī)程、三違行為知識、隱患界定知識、評估模型、設(shè)備操作規(guī)程知識、工種操作規(guī)程知識),構(gòu)建煤礦安全動態(tài)分析診斷的專家知識庫。(3)建設(shè)三維虛擬礦井可視化平臺。針對信息和知識三維虛擬礦井可視化展示分析,主要的建設(shè)內(nèi)容是基于高精度地質(zhì)模型理論研究開發(fā)三維虛擬礦井平臺,實現(xiàn)地層建模、鉆孔建模、斷層建模、工作面建模和巷道建模等工作。然后,基于三維虛擬礦井平臺,實現(xiàn)數(shù)據(jù)和知識可視化、煤礦安全生產(chǎn)活動可視化、分析和決策過程可視化。(4)研發(fā)煤礦安全動態(tài)分析系統(tǒng)。針對基于專家知識庫的煤礦安全生產(chǎn)分析決策,需要利用煤礦安全綜合數(shù)據(jù)庫中的基礎(chǔ)數(shù)據(jù)、實時監(jiān)測數(shù)據(jù)以及事務(wù)性數(shù)據(jù),根據(jù)煤礦安全專家知識庫進行煤礦安全生產(chǎn)狀況評估、推理和演繹,動態(tài)分析診斷煤礦安全生產(chǎn)的現(xiàn)狀與趨勢、預(yù)測未來,并針對煤礦應(yīng)急現(xiàn)象做出科學(xué)合理的響應(yīng)對策。
3結(jié)語
基本的大數(shù)據(jù)的處理流程可以分成數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋4個階段。首先獲取數(shù)據(jù)源的數(shù)據(jù),因為在數(shù)據(jù)源端的數(shù)據(jù)包含各種各樣的結(jié)構(gòu),需要使用某種方法將其進行預(yù)處理,使數(shù)據(jù)成為某種可以用一種算法分析的統(tǒng)一數(shù)據(jù)格式,接著需要找到這種數(shù)據(jù)分析的算法,將預(yù)處理過的數(shù)據(jù)進行算法特定的分析,并將分析的結(jié)果用可視化等手段呈現(xiàn)至用戶端。
1.1數(shù)據(jù)采集
大數(shù)據(jù)的采集是整個流程的基礎(chǔ),隨著互聯(lián)網(wǎng)技術(shù)和應(yīng)用的發(fā)展以及各種終端設(shè)備的普及,使得數(shù)據(jù)的生產(chǎn)者范圍越來越大,數(shù)據(jù)的產(chǎn)量也越來越多,數(shù)據(jù)之間的關(guān)聯(lián)也越來越復(fù)雜,這也是大數(shù)據(jù)中“大”的體現(xiàn),所以需要提高數(shù)據(jù)采集速度和精度要求。
1.2數(shù)據(jù)處理與集成
數(shù)據(jù)的處理與集成主要是對前一步采集到的大量數(shù)據(jù)進行適當?shù)念A(yù)處理,包括格式化、去噪以及進一步集成存儲。因為數(shù)據(jù)采集步驟采集到的數(shù)據(jù)各種各樣,其數(shù)據(jù)結(jié)構(gòu)也并不統(tǒng)一,不利于之后的數(shù)據(jù)分析,而且,一些數(shù)據(jù)屬于無效數(shù)據(jù),需要去除,否則會影響數(shù)據(jù)分析的精度和可靠性,所以,需要將數(shù)據(jù)統(tǒng)一格式并且去除無效數(shù)據(jù)。通常會設(shè)計一些過濾器來完成這一任務(wù)。
1.3數(shù)據(jù)分析
在完成了數(shù)據(jù)的采集和處理后,需要對數(shù)據(jù)進行分析,因為在進行數(shù)據(jù)分析后才能體現(xiàn)所有大數(shù)據(jù)的重要價值。數(shù)據(jù)分析的對象是上一步數(shù)據(jù)的處理與集成后的統(tǒng)一格式數(shù)據(jù),需要根據(jù)所需數(shù)據(jù)的應(yīng)用需求和價值體現(xiàn)方向?qū)@些原始樣本數(shù)據(jù)進一步地處理和分析。現(xiàn)有的數(shù)據(jù)分析通常指采用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工具對集中存儲的數(shù)據(jù)進行分析,數(shù)據(jù)分析服務(wù)與傳統(tǒng)數(shù)據(jù)分析的差別在于其面向的對象不是數(shù)據(jù),而是數(shù)據(jù)服務(wù)。
1.4數(shù)據(jù)解釋
數(shù)據(jù)解釋是對大數(shù)據(jù)分析結(jié)果的解釋與展現(xiàn),在數(shù)據(jù)處理流程中,數(shù)據(jù)結(jié)果的解釋步驟是大數(shù)據(jù)分析的用戶直接面對成果的步驟,傳統(tǒng)的數(shù)據(jù)顯示方式是用文本形式體現(xiàn)的,但是,隨著數(shù)據(jù)量的加大,其分析結(jié)果也更復(fù)雜,傳統(tǒng)的數(shù)據(jù)顯示方法已經(jīng)不足以滿足數(shù)據(jù)分析結(jié)果輸出的需求,因此,數(shù)據(jù)分析企業(yè)會引入“數(shù)據(jù)可視化技術(shù)”作為數(shù)據(jù)解釋方式。通過可視化結(jié)果分析,可以形象地向用戶展示數(shù)據(jù)分析結(jié)果。
2云計算與大數(shù)據(jù)分析的關(guān)系
云計算是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展且經(jīng)常是虛擬化的資源,是一種按使用量付費的模式。這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進入可配置的計算資源共享池(資源包括網(wǎng)絡(luò)、服務(wù)器、存儲、應(yīng)用軟件、服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進行很少的交互。目前,國內(nèi)外已經(jīng)有不少成熟的云計算的應(yīng)用服務(wù)。數(shù)據(jù)分析是整個大數(shù)據(jù)處理流程里最核心的部分。數(shù)據(jù)分析是以數(shù)據(jù)的價值分析為目的的活動,而基于大數(shù)據(jù)的數(shù)據(jù)分析通常表現(xiàn)為對已獲取的海量數(shù)據(jù)的分析,其數(shù)據(jù)來源可能是企業(yè)數(shù)據(jù)也可能是企業(yè)數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)的融合。從目前的趨勢來看,云計算是大數(shù)據(jù)的IT基礎(chǔ),是大數(shù)據(jù)分析的支撐平臺,不斷增長的數(shù)據(jù)量需要性能更高的數(shù)據(jù)分析平臺承載。所以,云計算技術(shù)的不斷發(fā)展可以為大數(shù)據(jù)分析提供更為靈活、迅速的部署方案,使得大數(shù)據(jù)分析的結(jié)果更加精確。另一方面,云計算的出現(xiàn)為大數(shù)據(jù)分析提供了擴展性更強,使用成本更低的存儲資源和計算資源,使得中小企業(yè)也可以通過云計算來實現(xiàn)屬于自己的大數(shù)據(jù)分析產(chǎn)品。大數(shù)據(jù)技術(shù)本身也是云計算技術(shù)的一種延伸。大數(shù)據(jù)技術(shù)涵蓋了從數(shù)據(jù)的海量存儲、處理到應(yīng)用多方面的技術(shù),包括海量分布式文件系統(tǒng)、并行計算框架、數(shù)據(jù)庫、實時流數(shù)據(jù)處理以及智能分析技術(shù),如模式識別、自然語言理解、應(yīng)用知識庫等等。但是,大數(shù)據(jù)分析要走向云計算還要賴于數(shù)據(jù)通信帶寬的提高和云資源的建設(shè),需要確保原始數(shù)據(jù)能遷移到云環(huán)境以及資源池可以隨需彈性擴展。
3基于云計算環(huán)境的Hadoop
為了給大數(shù)據(jù)處理分析提供一個性能更高、可靠性更好的平臺,研究者基于MapReduce開發(fā)了一個基于云計算環(huán)境的開源平臺Hadoop。Hadoop是一個以MapReduce算法為分布式計算框架,包括分布式文件系統(tǒng)(HDFS)、分布式數(shù)據(jù)庫(Hbase、Cassandra)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng),已經(jīng)成為當前最流行的大數(shù)據(jù)處理平臺,并被廣泛認可和開發(fā)應(yīng)用?;贖adoop,用戶可編寫處理海量數(shù)據(jù)的分布式并行程序,并將其運行于由成百上千個節(jié)點組成的大規(guī)模計算機集群上。
4實例分析
本節(jié)以電信運營商為例,說明在云計算環(huán)境中基于Hadoop的大數(shù)據(jù)分析給大數(shù)據(jù)用戶帶來的價值。當前傳統(tǒng)語音和短信業(yè)務(wù)量下滑,智能終端快速增長,移動互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展迅速,大數(shù)據(jù)分析可以為運營商帶來新的機會,幫助運營商更好地轉(zhuǎn)型。本文數(shù)據(jù)分析樣本來自于某運營商的個人語音和數(shù)據(jù)業(yè)務(wù)清單,通過Hadoop2.6.0在Ubuntu12.04系統(tǒng)中模擬了一個大數(shù)據(jù)分析平臺來處理獲得的樣本。希望通過對樣本數(shù)據(jù)的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡單分析,實際上樣本數(shù)據(jù)中所蘊含的價值要遠遠大于本文體現(xiàn)的。以上舉例意在說明基于云計算的大數(shù)據(jù)分析可以在數(shù)據(jù)分析上體現(xiàn)出良好的性能,為企業(yè)帶來更豐富更有效率的信息提取、分類,并從中獲益。
5結(jié)束語
關(guān)鍵詞:大數(shù)據(jù) 交易平臺 數(shù)據(jù)資源 數(shù)據(jù)分析服務(wù) 融合
1.引言
目前發(fā)展大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)上升為國家戰(zhàn)略,大數(shù)據(jù)的價值也得到了社會的廣泛認可。眾多研究[1-5]表明,大數(shù)據(jù)不僅為政府治理開辟了新思路,還是企業(yè)創(chuàng)新的重要源泉和高??蒲械闹匾?。大數(shù)據(jù)交易平臺是整個大數(shù)據(jù)產(chǎn)業(yè)的基礎(chǔ)與核心,它使得數(shù)據(jù)資源可以在不同組織之間流動,從而讓單個組織能夠獲得更多、更全面的數(shù)據(jù)。這樣不僅提高了數(shù)據(jù)資源的利用效率,更重要的是,當一個組織擁有的數(shù)據(jù)資源不斷豐富和立體化,有助于其通過數(shù)據(jù)分析發(fā)現(xiàn)更多的潛在規(guī)律,從而對內(nèi)提高自身的效率,對外促進整個社會的不斷進步。
在現(xiàn)有的大數(shù)據(jù)交易平臺上,數(shù)據(jù)供應(yīng)方和需求方各自供需信息,交易雙方瀏覽這些信息,如果發(fā)現(xiàn)合適的交易對象,則進行大數(shù)據(jù)資源的買賣,交易平臺只作為信息中介存在。這類大數(shù)據(jù)交易的本質(zhì),其實是單獨的大數(shù)據(jù)資源交易,現(xiàn)有平臺可以統(tǒng)稱為第一代大數(shù)據(jù)交易平臺。第一代大數(shù)據(jù)交易平臺在供需平衡、數(shù)據(jù)定價和時效性三個方面都存在較大的不足。本文針對這些不足進行改進,設(shè)計了一種全新的第二代大數(shù)據(jù)交易平臺,命名為:融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺,該平臺將數(shù)據(jù)資源交易與數(shù)據(jù)分析服務(wù)進行深度融合,實現(xiàn)了數(shù)據(jù)與服務(wù)的一體化交易。本研究不僅為當下正在建設(shè)的各類大數(shù)據(jù)交易平臺提供有益的借鑒,也豐富了大數(shù)據(jù)交易的基礎(chǔ)理論體系。
2.相關(guān)研究
目前大數(shù)據(jù)交易的相關(guān)研究中,比較有代表性的有:
(1)大數(shù)據(jù)的財產(chǎn)屬性和所有權(quán)。王玉林等[6]對大數(shù)據(jù)的財產(chǎn)屬性展開研究,認為大數(shù)據(jù)的法律屬性會直接影響大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,而大數(shù)據(jù)交易實踐本身就反映出大數(shù)據(jù)具有財產(chǎn)屬性。但大數(shù)據(jù)與傳統(tǒng)的財產(chǎn)權(quán)客體存在較大不同,它符合信息財產(chǎn)的特征,是信息財產(chǎn)權(quán)的客體,應(yīng)受到相關(guān)法律的保護。齊愛民等[7]從宏觀的角度分析了國家對于其主權(quán)范圍內(nèi)數(shù)據(jù)的所有權(quán),剖析了個人擁有的數(shù)據(jù)權(quán)以及數(shù)據(jù)的財產(chǎn)權(quán)。
(2)大數(shù)據(jù)的定價問題。劉朝陽[8]對大數(shù)據(jù)的定價問題展開研究,首先分析了大數(shù)據(jù)的基本特征、價值特征等定價基礎(chǔ)。接著討論了效用價格論、成本價格論等定價模式。最后分析了大數(shù)據(jù)的定價策略,并對大數(shù)據(jù)定價的雙向不確定問題進行了詳細論述。劉洪玉等[9]認為在大數(shù)據(jù)交易過程中,由于缺乏足夠的歷史參考,其數(shù)據(jù)資源的交易價格很難確定,因此提出一種基于競標機制的魯賓斯坦模型,用于大數(shù)據(jù)交易雙方進行討價還價,以求達成一個交易的均衡價格。翟麗麗等[10]從資產(chǎn)的期權(quán)價值角度來評估大數(shù)據(jù)資源的價值,并指出數(shù)據(jù)在不斷變化和更新,加上數(shù)據(jù)的非獨占性等情況的出現(xiàn),數(shù)據(jù)資產(chǎn)的價值可能會下降,最后綜合這些因素構(gòu)建了一個評估模型來計算數(shù)據(jù)資產(chǎn)的價值。
(3)大數(shù)據(jù)交易的安全與隱私保護。史宇航[11]認為非法的數(shù)據(jù)交易會對個人數(shù)據(jù)等高價值信息的安全造成影響,對非法數(shù)據(jù)交易的購買方和協(xié)助方都應(yīng)進行處罰。提出應(yīng)先明確數(shù)據(jù)的法律屬性,再以數(shù)據(jù)交易所為平臺進行交易,并對數(shù)據(jù)交易所的法律地位進行了分析。殷建立等[12]為應(yīng)對大數(shù)據(jù)時代數(shù)據(jù)采集、交易等過程中的安全問題,綜合考慮技術(shù)、政策和管理平臺等方面的因素,構(gòu)建了一種個人數(shù)據(jù)溯源管理體系,該體系可在數(shù)據(jù)應(yīng)用時實現(xiàn)個人數(shù)據(jù)的追蹤溯源,從而保護其個人隱私。王忠[13]認為大數(shù)據(jù)環(huán)境下強大的數(shù)據(jù)需求會導(dǎo)致個人數(shù)據(jù)的非法交易,為應(yīng)對這種情況,應(yīng)該建立個人數(shù)據(jù)交易許可機制,通過發(fā)放交易許可證、拍賣授予等措施實現(xiàn)隱私保護。
(4)大數(shù)據(jù)交易的發(fā)展現(xiàn)狀與問題。楊琪等[14]認為我國的大數(shù)據(jù)交易還處于行業(yè)發(fā)展的早期,大量數(shù)據(jù)源未被激活,原因是大數(shù)據(jù)產(chǎn)業(yè)價值鏈的各個專業(yè)環(huán)節(jié)發(fā)展滯后,并且對數(shù)據(jù)交易中的安全問題和隱私泄露等有較大的擔憂。應(yīng)該對數(shù)據(jù)產(chǎn)品進行改造,使其更商品化,并且通過政府開放公共數(shù)據(jù)等措施逐漸消除數(shù)據(jù)流通中的安全顧慮。唐斯斯等[15]首先分析了我國大數(shù)據(jù)交易的發(fā)展特點、交易類型等現(xiàn)狀,接著指出目前大數(shù)據(jù)交易存在法律法規(guī)相對滯后、行業(yè)標準不完善、交易平臺定位不明確、數(shù)據(jù)質(zhì)量不高等問題,最后提出應(yīng)加快相關(guān)法律和標準建設(shè),并推動數(shù)據(jù)開放,加強交易方式的創(chuàng)新。
除了上述四個主要研究方向以外,李國杰等[16]從理論的角度分析了大數(shù)據(jù)研究在行業(yè)應(yīng)用和科學(xué)研究方面的重要作用,這從客觀上反映了大數(shù)據(jù)流通的必要性。涂永前等[17]認為大數(shù)據(jù)時代企業(yè)管理和運用數(shù)據(jù)資源的相關(guān)成本會成為企業(yè)的主要交易成本,這會改變企業(yè)的組織結(jié)構(gòu),并導(dǎo)致企業(yè)邊界的變化,企業(yè)會進行多方向的擴張,這為促進大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的相關(guān)法律的制定提供了理論支持??偟膩砜矗捎诖髷?shù)據(jù)交易本身屬于較新的領(lǐng)域,因此相關(guān)研究總體上較少,已有研究也大多集中在上述幾個研究方向上。實際上,大數(shù)據(jù)交易平臺是實現(xiàn)大數(shù)據(jù)交易的重要載體,是大數(shù)據(jù)資源流通轉(zhuǎn)換的主要節(jié)點,交易平臺本身需要隨著整個大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,不斷的改進和升級,而現(xiàn)有研究中恰恰缺少對大數(shù)據(jù)交易平臺本身進行創(chuàng)新的研究。由此,本文針對現(xiàn)有大數(shù)據(jù)交易平臺的不足,結(jié)合實際設(shè)計了一種全新的融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺,為實踐和科研提供借鑒和參考。
3.現(xiàn)有大數(shù)據(jù)交易平臺的不足
大數(shù)據(jù)本身作為一種新興事物,當把它作為一種商品進行交易時,其交易平臺的設(shè)計很自然會參照傳統(tǒng)的商品交易模式,即:交易雙方先供求信息,再經(jīng)過討價還價,達到一個均衡的價格則成交,賣方將大數(shù)據(jù)資源經(jīng)過脫敏處理后,交付給買方。目前無論是政府主導(dǎo)的大數(shù)據(jù)交易所,還是企業(yè)或者高校創(chuàng)建的大數(shù)據(jù)交易平臺,都是采用類似的交易模式,這也是第一代大數(shù)據(jù)交易平臺的突出特點。實際上大數(shù)據(jù)與傳統(tǒng)商品有很大的區(qū)別,照搬傳統(tǒng)商品的交易模式會出現(xiàn)很多問題。本文將從供需平衡、數(shù)據(jù)定價和時效性三個方面分析現(xiàn)有大數(shù)據(jù)交易平臺的不足。
3.1 數(shù)據(jù)供需的錯配
現(xiàn)有大數(shù)據(jù)交易平臺的第一點不足就是數(shù)據(jù)供需的錯配,即:供應(yīng)方提供的數(shù)據(jù)資源往往不是需求方所需要的,而需求方需要的數(shù)據(jù)在交易平臺上找不到,即使有相近的數(shù)據(jù)資源,也存在很大的數(shù)據(jù)缺失或冗余,買回去也無法使用。對數(shù)據(jù)供應(yīng)方來說,由于無法準確預(yù)知數(shù)據(jù)買方多樣性的需求,它只能從自身角度出發(fā),將可以公開的、并且自認為有價值的數(shù)據(jù)資源放到平臺上待售。對需求各異的買方來說,供應(yīng)方提供的標準數(shù)據(jù)很難與自己的應(yīng)用方向精準匹配,這也是目前大數(shù)據(jù)交易還不夠活躍的原因。當然,當供需雙方建立初步聯(lián)系以后,供應(yīng)方甚至可以為需求方個性化定制大數(shù)據(jù)資源,但即使這樣,供需錯配的問題仍然無法解決,原因就在于單個的數(shù)據(jù)供應(yīng)方無法提供多維的數(shù)據(jù)資源,只有多維的數(shù)據(jù)資源才具有較高的分析價值。
3.2 大數(shù)據(jù)資源定價困難
大數(shù)據(jù)資源定價困難是現(xiàn)有大數(shù)據(jù)交易平臺的第二點不足。大數(shù)據(jù)資源和普通商品不同,普通商品可以直接消費或者作為再加工的原材料,其價值都可以通過最終的消費品價格得到體現(xiàn)。而大數(shù)據(jù)本身的價值無法直接衡量,需求方購買它的目的是作為數(shù)據(jù)分析的信息源,但是否能發(fā)現(xiàn)潛在的規(guī)律還未可知。因此無法在購買前,準確判斷出待售數(shù)據(jù)資源的價值大小。此外,需求方在不確定某大數(shù)據(jù)資源是否能真正能給組織帶來收益情況下,很難給出一個較高的價格,這在客觀上會影響數(shù)據(jù)供應(yīng)方的交易積極性,加大了供需雙方達成交易的難度。
3.3 數(shù)據(jù)的時效性不強
現(xiàn)有大數(shù)據(jù)交易平臺的第三點不足,就是數(shù)據(jù)資源的時效性不強。目前很多大數(shù)據(jù)交易平臺上待售的數(shù)據(jù)資源都以歷史數(shù)據(jù)為主,這是因為數(shù)據(jù)資源在交易前需要經(jīng)歷脫敏處理,將涉及政府信息安全、企業(yè)商業(yè)機密和個人隱私等敏感信息進行變換和替代。此外,供應(yīng)方還需要對原始數(shù)據(jù)進行初步的清洗,整理成一定的數(shù)據(jù)格式集中存貯和交付,方便需求方進行數(shù)據(jù)分析。由于一般的數(shù)據(jù)供應(yīng)方并不具備對大數(shù)據(jù)進行實時脫敏和清洗的能力,只能將采集到的數(shù)據(jù)資源,經(jīng)過一段時間的離線處理后,再放到交易平臺上,所以只能供應(yīng)歷史數(shù)據(jù)。隨著社會節(jié)奏的不斷加快,歷史數(shù)據(jù)很可能并不能反映當下的真實情況,越來越多的數(shù)據(jù)分析都需要用到實時數(shù)據(jù)作為信息源,這是未來大數(shù)據(jù)交易必須克服的一個短板。
4.融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺設(shè)計
本文提出將數(shù)據(jù)分析服務(wù)融合到目前的大數(shù)據(jù)交易中,以此來克服現(xiàn)有交易平臺的不足,本節(jié)將首先對數(shù)據(jù)分析服務(wù)進行概念界定,再依次介紹平臺設(shè)計的總體思路和核心模塊的設(shè)計,具體如下。
4.1 數(shù)據(jù)分析服務(wù)的概念界定
數(shù)據(jù)分析是指運用各類數(shù)據(jù)處理模型和信息技術(shù)手段,對數(shù)據(jù)資源進行深度的挖掘,從而發(fā)現(xiàn)其中蘊含的規(guī)律,作為管理決策的依據(jù)。數(shù)據(jù)分析本身是一種能力,如果一個組織將其數(shù)據(jù)分析能力提供給其他組織或個人,并收取一定的費用,這就是數(shù)據(jù)分析服務(wù)。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)資源不僅體量巨大而且種類多,對數(shù)據(jù)分析能力的要求不斷提高。在這種情況下,只有少數(shù)組織具備獨立處理大數(shù)據(jù)的能力,其他的組織比如大量的中小企業(yè),都需要從組織外部尋求專業(yè)的數(shù)據(jù)分析服務(wù),來滿足自身的需要。因此,數(shù)據(jù)分析服務(wù)和大數(shù)據(jù)資源一樣存在巨大的市場需求。
4.2 平臺設(shè)計的總體思路
本文將提出的融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺,定位為第二代大數(shù)據(jù)交易平臺,它將大數(shù)據(jù)資源交易與數(shù)據(jù)分析服務(wù)兩者進行深度融合,在交易平臺上實現(xiàn)數(shù)據(jù)與服務(wù)的一體化交易。大數(shù)據(jù)交易平臺的角色也從原來的數(shù)據(jù)資源買賣的信息中介,轉(zhuǎn)變?yōu)榇髷?shù)據(jù)綜合服務(wù)商。在融合后的大數(shù)據(jù)交易平臺上,數(shù)據(jù)需求方不再提交數(shù)據(jù)資源的需求信息,而是直接提出自己的應(yīng)用方向和想要得到的結(jié)果,交易平臺再根據(jù)需求方的應(yīng)用方向,反向匹配數(shù)據(jù)資源和數(shù)據(jù)分析服務(wù)。這個匹配的過程不是單一的數(shù)據(jù)集或服務(wù)的查找,而是對全平臺的數(shù)據(jù)資源進行有效整合,形成高價值的多維數(shù)據(jù),再結(jié)合復(fù)合型的數(shù)據(jù)分析技術(shù),得到最終的分析結(jié)果,最后將分析結(jié)果與基礎(chǔ)數(shù)據(jù)一同交付給需求方。交付基礎(chǔ)數(shù)據(jù)的目的,一是方便需求方進行分析結(jié)果的對照,為決策提供更精準的參考。二是需求方可以根據(jù)基礎(chǔ)數(shù)據(jù)進行衍生挖掘,進一步提高數(shù)據(jù)的利用效率。平臺設(shè)計的總體思路繪制成圖1。
圖1 平臺設(shè)計的總體思路
4.3 核心模塊的設(shè)計
融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺共劃分為四大模塊,具體如圖2所示。
圖2 融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺的主要模塊
系統(tǒng)管理模塊具體又分為用戶管理、系統(tǒng)維護和安全管理。安全管理是系統(tǒng)管理模塊的重點,主要包含三個方面的功能:第一,負責整個交易平臺的系統(tǒng)安全,通過對交易平臺進行實時監(jiān)控,阻止外部的非法入侵行為,保障平臺的正常運行。第二,對數(shù)據(jù)供應(yīng)方提交的數(shù)據(jù)資源進行審核,如果發(fā)現(xiàn)是非法數(shù)據(jù),則阻止其交易,并及時將有關(guān)情況反饋給相關(guān)的政府監(jiān)管部門,由它們進行調(diào)查處理。第三,檢查所有數(shù)據(jù)是否經(jīng)過脫敏處理。如果發(fā)現(xiàn)部分數(shù)據(jù)存在未脫敏或者脫敏不合格的情況,交易平臺將負責對該數(shù)據(jù)資源進行脫敏處理,從而保護數(shù)據(jù)中的隱私不被泄露。
大數(shù)據(jù)資源池模塊、數(shù)據(jù)分析服務(wù)模塊和協(xié)同模塊是交易平臺的三大核心模塊,是數(shù)據(jù)與服務(wù)兩者融合并實現(xiàn)一體化交易的關(guān)鍵,本文接下來將對這三個核心模塊的功能進行詳細設(shè)計。
4.3.1 大數(shù)據(jù)資源池模塊
大數(shù)據(jù)資源池模塊主要包含三個方面的功能:數(shù)據(jù)資源格式的整理、數(shù)據(jù)的多維度整合、大數(shù)據(jù)資源的云存貯。具體如下。
(1)數(shù)據(jù)資源格式的整理。由于大數(shù)據(jù)交易平臺上的數(shù)據(jù)資源來自不同的數(shù)據(jù)供應(yīng)方,因此其數(shù)據(jù)資源的格式會有較大的差異。如果不經(jīng)過格式整理就直接進行數(shù)據(jù)分析,很可能會因部分數(shù)據(jù)無法準確讀取,而影響數(shù)據(jù)處理的效率,嚴重者還會導(dǎo)致數(shù)據(jù)分析中斷。數(shù)據(jù)資源格式整理的主要任務(wù)是將同一類型數(shù)據(jù)的格式進行統(tǒng)一,對部分缺失的數(shù)據(jù)屬性進行補充,對錯誤的數(shù)據(jù)格式進行修正。
(2)數(shù)據(jù)的多維度整合。在上文3.1中提到供需錯配的一個重要原因,就是單個數(shù)據(jù)供應(yīng)方無法提供高價值的多維數(shù)據(jù)。所謂多維數(shù)據(jù)是包含用戶或者行業(yè)多個背景和情境的大數(shù)據(jù)資源,這些多維數(shù)據(jù)使用戶或行業(yè)多個側(cè)面的信息產(chǎn)生了關(guān)聯(lián),有利于發(fā)現(xiàn)深層次的潛在規(guī)律。融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺應(yīng)該作為數(shù)據(jù)整合的主體,將單個數(shù)據(jù)供應(yīng)方提供的零散的數(shù)據(jù)資源,進行多維度的整合,當缺少某一個維度的數(shù)據(jù)時,再向相應(yīng)的數(shù)據(jù)供應(yīng)方進行定向的采集,最后得到相對完整的多維數(shù)據(jù),具有很高的分析價值。
(3)大數(shù)據(jù)資源的云存貯。大數(shù)據(jù)資源經(jīng)過格式整理和多維度整合以后,已經(jīng)可以作為數(shù)據(jù)分析服務(wù)的信息源。下一步就是將這些數(shù)據(jù)資源進行統(tǒng)一的云存貯,以便數(shù)據(jù)分析服務(wù)調(diào)用。以往部分大數(shù)據(jù)資源由于體量巨大或?qū)崟r更新的需要,無法上傳到交易平臺上,或者只提供部分調(diào)用接口。融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺通過建立云存貯中心,將整合后的多維數(shù)據(jù)進行統(tǒng)一存放和調(diào)用,有助于提高數(shù)據(jù)資源的存取效率。
4.3.2 數(shù)據(jù)分析服務(wù)模塊
數(shù)據(jù)分析服務(wù)模塊首先根據(jù)數(shù)據(jù)需求方的應(yīng)用方向,匹配出合適的多維數(shù)據(jù)資源,再選擇相應(yīng)的數(shù)據(jù)分析模型分配所需的計算能力,最后將得到的分析結(jié)果反饋給需求方。本文將數(shù)據(jù)分析服務(wù)劃分為三個大類:基礎(chǔ)性分析服務(wù)、高級分析服務(wù)、深度定制的分析服務(wù)。具體如下。
(1)基礎(chǔ)性分析服務(wù)。基礎(chǔ)性分析服務(wù)是指那些常規(guī)的數(shù)據(jù)統(tǒng)計,比如:總體中不同對象的占比分析,基于不同屬性的關(guān)聯(lián)分析或相關(guān)性分析等。這些分析服務(wù)耗時較短,分析技術(shù)較為簡單,只要數(shù)據(jù)資源本身完備,就可以迅速得到結(jié)果?;A(chǔ)性分析服務(wù)由大數(shù)據(jù)交易平臺本身來提供,可以面對不同的需求方,實現(xiàn)快速交付。
(2)高級分析服務(wù)。高級分析服務(wù)是指那些較為復(fù)雜的數(shù)據(jù)分析服務(wù),比如:精準的趨勢預(yù)測、全面的用戶興趣畫像、非結(jié)構(gòu)化的信息挖掘等。這些分析服務(wù)需要大量專業(yè)的數(shù)據(jù)處理技術(shù),比如:興趣建模、視頻分析,音頻分析、深度語義分析等,必須由大數(shù)據(jù)交易平臺對接第三方的數(shù)據(jù)分析服務(wù)商,由它們來提供高級分析服務(wù)。大數(shù)據(jù)交易平臺在同一數(shù)據(jù)分析領(lǐng)域,應(yīng)引入多家數(shù)據(jù)分析服務(wù)商,通過動態(tài)的競爭,來保證服務(wù)的質(zhì)量。
(3)深度定制的分析服務(wù)。大數(shù)據(jù)分析目前還處在快速發(fā)展階段,很多前瞻性的技術(shù)還在試驗當中,應(yīng)該說數(shù)據(jù)分析技術(shù)的發(fā)展相對于旺盛的現(xiàn)實需求來說是滯后的。當需要用的某一數(shù)據(jù)分析技術(shù),在目前的市場上還找不到現(xiàn)成的提供方時,就需要大數(shù)據(jù)交易平臺為其進行深度的定制,交易平臺通過多方位的研發(fā)能力評估,尋找合適的技術(shù)主體來進行專門的技術(shù)攻關(guān)。
4.3.3 協(xié)同模塊
協(xié)同模塊主要包含兩個方面的功能:數(shù)據(jù)分析服務(wù)之間的技術(shù)協(xié)同、交易各方的管理協(xié)同。具體如下。
(1)數(shù)據(jù)分析服務(wù)之間的技術(shù)協(xié)同。在面臨較為復(fù)雜的數(shù)據(jù)分析任務(wù)時,可能需要用到多個領(lǐng)域的數(shù)據(jù)分析技術(shù),這時單個的數(shù)據(jù)分析服務(wù)商可能無法獨立完成。因為不同的行業(yè)領(lǐng)域,都有其行業(yè)技術(shù)的獨特性,需要長時間的專業(yè)積累。在這種情況下,就需要多個數(shù)據(jù)分析服務(wù)商相互合作才能完成。數(shù)據(jù)分析服務(wù)之間的技術(shù)協(xié)同,就是通過一定的技術(shù)標準和操作規(guī)范,讓多個數(shù)據(jù)分析技術(shù)提供方,能夠在完成同一任務(wù)時,在技術(shù)上不沖突,能夠相互并行的完成對數(shù)據(jù)資源的處理,按時按質(zhì)的交付最終的分析結(jié)果。
(2)交易各方的管理協(xié)同。在融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺上,交易的參與者一共有四類,分別是數(shù)據(jù)資源的供應(yīng)方、數(shù)據(jù)分析服務(wù)商、需求方和交易平臺自身。數(shù)據(jù)需求方在提交自己的應(yīng)用方向和預(yù)期結(jié)果的同時,提交自己的交易預(yù)算。交易平臺根據(jù)需求方提交的應(yīng)用方向和預(yù)期結(jié)果,對數(shù)據(jù)資源和數(shù)據(jù)分析服務(wù)進行反向的選擇。如果數(shù)據(jù)分析任務(wù)中只用到了基礎(chǔ)性分析服務(wù),則整個交易為平臺方、需求方、數(shù)據(jù)資源供應(yīng)方的三方交易。如果某數(shù)據(jù)分析任務(wù),平臺自身無法完成,需要用到第三方的數(shù)據(jù)分析服務(wù)商,則整個交易包含了全部四類參與者,是一個四方交易。交易的基本原則是實現(xiàn)參與各方的利益共享。交易各方的具體利益分配如圖3所示。
圖3 交易各方的利益分配
需求方希望在獲得預(yù)期結(jié)果的同時,其支付的成本在可接受的范圍內(nèi)。交易平臺在對數(shù)據(jù)和服務(wù)進行反向匹配后,會出現(xiàn)兩種不同的情況:第一種情況是在原交易預(yù)算下,可以達到需求方預(yù)期的結(jié)果,則可成交。第二種情況是,原交易預(yù)算較低,在該預(yù)算下無法達到需求方要求的結(jié)果,這時交易平臺會和需求方溝通,提出新的報價,需求方經(jīng)過考慮后,與平臺進行討價還價,它們在價格上達成一致時才能完成交易。由于交易數(shù)據(jù)是整合后的多維數(shù)據(jù),因此原始數(shù)據(jù)資源供應(yīng)方的收益,由平臺從總交易價中支付,具體的支付方式可分為平臺一次性買斷或按次數(shù)支付。同一數(shù)據(jù)資源對于不同的需求者來說,其價值是不一樣的,融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺根據(jù)最終的一體化交易成交價,反向?qū)?shù)據(jù)資源進行定價,相對于現(xiàn)有的大數(shù)據(jù)交易平臺來說,是一種進步。交易平臺的深度參與,會使數(shù)據(jù)交易的頻率加快,原始數(shù)據(jù)資源供應(yīng)方會獲得更多的收益。數(shù)據(jù)分析服務(wù)商根據(jù)具體的數(shù)據(jù)分析任務(wù),直接參與由平臺發(fā)起的競價,達成交易后由平臺支付。交易平臺本身的收益則是需求方支付額減去其他各方收益的差價。
5.融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺的優(yōu)勢
本文3.1到3.3中指出現(xiàn)有大數(shù)據(jù)交易平臺存在數(shù)據(jù)供需錯配、大數(shù)據(jù)資源定價困難、數(shù)據(jù)的時效性不強三大不足。融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺作為改進后的第二代大數(shù)據(jù)交易平臺,可以很好地克服上述三點不足。除了這三個方面的優(yōu)勢以外,由于融合后可實現(xiàn)數(shù)據(jù)與服務(wù)的一體化交易,這將擴大交易對象的覆蓋范圍,提升交易的活力,具體如下。
5.1 直接面向應(yīng)用,從根本上避免了數(shù)據(jù)供需的錯配
在融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺上,需求方對交易平臺直接提出應(yīng)用方向和預(yù)期結(jié)果。交易平臺對全平臺的數(shù)據(jù)進行多維度整合,如果缺失某個維度的數(shù)據(jù),可以進行定向的采集和補充,最后形成高價值的多維數(shù)據(jù)。這些多維數(shù)據(jù)才是真正具有分析價值的數(shù)據(jù)資源,這是單個數(shù)據(jù)供應(yīng)方無法提供的。在得到多維數(shù)據(jù)后,結(jié)合平臺自身和第三方數(shù)據(jù)服務(wù)商的分析能力,得到最終的分析結(jié)果。交易平臺最后交付給需求方的是數(shù)據(jù)分析結(jié)果和基礎(chǔ)數(shù)據(jù),這種直接面向最終應(yīng)用的大數(shù)據(jù)交易方式,從根本上避免了數(shù)據(jù)供需的錯配。
5.2 融合后定價更有根據(jù)
在現(xiàn)有的大數(shù)據(jù)平臺上,數(shù)據(jù)需求方是將數(shù)據(jù)資源買回去以后自己分析,而在購買數(shù)據(jù)資源之前,不能預(yù)知數(shù)據(jù)分析效果的好壞,因此無法進行有效的價值判斷,這是定價困難的關(guān)鍵點。在融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺上,需求方不再直接對數(shù)據(jù)資源付費,而是對最終的數(shù)據(jù)分析結(jié)果付費,并且數(shù)據(jù)分析結(jié)果是根據(jù)需求方的要求反向定制的,是符合需求方利益的。需求方可以通過評估預(yù)期結(jié)果對自身的重要性或收益的改進程度,給出適當?shù)慕灰最A(yù)算。交易平臺以該預(yù)算為參照,對數(shù)據(jù)和服務(wù)進行選擇,若出現(xiàn)原預(yù)算約束下無法實現(xiàn)預(yù)期結(jié)果的情況,交易平臺再與需求方進行溝通,雙方討價還價后達成交易。這樣相對于現(xiàn)有的大數(shù)據(jù)交易平臺來說,融合后定價更有依據(jù)。
5.3 融合后可提供實時數(shù)據(jù)
在融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺上,數(shù)據(jù)資源采用云存貯的模式,由平臺進行統(tǒng)一管理,這提高了數(shù)據(jù)資源的安全性。在數(shù)據(jù)安全有保障的前提下,由交易平臺出面和數(shù)據(jù)資源供應(yīng)方進行實時數(shù)據(jù)的對接,將實時數(shù)據(jù)納入大數(shù)據(jù)資源池中。對于單個的數(shù)據(jù)資源供應(yīng)方來說,實時的數(shù)據(jù)脫敏難度太大。但大數(shù)據(jù)交易平臺不一樣,它可以利用規(guī)模優(yōu)勢,組建強大的計算能力,對大數(shù)據(jù)資源進行實時的脫敏和清洗,極大地提高了數(shù)據(jù)資源的時效性。
5.4 融合后將擴大交易對象的覆蓋范圍,提升交易的活力
融合后可實現(xiàn)數(shù)據(jù)和服務(wù)的一體化交易,讓很多自身不具備數(shù)據(jù)分析能力的組織和個人,也能方便地利用大數(shù)據(jù),特別是大量的中小企業(yè),這將大大增加交易對象的覆蓋范圍。
交易對象的增多會促進交易頻率的增長,從而為數(shù)據(jù)資源供應(yīng)方帶來更多的收益,這樣會提升它們參與交易的積極性,鼓勵它們供應(yīng)更多的數(shù)據(jù)資源,從而提升交易的活力,整個大數(shù)據(jù)交易行業(yè)就形成了正向循環(huán)的良好發(fā)展態(tài)勢。
6結(jié)語
本文對大數(shù)據(jù)交易平臺本身進行了改進與創(chuàng)新,設(shè)計了一種全新的第二代大數(shù)據(jù)交易平臺,即:融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺。該交易平臺可以直接面向需求方的應(yīng)用方向,實現(xiàn)數(shù)據(jù)和服務(wù)的一體化交易,不僅從根本上避免了數(shù)據(jù)供需的錯配,還使大數(shù)據(jù)交易的定價更有依據(jù),平臺的深度參也讓提供實時數(shù)據(jù)成為可能,這些將從整體上提升大數(shù)據(jù)交易的效率。融合后數(shù)據(jù)和服務(wù)的一體化交易降低了大數(shù)據(jù)應(yīng)用的技術(shù)門檻,鼓勵更多組織和個人參與,增加了交易活力。未來筆者將繼續(xù)關(guān)注大數(shù)據(jù)交易平臺的創(chuàng)新研究,為實際應(yīng)用和學(xué)術(shù)科研提供更多有益的參考。
參考文獻
[1]趙強,單煒.大數(shù)據(jù)政府創(chuàng)新:基于數(shù)據(jù)流的公共價值創(chuàng)造[J].中國科技論壇,2014(12):23-27.
[2]徐繼華,馮啟娜,陳貞汝.智慧政府:大數(shù)據(jù)治國時代的來臨[M].北京:中信出版社,2014.
[3]李文蓮,夏健明.基于“大數(shù)據(jù)”的商業(yè)模式創(chuàng)新[J].中國工業(yè)經(jīng)濟,2013(5):83-95.
[4]侯錫林,李天柱,馬佳,等.大數(shù)據(jù)環(huán)境下企業(yè)創(chuàng)新機會研究[J].科技進步與對策,2014,31(24):82-86.
[5]張峰,張迪.論大數(shù)據(jù)時代科研方法新特征及其影響[J].科學(xué)學(xué)研究,2016,34(2):166-170,202.
[6]王玉林,高富平.大數(shù)據(jù)的財產(chǎn)屬性研究[J]。圖書與情報,2016(1):29-35,43.
[7]齊愛民,盤佳.數(shù)據(jù)權(quán)、數(shù)據(jù)主權(quán)的確立與大數(shù)據(jù)保護的基本原則[J].蘇州大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2015(1):64-70.
[8]劉朝陽.大數(shù)據(jù)定價問題分析[J].圖書情報知識,2016(1):57-64.
[9]劉洪玉,張曉玉,侯錫林.基于討價還價博弈模型的大數(shù)據(jù)交易價格研究[J].中國冶金教育,2015(6):86-91.
[10]翟麗麗,王佳妮,何曉燕.移動云計算聯(lián)盟企業(yè)數(shù)據(jù)資產(chǎn)評估方法研究[J].價格理論與實踐,2016(2):153-156.
[11]史宇航.個人數(shù)據(jù)交易的法律規(guī)制[J].情報理論與實踐,2016,39(5):34-39.
[12]殷建立,王忠.大數(shù)據(jù)環(huán)境下個人數(shù)據(jù)溯源管理體系研究[J].情報科學(xué),2016,34(2):139-143.
[13]王忠.大數(shù)據(jù)時代個人數(shù)據(jù)交易許可機制研究[J].理論月刊,2015(6):131-135.
[14]楊琪,龔南寧 .我國大數(shù)據(jù)交易的主要問題及建議[J].大數(shù)據(jù),2015(2):38-48.
系統(tǒng)主要實現(xiàn)軟件的模塊話設(shè)計,包括反射率數(shù)據(jù)分析模塊、速度分析模塊、天線運行穩(wěn)定性分析模塊以及雷達組網(wǎng)數(shù)據(jù)分析模塊。
1.1反射率分析模塊
反射率的大小體現(xiàn)了氣象目標的降水粒子的密度分布及體積大小,在實際氣象技術(shù)中長期用于表示氣象目標的強度,在工作上采用dBZ單位表示。對于空管氣象雷達圖,數(shù)據(jù)顯示采用PPI(PlanPositionImage)顯示方式。該方式?jīng)Q定了一張氣象雷達圖由圓錐俯視平面上分析空間的回波構(gòu)成。在設(shè)計上簡單介紹其設(shè)計流程,首先必須讀取原始數(shù)據(jù),并判斷是否首次讀取,若為首次讀取則對其進行預(yù)處理,否則進行坐標轉(zhuǎn)換;其次進行圖像繪制并判斷是否需要改變仰角。此處需要關(guān)注的關(guān)鍵是如何進行數(shù)據(jù)的預(yù)處理。在實現(xiàn)上,對接收的數(shù)據(jù)進行反射率信息結(jié)構(gòu)體賦值。當然該結(jié)構(gòu)體包括了記錄實際仰角角度、數(shù)據(jù)文件路徑存儲、雷達波段判斷以及相關(guān)數(shù)據(jù)的偏移。通過掃描上述結(jié)構(gòu)體可以實現(xiàn)對雷達數(shù)據(jù)的預(yù)處理。
1.2速度分析模塊
多普勒雷達采用了速度退化模糊技術(shù)以擴大其對徑向風速測量不模糊的區(qū)間。結(jié)構(gòu)設(shè)計主要考慮數(shù)據(jù)顯示的徑向方式,流程設(shè)計則與反射模塊類似。當然在界面設(shè)計上,系統(tǒng)將提供對顏色配置的定義,使其人機交互更為快捷。
1.3天線穩(wěn)定性分析模塊
天線是雷達數(shù)據(jù)采集的關(guān)鍵部位,長期以來是影響雷達運行的主要關(guān)鍵點之一。其依賴于底下的電機進行旋轉(zhuǎn),目前大多數(shù)進口電機可以保證24小時安全運行。而運行時仰角提升和轉(zhuǎn)速的平穩(wěn)性直接影響雷達數(shù)據(jù)的采集。為此,我們通過在徑向數(shù)據(jù)上采用方位角及仰角進行掃描實現(xiàn)曲線圖監(jiān)控。通過選擇基數(shù)據(jù)再進行預(yù)處理后繪制相關(guān)曲線實現(xiàn)對天線運行狀態(tài)的評估。其中,曲線圖的繪制需要的參數(shù)為:縱坐標為氣象雷達實際運行的每層仰角均值;橫坐標為范圍角:0-360°。
1.4雷達組網(wǎng)分析模塊
按照民航局的總體規(guī)劃,未來空管將實現(xiàn)多氣象雷達覆蓋,在這過程,多個氣象雷達的組網(wǎng)將成為氣象雷達數(shù)據(jù)的主要來源。這種模式將使得數(shù)據(jù)覆蓋面更大、數(shù)據(jù)安全性更高、數(shù)據(jù)準確性更強。而與此同時帶來了雷達數(shù)據(jù)融合組網(wǎng)的技術(shù)難點。設(shè)計上,首先模塊將定義雷達站點配置信息,并與此同時提供組網(wǎng)雷達可選數(shù)據(jù);其次對選擇雷達數(shù)據(jù)進行數(shù)據(jù)預(yù)處理;再之則對雷達數(shù)據(jù)進行統(tǒng)計平均并做坐標轉(zhuǎn)換;最后進行拼圖處理。在這過程中,需要對雷達數(shù)據(jù)的強度進行自適應(yīng)調(diào)整、顯示范圍自適應(yīng)調(diào)整。與上述同理,系統(tǒng)核心在于預(yù)處理。在C#中定義List數(shù)據(jù)列表,并在定義其結(jié)構(gòu)為[站點標示][距離][方位角],對于數(shù)據(jù)讀取時,需要進行插值算法處理,此時的單時數(shù)據(jù)拼接分析可以實現(xiàn)不同仰角和方位角的篩選。為了控制系統(tǒng)數(shù)據(jù)的準確性可以在前端定義雷達數(shù)據(jù)方位角表,根據(jù)表進行映射處理。通常如若出現(xiàn)非連續(xù)數(shù)據(jù)可以在預(yù)處理上對其進行差值補償。在C#上可以采用反差圓補償方法。
2.結(jié)束語
大數(shù)據(jù)背景下的機器算法
專業(yè)
計算機科學(xué)與技術(shù)
學(xué)生姓名
楊宇瀟
學(xué)號
181719251864
一、 選題的背景、研究現(xiàn)狀與意義
為什么大數(shù)據(jù)分析很重要?大數(shù)據(jù)分析可幫助組織利用其數(shù)據(jù)并使用它來識別新的機會。反過來,這將導(dǎo)致更明智的業(yè)務(wù)移動,更有效的運營,更高的利潤和更快樂的客戶。
在許多早期的互聯(lián)網(wǎng)和技術(shù)公司的支持下,大數(shù)據(jù)在2000年代初的數(shù)據(jù)熱潮期間出現(xiàn)。有史以來第一次,軟件和硬件功能是消費者產(chǎn)生的大量非結(jié)構(gòu)化信息。搜索引擎,移動設(shè)備和工業(yè)機械等新技術(shù)可提供公司可以處理并持續(xù)增長的數(shù)據(jù)。隨著可以收集的天文數(shù)據(jù)數(shù)量的增長,很明顯,傳統(tǒng)數(shù)據(jù)技術(shù)(例如數(shù)據(jù)倉庫和關(guān)系數(shù)據(jù)庫)不適合與大量非結(jié)構(gòu)化數(shù)據(jù)一起使用。 Apache軟件基金會啟動了第一個大數(shù)據(jù)創(chuàng)新項目。最重要的貢獻來自Google,Yahoo,F(xiàn)acebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是復(fù)雜數(shù)據(jù)準備和ETL的旗艦,可以為許多數(shù)據(jù)存儲或分析環(huán)境提供信息以進行深入分析。 Apache Spark(由加州大學(xué)伯克利分校開發(fā))通常用于大容量計算任務(wù)。這些任務(wù)通常是批處理ETL和ML工作負載,但與Apache Kafka等技術(shù)結(jié)合使用。
隨著數(shù)據(jù)呈指數(shù)級增長,企業(yè)必須不斷擴展其基礎(chǔ)架構(gòu)以最大化其數(shù)據(jù)的經(jīng)濟價值。在大數(shù)據(jù)的早期(大約2008年),Hadoop被大公司首次認可時,維護有用的生產(chǎn)系統(tǒng)非常昂貴且效率低下。要使用大數(shù)據(jù),您還需要適當?shù)娜藛T和軟件技能,以及用于處理數(shù)據(jù)和查詢速度的硬件。協(xié)調(diào)所有內(nèi)容同時運行是一項艱巨的任務(wù),許多大數(shù)據(jù)項目都將失敗。如今,云計算已成為市場瞬息萬變的趨勢。因為各種規(guī)模的公司都可以通過單擊幾下立即訪問復(fù)雜的基礎(chǔ)架構(gòu)和技術(shù)。在這里,云提供了強大的基礎(chǔ)架構(gòu),使企業(yè)能夠勝過現(xiàn)有系統(tǒng)。
二、 擬研究的主要內(nèi)容(提綱)和預(yù)期目標
隨著行業(yè)中數(shù)據(jù)量的爆炸性增長,大數(shù)據(jù)的概念越來越受到關(guān)注。 由于大數(shù)據(jù)的大,復(fù)雜和快速變化的性質(zhì),許多用于小數(shù)據(jù)的傳統(tǒng)機器學(xué)習算法不再適用于大數(shù)據(jù)環(huán)境中的應(yīng)用程序問題。 因此,在大數(shù)據(jù)環(huán)境下研究機器學(xué)習算法已成為學(xué)術(shù)界和業(yè)界的普遍關(guān)注。 本文主要討論和總結(jié)用于處理大數(shù)據(jù)的機器學(xué)習算法的研究現(xiàn)狀。 另外,由于并行處理是處理大數(shù)據(jù)的主要方法,因此我們介紹了一些并行算法,介紹了大數(shù)據(jù)環(huán)境中機器學(xué)習研究所面臨的問題,最后介紹了機器學(xué)習的研究趨勢,我們的目標就是研究數(shù)據(jù)量大的情況下算法和模型的關(guān)系,同時也會探討大部分細分行業(yè)數(shù)據(jù)量不大不小的情況下算法的關(guān)系。
三、 擬采用的研究方法(思路、技術(shù)路線、可行性分析論證等)
1.視覺分析。大數(shù)據(jù)分析用戶包括大數(shù)據(jù)分析專業(yè)人士和一般用戶,但是大數(shù)據(jù)分析的最基本要求是視覺分析。視覺分析直觀地介紹了大數(shù)據(jù)的特征,并像閱讀照片的讀者一樣容易接受。 2.數(shù)據(jù)挖掘算法。大數(shù)據(jù)分析的理論中心是數(shù)據(jù)挖掘算法。不同的數(shù)據(jù)挖掘算法依賴于不同的數(shù)據(jù)類型和格式來更科學(xué)地表征數(shù)據(jù)本身。由于它們被全世界的統(tǒng)計學(xué)家所公認,因此各種統(tǒng)計方法(稱為真值)可以深入到數(shù)據(jù)中并挖掘公認的值。另一方面是這些數(shù)據(jù)挖掘算法可以更快地處理大數(shù)據(jù)。如果該算法需要花費幾年時間才能得出結(jié)論,那么大數(shù)據(jù)的價值是未知的。 3.預(yù)測分析。大數(shù)據(jù)分析的最后一個應(yīng)用領(lǐng)域是預(yù)測分析,發(fā)現(xiàn)大數(shù)據(jù)功能,科學(xué)地建立模型以及通過模型吸收新數(shù)據(jù)以預(yù)測未來數(shù)據(jù)。 4.語義引擎。非結(jié)構(gòu)化數(shù)據(jù)的多樣化為數(shù)據(jù)分析提出了新的挑戰(zhàn)。您需要一套工具來分析和調(diào)整數(shù)據(jù)。語義引擎必須設(shè)計有足夠的人工智能,以主動從數(shù)據(jù)中提取信息。 5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。大數(shù)據(jù)分析是數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理的組成部分。高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理確保了分析結(jié)果在學(xué)術(shù)研究和商業(yè)應(yīng)用中的可靠性和價值。大數(shù)據(jù)分析的基礎(chǔ)是前五個方面。當然,如果您更深入地研究大數(shù)據(jù)分析,則還有更多特征,更深入,更專業(yè)的大數(shù)據(jù)分析方法。
四、 論文(設(shè)計)的工作進度安排
2020.03.18-2020.03.20 明確論文內(nèi)容,進行相關(guān)論文資料的查找與翻譯。2020.04.04-2020.04.27:撰寫開題報告 。
2020.04.28-2020.04.30 :設(shè)計實驗。
2020.05.01-2020.05.07 :開展實驗。
2020.05.08-2020.05.15 :準備中期檢查。
2020.05.16-2020.05.23:根據(jù)中期檢查的問題,進一步完善實驗2020.05.24-2020.05.28 :完成論文初稿。
2020.05.29-2020.06.26 :論文修改完善。
五、 參考文獻(不少于5篇)
1 . 王偉,王珊,杜小勇,覃雄派,王會舉.大數(shù)據(jù)分析——rdbms與mapreduce的競爭與共生 .計算機光盤軟件與應(yīng)用,2012.被引量:273.
2 . 喻國明. 大數(shù)據(jù)分析下的中國社會輿情:總體態(tài)勢與結(jié)構(gòu)性特征——基于百度熱搜詞(2009—2 012)的輿情模型構(gòu)建.中國人民大學(xué)學(xué)報,2013.被引量:9. 3 . 李廣建,化柏林.大數(shù)據(jù)分析與情報分析關(guān)系辨析.中國圖書館學(xué)報,2014.被引量:16.
4 . 王智,于戈,郭朝鵬,張一川,宋杰.大數(shù)據(jù)分析的分布式molap技術(shù) .軟件學(xué)報,2014.被引量:6.
5 . 王德文,孫志偉.電力用戶側(cè)大數(shù)據(jù)分析與并行負荷預(yù)測 .中國電機工程學(xué)報,2015.被引量:19.
6 . 江秀臣,杜修明,嚴英杰,盛戈皞,陳玉峰 ,郭志紅.基于大數(shù)據(jù)分析的輸變電設(shè)備狀態(tài)數(shù)據(jù)異常檢測方法 .中國電機工程學(xué)報,2015.被引量:8.
7 . 喻國明. 呼喚“社會最大公約數(shù)”:2012年社會輿情運行態(tài)勢研究——基于百度熱搜詞的大 數(shù)據(jù)分析.編輯之友,2013.被引量:4.
六、指導(dǎo)教師意見
簽字: 年 月 日
七、學(xué)院院長意見及簽字
關(guān)于移動通信論文參考文獻:
[1]謝顯忠等,基于TDD的第四代移動通信技術(shù)[M].電子工業(yè)出版社,2005.
[2]解梅,移動通信技術(shù)及發(fā)展[J].電子科技大學(xué)學(xué)報,2003,02.
[3]宋文濤、羅漢文,移動通信[M].上海交通大學(xué)出版社,1996.
[4]何林娜,數(shù)字移動通信技術(shù)[M].機械工業(yè)出版社,2004.
[5]呂昌春,李林園.移動互聯(lián)網(wǎng)產(chǎn)業(yè)鏈平臺競爭與電信運營商增值業(yè)務(wù)發(fā)展策略研究[J].郵電設(shè)計技術(shù),2012(11):16-20.
[6]張潔.影響中國移動通信產(chǎn)業(yè)發(fā)展競爭力的因素分析[J].經(jīng)濟視角(下),2011(01):52-53.
關(guān)于移動通信論文參考文獻:
[1]張潔.影響中國移動通信產(chǎn)業(yè)發(fā)展競爭力的因素分析[J].經(jīng)濟視角(下),2011(01):52-53.
[2]呂昌春,李林園.移動互聯(lián)網(wǎng)產(chǎn)業(yè)鏈平臺競爭與電信運營商增值業(yè)務(wù)發(fā)展策略研究[J].郵電設(shè)計技術(shù),2012(11):16-20.
[3]劉文婷.以運營商為主導(dǎo)的移動互聯(lián)網(wǎng)業(yè)務(wù)商業(yè)模式研究[J].中國工業(yè)經(jīng)濟,2012(08):66-74.
[4]馮文高.我國移動通信產(chǎn)業(yè)的競爭均衡分析[J].現(xiàn)代經(jīng)濟信息.2009(16)
[5]張潔.影響中國移動通信產(chǎn)業(yè)發(fā)展競爭力的因素分析[J].經(jīng)濟視角(下).2011(01)
[6]馬云澤.我國移動通信產(chǎn)業(yè)的市場結(jié)構(gòu)與規(guī)制改革[J].經(jīng)濟問題.2009(01)
[7]張平王衛(wèi)東陶小峰《WCDMA移動通信系統(tǒng)》人民郵電出版社
[8]詹炳根,《工程建設(shè)監(jiān)理》,中國建設(shè)工業(yè)出版社,1997
[9]謝堅勛淺談工程監(jiān)理與項目管理接軌建設(shè)監(jiān)理2004(2)
關(guān)于移動通信論文參考文獻:
[1]趙剛.大數(shù)據(jù):技術(shù)與應(yīng)用實踐指南[M].北京:電子工業(yè)出版社,2013.
[2]漆晨犧.電信企業(yè)大數(shù)據(jù)分析、應(yīng)用及管理發(fā)展策略[J].電信科學(xué),2013(3):12-16.
[3]劉潔,王哲.基于大數(shù)據(jù)的電信運營商業(yè)務(wù)精確運營平臺的構(gòu)建化[J].電信科學(xué),2015,29(3):22-26.
[4]張俊.移動通信網(wǎng)絡(luò)中大數(shù)據(jù)處理的關(guān)鍵技術(shù)研究[J].電信網(wǎng)技術(shù),2014(4):10-12.
[5]康波,劉勝強.基于大數(shù)據(jù)分析的互聯(lián)網(wǎng)業(yè)務(wù)用戶體驗管理[J].電信科學(xué),2013,29(3):32-35.
[6]謝華.大數(shù)據(jù)在移動通信中的應(yīng)用探討[J].科技創(chuàng)業(yè)家,2014(1).
[7]夏磊.探巧大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)[J].科技創(chuàng)新導(dǎo)報,2014(10):21.
[8]侯優(yōu)優(yōu),隋化嚴.網(wǎng)絡(luò)優(yōu)化中的大數(shù)據(jù)應(yīng)用[J].互聯(lián)網(wǎng)天地,2014(l):34-37.
[9]劉震,付俊輝,趙楠.基于移動通信數(shù)據(jù)的用戶移動軌跡預(yù)測方法[J].計算機應(yīng)用與軟件,2015,30(2):10-13.
DSE雜志主編、哈爾濱工業(yè)大學(xué)李建中教授認為,現(xiàn)在大數(shù)據(jù)概念過熱,幾乎每個人都在談大數(shù)據(jù),但真正了解大數(shù)據(jù)的人并不多。所以,對于大數(shù)據(jù)到底是什么,應(yīng)該怎樣促進大數(shù)據(jù)的實際應(yīng)用是學(xué)術(shù)界首先要探討的問題。DSE雜志希望成為全世界大數(shù)據(jù)研究者的交流平臺,讓我國大數(shù)據(jù)方面優(yōu)秀的研究成果能夠發(fā)表在國際學(xué)術(shù)期刊上,推動我國的學(xué)術(shù)界走向世界。另外它也為全世界的企業(yè)界和學(xué)術(shù)界搭建了一個橋梁,促進大數(shù)據(jù)的研究成果向?qū)嶋H應(yīng)用的轉(zhuǎn)化。
在很多技術(shù)領(lǐng)域,中國的發(fā)展都是在跟隨國外的腳步,但發(fā)展到今天,我們需要在一些領(lǐng)域做出創(chuàng)新,數(shù)據(jù)分析就是其中的一個突破口?,F(xiàn)在國內(nèi)很多領(lǐng)域、尤其銀行領(lǐng)域用的數(shù)據(jù)分析軟件都是國外產(chǎn)品。
對于此次合作,中新賽克CEO凌東勝說道,作為軟件開發(fā)供應(yīng)商,中新賽克希望通過這次合作能夠把學(xué)術(shù)界的研究成果轉(zhuǎn)化到產(chǎn)品的實際解決方案中去,提升產(chǎn)品的核心競爭力,開發(fā)出領(lǐng)先的數(shù)據(jù)分析軟件,讓國內(nèi)企業(yè)在大數(shù)據(jù)領(lǐng)域真正做強、做大。在2015年,中新賽克將把信息安全領(lǐng)域和銀行領(lǐng)域作為大數(shù)據(jù)產(chǎn)品的主要研發(fā)方向,努力推出優(yōu)秀的產(chǎn)品解決方案。
對于大數(shù)據(jù)從學(xué)術(shù)研究到實際產(chǎn)品的應(yīng)用,清華大學(xué)計算機系博士生導(dǎo)師、計算機系學(xué)術(shù)委員會主任周立柱教授認為還存在一些問題需要克服。首先就是要保證數(shù)據(jù)質(zhì)量,目前數(shù)據(jù)噪聲、數(shù)據(jù)不一等問題還有待通過研究來解決;其次是數(shù)據(jù)大了以后,如何利用合適的數(shù)據(jù)模型從復(fù)雜性的數(shù)據(jù)中篩選出目標數(shù)據(jù);再次是數(shù)據(jù)分析得出的結(jié)果如何向用戶解釋,背后的基礎(chǔ)是什么。