時間:2022-05-21 10:59:00
序論:在您撰寫大數(shù)據(jù)分析畢業(yè)論文時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的1篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導您走向新的創(chuàng)作高度。
現(xiàn)代社會中,大數(shù)據(jù)來源豐富,使得交通、醫(yī)療衛(wèi)生、教育、安全等都發(fā)生了變化,而在智慧城體系中,監(jiān)控視頻是體量最大的大數(shù)據(jù)?;诖?,我主要分享媒體大數(shù)據(jù)的三個挑戰(zhàn)問題。第一,存不下,24小時產(chǎn)生的數(shù)據(jù)量積累得很大。第二,看不清,用眼睛看,橫看豎看,還是看不清楚,可能有時候都要猜來猜去,還需要很有經(jīng)驗的人才能看出來大概。為什么?存的時候做了壓縮,壓縮時不知將來作何用,為了節(jié)省存儲量,壓得太狠了,再把它解開時基本看不清。第三,找不到。現(xiàn)在攝像頭到處都是,攝像頭拍到了,但是不是想要找的?不知道,即使看清楚了,一跨攝像頭也就找不到了。所以攝像機網(wǎng)絡跨攝像頭搜索問題也是個難題。
超高效視頻編碼
解決壓縮問題
第一個挑戰(zhàn),我們想辦法找到最高效的編碼來應對這個挑戰(zhàn)。視頻流是圖像序列,在每個單獨的圖像里是有冗余的,通常叫“空間冗余”。相鄰的像素或圖像塊會有一些相關性,這些相關性即是“冗余”,這種冗余可以通過濾波器的算法進行估算。如果參數(shù)對了,就可以用它去做預測,繼而找到一些更簡潔的表達方式,不需要那么多比特就可以壓縮了,這就是空間冗余。其次是“時間冗余”,即一個圖像序列,第一幀和第二幀有很多是連續(xù)的,背景幾乎是一樣的,它有很多東西是重復的,這個重復的就是冗余,我們管它叫“時間冗余”。第三種是“感知冗余”,行業(yè)里的人把它叫“編碼冗余”。比如26個字母要怎么表達?給出8個bit或7bit,每個字母給的bit是一樣的,學計算機的人都知道這種分法是不科學的,應該怎么分?按照它的信息熵來分,圖像也是一樣,每個像素表達的亮度、顏色在每類里分布不均勻,最好把出現(xiàn)概率高的那些單體給它比較短的碼,把出現(xiàn)概率低的給長碼,統(tǒng)計上面就會比較合理,對此我們稱之為“熵編碼”。如果這三種用好了,就有辦法把圖像或視頻完美地壓縮下去。
現(xiàn)在圖像壓縮實際達到的現(xiàn)狀和理論有很大差別,但同時空間也很大。到現(xiàn)在為止,編碼技術離理論上限大概還有百分之八九十的空間可以改進,因為在數(shù)學上我們很容易證明理論上限,若干個上限中可以取最低的上限,就很容易計算出有多大空間可以繼續(xù)改進。這就是為什么視頻編碼領域這些年還在不停地發(fā)展,并且,每十年編碼效率就會提高1倍。
在這樣每十年翻一番的情況下,算法變得更復雜了,計算的復雜度換取了編碼的效率。當然,這里有很多新的算法,以前因為硬件比較貴,不能讓編碼的器件成本太高,所以有些算法還行,只要算法太復雜就基本不用。現(xiàn)在不在乎這個,因為集成電路發(fā)展以后,算法愈來愈多,編碼放進去后視頻效果會越來越好。針對監(jiān)控視頻我們會有更好的方法,使它的效率更高。
從編碼的角度,去空間冗余、去時間冗余和去編碼冗余這三種技術可以把視頻流里的冗余去掉,這三種技術包含了許多算法,有變換、濾波、運動補償、熵編碼等。去空間冗余最主要的工具是變化,把時域變到頻域上再進行處理,對于空間的冗余主要是采用預測編碼的方式去除,對于感知主要是通過熵編碼去除。
面向?qū)ο髾z測、跟蹤與識別解決模式識別問題
第二個挑戰(zhàn),對象檢測、跟蹤識別挑戰(zhàn)。模式識別率再高、人臉識別再準,識別的準和不準取決于算法的好壞,還取決于在編碼那端能不能提供支持。以往這兩個系統(tǒng)像軌道一樣完全平行,我們希望編碼和識別能合作,把中間那堵墻翻過去或者拆掉。怎么拆掉?編碼時要考慮怎么辦?,F(xiàn)在我們提出個支持是ROI(Region of Internet),就是編碼時識別出來哪個區(qū)域可能是識別要用的區(qū)域,把這個區(qū)域定義成感興趣區(qū)域,對于感興趣區(qū)域要描繪出來,現(xiàn)在語法里對感興趣區(qū)域有專門的描述,除了這個區(qū)域以外還包括其他的,比如GPS信息、攝像機參數(shù)信息。有了這個以后,在后面編碼時,會針對編碼參數(shù)進行調(diào)整,ROI區(qū)域壓得輕一點,這樣關鍵的信息丟失的會少一點。
有了這樣的知識,可以用它架構(gòu)友好的智能監(jiān)控識別體系?,F(xiàn)在即使有個算法很好,比如266,它編碼的效率和AVS2是一樣的,我說那也不行,為什么?因為你壓完以后還有解,解的時候才知道哪個地方是可識別的?,F(xiàn)在壓的時候就知道哪個東西有用,哪個東西沒有用,有用的可以壓得輕一點,這樣構(gòu)建分析架構(gòu),底層是完全的視頻流,視頻流上面可以構(gòu)架一個區(qū)域描述,不是有ROI么,這個“R”就是Region,根據(jù)區(qū)域描述,若干的區(qū)域構(gòu)成個對象,它們的關聯(lián)就可以構(gòu)成事件,只要處理能力足夠強,我就把這個東西表述出來了,這對識別非常有用。
以大規(guī)模視覺搜索
解決跨攝像頭搜索問題
第三個挑戰(zhàn),跨攝像頭怎么辦?我們可以對跨攝像頭的數(shù)據(jù)進行矯正,然后再進行一些后續(xù)的工作。這方面有很多工作已經(jīng)開始做了,比如我們試驗室學生搭了一個系統(tǒng),你在北大校園的一個地方走,其他幾個框是別的幾個攝像頭,從一個攝像頭跨到另外一個攝像頭的時候,現(xiàn)在有一個專門技術是再認證,一個人在一個攝像頭里出現(xiàn)過,當他出現(xiàn)在第二個攝像頭的時候,就可以被識別出來。因為有時候可能不是正臉,靠人臉識別已經(jīng)不管用了,就要靠顏色、身體、步態(tài)、外形等綜合識別。
要做好這個系統(tǒng)有一個重要的技術是能做到大規(guī)模的搜索。大規(guī)模的搜索這一塊我們組有個很好的工作叫CDVS,它可以用很少的特征去搜索你要的東西,比如我用手機拍一張照片或者拍一個景色,拍完以后傳送到服務器,搜索后會告訴你拍的是哪里。這個過程它需要你的特征選得非常好、非常準,然后有代表性,這樣才能搜索得比較準。
可以用一組特征,這組特征我們把它命名叫“CDVS”,CD是一個緊縮的描述詞,就是面向視覺搜索的緊縮描述詞,這也是在國際標準化框架下面做的。前一段時間有個多媒體描述標準是MEPG7。
這里面的關鍵技術,一個是選擇特征點,然后是選擇特征,把這些特征進行聚合、壓縮、進行點壓縮,最后變得非常小。舉例來說有多小,比如你照了個照片,這個照片有三、四兆大的尺寸,我們從中提出來大概500個bit,連1k都不到,就可以進行搜索了,最高可以到16k,16k檢索的效率就更高,我們判斷特征好不好是用召回率來判斷,我們都希望召回率達到90%,低于90%就認為這個特征沒有選好。什么叫召回率90%?我用完整的照片到庫里搜出來的東西,和我用521個去搜,是不是有90%都在我搜的100個里面,如果是的話那你這個特征是可以的,這是一個準則。
后臺的技術會涉及到數(shù)據(jù)壓縮、計算機視覺特征提取以及機器學習和視覺挖掘。和特征、視覺有關的主要是局部描述,模式識別里有個非常好的描述詞叫“SIFT特征”,它可以保持平移不變、旋轉(zhuǎn)不變、伸縮尺度不變等。但是這個特征也有問題,一個是專利問題,另一個是耗費存儲比較大,耗費計算時間比較大。
[摘 要]大數(shù)據(jù)時代對人類的生活、工作與思維產(chǎn)生變革性影響,深刻改變著商業(yè)及各個領域的面貌,“大數(shù)據(jù)”日漸成為各行業(yè)創(chuàng)新的助推器。作為煤炭行業(yè)也同樣順應時代,跟著時代的步伐前行,那么綜采工作面又是煤炭行業(yè)發(fā)展的充分體現(xiàn),更需要大量的數(shù)據(jù)分析,形成一套完整的、統(tǒng)一的管理系統(tǒng),當前國內(nèi)綜采工作面復雜,數(shù)據(jù)記錄不完善、分析不統(tǒng)一,對綜采工作面的采煤機、支護形式等的選擇不能達到最優(yōu)化,所以綜采工作面的大數(shù)據(jù)分析尤為重要。
[關鍵詞]綜采工作面 數(shù)據(jù)分析
1.引言:本文主要從綜采工作面大數(shù)據(jù)的支撐下如何選擇綜采“三機”(三機指采煤機、刮板機、液壓支架)展開探討,綜采工作面“三機”配套不能停留在簡單的“經(jīng)驗類比”上,而應開發(fā)研制綜采設備選型的大數(shù)據(jù)系統(tǒng),避免在選型設計中受決策者個人偏見或感情色彩的影響。同時還要對系統(tǒng)中的主要環(huán)節(jié)進行動態(tài)優(yōu)化設計,使其設計參數(shù)與實際運行參數(shù)得到統(tǒng)一。目前的綜采工作面“三機”選型設計還是以“經(jīng)驗類比”為主,雖然基本上能夠滿足生產(chǎn)需要,但在某些環(huán)節(jié)上還存在著嚴重的不合理現(xiàn)象。
2.綜采工作面大數(shù)據(jù)分析影響著綜采“三機”的合理配套選擇
2.1 采煤機的機型選擇
采煤機機型選擇之前要考慮一下數(shù)據(jù):首先考慮地質(zhì)條件,主要包括綜采工作面內(nèi)斷層斷距、走向、煤層傾角、煤質(zhì)硬度等判斷是否具備選擇采煤機的條件,在地質(zhì)條件適合綜采的情況下再考慮其他因素如采高、每月計劃產(chǎn)量、每刀生產(chǎn)能力、截深、功率、牽引方式,實際生產(chǎn)能力主要取決于采高、截深、牽引速度以及工作時間利用系數(shù)。采高由滾筒直徑、調(diào)高形式和搖臂擺角等決定,滾筒直徑是滾筒采煤機采高的主要調(diào)節(jié)變量,每種采煤機都有幾種滾筒直徑供選擇,滾筒直徑應滿足最大采高及臥底量的要求。截深的選取與煤層厚度、煤質(zhì)軟硬、頂板巖性以及移架步距有關。截割速度是指滾筒截齒齒尖的圓周切線速度,由截割部傳動比、滾筒轉(zhuǎn)速和滾筒直徑確定,對采煤機的功率消耗、裝煤效果、煤的塊度和煤塵大小等有直接影響。牽引速度的初選是通過滾筒最大切削厚度和液壓支架移架追機速度驗算確定。牽引力是由外載荷決定的,其影響因素較多,如煤質(zhì)、采高、牽引速度、工作面傾角、機身自重及導向機構(gòu)的結(jié)構(gòu)和摩擦系數(shù)等,沒有準確的計算公式,一般取采煤機電機功率消耗的10%~25%。滾筒采煤機電機功率常用單齒比能耗法或類比法計算,然后參照生產(chǎn)任務及煤層硬度等因素確定。
2.2 刮板機的選擇
在選型時要確定的刮板輸送機的參數(shù)主要包括輸送能力、電機功率和刮板鏈強度等。輸送能力要大于采煤機生產(chǎn)能力并有一定備用能力,輸送能力應大于采煤機的最大生產(chǎn)能力,一般取1.2倍;電機功率主要根據(jù)工作面傾角、鋪設長度及輸送量的大小等條件確定;刮板鏈的強度應按惡劣工況和滿載工況進行驗,要根據(jù)刮板鏈的質(zhì)量情況確定鏈條數(shù)目,結(jié)合煤質(zhì)硬度選擇鏈子結(jié)構(gòu)型式。
2.3 液壓支架的選擇
液壓支架的選型就是要確定支架類型(支撐式、掩護式、支撐掩護式)、支護阻力(初撐力和額定工作阻力)、支護強度與底板比壓以及支架的結(jié)構(gòu)參數(shù)(立柱數(shù)目、最大最小高度、頂梁和底座的尺寸及相對位置等)及閥組性能和操作方式等。此外還要考慮礦井采區(qū)工作面的煤層、頂?shù)装寮暗刭|(zhì)條件數(shù)據(jù),依據(jù)不同類級頂板選取架型。
液壓支架具備最基本的特點是(1)要頂?shù)米。核某鯎瘟凸ぷ髯枇σm應直接和老頂巖層移動所產(chǎn)生的壓力,使控頂區(qū)的頂板下沉量限制到最小程度;(2)要移得走:它的結(jié)構(gòu)形式和支護特性要適應直接頂下部的巖層冒落特點,尤其要注意頂板在暴露后未支護下的破碎狀態(tài),要盡量保持該處頂板的完整性,支架底座的比壓要適應底板巖石的抗壓強度,以防止底板松軟而使底板下陷不能移架。
2.4 “三機”合理配套選擇工程復雜
從采煤機、液壓支架、刮板輸送機的選型參數(shù)中看到,綜采設備的合理配套是很復雜的系統(tǒng)工程。滿足生產(chǎn)能力要求采煤機生產(chǎn)能力要與綜采工作面的生產(chǎn)任務相適應,工作面刮板輸送機的輸送能力應大于采煤機的生產(chǎn)能力,液壓支架的移架速度應與采煤機的牽引速度相適應,而乳化液泵站輸出壓力與流量應滿足液壓支架初撐力及其動作速度要求;滿足設備性能要求輸送機的結(jié)構(gòu)形式及附件必須與采煤機的結(jié)構(gòu)相匹配,如采煤機的牽引機構(gòu)、行走機構(gòu)、底托架及滑靴的結(jié)構(gòu),電纜及水管的拖移方法以及是否連鎖控制等。輸送機的中部槽應與液壓支架的推移千斤頂連接裝置的間距和連接結(jié)構(gòu)相匹配;采煤機的采高范圍與支架的最大和最小結(jié)構(gòu)尺寸相適應,而其截深應與支架推移步距相適應。如果綜采沒有大量數(shù)據(jù)的支持,“三機”的合理選擇無從下手。如下圖三機配套關系圖(見圖1)
3.綜采工作面大數(shù)據(jù)分析的意義
3.1 經(jīng)濟效益方面
工作面生產(chǎn)前期需要決策“三機”選擇,不同的決策者往往站在自己的專業(yè)領域考慮設備,這樣在缺乏綜合數(shù)據(jù)分析下往往造成“三機”設備不配套,不僅會造成大量資金的浪費,短時間內(nèi)不能滿足高產(chǎn)高效,又影響煤礦企業(yè)經(jīng)濟效益。
3.2 安全生產(chǎn)方面
井下作業(yè)條件特殊,尤其是工作面,時刻都面臨著危險,如果沒有工作面大量數(shù)據(jù)分析的支持,錯誤的選擇“三機”,不能很好的配合工作,這樣很可能會造成液壓支架支撐不住頂板壓力而造成頂板事故,工作面進度跟不上可能會誘發(fā)火災、一氧化碳等事故,還有“三機”的機械故障也容易造成人員傷害等等。
小結(jié)
綜采工作面既包括包括靜態(tài)因素,井下溫度、頂板淋水、頂板松軟、底板松軟、斷層、瓦斯、煤層厚度、傾角等是靜態(tài)因素,又包括動態(tài)因素,頂板狀態(tài)隨著采煤速度、采高以及支架的狀態(tài)隨時變化,頂板的初次來壓、周期來壓,受采動影響活化上部斷層、巖層等等,大量的數(shù)據(jù)需要綜合分析,才能總結(jié)出本地區(qū)綜采工作面綜采“三機”配套設備的形式、型號及技術特征,并提出了三機配套優(yōu)選方案及注意事項,而在實際生產(chǎn)中,即使采用相同綜采設備的不同工作面或不同礦井,其實際生產(chǎn)能力和全員效率可能有較大差距,如果客觀條件不具備,即使選擇生產(chǎn)能力很高的配套設備,也遠不能達到提高生產(chǎn)能力的目的。高產(chǎn)高效綜采工作面的三機選型應從實際出發(fā),因地制宜,以數(shù)據(jù)分析為基礎,具備什么檔次的開采條件,就選用相應檔次的配套設備。
實際工作中如何做到選型正確、先進配套、合理的“三機”選型,大數(shù)據(jù)分析可以起到非常重要的作用,但是大數(shù)據(jù)分析工作也是一項復雜的系統(tǒng)工程,涉及地質(zhì)學、巖石力學、采礦學、機電和機制等多門學科以及各種現(xiàn)場數(shù)據(jù),這就需要我們煤炭工作人員共同努力,將工作面大數(shù)據(jù)分析應用到礦山行業(yè),減少輔助作業(yè)環(huán)節(jié),提高集中生產(chǎn)化的程度。
摘 要隨著科技的發(fā)展,公有云的需求越來越廣泛。本文對天津市教育信息化公有云及大數(shù)據(jù)分析平臺進行了設計與研究。
【關鍵詞】公有云 平臺設計 大數(shù)據(jù)
1 項目背景
1.1 公有云平臺技術背景
從部署方式來看,云計算一般分為公有云、私有云和混合云三大類。其中公有云是指運營者建設用以提供給外部非特定用戶的公共云服務平臺;私有云平臺僅為單一客戶提供服務,其數(shù)據(jù)中心軟硬件的所有權(quán)為客戶所有,能夠根據(jù)客戶的特定需求在設備采購、數(shù)據(jù)中心構(gòu)建方面做定制,并滿足在合規(guī)性方面的要求。
1.2 國內(nèi)發(fā)展趨勢
包括中央電教館在內(nèi)的國內(nèi)各大政府機構(gòu)和省級政府,都在致力或傾向于將大型應用類業(yè)務向社會公有云/混合云轉(zhuǎn)移。謀求更高效率、更低成本、更及時服務和更安全環(huán)境的云平臺托管,是當今信息化系統(tǒng)服務的發(fā)展趨勢。尋求廣泛的服務托管、安全托管和運維托管是大勢所趨。
1.3 天津市教育數(shù)據(jù)資源中心的現(xiàn)狀
經(jīng)過“十一五”、“十二五”兩期建設,隨著信息中心工作的不斷發(fā)展,當前數(shù)據(jù)中心的數(shù)據(jù)量比“十一五”翻了兩番,運維工作量更是翻了數(shù)番,這對數(shù)據(jù)中心運維人員的安全運維能力也提出了前所未有的高要求。目前,中心機房和工大機房的承載能力已接近飽和,結(jié)合國際和國內(nèi)信息化的發(fā)展趨勢看,未來單靠單個IDC數(shù)據(jù)中心已經(jīng)難以滿足未來天津市教育信息化發(fā)展需求。參照中央電教館等云平臺系統(tǒng)運維模式,我市教育信息化的發(fā)展迫切需要社會上有實力的企業(yè)建設的混合云解決方案,需要更加專業(yè)的團隊,協(xié)助完成“十三五”各類海量資源類系統(tǒng)的承載工作,進一步助力我市教育系信息化工作上一個新臺階。
2 項目目標及分項需求
2.1 項目建設目標
本方案擬建設如下混合云模式:即由天津市教委教育信息化管理中心IDC機房構(gòu)建未來各類系統(tǒng)的核心數(shù)據(jù)庫、統(tǒng)一身份認證平臺和數(shù)據(jù)分析和統(tǒng)計平臺,由公有云企業(yè)提供公有云業(yè)務承載空間,負責提供海量視頻和圖片文件優(yōu)化存儲、對外、信息安全和數(shù)據(jù)災備服務。公有云服務提供商需提供不少于三個異地災難備份數(shù)據(jù)中心,提供24小時不間斷同步和異步災備服務。
2.2 云平臺服務需求
云平臺提供方應該參照本需求,提供整體的云平臺解決方案,包含云主機、關系型數(shù)據(jù)庫、非關系型數(shù)據(jù)庫、簡單緩存服務、負載均衡、內(nèi)容分發(fā)網(wǎng)絡、對象存儲、大數(shù)據(jù)平臺服務、多媒體平臺服務、云安全服務、帶寬等方面。
相關術語如下解釋:
云主機:是一種簡單高效、安全可靠、處理能力可彈性伸縮的計算服務。用戶無需提前購買硬件,即可迅速創(chuàng)建或釋放任意多臺云服務器,有效降低IT成 本,提升運維效率,為用戶快速構(gòu)建穩(wěn)定可靠的應用,降低網(wǎng)絡規(guī)模計算的難度,使用戶更專注于核心業(yè)務創(chuàng)新
非關系型數(shù)據(jù)庫:數(shù)據(jù)庫中的非關系型數(shù)據(jù)庫,通常情況下指支持NoSQL的數(shù)據(jù)庫服務或者云數(shù)據(jù)庫,提供高效、實時、穩(wěn)定的數(shù)據(jù)檢索服務。
大數(shù)據(jù)平臺服務:通過對數(shù)據(jù)收集、存儲、變形、分析等過程,結(jié)合公有云分布式并行計算集群、機器學習集群、數(shù)據(jù)倉庫聯(lián)機分析集群實現(xiàn)數(shù)據(jù)智能推薦、應用定制開發(fā)、在線報表等需求。
3 項目建設技術路線及實現(xiàn)手段
3.1 公有云平臺技術路線及實現(xiàn)
公有云廠商核心基礎架構(gòu)需具備10年以上的技術積累,需有上萬名國內(nèi)頂尖技術專家,并具有多款國內(nèi)領先互聯(lián)網(wǎng)產(chǎn)品的經(jīng)驗。公有云廠商需在數(shù)據(jù)中心技術,網(wǎng)絡技術,安全技術,分布式存儲技術,大數(shù)據(jù)處理能力方面有豐富的經(jīng)驗,形成了領先的技術能力和平臺。
3.2 上線安檢服務技術路線及實現(xiàn)
根據(jù)上線安檢服務需求內(nèi)容,制定內(nèi)容檢查清單,逐一進行核對和檢查,確保系統(tǒng)正常上線。
3.3 多網(wǎng)絡帶寬服務、CDN服務技術路線及實現(xiàn)
當用戶訪問天津教委云平臺時,瀏覽器將DNS域名解析請求發(fā)至本地DNS,本地DNS如果有緩存結(jié)果就直接返回IP,否則解析請求最終會到達CDNDNS服務器,它會根據(jù)本地DNS IP返回一個離用戶最近的CDN邊緣節(jié)點的IP給用戶。
4 項目部署與實施
項目建設、系統(tǒng)部署和實施的具體時間安排如表1。
5 驗收指標
驗收的內(nèi)容包括以下幾個部分:
(1)驗收內(nèi)容一般包括軟件驗收(按功能要求的可執(zhí)行軟件、開發(fā)計劃文檔、 詳細設計文檔、質(zhì)量保證計劃、設備相應附件、設備運行、網(wǎng)絡運行等);
(2)驗收評測工作主要包括:文檔分析、方案制定、現(xiàn)場測試、問題單提交、測試報告;
(3)驗收測試內(nèi)容主要包括:功能度、安全可靠性、易用性、可擴充性、兼容性、效率、資源占用率、用戶文檔;
(4)文檔驗收標準一般包括:文檔完備性、內(nèi)容針對性、內(nèi)容充分性、內(nèi)容一致性、文字明確性、圖表詳實性、易讀性、文檔價值等;
(5)軟件、硬件驗收標準要符合國家和相關標準。
智慧城市建設中,盡管我們布設了很多攝像頭,但在多媒體數(shù)據(jù)處理方面還存在一些問題和挑戰(zhàn),需要理論、系統(tǒng)、技術等多領域?qū)<夜餐瑓f(xié)同,才能真正實現(xiàn)城市“智慧”。
智慧城市建設涉及多個領域、不同層面的數(shù)據(jù)資源獲取、處理和分析。這些數(shù)據(jù)應用于醫(yī)療衛(wèi)生,能夠?qū)崿F(xiàn)精準醫(yī)療;數(shù)據(jù)應用于教育行業(yè),可以實施個性化教學;而城市監(jiān)控數(shù)據(jù)為城市管理者所用,能夠提升管理效率、改善民生服務。
目前,以北京為例,覆蓋全城、多點布局的攝像頭數(shù)量達2000萬之多,而這些攝像頭捕捉到的數(shù)據(jù)信息往往是在“睡大覺”。一般1~2個星期、最多1~2個月為一個周期, 過往信息就會被覆蓋掉。
如何從這些信息中抓取有用數(shù)據(jù)、扔掉無用數(shù)據(jù),是我們當前面臨的難題。這類音視頻多媒體數(shù)據(jù)要真正實現(xiàn)有效應用,面臨三大挑戰(zhàn),即“存不下”、“看不清”、“找不到”。
優(yōu)化編碼技術研究
這三大挑戰(zhàn)背后對應的技術問題是指我們的編碼算法技術還有提升的潛力和空間。
一方面,隨著攝像頭數(shù)量不斷增加,獲取的信息量不斷增長,可能導致“存不下”這一問題;另一方面,計算機識別圖像與我們?nèi)搜劭礀|西不同,需要較高的清晰度。目前,我們城市攝像頭的數(shù)量基本已達到5米或10米一個,但人臉識別率還是較低,就存在“看不清”的問題。此外,攝像頭物理參數(shù)的不同也會導致出現(xiàn)這一現(xiàn)象:我們?nèi)庋劭茨橙藦腁點走到B點,A點攝像頭捕捉到這個人,但到了B點可能就“找不到”了,這就存在跨攝像頭搜索的問題。
針對這三個問題,我們需要三種不同的技術來應對它。
針對“存不下”問題,我們需要從更新編碼技術這個思路去尋找破解之道。高效視頻編碼是應對這一問題的直接技術手段。因為數(shù)字視頻其實是一個數(shù)字圖像序列,數(shù)字圖像表現(xiàn)的是數(shù)字信號,而數(shù)字信號我們可以對其進行處理。經(jīng)過分析,我們發(fā)現(xiàn)數(shù)字圖像序列中有三類信息冗余,一是時間冗余,二是空間冗余,三是感知冗余,當然也有知識冗余等其他冗余。如果我們能夠把這些冗余擠掉,就能更有效地壓縮數(shù)字視頻。
針對不同類別的冗余,我們必須采用不同的方法。理論上,我們通過矩陣運算或通過矩陣分析可以找到視頻編碼的上界即最大壓縮程度。例如,針對2000×2000像素這樣尺寸的圖像,理論上我們能壓縮2000倍,即壓縮到2000:1,但實際上我們能做到的是600:1,中間還有很大空間,需要采用各種不同技術來突破。
編碼技術變革
1993年第一代編碼技術通過優(yōu)化能把高清視頻壓縮到了1/75,2003年第二代編碼技術把編碼性能提高了一倍,2013年有了第三代編碼技術,壓縮能力又提升了一倍。以此類推,2023年將產(chǎn)生第四代編碼技術,其壓縮能力將達到1/600。我們把這種規(guī)律視為編碼領域的摩爾定律,十年性能翻一番。
其實,從第一代到第三代編碼技術,都是遵循最基本的編碼框架結(jié)構(gòu),即從視頻信號進來,切成塊變換處理,再進行濾波運能估計。但基于這一架構(gòu),編碼性能卻能十年翻一番。如何實現(xiàn)?主要是采用多種數(shù)學工具,如預測編碼、算術編碼等,或者多種工具混合利用使得編碼效率不斷提升。通過觀察分析,我們看到,在三代編碼技術不斷演變過程中,真正的變化是在預測與運動估計這一項上,每一代都不一樣。這也會給我們提供啟發(fā),為尋找更高的編碼效率,預測與運動應該是我們關注的重點。那么,為何預測可以得到更高的編碼效率?因為預測主要解決的是空域冗余,隨著時間推移,它一幀一幀往前處理。我們知道圖像處理中很多東西不變化,這些不變化有效利用起來,就能獲得較高的編碼效率。
以監(jiān)控視頻為例,一般而言,在會議活動中,演講人只有身體會偶爾搖動;在自然環(huán)境中,整片森林除了每天光照變化、葉子生長變化,其他都基本不變。因此,如果針對這些不變的因素實現(xiàn)建模,就能獲得很高的編碼效率。
因此,針對視頻監(jiān)控應用,我們提出了背景建模技術,通過背景建波計算出背景模型,之后做預測時,用這套模型去做計算效率就會很高。在國際三個主流編碼技術團隊中,中國技術團隊在這一領域作出了較大貢獻,并已有了實際應用。
AVS2有效提升編碼效率
從性能上來看,以數(shù)字視頻廣播應用為例,中國超高清標準AVS2與目前H.265標準性能相當,而以監(jiān)控視頻應用為例,AVS2標準相比H.265標準,性能為\41.77%,即碼率節(jié)省了41.77,性能提升了一倍。
對于監(jiān)控視頻而言,AVS2已經(jīng)邁入新時代。
2015年1月,廣電總局廣播電視、計量檢測中心針對AVS2標準和H.265標準專門做了一個對比實驗,并得出這樣的結(jié)論:AVS做超高清視頻很有優(yōu)勢。對比視頻編碼標準HEVC,圖像質(zhì)量下降的平均值是:AVS2為2.9%,HEVC為3%。一般而言,下降的值越低越好,這也表明了AVS2的優(yōu)勢。
目前,已經(jīng)有一些主流企業(yè)開始布局,準備用AVS2進軍全球市場。而AVS2能夠有效提高編碼效率和精度,能夠應對我們提到的第一個挑戰(zhàn)――“存不下”。
針對“看不清”即識別不準這一問題,傳統(tǒng)的做法是產(chǎn)生編碼和識別編碼是完全平行的兩套,彼此不通氣。通過背景建模技術,可以在編碼時把前景測出來,這樣的好處是可以進行分析、識別、提取。具體如何實現(xiàn)?以監(jiān)控視頻碼流為例,我們可以理解為它是由兩個碼流構(gòu)成的,一是背景碼流,二是前景碼流。測出前景后,我們可以處理、識別,并且跟蹤分析我們關注的對象。基于這個想法,AVS2也就支持感興趣區(qū)域(RCH),就是語法里面對前景手段你可以對其進行描述,這種描述可以采用特殊參數(shù)的編碼,背景一次性接過去就可以。基于這樣的構(gòu)建我們可以很好地識別編碼模型,從感興趣的區(qū)域可以得到對象,根據(jù)對象之間的關聯(lián),以及它們失去關系時構(gòu)建的時間,我們可以在編碼的同時做運動分析、目標檢測、對象行為分析等。
傳統(tǒng)的方式下,識別時我們需要在視頻流上找,但是通過背景建模技術,任務就變得簡單很多。我們只需要知道背景是什么,就很容易把前景表述出來。AVS2國外版命名為HE1857,基于這一標準,可以對感興趣的區(qū)域提取對于對象的表達,對動作和行為檢測等。
針對跨攝像頭檢索“找不到”的問題,我們采用了CDVS(即緊縮描述式)技術。我們要想辦法達成這些目標:描述能力強、緊湊,檢索較快,特征規(guī)范化。這里面涉及到計算機視覺技術、機器學習技術等,最核心的就是興趣點提取和表述,一開始我們用的是(SIFT)特征,也是近期最好用的一個特征。
但(SIFT)特征在具體使用中有很多問題,后來我們對其做了改進,改進之后的效果比較好,所以我們把這一特征又分成局部和全局。改進的倍數(shù)CDVS比SIFT好三倍,特征大小好一百倍。針對一千萬幅圖像庫進行搜索,采用CDVS只需要500毫秒就能完成搜索,就是說如果我們要在一千萬張圖片中去找一張圖片,半秒鐘就能解決問題,搜索速度非???,這只是在英特爾CPU上面就可以做到的。
總的來說,在智慧城市建設過程中,如果你要考慮多媒體大數(shù)據(jù)分析的時候,有三個比較大的挑戰(zhàn)。
第一個壓縮問題我們可以通過AVS2去應對,當然你可以有其他的辦法。第二個模式識別問題可以通過支持感興趣區(qū)域的AVS2、面向監(jiān)控的AVS2來解決。第三個跨攝像頭搜索、視頻搜索問題,其實可以用CDVS這一標準去解決,當然也有其他更好的技術來解決。在智慧城市建設方面,盡管我們現(xiàn)在裝了很多攝像頭,但離具體的應用還是有一段距離,所以需要理論、系統(tǒng)、技術等多領域?qū)<夜餐瑓f(xié)同,才會有一個較好的結(jié)果。
【摘 要】人類已經(jīng)步入到信息化時代,大規(guī)模的數(shù)據(jù)信息傳遞業(yè)已被廣泛運用。傳統(tǒng)意義上的信息不對等形成的差距條件不見了,大數(shù)據(jù)背景下的數(shù)據(jù)分析可以為各個組織帶來更大價值。本位分析了大數(shù)據(jù)的相關概念及大數(shù)據(jù)時代背景下進行數(shù)據(jù)分析的相關理念。
【關鍵詞】大數(shù)據(jù)時代;數(shù)據(jù)分析理念
前言
國內(nèi)外在信息技術領域突飛猛進,越來越多地運用信息技術,大規(guī)模的信息與數(shù)據(jù)信息借助移動互聯(lián)設備、互聯(lián)網(wǎng)、社交工具、云終端以及物聯(lián)網(wǎng)等進行傳遞,人類業(yè)已步入到大數(shù)據(jù)時代,數(shù)據(jù)信息的大批量傳遞對各個組織的決策成本產(chǎn)生了較大影響。
一、大數(shù)據(jù)概述
1.大數(shù)據(jù)的定義。如今人們尚未就大數(shù)據(jù)的概念取得一致意見,主要存在著下列三種看法。首先,它指的是運用相關信息技術,分析、整合大量數(shù)據(jù),并獲得舉足輕重的信息匯總成果,為用戶提供相關資訊。其次,認為大數(shù)據(jù)指的是一臺計算機,其處理能力比較強大。第三,它指的是在限定時間內(nèi)拆解與分析數(shù)據(jù)中的相關信息,獲取關鍵信息的信息處理技術。
2.特點。第一是具有鮮明的社會性。它能夠匯集全部數(shù)據(jù)與信息,以互聯(lián)網(wǎng)方式連接絕大多數(shù)領域,以信息勞動取代了傳統(tǒng)的手工勞動,借助大數(shù)據(jù)處理技術創(chuàng)造更大的價值。第二是其運用范圍非常廣泛。大數(shù)據(jù)時代朝著縱深方向持續(xù)發(fā)展,信息技術業(yè)已對人們的生產(chǎn)生活產(chǎn)生了較大影響,在整理、儲存、融合與處理大數(shù)據(jù)方面都出現(xiàn)了較大變化,推動了社會經(jīng)濟的快速發(fā)展。第三是大數(shù)據(jù)是公開的,在當前的大數(shù)據(jù)背景下,能夠公開所匯總的信息與數(shù)據(jù),將諸多領域交換以及運用這些信息。既能夠確保數(shù)據(jù)用戶的相關隱私,也可以為相關機構(gòu)和組織更好地利用大數(shù)據(jù)環(huán)境的優(yōu)勢,滿足人們在工作、生活以及學習領域的需求。第四,體現(xiàn)出強烈的動態(tài)性。人們可以從大數(shù)據(jù)處理的結(jié)果中得到關鍵性的信息,然而外部環(huán)境隨時都可能會發(fā)生這樣那樣的變化,且任何時間都會形成諸多信息和數(shù)據(jù),因此大數(shù)據(jù)時代具有強烈的動態(tài)性。
二、大數(shù)據(jù)時代下數(shù)據(jù)分析理念探究
1.挖掘數(shù)據(jù)價值的理念。以匹配廣告為作為研究事例,重點涵蓋了兩種類型的數(shù)據(jù),首先是廣告庫,它涵蓋了廣告庫與相關廣告的具體客戶信息。這種方式適宜于運用在傳統(tǒng)類型的數(shù)據(jù)庫中。其次是顧客觀看了廣告后的相關行為。人們可以有效地結(jié)合上述兩種數(shù)據(jù),借助相關算法來表現(xiàn)其價值。在具體實踐中,能夠充分地感受到信息與數(shù)據(jù)分析的優(yōu)勢??梢詾轭櫩吞峁┧枰臄?shù)據(jù)與信息,借助群體行為、群體智能技術,將其與以往顧客的具體使用效果做出比較和分析,采取相關的信息反饋機制,向用戶提供最優(yōu)質(zhì)的數(shù)據(jù)與信息,或者是查詢與搜索相關信息。
2.深層處理與去偽存真的理念。在具體數(shù)據(jù)分析時,應該嚴格按照相關的數(shù)據(jù)分析流程,對相關數(shù)據(jù)進行深層處理以及去偽存真。大數(shù)據(jù)業(yè)已運用到生產(chǎn)生活的方方面面,在不同地區(qū)以及不同行業(yè)間發(fā)生著相應的轉(zhuǎn)化,逐步取代了傳統(tǒng)形式的信息數(shù)據(jù)處理方式和技術。在大數(shù)據(jù)背景下,借助先進的數(shù)據(jù)分析技術,將搜集到的多種復雜信息變換成計算機能夠識別的信息和數(shù)據(jù),并對其進行分類與整合,在具體的整合分類中,剔除完全不具備實用價值的信息,深層次處理余下的信息與數(shù)據(jù),將獲得的處理結(jié)果轉(zhuǎn)換到具體運用中。受到了大數(shù)據(jù)背景的強烈影響,龐大的數(shù)據(jù)規(guī)模非但會影響數(shù)據(jù)的具體處理結(jié)果,反而會為用戶帶來更具有價值的信息。且在數(shù)據(jù)分析與處理過程中要逐步搜集與積累相關數(shù)據(jù)。
3.把握數(shù)據(jù)分析的相關變量。之前的數(shù)據(jù)分析技術均是先假設相關變量,然后對相關結(jié)果實施線性分析。這是傳統(tǒng)意義上的數(shù)據(jù)規(guī)模非常小,處理方法也比較簡單。然而,大數(shù)據(jù)背景下,出現(xiàn)了龐大的數(shù)據(jù)規(guī)模,只采取線性處理技術來處理與分析顯得不太現(xiàn)實。計算機和大數(shù)據(jù)的關系非常密切,雖然數(shù)據(jù)的數(shù)量和相關變量持續(xù)變化,然而這些變量是明確的、有規(guī)律的,不必再假設相關變量,借助數(shù)據(jù)分析技術就可以獲得所需結(jié)果。
4.合理地運用統(tǒng)計學思想。在大數(shù)據(jù)背景下,傳統(tǒng)意義上的抽樣分析不能滿足大數(shù)據(jù)分析的要求,應該采取統(tǒng)計學思想,更新抽樣理念,將總體當作樣本,探討與某物有關的全部數(shù)據(jù),不再依賴極少數(shù)數(shù)據(jù)樣本,如此方能充分地把握事物的具體變更與發(fā)展過程,有效地處理數(shù)據(jù)表露出的相關信息。更傾向于從紛繁蕪雜、不合乎常理的信息與數(shù)據(jù)中把握事務的具體狀況,進一步理解數(shù)據(jù)分析的嚴謹性,而不再局限于只追求精確的數(shù)據(jù)。通過分析數(shù)據(jù)網(wǎng)絡的彼此聯(lián)系,不必把握反復變化的因果關系,通過分析處理相關數(shù)據(jù),更準確地反映數(shù)據(jù)變更背后的真實狀況。采取統(tǒng)計學思想,對收集到的相關信息與數(shù)據(jù)實施針對性較強的分類處理,更好地把握事物的具體變化情況,為人們做出正確決策提供可靠的依據(jù)。
結(jié)語
大數(shù)據(jù)涵蓋了海量的信息和數(shù)據(jù),通過云計算平臺實施規(guī)?;奶幚砗褪占顒樱瑯?gòu)建相應的數(shù)據(jù)庫,對數(shù)據(jù)進行分流;數(shù)據(jù)分析理念可以進一步闡述世界、感官享受以及物質(zhì)領域中的復雜網(wǎng)絡關系,借助數(shù)據(jù)挖掘等在內(nèi)的多種方法進行分析與處理,使相關數(shù)據(jù)結(jié)果有效地契合實際狀況。為人們滿足實際需要而進行數(shù)據(jù)分析與做出決策提供可靠的依據(jù)。
【摘要】:隨著大數(shù)據(jù)時代到來,城市已變成“信息城市”擁有更高覆蓋面和高精度的、即時且多維的數(shù)據(jù)正在改變我們對城市復雜性的認識方式,并帶來新的契機來理解以人為本的設計方法。在新的數(shù)據(jù)環(huán)境下,對現(xiàn)有的風景園林分析方法存在的問題解決提供了一種數(shù)據(jù)增強的分析方法和工作框架。風景園林專業(yè)中傳統(tǒng)的設計分析框架來指導園林景觀設計已經(jīng)遠不能滿足瞬息萬變的時展。傳統(tǒng)的設計分析架構(gòu)中如歷史文脈分析、豎向分析、區(qū)位分析、功能分析等從大數(shù)據(jù)概念的角度去看其分析內(nèi)容以及分析數(shù)據(jù)來源都是極其匱乏片面不能反映規(guī)劃設計區(qū)域內(nèi)各種問題。單從傳統(tǒng)分析框架中數(shù)據(jù)來源數(shù)量的單位是家用電腦常用單位MB而大數(shù)據(jù)分析所提供的數(shù)據(jù)量是以PB到EB反映了數(shù)據(jù)來源質(zhì)的飛躍,而分析內(nèi)容因互聯(lián)網(wǎng)高速發(fā)展以及廣泛普及人們的參與體驗增加傳統(tǒng)的單方面區(qū)域功能分析以不能符合以人為本的設計理念,其分析內(nèi)容應當更加以人的視角來做分析所做分析更加多元化。
【關鍵詞】:大數(shù)據(jù)分析、景觀分析、研究方法。
解決問題途徑
新的數(shù)據(jù)環(huán)境下對風景園林分析體系是一種定量認識,并體現(xiàn)為4個方面的變革(空間尺度、時間維度、研究單位、以及研究方法)這些變革促進了風景園林設計的變革,并提供了一個民主公平開放的公共平臺。將大數(shù)據(jù)應用到風景園林分析中首先應明確所分析內(nèi)容類別種類,其次根據(jù)從所分析內(nèi)容刪選整合出大數(shù)據(jù)中有用信息并將其數(shù)字化這些數(shù)據(jù)包括傳統(tǒng)數(shù)據(jù)以及動態(tài)數(shù)據(jù),再通過科學分析法對分析內(nèi)容進行可視化分析和建模輸出可視化成果【2】。通過成果分析、情景假設又將有所調(diào)整各項分析成果將在比對中得到最終檢驗。
大數(shù)據(jù)分析內(nèi)容制定方法
隨著信息互聯(lián)網(wǎng)普遍率增高人們可以輕松分享各類信息這對風景園林設計分析的開拓是至關重要的,設計分析中最小單位可以統(tǒng)計到個人,以及每個人的思想變化對待不同問題的看法都可以通過大數(shù)據(jù)來提供。這些就可以大大的擴展風景園林分析的內(nèi)容可以從人視的角度分析問題而不僅僅是以區(qū)域空間功能上單方面的片面分析。所以其所分析內(nèi)容更加具有生活性多元性,這對設計分析的內(nèi)容是具有變革性的影響,因為設計師設計的好壞需要接受民意的考察,再根據(jù)民意最關心的設計內(nèi)容作為風景園林設計分析內(nèi)容的選項所以每一項分析內(nèi)容都是根據(jù)實踐而得來的。實地調(diào)研也不會掌握全部數(shù)據(jù),但是大數(shù)據(jù)可以幫助我們了解當時的情況,借助大數(shù)據(jù)分析指導風景園林設計具有針對性、多元性同時因互聯(lián)網(wǎng)具有即時性其所分析的內(nèi)容也具有即時性客觀性。
大數(shù)據(jù)信息來源篩選方法
地球外圍軌道上的遙感衛(wèi)星,全球定位系統(tǒng),配有三維激光掃面設備的無人機,無處不在的攝像頭,便攜式數(shù)碼照相機,全球?qū)⒔?0億的智能手機用戶【1】。在今天大量涌現(xiàn)的城市數(shù)船不僅是可供分析的新材料, 更是探知未來方向的共具。大量來自云端的歷史數(shù)據(jù)和即時的關于景觀和社會文化背景的大數(shù)據(jù),為我們有效的設計以及管理景觀帶來無限景觀數(shù)據(jù)的機會。但是必須清楚這些量的大數(shù)據(jù)是一把雙刃劍。首先因為數(shù)據(jù)本身并不系統(tǒng)均衡而帶有偏差歧視。其次數(shù)據(jù)如此之多有用信息如同珍珠埋藏在泥沙里。第三數(shù)據(jù)信息最多只能反映當下告訴我們過去的狀態(tài),并不能告訴我們未來。因此我們必須要理性看待這些海量數(shù)據(jù),突破傳統(tǒng)數(shù)據(jù)統(tǒng)計的方法處理這些數(shù)據(jù)最終幫助我們在景觀設計時借組有用數(shù)據(jù)分析進行科學的設計。因此我個人總結(jié)出大數(shù)據(jù)結(jié)合風景觀園林設計幾點意見和創(chuàng)想。
首先我們需要在風景園林定量研究中流理一種價值倫理。風景園林研究的的成果, 特別是可視化成果幫助設計更加理性準確快捷,其外表給他人一種可爭辯”的印象。然而一個看似客觀的數(shù)據(jù), 卻也十分容易被其他目的利用而塑造一種權(quán)威 。 因此,對于數(shù)據(jù)分析的應用需要更多的基于社會學的思考, 以明確不同數(shù)據(jù)定量分析服務的主體是誰, 目的是什么 。
其次,我們?nèi)孕杈瓒糠治龅臑E用有可能導致一種庸俗。數(shù)據(jù)無法驅(qū)動所有的風景園林設計活動,許多時候定量分析和定性存在角力。定量研究中注重數(shù)據(jù)的準確性、單位統(tǒng)一性關注于實證的研究。但這就存在一些解釋力不足的維度,比如環(huán)境美學方面定量無法用數(shù)據(jù)準確性闡述美的觀點,這是也就需要定性具有一定感性的介入。
大數(shù)據(jù)整合分析內(nèi)容可視化方法
將收集到的大數(shù)據(jù)可視化分析對于風景園林分析問題是一種新的表達方式,這樣的分析結(jié)果將完全打破傳統(tǒng)區(qū)域空間功能簡單的分析。而是第一次站在人的視角看待分析結(jié)果,比如通過大數(shù)據(jù)分析出區(qū)域內(nèi)人們對景觀要素的興趣點、通過谷歌地圖近幾年內(nèi)區(qū)域內(nèi)路況程度、以及區(qū)域內(nèi)城市擴建面積增大對于村莊的影響、或通過社交評論平臺人們對于建成景點的關注程度等等的分析成果都是對原有傳統(tǒng)分析的突破。
但對于基于大數(shù)據(jù)新的分析結(jié)果應用于分景園林分析需要有突破原有在整合數(shù)據(jù)是觀念才能適應于分析整合大數(shù)據(jù)的觀念思想。傳統(tǒng)的數(shù)據(jù)分析思想應做三大轉(zhuǎn)變,一是轉(zhuǎn)變抽樣思想,大數(shù)據(jù)時代,我們面對的數(shù)據(jù)樣本就是過去資料的總和,樣本就是總體,通過對所有與事物相關的數(shù)據(jù)進行分析,既有利于了解總體,又有利于了解局部。二是轉(zhuǎn)變數(shù)據(jù)測量的思想,要樂于接受數(shù)據(jù)的紛繁蕪雜,不再追求精確的數(shù)據(jù)。我們應該接受紛繁蕪雜的各類數(shù)據(jù),不應一味追求數(shù)據(jù)的精確性,以免因小失大,比如都對于城市某條道路路況分析不能只單純調(diào)研近期路況而查看近10年這一帶的路況。三是不再探求難以捉摸的因果關系,轉(zhuǎn)而關注事物的相關關系。由于數(shù)據(jù)規(guī)模巨大"數(shù)據(jù)結(jié)構(gòu)復雜以及數(shù)據(jù)變量錯綜復雜,預設因果關系以及分析因果關系相對復雜于是在大數(shù)據(jù)時代分析數(shù)據(jù)不再探求難以琢磨的因果關系轉(zhuǎn)而關注事物的相關關系。
結(jié)語
信息城市的復雜性迫切地要求不同以往的解讀方式, 以確保不同規(guī)劃設計手段干預下的城市發(fā)展的可持續(xù)性 。新的數(shù)據(jù)時代到來風景園林設計與城市可持續(xù)發(fā)展新的契機。借助于大數(shù)據(jù)分析作為一種規(guī)劃設計的工具理性在城市中從人的角度定量理性研究展現(xiàn)出了其巨大的潛力,并直接顛覆了傳統(tǒng)設分析問題價值看法。大數(shù)據(jù)時代總結(jié)出一套從問題中篩選出分析內(nèi)容,再通過大數(shù)據(jù)中有用信息篩選后進行可視化成果研究的科學套路流程,這為大數(shù)據(jù)分析景觀設計帶來了新的思路。
摘要:隨著醫(yī)院信息系統(tǒng)的快速發(fā)展,為醫(yī)院帶來了海量數(shù)據(jù)。對這些數(shù)據(jù)的有效利用、分析,挖掘其中隱含的信息,能為醫(yī)院管理提供更好的決策支持。本文從臨床信息數(shù)據(jù)分析出發(fā),在資源配置、醫(yī)療監(jiān)管、臨床決策支持、健康體檢分析等方面進行大數(shù)據(jù)應用分析。
關鍵詞:大數(shù)據(jù)分析;醫(yī)院管理;應用
1 概述
根據(jù)衛(wèi)計委公布的數(shù)字,2014年前11個月全國醫(yī)療衛(wèi)生服務機構(gòu)診療量(門診和住院)達到67.7億人次,其中三級醫(yī)院達到12.1 億人次。這些醫(yī)院信息數(shù)據(jù)量十分巨大,它涵蓋了患者的人員信息、診療信息、用藥信息和費用信息,而這些信息又為流行病學研究、臨床醫(yī)學研究、醫(yī)??刭M標準制定、臨床路徑和藥品研究及精準醫(yī)療提供了數(shù)據(jù)基礎。
如何合理利用這些數(shù)據(jù),分析、挖掘出其中隱含的信息,并加以應用,實現(xiàn)為患者提供更好的診療及保健,幫助醫(yī)生找到更好的診療方案、提高醫(yī)療質(zhì)量,幫助醫(yī)院決策者調(diào)整策略、減少風險,降低醫(yī)療費用等需求方面,將是未來醫(yī)院面臨的挑戰(zhàn)之一。
2 大數(shù)據(jù)的產(chǎn)生
當前大多數(shù)醫(yī)院都已完成了醫(yī)院信息系統(tǒng)的建設,各專業(yè)的醫(yī)療信息以結(jié)構(gòu)化和非結(jié)構(gòu)化的形式存在于各子系統(tǒng)中,如HIS、LIS、EMR、PACS等。
醫(yī)院信息主要包含HIS(醫(yī)院信息系統(tǒng))和CIS(臨床信息系統(tǒng))兩大系統(tǒng)中。HIS的主要目標是支持醫(yī)院的經(jīng)營管理與查詢業(yè)務,提高醫(yī)院的工作效率,包括門診收費、藥房藥庫、住院收費、人力資源、財務查詢等。CIS的主要目標是支持醫(yī)院醫(yī)護人員的臨床活動,收集和處理患者的臨床醫(yī)療信息,為患者提供更好的服務,包括門急診和住院醫(yī)生工作站系統(tǒng)、電子病歷系統(tǒng)(EMR)、護士工作站系統(tǒng)、護理病歷系統(tǒng)(NIS)、影像歸檔和通信系統(tǒng)(PACS)、實驗室系統(tǒng)(LIS)、藥物咨詢系統(tǒng)等。
2.1數(shù)據(jù)量的計算
2.1.1業(yè)務交易規(guī)模計算 按中等規(guī)模二甲綜合醫(yī)院測算,醫(yī)院預計的日均2000人次,如平均每人次在掛號、醫(yī)生診間、收費、醫(yī)技科室等16個科室各發(fā)生1筆業(yè)務,則每天的業(yè)務量就是:2000×16×1=3.2萬筆。門診部分信息系統(tǒng)按每業(yè)務數(shù)據(jù)庫交易數(shù)10計算,則每天的數(shù)據(jù)庫交易數(shù)為:3.2萬×10=32萬次。
假設醫(yī)院住院患者400人次,每人次主管醫(yī)生、護士或會診醫(yī)生各發(fā)生20筆業(yè)務,藥房、收費、手術、麻醉、醫(yī)技科室等各發(fā)生3筆業(yè)務,則每天的業(yè)務量就是:400×3×20+400×18×3=4.56萬筆。住院部分信息系統(tǒng)按每業(yè)務數(shù)據(jù)庫交易數(shù)10計算,則每天的數(shù)據(jù)庫操作數(shù)為:4.56萬×10=45.6萬次。
由上,總的日數(shù)據(jù)庫交易次數(shù)是:32萬+45.6萬=77.6萬次,則10年的交易次數(shù)為776萬次。
2.1.2結(jié)構(gòu)化數(shù)據(jù)量計算 以二甲綜合醫(yī)院門診量2000人/d,住院量400人/d計算。
每門診人次含掛號收費信息、處方信息、檢查信息、輸液信息、處置信息、門診病歷信息等系統(tǒng)數(shù)據(jù)估算量為0.1M,則每日門診數(shù)據(jù)量=0.1M×2000=200M。
每住院人次每日含收費信息、醫(yī)囑信息、護理信息、藥品信息、檢查信息、輸液信息、處置信息、住院病歷信息等系統(tǒng)數(shù)據(jù)估算量為0.5M,則每日住院數(shù)據(jù)量=0.5M×400=200M。10年總數(shù)據(jù)量為(200M+200M)×365×10=1.46TB。
2.1.3醫(yī)學影像數(shù)據(jù)(非結(jié)構(gòu)化數(shù)據(jù))計算 以二甲綜合醫(yī)院門診量2000人/d,住院量400人/d計算。
如門診25%患者平均每人次在醫(yī)學影像科室-X線、MRI、CT、心電、超聲、胃腸鏡、病理等部門進行圖像采集1次,平均數(shù)據(jù)估算量為:5MB,則每日門診數(shù)據(jù)量=5MB×1×2000×0.3=2500MB。
如住院20%患者平均每人次在醫(yī)學影像科室-X線、MRI、CT、心電、超聲、胃腸鏡、病理等部門進行圖像采集1次,平均數(shù)據(jù)估算量為:5MB,則每日門診數(shù)據(jù)量=5MB×1×400×0.2=400MB。10年數(shù)據(jù)量為(2500MB +400MB)×365×10=10.6TB。
以上二甲綜合性醫(yī)院10年結(jié)構(gòu)及非結(jié)構(gòu)化數(shù)據(jù)量總和為1.46TB + 10.6TB = 12.06TB。
2.2大數(shù)據(jù)的可用性
2.2.1大數(shù)據(jù)靜悄悄的躺在各自系統(tǒng)的結(jié)構(gòu)中,除了定向的查詢,幾乎沒得到好的使用。能否將這些大量分散的信息進行整合,把這些以結(jié)構(gòu)化形式存在的數(shù)據(jù)準確地識別,并且賦予他們詞、詞組和數(shù)字等邏輯關系,將是推進大數(shù)據(jù)分析的關鍵。這種全結(jié)構(gòu)化的數(shù)據(jù)庫由于覆蓋信息面廣,數(shù)據(jù)結(jié)構(gòu)程度高,可以按照患者、藥劑、檢驗、檢查和管理的不同需求提供更精準的信息,從而更好地幫助制定醫(yī)療提高服務。
2.2.2數(shù)據(jù)本身不直接帶來價值,對于數(shù)據(jù)的應用來說,最終的產(chǎn)品不管是臨床決策輔助系統(tǒng)還是醫(yī)??刭M系統(tǒng),能否得到臨床一線工作者和醫(yī)藥經(jīng)濟學家的認可,是區(qū)分產(chǎn)品優(yōu)劣的關鍵點。
2.2.3達到一定的信息系統(tǒng)的覆蓋率,打通各信息系統(tǒng)之間的孤島。單一系統(tǒng)的數(shù)據(jù)雖然有價值,但是由于它不能反應出連續(xù)的醫(yī)療記錄,往往不能作為決策參考二次利用,這時如能取得多個系統(tǒng)的數(shù)據(jù)進行協(xié)作分析,提升醫(yī)療數(shù)據(jù)分析變現(xiàn)的可能性。
3 大數(shù)據(jù)分析的應用
通過分析臨床信息數(shù)據(jù),運用相關數(shù)據(jù)挖掘算法和統(tǒng)計學知識,從數(shù)據(jù)中挖掘出潛在有價值的診療模式、決策知識,幫助醫(yī)生找到更好的診療方式和臨床路徑,提高醫(yī)療質(zhì)量;幫助醫(yī)院決策者調(diào)整策略,做出正確決策。
3.1分析患者來源,調(diào)整資源配置。根據(jù)患者的就醫(yī)記錄大數(shù)據(jù),分析出患者就診時段,相應的該時段就診患者的診斷、年齡層、性別、同藥理藥品使用量、復診次數(shù)、復診周期等來確定相對患者屬性,并針對這些屬性,按正態(tài)分布進行醫(yī)療資源合理優(yōu)化配置,按診斷配置醫(yī)生,按用藥做好藥品準備,按年齡層、性別調(diào)整服務細節(jié),按復診人群自動分配診間等,從而達到相應服務資源在各個層面的投放。
3.2大數(shù)據(jù)用于臨床決策支持 臨床決策支持系統(tǒng)分析醫(yī)生輸入的診斷、醫(yī)囑、處方等,將其與臨床知識庫相比較,從多個屬性上比較其差異,從而提醒醫(yī)生防止?jié)撛诘腻e誤,如用藥輔助支持系統(tǒng)。通過部署這些系統(tǒng),醫(yī)院可以降低醫(yī)療事故率和差錯。
大數(shù)據(jù)分析可以使用圖像分析和識別技術,識別醫(yī)療影像(X光、CT、MRI)數(shù)據(jù),將相近或相識的圖像進行對比,并將其他的醫(yī)療影像診斷展示出來,從而給醫(yī)生提出診斷建議。
3.3健康體檢 健康體檢的目的是發(fā)現(xiàn)潛在隱患。體檢機構(gòu)對受檢人員健康數(shù)據(jù)進行采集、初檢、總檢,從而得到當前的健康狀況;進一步對健康數(shù)據(jù)的分析,能針對不同區(qū)域、人群分析出區(qū)域受檢人員中的慢病特征、風險預測等信息,并輔助以健康相關危險因素及制作健康監(jiān)測評估圖;通過全基因組測序數(shù)據(jù)分析,可明確個體的患病風險。
健康體檢機構(gòu)對每一位受檢單位進行個性化的健康體檢套餐設計,并從個人體檢數(shù)據(jù)所反映出的健康問題,通過大數(shù)據(jù)分析,給予個體受檢人員以后的體檢套餐規(guī)劃。
3.4醫(yī)療效益分析 對同一患者來說,醫(yī)療機構(gòu)不同,醫(yī)療護理方法和效果就不同,治療成本也存在著很大的差異。
效益分析通過對患者體征數(shù)據(jù)、醫(yī)療費用數(shù)據(jù)和各診斷的治療結(jié)果數(shù)據(jù)在內(nèi)的大型數(shù)據(jù)集的分析對比,可以幫助醫(yī)生判斷最有效和最具有成本效益的治療方案,有可能減少過度治療或治療不足的情況發(fā)生。
數(shù)據(jù)分析也可以帶來業(yè)務流程的精簡,通過分析成本,提高質(zhì)量并給患者帶來更好的體驗,也給醫(yī)療服務機構(gòu)帶來額外的業(yè)績增長潛力。
4 大數(shù)據(jù)分析的其他相關考慮
4.1大數(shù)據(jù)分析的模型建立 大數(shù)據(jù)分析建模方法繁多,面向過程建模、面向數(shù)據(jù)建模、以信息為中心建模,決策分析方法也多種多樣,DEA方法、樹形決策、風險決策、模糊決策等,所得到的結(jié)論可能會千差萬別,因此,需再依據(jù)回歸分析法計算相關性,確定是否存在線性因果關系,否則經(jīng)分析得到的結(jié)論與大數(shù)據(jù)分析的初衷背道而馳了。
4.2用于臨床支持的局限性 由于患者復合病關系復雜,在診斷過程中醫(yī)生對某些病癥給出確切診斷有時會有差別,利用大數(shù)據(jù)分析,對相同主訴和病征進行分門別類區(qū)分,其與分析的樣本數(shù)量密切相關,樣本越大,分析的可靠性越高,但樣本量如何才算大,很難界定,這樣分析出來的結(jié)論與實際情況有偏差,反而給大數(shù)據(jù)分析的作用造成負面影響。
5 結(jié)論
大數(shù)據(jù)分析的應用,必定能給醫(yī)療行業(yè)造成積極地影響,隨著技術的不斷進步,醫(yī)院數(shù)據(jù)量不斷提高的基礎上,大數(shù)據(jù)分析技術在醫(yī)療領域的作用必定越來越明顯。
摘 要:隨著改革開放的進一步深化,以及經(jīng)濟全球化的快速發(fā)展,我國各行各業(yè)都有了質(zhì)的飛躍,發(fā)展方向更加全面。特別是近年來科學技術的發(fā)展和普及,更是促進了各領域的不斷發(fā)展,各學科均出現(xiàn)了科技交融。在這種社會背景下,數(shù)據(jù)形式和規(guī)模不斷向著更加快速、精準的方向發(fā)展,促使經(jīng)濟社會發(fā)生了翻天覆地的變化,同時也意味著大數(shù)據(jù)時代即將來臨。就目前而言,數(shù)據(jù)已經(jīng)改變傳統(tǒng)的結(jié)構(gòu)模式,在時代的發(fā)展推動下積極向著結(jié)構(gòu)化、半結(jié)構(gòu)化,以及非結(jié)構(gòu)化的數(shù)據(jù)模式方向轉(zhuǎn)換,改變了以往的只是單一地作為簡單的工具的現(xiàn)象,逐漸發(fā)展成為具有基礎性質(zhì)的資源。文章主要針對大數(shù)據(jù)時代下的數(shù)據(jù)分析與挖掘進行了分析和討論,并論述了建設數(shù)據(jù)分析與挖掘體系的原則,希望可以為從事數(shù)據(jù)挖掘技術的分析人員提供一定的幫助和理論啟示,僅供參考。
關鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)挖掘;體系建設
引言
進入21世紀以來,隨著高新科技的迅猛發(fā)展和經(jīng)濟全球化發(fā)展的趨勢,我國國民經(jīng)濟迅速增長,各行業(yè)、領域的發(fā)展也頗為迅猛,人們生活水平與日俱增,在物質(zhì)生活得到極大滿足的前提下,更加追求精神層面以及視覺上的享受,這就涉及到數(shù)據(jù)信息方面的內(nèi)容。在經(jīng)濟全球化、科技一體化、文化多元化的時代,數(shù)據(jù)信息的作用和地位是不可小覷的,處理和歸類數(shù)據(jù)信息是達到信息傳遞的基礎條件,是發(fā)展各學科科技交融的前提。
然而,世界上的一切事物都包含著兩個方面,這兩個方面既相互對立,又相互統(tǒng)一。矛盾即對立統(tǒng)一。矛盾具有斗爭性和同一性兩種基本屬性,我們必須用一分為二的觀點、全面的觀點看問題。同時要積極創(chuàng)造條件,促進矛盾雙方的相互轉(zhuǎn)變。數(shù)據(jù)信息在帶給人們生產(chǎn)生活極大便利的同時,還會被諸多社會數(shù)據(jù)信息所困擾。為了使廣大人民群眾的日常生活更加便捷,需要其客觀、正確地使用、處理數(shù)據(jù)信息,完善和健全數(shù)據(jù)分析技術和數(shù)據(jù)挖掘手段,通過各種切實可行的數(shù)據(jù)分析方法科學合理地分析大數(shù)據(jù)時代下的數(shù)據(jù),做好數(shù)據(jù)挖掘技術工作。
1 實施數(shù)據(jù)分析的方法
在經(jīng)濟社會快速發(fā)展的背景下,我國在科學信息技術領域取得長足進步??萍夹畔⒌陌l(fā)展在極大程度上促進了各行各業(yè)的繁榮發(fā)展和長久進步,使其發(fā)展更加全面化、科學化、專業(yè)化,切實提升了我國經(jīng)濟的迅猛發(fā)展,從而形成了一個最佳的良性循環(huán),我國也由此進入了大數(shù)據(jù)時代。對于大數(shù)據(jù)時代而言,數(shù)據(jù)分析環(huán)節(jié)是必不可少的組成部分,只有科學準確地對信息量極大的數(shù)據(jù)進行處理、篩選,才能使其更好地服務于社會,服務于廣大人民群眾。正確處理數(shù)據(jù)進行分析過程是大數(shù)據(jù)時代下數(shù)據(jù)分析的至關重要的環(huán)節(jié)。眾所周知,大數(shù)據(jù)具有明顯的優(yōu)勢,在信息處理的過程中,需要對大容量數(shù)據(jù)、分析速率,以及多格式的數(shù)據(jù)三大問題進行詳細的分析和掌握。
1.1 Hadoop HDFS
HDFS,即分布式文件系統(tǒng),主要由客戶端模塊、元數(shù)據(jù)管理模塊、數(shù)據(jù)存儲服務模塊等模塊組成,其優(yōu)勢是儲存容量較大的文件,通常情況下被用于商業(yè)化硬件的群體中。相比于低端的硬件群體,商業(yè)化的硬件群體發(fā)生問題的幾率較低,在儲存大容量數(shù)據(jù)方面?zhèn)涫軞g迎和推崇。Hadoop,即是分布式計算,是一個用于運行應用程序在大型集群的廉價硬件設備上的框架,為應用程序的透明化的提供了一組具有穩(wěn)定性以及可靠性的接口和數(shù)據(jù)運動,可以不用在價格較高、可信度較高的硬件上應用。一般情況下,面對出現(xiàn)問題概率較高的群體,分布式文件系統(tǒng)是處理問題的首選,它采用繼續(xù)運用的手法進行處理,而且還不會使用戶產(chǎn)生明顯的運用間斷問題,這是分布式計算的優(yōu)勢所在,而且還在一定程度上減少了機器設備的維修和維護費用,特別是針對于機器設備量龐大的用戶來說,不僅降低了運行成本,而且還有效提高了經(jīng)濟效益。
1.2 Hadoop的優(yōu)點與不足
隨著移動通信系統(tǒng)發(fā)展速度的不斷加快,信息安全是人們關注的重點問題。因此,為了切實有效地解決信息數(shù)據(jù)安全問題,就需要對大量的數(shù)據(jù)進行數(shù)據(jù)分析,不斷優(yōu)化數(shù)據(jù)信息,使數(shù)據(jù)信息更加準確,安全。在進行數(shù)據(jù)信息的過程中,Hadoop是最常用的解決問題的軟件構(gòu)架之一,它可以對眾多數(shù)據(jù)實行分布型模式解決,在處理的過程中,主要依據(jù)一條具有可信性、有效性、可伸縮性的途徑進行數(shù)據(jù)信息處理,這是Hadoop特有的優(yōu)勢。但是世界上一切事物都處在永不停息地變化發(fā)展之中,都有其產(chǎn)生、發(fā)展和滅亡的歷史,發(fā)展的實質(zhì)是事物的前進和上升,是新事物的產(chǎn)生和舊事物的滅亡,因此,要用科學發(fā)展的眼光看待問題。Hadoop同其他數(shù)據(jù)信息處理軟件一樣,也具有一定的缺點和不足。主要表現(xiàn)在以下幾個方面。
首先,就現(xiàn)階段而言,在企業(yè)內(nèi)部和外部的信息維護以及保護效用方面還存在一定的不足和匱乏,在處理這種數(shù)據(jù)信息的過程中,需要相關工作人員以手動的方式設置數(shù)據(jù),這是Hadoop所具有的明顯缺陷。因為在數(shù)據(jù)設置的過程中,相關數(shù)據(jù)信息的準確性完全是依靠工作人員而實現(xiàn)的,而這種方式的在無形中會浪費大量的時間,并且在設置的過程中出現(xiàn)失誤的幾率也會大大增加。一旦在數(shù)據(jù)信息處理過程中的某一環(huán)節(jié)出現(xiàn)失誤,就會導致整個數(shù)據(jù)信息處理過程失效,浪費了大量的人力、物力,以及財力。
其次,Hadoop需求社會具備投資構(gòu)建的且專用的計算集群,在構(gòu)建的過程中,會出現(xiàn)很多難題,比如形成單個儲存、計算數(shù)據(jù)信息和儲存,或者中央處理器應用的難題。不僅如此,即使將這種儲存形式應用于其他項目的上,也會出現(xiàn)兼容性難的問題。
2 實施數(shù)據(jù)挖掘的方法
隨著科學技術的不斷發(fā)展以及我國社會經(jīng)濟體系的不斷完善,數(shù)據(jù)信息處理逐漸成為相關部門和人們重視的內(nèi)容,并且越來越受到社會各界的廣泛關注和重視,并使數(shù)據(jù)信息分析和挖掘成為熱點話題。在現(xiàn)階段的大數(shù)據(jù)時代下,實施數(shù)據(jù)挖掘項目的方法有很多,且不同的方法適用的挖掘方向不同?;诖耍趯嶋H進行數(shù)據(jù)挖掘的過程中,需要根據(jù)數(shù)據(jù)挖掘項目的具體情況選擇相應的數(shù)據(jù)挖掘方法。數(shù)據(jù)挖掘方法有分類法、回歸分析法、Web數(shù)據(jù)挖掘法,以及關系規(guī)則法等等。文章主要介紹了分類法、回歸分析法、Web數(shù)據(jù)挖掘法對數(shù)據(jù)挖掘過程進行分析。
2.1 分類法
隨著通信行業(yè)快速發(fā)展,基站建設加快,網(wǎng)絡覆蓋多元化,數(shù)據(jù)信息對人們的生產(chǎn)生活影響越來越顯著。計算機技術等應用與發(fā)展在很大程度上促進了經(jīng)濟的進步,提高了人們的生活水平,推動了人類文明的歷史進程。在此背景下,數(shù)據(jù)分析與挖掘成為保障信息安全的基礎和前提。為了使得數(shù)據(jù)挖掘過程更好地進行,需要不斷探索科學合理的方法進行分析,以此確保大數(shù)據(jù)時代的數(shù)據(jù)挖掘進程更具準確性和可靠性。分類法是數(shù)據(jù)挖掘中常使用的方法之一,主要用于在數(shù)據(jù)規(guī)模較大的數(shù)據(jù)庫中尋找特質(zhì)相同的數(shù)據(jù),并將大量的數(shù)據(jù)依照不同的劃分形式區(qū)分種類。對數(shù)據(jù)庫中的數(shù)據(jù)進行分類的主要目的是將數(shù)據(jù)項目放置在特定的、規(guī)定的類型中,這樣做可以在極大程度上為用戶減輕工作量,使其工作內(nèi)容更加清晰,便于后續(xù)時間的內(nèi)容查找。另外,數(shù)據(jù)挖掘的分類還可以為用戶提高經(jīng)濟效益。
2.2 回歸分析法
除了分類法之外,回顧分析法也是數(shù)據(jù)挖掘經(jīng)常采用的方法。不同于分類法中對相同特質(zhì)的數(shù)據(jù)進行分類,回歸分析法主要是對數(shù)據(jù)庫中具有獨特性質(zhì)的數(shù)據(jù)進行展現(xiàn),并通過利用函數(shù)關系來展現(xiàn)數(shù)據(jù)之間的聯(lián)系和區(qū)別,進而分析相關數(shù)據(jù)信息特質(zhì)的依賴程度。就目前而言,回歸分析法通常被用于數(shù)據(jù)序列的預計和測量,以及探索數(shù)據(jù)之間存在的聯(lián)系。特別是在市場營銷方面,實施回歸分析法可以在營銷的每一個環(huán)節(jié)中都有所體現(xiàn),能夠很好地進行數(shù)據(jù)信息的挖掘,進而為市場營銷的可行性奠定數(shù)據(jù)基礎。
2.3 Web數(shù)據(jù)挖掘法
通訊網(wǎng)絡極度發(fā)達的現(xiàn)今時代,大大地豐富了人們的日常生活,使人們的生活更具科技性和便捷性,這是通過大規(guī)模的數(shù)據(jù)信息傳輸和處理而實現(xiàn)的。為了將龐大的數(shù)據(jù)信息有目的性地進行分析和挖掘,就需要通過合適的數(shù)據(jù)挖掘方法進行處理。Web數(shù)據(jù)挖掘法主要是針對網(wǎng)絡式數(shù)據(jù)的綜合性科技,到目前為止,在全球范圍內(nèi)較為常用的Web數(shù)據(jù)挖掘算法的種類主要有三種,且這三種算法涉及的用戶都較為籠統(tǒng),并沒有明顯的界限可以對用戶進行明確、嚴謹?shù)膭澐帧kS著高新科技的迅猛發(fā)展,也給Web數(shù)據(jù)挖掘法帶來了一定的挑戰(zhàn)和困難,尤其是在用戶分類層面、網(wǎng)站公布內(nèi)容的有效層面,以及用戶停留頁面時間長短的層面。因此,在大力推廣和宣傳Web技術的大數(shù)據(jù)時代,數(shù)據(jù)分析技術人員要不斷完善Web數(shù)據(jù)挖掘法的內(nèi)容,不斷創(chuàng)新數(shù)據(jù)挖掘方法,以期更好地利用Web數(shù)據(jù)挖掘法服務于社會,服務于人們。
3 大數(shù)據(jù)分析挖掘體系建設的原則
隨著改革開放進程的加快,我國社會經(jīng)濟得到明顯提升,人們物質(zhì)生活和精神文化生活大大滿足,特別是二十一世紀以來,科學信息技術的發(fā)展,更是提升了人們的生活水平,改善了生活質(zhì)量,計算機、手機等先進的通訊設備比比皆是,傳統(tǒng)的生產(chǎn)關系式和生活方式已經(jīng)落伍,并逐漸被淘汰,新的產(chǎn)業(yè)生態(tài)和生產(chǎn)方式噴薄而出,人們開始進入了大數(shù)據(jù)時代。因此,為了更好地收集、分析、利用數(shù)據(jù)信息,并從龐大的數(shù)據(jù)信息中精準、合理地選擇正確的數(shù)據(jù)信息,進而更加迅速地為有需要的人們傳遞信息,就需要建設大數(shù)據(jù)分析與挖掘體系,并在建設過程中始終遵循以下幾個原則。
3.1 平臺建設與探索實踐相互促進
經(jīng)濟全球化在對全球經(jīng)濟發(fā)展產(chǎn)生巨大推力的同時,還使得全球技術競爭更加激烈。為了實現(xiàn)大數(shù)據(jù)分析挖掘體系良好建設的目的,需要滿足平臺建設與探索實踐相互促進,根據(jù)體系建設實際逐漸摸索分析數(shù)據(jù)挖掘的完整流程,不斷積累經(jīng)驗,積極引進人才,打造一支具有專業(yè)數(shù)據(jù)分析與挖掘水準的隊伍,在實際的體系建設過程中吸取失敗經(jīng)驗,并適當借鑒發(fā)達國家的先進數(shù)據(jù)平臺建設經(jīng)驗,取其精華,促進平臺建設,以此構(gòu)建并不斷完善數(shù)據(jù)分析挖掘體系。
3.2 技術創(chuàng)新與價值創(chuàng)造深度結(jié)合
從宏觀意義上講,創(chuàng)新是民族進步的靈魂,是國家興旺發(fā)達的不竭動力。而對于數(shù)據(jù)分析挖掘體系建設而言,創(chuàng)新同樣具有重要意義和作用。創(chuàng)新是大數(shù)據(jù)的靈魂,在建設大數(shù)據(jù)分析挖掘體系過程中,要將技術創(chuàng)新與價值創(chuàng)造深度結(jié)合,并將價值創(chuàng)造作為目標,輔以技術創(chuàng)新手段,只有這樣,才能達到大數(shù)據(jù)分析挖掘體系建設社會效益與經(jīng)濟效益的雙重目的。
3.3 人才培養(yǎng)與能力提升良性循環(huán)
意識對物質(zhì)具有反作用,正確反映客觀事物及其發(fā)展規(guī)律的意識,能夠指導人們有效地開展實踐活動,促進客觀事物的發(fā)展。歪曲反映客觀事物及其發(fā)展規(guī)律的意識,則會把人的活動引向歧途,阻礙客觀事物的發(fā)展。由此可以看出意識正確與否對于大數(shù)據(jù)分析挖掘體系平臺建設的重要意義?;诖?,要培養(yǎng)具有大數(shù)據(jù)技術能力和創(chuàng)新能力的數(shù)據(jù)分析人才,并定期組織教育學習培訓,不斷提高他們的數(shù)據(jù)分析能力,不斷進行交流和溝通,培養(yǎng)數(shù)據(jù)分析意識,提高數(shù)據(jù)挖掘能力,實現(xiàn)科學的數(shù)據(jù)挖掘流程與高效的數(shù)據(jù)挖掘執(zhí)行,從而提升數(shù)據(jù)分析挖掘體系平臺建設的良性循環(huán)。
4 結(jié)束語
通過文章的綜合論述可知,在經(jīng)濟全球化趨勢迅速普及的同時,科學技術不斷創(chuàng)新與完善,人們的生活水平和品質(zhì)都有了質(zhì)的提升,先進的計算機軟件等設備迅速得到應用和推廣。人們實現(xiàn)信息傳遞的過程是通過對大規(guī)模的數(shù)據(jù)信息進行處理和計算形成的,而信息傳輸和處理等過程均離不開數(shù)據(jù)信息的分析與挖掘??梢哉f,我國由此進入了大數(shù)據(jù)時代。然而,就我國目前數(shù)據(jù)信息處理技術來看,相關數(shù)據(jù)技術還處于發(fā)展階段,與發(fā)達國家的先進數(shù)據(jù)分析技術還存在一定的差距和不足。所以,相關數(shù)據(jù)分析人員要根據(jù)我國的基本國情和標準需求對數(shù)據(jù)分析技術進行完善,提高思想意識,不斷提出切實可行的方案進行數(shù)據(jù)分析技術的創(chuàng)新,加大建設大數(shù)據(jù)分析挖掘體系的建設,搭建可供進行數(shù)據(jù)信息處理、劃分的平臺,為大數(shù)據(jù)時代的數(shù)據(jù)分析和挖掘提供更加科學、專業(yè)的技術,從而為提高我國的科技信息能力提供基本的保障和前提。
[摘要]大數(shù)據(jù)時代公安部門所掌握的各項數(shù)據(jù)越來越多,傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫系統(tǒng)面對越來越紛繁復雜的非結(jié)構(gòu)化數(shù)據(jù)越來越吃力,在時效性上難以起到預期的作用,因此更高效、更便捷的SAP HANA內(nèi)存數(shù)據(jù)厙運算技術應運而生,本文將試論在公安大數(shù)據(jù)分析平臺引入“SAP HANA”技術的可行性和優(yōu)越性,以及該技術將對公安工作產(chǎn)生的變化與影響。
[關鍵詞]公安大數(shù)據(jù);SAP HANA;數(shù)據(jù)分析
1引言
近年來,大數(shù)據(jù)這個概念被越來越多的提及,信息大爆炸的時代已經(jīng)到來,現(xiàn)階段建設新的能夠匹配公安業(yè)務場景的大數(shù)據(jù)系統(tǒng)是公安部門的迫切需求。公安工作與大數(shù)據(jù)也已然開始產(chǎn)生密切的聯(lián)系,基于各種技術的大數(shù)據(jù)平臺也在被建立起來,本文就基于“SAP HANA”技術的公安大數(shù)據(jù)分析平臺做一個展望。
2公安工作對大數(shù)據(jù)平臺的需求
公安部門掌握的數(shù)據(jù)越來越多,對于這些不同來源、不同類型、不同格式的數(shù)據(jù),現(xiàn)有的公安警務數(shù)據(jù)平臺無論是規(guī)模還是架構(gòu)都很難適應在海量數(shù)據(jù)場景下的數(shù)據(jù)管理和分析,直接影響了公安形勢預判和重大決策,因此,在現(xiàn)階段建設新的能夠匹配公安業(yè)務場景的大數(shù)據(jù)系統(tǒng)是公安部門的迫切需求。新建設的公安大數(shù)據(jù)系統(tǒng),需要做到:PB級數(shù)據(jù)存儲管理,多種數(shù)據(jù)類型與協(xié)議支持,高質(zhì)量的數(shù)據(jù)整合,高效的數(shù)據(jù)分析能力,可管理和開放性,安全可靠,自主可控。
3現(xiàn)有大數(shù)據(jù)平臺的缺陷
對于數(shù)據(jù)可以劃分為兩類:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)沒有統(tǒng)一的大小和格式,給分析和挖掘帶來了很大的挑戰(zhàn)。而現(xiàn)有的數(shù)據(jù)平臺對非結(jié)構(gòu)化的數(shù)據(jù)處理起來就非常的吃力。面對冗雜無序的龐大數(shù)據(jù),簡單的人海戰(zhàn)術已經(jīng)跟不上社會發(fā)展的步伐,因此更高效、更便捷的SAP HANA內(nèi)存數(shù)據(jù)庫運算技術應運而生,它的產(chǎn)生讓數(shù)據(jù)存儲、運算速度得到了極大的提高,讓TB乃至PB級數(shù)據(jù)分析、處理和存儲變得更加快捷穩(wěn)定,也讓大數(shù)據(jù)分析平臺的搭建有了新的選擇途徑。
4 SAP HANA技術
HANA(High-Performance Analytic Appliance)是德國SAP軟件公司開發(fā)的是一個軟硬件結(jié)合體。它能夠提供高性能的數(shù)據(jù)查詢功能,可以直接對大量實時業(yè)務數(shù)據(jù)進行查詢和分析,不需要對業(yè)務數(shù)據(jù)進行建模、聚合。
4.1 SAP HANA技術特點
4.1.1軟件方面
相對于Oracle等傳統(tǒng)關系型數(shù)據(jù)庫,SAP HANA內(nèi)存數(shù)據(jù)庫不僅在維護數(shù)據(jù)的完整性、一致性方面做到了最好,而且在傳統(tǒng)關系型數(shù)據(jù)庫并不擅長的領域――難以顧及數(shù)據(jù)處理實效要求方面實現(xiàn)了突破。追本溯源,之所以SAP HANA實現(xiàn)了對Oracle等傳統(tǒng)關系型數(shù)據(jù)庫的超越,是因為其采用了改進的數(shù)據(jù)壓縮、行列式數(shù)據(jù)存儲和內(nèi)存計算技術。將海量數(shù)據(jù)經(jīng)過高效壓縮存儲至HANA的大內(nèi)存數(shù)據(jù)厙,提高查詢和分析效率。
數(shù)據(jù)壓縮:SAP HANA采用數(shù)據(jù)字典的方法對數(shù)據(jù)進行壓縮,用整數(shù)來代表相應的文本。對于數(shù)據(jù)格式相對單一的結(jié)構(gòu)化數(shù)據(jù)源,這種壓縮方式非常有效,數(shù)據(jù)讀寫速度也因此得到提升。
行列式存儲:有人曾形象的比喻,HANA可以“識別”用戶在插入數(shù)據(jù)和輸出數(shù)據(jù)時的真正意圖。實際上這是因為HANA采用了行列式存儲方式,即增量更新(插入數(shù)據(jù))時,HANA將它視為行式數(shù)據(jù)庫;而輸出數(shù)據(jù)時,HANA又充分利用其列式結(jié)構(gòu)適合數(shù)據(jù)壓縮的優(yōu)點穩(wěn)定快速的輸出數(shù)據(jù)。而傳統(tǒng)關系型數(shù)據(jù)庫則需要犧牲其中一種方式來保證速度。
內(nèi)存數(shù)據(jù)庫計算技術:根據(jù)計算機組成原理我們知道數(shù)據(jù)是從磁盤->通過數(shù)據(jù)總線和控制器(RAID,I/O hub等)―->內(nèi)存―->CPU Cache-->CPU進行數(shù)據(jù)處理(CPU寄存器)。HANA內(nèi)存數(shù)據(jù)庫,就是將數(shù)據(jù)放在內(nèi)存中直接操作,跨過了數(shù)據(jù)總線和控制器,直接與CPU cache進行數(shù)據(jù)傳輸,數(shù)據(jù)讀寫速度比磁盤讀寫速度高出幾個數(shù)量級,極大地提高了計算速度,縮短了時間。內(nèi)存的訪問速度比磁盤快1,000,000倍。傳統(tǒng)磁盤讀取是5毫秒,內(nèi)存讀取是5納秒,比SSD和閃存快1000倍。雖然寄存器和Cache的讀取數(shù)據(jù)的速度比內(nèi)存快,但在實際的數(shù)據(jù)處理中卻應用較少。
在傳統(tǒng)的數(shù)據(jù)庫中,由于內(nèi)存存儲的數(shù)據(jù)有易失性,系統(tǒng)斷電或重啟后內(nèi)存中的數(shù)據(jù)就會丟失,對此SAP HAHA采取后臺異步進程savepoint(Data persistence)定時把內(nèi)存數(shù)據(jù)存儲到磁盤中,大大降低了因故障導致數(shù)據(jù)存儲丟失的問題。
4.1.2硬件方面
SAP不僅在軟件領域獨樹一幟,在硬件研發(fā)方面也積極創(chuàng)新,和多個國際硬件廠商開展了合作,開發(fā)了多款支持HANA的高性能服務器,包括DellR910、Fujitsu RX600 S6、HP DL980 G7、IBM x3850等服務器。
4.2 SAP HANA技術應用
正是基于對SAP HANA高性能的認同,SAP內(nèi)存計算技術正在全球內(nèi)廣泛應用,不斷的轉(zhuǎn)變?nèi)藗兊乃伎肌⒅匦乱?guī)劃著人們的生活和工作方式。
以亞太區(qū)第一家上線HANA技術的某快速消費品企業(yè)為例,該企業(yè)年銷售額近百億元,業(yè)務涉及生產(chǎn)、銷售、計劃、調(diào)度、物流、市場營銷等多個方面,這對企業(yè)的綜合管理和整體運營能力提出了很高的要求。同時,作為一個快速消費品行業(yè)企業(yè),準確實時的數(shù)據(jù)對于企業(yè)來說非常重要,企業(yè)高管如果要對瞬息萬變的市場行情做出準確的判斷,就必須依據(jù)準確實時的數(shù)據(jù)進行科學決策。
該企業(yè)在應用了HANA技術后,確實提高了數(shù)據(jù)查詢、處理的能力。數(shù)據(jù)展現(xiàn)能力快速提高。據(jù)測試,商業(yè)智能報表快25~30倍,邏輯計算能力速度提高了約150倍,而且,越是復雜的運算,HANA的邏輯運算能力就越突出,數(shù)據(jù)實時、同步真正實現(xiàn)。
5公安工作應用hana技術的可行性
公安部門的各類信息來源(公安管控信息、社會管理信息和社會公開信息等)中,人口信息、水電煤氣信息、通訊信息、網(wǎng)絡賬號、圖像、聲音以及視頻等信息絕大部分是非結(jié)構(gòu)化數(shù)據(jù)。在這個“非結(jié)構(gòu)化數(shù)據(jù)時代”,主要用于管理結(jié)構(gòu)化數(shù)據(jù)的傳統(tǒng)關系型數(shù)據(jù)庫受限明顯,尤其是運算速度過慢被人所詬病。而采用擅長大數(shù)據(jù)運算的SAP HANA技術無疑是明智的選擇。
首先,從數(shù)據(jù)采集及存儲方面來看,作為內(nèi)存數(shù)據(jù)庫,SAP HANA可以將龐大的公安數(shù)據(jù),通過高效的數(shù)據(jù)壓縮和行列式存儲功能進行優(yōu)化,存儲在HANA大內(nèi)存數(shù)據(jù)庫中,進而為偵察員提供高效便捷的案事件信息查詢功能。值得一提的是,HANA技術采用的數(shù)據(jù)壓縮和行列式存儲不會破壞數(shù)據(jù)原有格式,而且可還原性非常高,非常適合偵察員保留案件原始資料和數(shù)據(jù),提高自主分析比對不同案事件的能力。其次,從分析應用來看,作為綜合應用分析平臺,SAP HANA依靠其高速的邏輯運算模式,可以有效支撐TB級別以上的大數(shù)據(jù)運算,將大幅提高公安整體工作效率和水平。
綜上所述,公安部門為了在“大數(shù)據(jù)時代”脫穎而出,加強信息化建設,提高公安辦案水平,強化預警節(jié)點突發(fā)情況能力,不斷升級服務公共決策水平,為頂層設計提供可靠依據(jù)。而以SAP HANA技術為基礎數(shù)據(jù)庫應用的設想,無疑是目前公安部門破解大數(shù)據(jù)難題的理想選擇。
摘 要:電力行業(yè)貿(mào)易結(jié)算用智能電表功能多,故障類型多樣。隨著運行時間的延長,故障發(fā)生的概率增加。本文是針對智能電表故障類型、發(fā)生概率等數(shù)據(jù)的分析和總結(jié),探究智能電表數(shù)據(jù)倉庫模型建立,對進一步做好智能表質(zhì)量評估和運行電能表故障預測提出解決方法。
關鍵詞:智能電表;故障;數(shù)據(jù);分析
1 故障數(shù)據(jù)整理及數(shù)據(jù)倉庫的構(gòu)建
1.1 故障數(shù)據(jù)整理
通過已有的SG186系統(tǒng)、MDS系統(tǒng)、拆回表分揀系統(tǒng),對智能電表故障數(shù)據(jù)進行匯總。通過整理發(fā)現(xiàn),智能電表故障數(shù)據(jù)維度高,信息條目數(shù)多。在眾多維度中選擇和電表故障問題關系比較緊密的影響因子信息,并且將它們整合在一起。對數(shù)據(jù)本身的一些問題進行清理,對缺失值、不合理數(shù)據(jù)以及不符合書寫規(guī)范的數(shù)據(jù)。
通過對各維度離散化標稱數(shù)據(jù)的數(shù)目,并將他們進行編號,最后以編號的形式存入數(shù)據(jù)倉庫中。對于日期型的數(shù)據(jù),統(tǒng)一成天、月、年三種緯度來進行儲存。電表的使用壽命長度以天為單位計算,電表的讀數(shù)統(tǒng)一為小數(shù)點后兩位。
1.2 建立數(shù)據(jù)倉庫
通過對已有故障數(shù)據(jù)的匯總分類,初步建立數(shù)據(jù)庫。數(shù)據(jù)庫包含7個維度表、2個事件表。維度表分別為通訊接口表(CommunicationInterface)、芯片廠商表(ChipManufactory)、電流型號表(ElectricCurrent)、電表廠商表(ElectricMeterManufactory)、時間表(Time)、電表故障表(MeterFault)、地區(qū)表(DArea)。事件表是電表信息表(Meter)和壞表信息表(BadMeter)。
故障數(shù)據(jù)倉庫各表字段包括條形碼編號、表故障編號、安裝時間、拆除時間、地區(qū)編號、電池使用時間、電池電壓、開蓋次數(shù)、電表讀數(shù)、芯片型號編號、芯片型號、通訊接口編號、通訊接口型號、地區(qū)名稱、建檔日期、故障類型、故障編號。
各表中的數(shù)據(jù),根據(jù)對于舊表數(shù)據(jù)的統(tǒng)計,共有7個芯片型號、8種通訊接口、5種電流型號、30個電表廠家和28種電表故障。按照天津區(qū)域分布,將天津分為10個區(qū)域,把時間分為日、月、年三個維度,在決策時可以按照不同時間緯度來進行統(tǒng)計工作。
2 故障分布與相關性分析
2.1 各個廠商電表的故障分布分析
針對各電表生產(chǎn)廠商的故障電表,進行以下三項分析:
各電表生產(chǎn)廠商內(nèi)部的故障分布比例;各電表廠商的易發(fā)生故障列表(采用基于t檢驗的評分機制);各電表廠商的特有故障列表(廠商的特有故障為相對于其他電表生產(chǎn)廠商,該廠商更易出現(xiàn)的故障,采用tf/idf法分析)。
從分析結(jié)果發(fā)現(xiàn),多數(shù)廠商和地區(qū)的故障分布均具有一定特殊性,可以通過深入分析找到某廠商或地區(qū)區(qū)別于其他地區(qū)的特有故障類型。
2.2 故障之間的相關性分析
對各故障之間的相關程度進行分析(采用經(jīng)過t檢驗的斯皮爾曼等級相關系數(shù),保留相關度>0.9的高度相關故障,共20對)。
從分析結(jié)果中我們可以看到,部分故障類型之間存在極高的相關性。
3 故障/參數(shù)間因果關系檢驗
3.1 Granger因果檢驗原理及方法
Granger因果檢驗通過比較“已知上一時刻所有信息,這一時刻X的概率分布情況”和“已知上一時刻除Y以外的所有信息,這一時刻X的概率分布情況”來進行假設檢驗,進而判斷Y對X是否存在因果關系。
在本任務中,我們首先對芯片型號、電流型號、通訊接口型號、地區(qū)、生產(chǎn)廠家、電表使用時間、電表讀數(shù)、電表故障組成的矩陣進行單位根檢驗,以判斷序列是否是平穩(wěn)的。如果平穩(wěn)則進一步兩列兩列之間進行Granger因果檢驗。
3.2 Granger因果檢驗結(jié)果
在進行單位根檢驗后,ADF-Fisher Chi-square的P值為0,小于0.05,因此序列是平穩(wěn)的。在進行Granger因果檢驗后得到如下實驗結(jié)果。
①對于電表故障來說,芯片型號、使用地區(qū)、電表生產(chǎn)廠商、通訊接口型號、電流型號、電表讀數(shù)、使用時間都是影響的原因。
②對于電表壽命來說,芯片型號、使用地區(qū)、電表生產(chǎn)廠商、通訊接口型號、電流型號、電表讀數(shù)都是影響的原因。
③同時我們發(fā)現(xiàn)使用地區(qū)的不同,對于電表完整的生存周期中的讀數(shù)有因果關系。我們由此可以猜測不同地區(qū)的用電習慣可能會有不同。
4 故障預測
在因果分析中,我們驗證了和電表故障與壽命相關的影響因素,現(xiàn)在我們用這些影響因素來訓練基礎的分類器。在原始數(shù)據(jù)中,我們總共統(tǒng)計出了28種故障。故障類型過于細化且各種故障發(fā)生的數(shù)量相差極大,對于我們分類器的分類精度造成了非常大的影響。因此我們參照《智能電能表故障原因分類表.xls》,將28種故障分為3大類。我們的分類工作主要是針對這3大類進行分類。
第一類,也可以稱作管理問題,主要包括外觀有污跡和無載波模塊兩類。
第二類是等待報廢的問題,主要包括表殼損壞、按鍵失靈、銘牌損壞、鉛封損壞、接線端子損壞等。
剩下的問題都包含在第三種中,主要包括ERR-01到ERR-08、RS485通訊故障、繼電器故障、黑屏白屏花屏、卡槽壞、密鑰恢復不成功、日計時誤差不合格、液晶顯示故障等等。
接下來我們就針對這三種故障進行了分類器的訓練。目標有兩個:
一是在電表入庫時就預先判斷該電表的可能故障。
二是對已使用電表可能發(fā)生故障的預測。
4.1 樸素貝葉斯模型
4.1.1 樸素貝葉斯原理
樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設的分類方法。樸素貝葉斯分類器基于一個簡單的假定:給定目標值時屬性之間相互條件獨立。貝葉斯公式是:
P(C|X)=(P(X|C)P(C))/P(X)
其中C代表的是我們需要判斷的類別,而X代表的各維參數(shù)所組成的向量。
基于假定我們可以把P(Ci|X)的概率轉(zhuǎn)化為P(Ci|X)=P(x1|Ci)P(x2|Ci)...P(xn|Ci)P(Ci)。然后我們比較所得的概率大小,選取概率最大的類別作為我們分類器的預測類別。
4.1.2 樸素貝葉斯的實現(xiàn)
首先我們從數(shù)據(jù)倉庫中把我們所需要緯度的數(shù)據(jù)提取出來,并按照我們需要的格式編排完畢。然后分別統(tǒng)計我們需要的各種先驗知識并訓練模型。
4.1.3 樸素貝葉斯模型的結(jié)果
①入庫電表故障預測
經(jīng)檢驗我們的樸素貝葉斯模型的分類準確度是65.2216%。(如表1)
表1 入庫電表故障預測
[A\&B\&C\&Classified as\&17301\&323\&17461\&A=1\&2467\&243\&2376\&B=2\&13418\&576\&51133 C=3\&C=3\&]
從表格中可以看出我們的樸素貝葉斯分類器對于第三類故障的分類準確度最高,對于第一類的分類準確度次之,對于第二類的分類準確度最差。
以下是分類器工作的示意范例,我們將規(guī)范化的芯片型號、地區(qū)、生產(chǎn)廠商、通訊接口型號、電流型號構(gòu)建成一個向量。例如我們選擇一塊芯片型號是東軟4.0、地區(qū)是城南、生產(chǎn)廠家是浙江萬勝電力儀表有限公司、通訊接口型號是東軟載波,電流型號是5(60)A的電表將各維信息轉(zhuǎn)化為(2,7,25,3,5)的向量輸入我們的模型,經(jīng)過模型計算輸出結(jié)果是3,表示模型預測這塊表以后發(fā)生第3類故障的概率最高。
關于具體的模型數(shù)據(jù),可參考《電表故障樸素貝葉斯結(jié)果.doc》以及《TJDW_Problem_NaiveBayes.model》
②已用電表故障預測
經(jīng)檢驗我們的樸素貝葉斯模型的分類準確度是65.288%。(如表2)
從表格中可以看出我們的樸素貝葉斯分類器對于第三類故障的分類準確度最高,對于第一類的分類準確度次之,對于第二類的分類準確度最差。
以下是分類器工作的示意范例,我們將規(guī)范化的芯片型號、地區(qū)、生產(chǎn)廠商、通訊接口型號、電流型號、電表使用時間、電表讀數(shù)構(gòu)建成一個向量。例如我們選擇一塊芯片型號是東軟4.0、地區(qū)是城南、生產(chǎn)廠家是浙江萬勝電力儀表有限公司、通訊接口型號是東軟載波,電流型號是5(60)A、已使用壽命400~800天、已讀1000~10000字的電表,將各維信息轉(zhuǎn)化為(2,7,25,3,5,2,2)的向量輸入我們的模型中,經(jīng)過模型計算輸出結(jié)果是3,表示模型預測這塊表如果將會發(fā)生故障那么發(fā)生第三類故障的可能性最高。
關于樸素貝葉斯模型分類器訓練模型及參數(shù)的具體信息,可參考《電表故障樸素貝葉斯結(jié)果預測.doc》以及《TJDW_Problem_NaiveBayes_Prediction.model》。
4.2 決策樹模型
4.2.1 決策樹原理簡介
決策樹是在已知各種情況發(fā)生概率的基礎上,通過構(gòu)成決策樹來評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。
4.2.2 決策樹實現(xiàn)
首先通過統(tǒng)計工作以及數(shù)據(jù)變換,我們需要構(gòu)造出輸出數(shù)據(jù)。然后按照計算信息熵,以信息熵衰減程度從大到小的順序構(gòu)建樹結(jié)構(gòu)。最后在葉子節(jié)點中,通過投票多數(shù)通過的方式?jīng)Q定分類結(jié)果
4.2.3決策樹模型結(jié)果分析
①入庫電表故障預測
經(jīng)檢驗我們的決策樹模型分類準確率為68.0%。其中對第三類故障的分類準確度較高,第一類次之,對第二類的分類效果較差。
表3 決策樹入庫電表故障預測結(jié)果
以下是分類器工作的示意范例,我們將規(guī)范化的芯片型號、地區(qū)、生產(chǎn)廠商、通訊接口型號、電流型號構(gòu)建成一個向量。例如我們選擇一塊芯片型號是東軟4.0、地區(qū)是城東、生產(chǎn)廠家是浙江萬勝電力儀表有限公司、通訊接口型號是東軟載波,電流型號是5(60)A的電表,將各維信息轉(zhuǎn)化為(2,6,25,3,5)的向量輸入我們的模型中,經(jīng)過模型計算輸出得出故障為第一類的概率是0.22、第二類的概率是0.05、第三類的概率是0.73,那么我們預測這塊表將來發(fā)生第三類故障的概率最高。
②已用電表故障預測
經(jīng)檢驗我們的決策樹模型分類準確率為69.1%。其中對第三類故障的分類準確度較高,第一類次之,對第二類的分類效果較差。
表4 決策樹已用電表故障預測結(jié)果
以下是分類器工作的示意范例,我們將規(guī)范化的芯片型號、地區(qū)、生產(chǎn)廠商、通訊接口型號、電流型號、電表使用時間、電表讀數(shù)構(gòu)建成一個向量。例如我們選擇一塊芯片型號是東軟4.0、地區(qū)是城東、生產(chǎn)廠家是浙江萬勝電力儀表有限公司、通訊接口型號是東軟載波,電流型號是5(60)A、已使用壽命400~800天、已讀1000~10000字的電表,將各維信息轉(zhuǎn)化為(2,6,25,3,5,2,2)的向量輸入我們的模型中,經(jīng)過模型計算輸出得出故障為第一類的概率是0.38、第二類的概率是0.13、第三類的概率是0.49,那么我們預測這塊表將來發(fā)生第三類故障的概率最高。
4.3 softmax神經(jīng)網(wǎng)絡
4.3.1 softmax神經(jīng)網(wǎng)絡簡介
神經(jīng)網(wǎng)絡是一種應用類似于大腦神經(jīng)突觸連接的結(jié)構(gòu)進行信息處理的數(shù)學模型。我們所采用的多層感知器是一種前饋神經(jīng)網(wǎng)絡模型,可以將輸入的多個數(shù)據(jù)集映射到單一的輸出的數(shù)據(jù)集上。我們在輸出層的激活函數(shù)選擇了softmax回歸函數(shù)。Softmax回歸函數(shù)是Logistic回歸模型在多分類問題上的推廣,可以將目標變量分為K類。最后我們可以得到樣本屬于各個類的概率分別是多少。
4.3.2 softmax神經(jīng)網(wǎng)絡實現(xiàn)
首先進行數(shù)據(jù)變換,將數(shù)據(jù)變換成我們需要的格式,然后初始化我們的多層感知機并應用調(diào)整的共軛梯度下降算法反復迭代更新神經(jīng)網(wǎng)絡中每個節(jié)點的權(quán)值,輸出結(jié)果使用softmax回歸函數(shù)進行激活。等參數(shù)收斂后,我們就得到了一個softmax神經(jīng)網(wǎng)絡模型。
4.3.3 softmax神經(jīng)網(wǎng)絡結(jié)果分析
①入庫電表故障預測
我們選擇芯片型號、地區(qū)、生產(chǎn)廠商、通訊接口型號、電流型號作為緯度,將各個可取的屬性值改為0-1表示的布爾值,這樣我們就構(gòu)建了有60個節(jié)點的輸入層,有兩個節(jié)點數(shù)分別為12和9的隱藏層以及有3個輸出節(jié)點的輸出層的softmax多層感知機。(如表5)
可以看出,在入庫電表故障預測中我們的softmax多層感知機模型對于第三類故障分類準確率最高,對于第一類次之,對于第二類效果最差。
以下是分類器工作的示意范例,我們將規(guī)范化的芯片型號、地區(qū)、生產(chǎn)廠商、通訊接口型號、電流型號構(gòu)建成一個60維0-1向量。例如我們選擇一塊芯片型號是東軟4.0、地區(qū)是城東、生產(chǎn)廠家是浙江萬勝電力儀表有限公司、通訊接口型號是東軟載波,電流型號是5(60)A,將各維信息轉(zhuǎn)化為向量輸入我們的模型中,經(jīng)過模型計算輸出得出故障為第一類的概率是0.155、第二類的概率是0.030、第三類的概率是0.815,那么我們預測這塊表將來發(fā)生第三類故障的概率最高。
②已用電表故障預測
我們選擇芯片型號、地區(qū)、生產(chǎn)廠商、通訊接口型號、電流型號、電表使用時間、電表讀數(shù)作為緯度,將各個可取的屬性值改為0-1表示的布爾值,這樣我們就構(gòu)建了有70個節(jié)點的輸入層,有兩個節(jié)點數(shù)分別為13和10的隱藏層以及有3個輸出節(jié)點的輸出層的softmax多層感知機。(表6)
可以看出在已用電表故障預測中,我們的softmax多層感知機模型對于第三類故障分類準確率最高,對于第一類次之,對于第二類效果最差。
以下是分類器工作的示意范例,我們將規(guī)范化的芯片型號、地區(qū)、生產(chǎn)廠商、通訊接口型號、電流型號、電表使用時間、電表讀數(shù)構(gòu)建成一個70維0-1向量。例如我們選擇一塊芯片型號是東軟4.0、地區(qū)是城東、生產(chǎn)廠家是浙江萬勝電力儀表有限公司、通訊接口型號是東軟載波,電流型號是5(60)A、已使用壽命400~800天、已讀1000~10000字的電表,將各維信息轉(zhuǎn)化為向量輸入我們的模型中,經(jīng)過模型計算輸出得出故障為第一類的概率是0.307、第二類的概率是0.022、第三類的概率是0.672,那么我們預測這塊表將來發(fā)生第三類故障的概率最高。
5 結(jié)論
兩種方案唯一的區(qū)別在于RS485總線、低壓電力線載波混合抄表系統(tǒng)增加了一層物理設備,即采集終端,使得系統(tǒng)由主站、集中器、采集終端和RS485總線電能表四層物理設備構(gòu)成。
①綜合性能(性價比),方案1占優(yōu);
②在通信性能、遠程斷送電控制、抗擾能力方面,方案1優(yōu)勢明顯;
③在功能擴展、設備成本方面,方案2占優(yōu);
④方案2最大缺點是安裝、調(diào)試和維護工作量大,且RS485總線抗干擾能力相對較弱;
⑤方案1最大缺點是一體化載波電能表成本相對較高。
摘 要:當前,大數(shù)據(jù)分析在作戰(zhàn)指揮中的作用越來越突出。然而,大數(shù)據(jù)分析有時也會對作戰(zhàn)指揮產(chǎn)生不利影響。該文針對大數(shù)據(jù)分析的特點和作戰(zhàn)指揮對大數(shù)據(jù)分析的需求,對大數(shù)據(jù)分析在作戰(zhàn)指揮中可能存在的困局進行了簡要分析,并提出了破解困局相應的對策。
關鍵詞:大數(shù)據(jù)分析 作戰(zhàn)指揮 困局 對策
目前,很多國家已把大數(shù)據(jù)上升到國家戰(zhàn)略加以推動,奪取“數(shù)據(jù)主導權(quán)”的重要性日益突出。未來影響、決定軍事行動的核心是數(shù)據(jù)。在信息化戰(zhàn)場上,不同偵察平臺搜集的情報、作戰(zhàn)指揮中心的各條指令、作戰(zhàn)力量的實時反饋信息等,都是以數(shù)據(jù)的形式存在并發(fā)揮作用,這些數(shù)據(jù)不僅量很大,而且類型多樣,來自多源,且以實時、迭代的方式來實現(xiàn)[1]。正因為如此,數(shù)據(jù)的積累、數(shù)據(jù)存儲能力、數(shù)據(jù)分析和處理能力無疑將成為獲取戰(zhàn)場優(yōu)勢的決定性因素。因此,大數(shù)據(jù)分析已成作戰(zhàn)指揮的核心要素之一。但是,正如條形碼的應用存在缺陷一樣,最新的大數(shù)據(jù)分析也可能導致誤入歧途[2]。
1 作戰(zhàn)指揮中大數(shù)據(jù)分析的特點與作用
一般來說,大數(shù)據(jù)具有數(shù)據(jù)類型多樣、數(shù)據(jù)處理高速、數(shù)據(jù)規(guī)模海量和數(shù)據(jù)價值密度低等特點[3]。在作戰(zhàn)指揮中,從數(shù)據(jù)到?jīng)Q策的時效性要求高,要求在規(guī)定的時限內(nèi)挖掘出高價值的輔助決策信息,這對其大數(shù)據(jù)分析提出了嚴峻挑戰(zhàn)。
作戰(zhàn)決策是作戰(zhàn)指揮的核心,大數(shù)據(jù)之所以引起作戰(zhàn)指揮領域的高度重視,其重要原因在于大數(shù)據(jù)直接瞄準作戰(zhàn)指揮的核心。作戰(zhàn)決策過去是科學技術較難滲透的領域,基于指揮員直覺和經(jīng)驗判斷的決策模式一直占據(jù)主導地位,這也被一些人認為是作戰(zhàn)指揮的“軟肋”。大數(shù)據(jù)分析通過創(chuàng)新式挖掘海量數(shù)據(jù),形成從數(shù)據(jù)到?jīng)Q策的快速反應鏈路,從而構(gòu)建以諸軍兵種、戰(zhàn)場環(huán)境間數(shù)據(jù)共享為基礎的自主式?jīng)Q策支持系統(tǒng),化數(shù)據(jù)優(yōu)勢為決策優(yōu)勢,以技術驅(qū)動指揮決策模式的變革。目前,在作戰(zhàn)指揮領域,針對作戰(zhàn)數(shù)據(jù)的分析處理能力還很薄弱,加強大數(shù)據(jù)分析不僅能為作戰(zhàn)指揮提供有價值的決策信息,而且有助于快速建立從數(shù)據(jù)到?jīng)Q策的指揮鏈路、有效解決指揮信息流通的一些“瓶頸”問題,以確保奪取作戰(zhàn)的“數(shù)據(jù)主導權(quán)”。
2 大數(shù)據(jù)分析在作戰(zhàn)指揮中可能存在的困局
在信息化戰(zhàn)場上,事物之間的關聯(lián)性越來越普遍;但許多關聯(lián)隱藏很深,僅靠直覺和經(jīng)驗判斷難以發(fā)現(xiàn)。相關關系是大數(shù)據(jù)分析的核心。一般來說,兩種數(shù)據(jù)的相關關系可通過當一種數(shù)據(jù)產(chǎn)生變化時引起另一種數(shù)據(jù)的變化程度來衡量,變化程度越高,說明這兩種數(shù)據(jù)的關聯(lián)度就越高。大數(shù)據(jù)分析通過識別有用的關聯(lián)物來進行分析,關聯(lián)物數(shù)量越多,種類越豐富,分析的綜合程度就越高,判斷預測的準確性也就越高。在作戰(zhàn)指揮領域,大數(shù)據(jù)分析主要通過對戰(zhàn)場大量的、相互關聯(lián)的終端產(chǎn)生的數(shù)據(jù)進行相關關系的分析,進而形成判斷、得出結(jié)論,并做出預測。
然而,在作戰(zhàn)指揮中,由于從數(shù)據(jù)到?jīng)Q策的高時效性和高對抗性,大數(shù)據(jù)分析可能存在以下困局:
由于全樣本數(shù)據(jù)需要更多的時間去分析,采用全樣本數(shù)據(jù)分析有時難以滿足作戰(zhàn)決策的高時效性要求[4];此外,作戰(zhàn)數(shù)據(jù)難免會包含一些不良信息;因此,如何動態(tài)地組織數(shù)據(jù)樣本既使其數(shù)據(jù)價值密度提升又使其分析能滿足作戰(zhàn)決策的時效性要求是一個十分棘手的問題。
大數(shù)據(jù)樣本不僅耗費更多的時間去分析,它們往往還包含所含個體的許多不同信息,從統(tǒng)計學的角度講,這意味著這些樣本是“高維的”,而更多的維度增加了獲得欺騙性關聯(lián)的風險。在作戰(zhàn)指揮中,一旦大數(shù)據(jù)分析得出的分析結(jié)論包含了欺騙性關聯(lián)的信息,可能給作戰(zhàn)決策造成嚴重的不利影響,而發(fā)現(xiàn)欺騙性關聯(lián)絕非易事。因此,防范欺騙性關聯(lián)是作戰(zhàn)指揮中大數(shù)據(jù)分析面臨的一個難點問題。
上述兩個問題是作戰(zhàn)指揮中大數(shù)據(jù)分析迫切需要解決的問題,否則作戰(zhàn)指揮中大數(shù)據(jù)分析的可靠性難免將遭受質(zhì)疑。
3 破解作戰(zhàn)指揮中大數(shù)據(jù)分析困局的對策
作戰(zhàn)指揮產(chǎn)生大量、異質(zhì)結(jié)構(gòu)的數(shù)據(jù)集,為了提高大數(shù)據(jù)分析的時效性,應在作戰(zhàn)決策知識情景庫的引導下動態(tài)地組織樣本數(shù)據(jù)集。作戰(zhàn)決策知識情景庫應該包含戰(zhàn)場態(tài)勢的框架性信息。一般來說,為便于激活數(shù)據(jù)關聯(lián),作戰(zhàn)決策知識情景庫包括主題關鍵詞表、子主題關鍵詞表和配屬關鍵詞表。一個主題關鍵詞代表戰(zhàn)場情況的一個重要方面,它對應若干子主題關鍵詞,而一個子主題關鍵詞又對應若干配屬關鍵詞,配屬關鍵詞通常代表局部的細節(jié)。對作戰(zhàn)決策來說,一條高價值的預測結(jié)論通常有一個主題,并且還與其它主題相關;因此,用于分析的樣本數(shù)據(jù)集應包含與所涉及主題所有配屬關鍵詞相關的數(shù)據(jù),并過濾掉失效或虛假的信息。作戰(zhàn)決策知識情景庫既是動態(tài)組織樣本數(shù)據(jù)集的牽引,也為樣本數(shù)據(jù)集的數(shù)據(jù)挖掘提供了導向性信息[5]。利用作戰(zhàn)決策知識情景庫動態(tài)組織樣本數(shù)據(jù)集提高了數(shù)據(jù)質(zhì)量和整體一致性,避免了無關數(shù)據(jù)的干擾,無疑使數(shù)據(jù)分析更有針對性,也更有效率。
在作戰(zhàn)指揮的大數(shù)據(jù)分析中,為了避免分析結(jié)論包含欺騙性關聯(lián)的情況發(fā)生,需要對分析結(jié)論進行檢驗,以證實結(jié)論中每一項關聯(lián)的真實性。競爭假設分析法是一個有效的證偽方法,它將結(jié)論中每一項關聯(lián)看作一個假設,平等地對待各個假設,通過尋找證據(jù)反駁假設的方法來識別假設,只有不能被駁倒的假設才被接受是真實的。競爭假設分析比較適合用于對分析結(jié)論進行檢驗[5]。客觀地說,利用競爭假設分析法對大數(shù)據(jù)分析結(jié)論進行檢驗需要建立相應的評判標準、規(guī)則和知識庫,并設計相應的數(shù)據(jù)挖掘算法;這本身就是一項具有挑戰(zhàn)性的工作。值得強調(diào)的是,對分析結(jié)論中的關聯(lián)進行識別不僅能有效防范因數(shù)據(jù)的多維度產(chǎn)生欺騙性關聯(lián)的風險,而且能避免因過度關注某一類數(shù)據(jù)(如最新的數(shù)據(jù))而陷入“一維”視角。對作戰(zhàn)指揮的大數(shù)據(jù)分析而言,對分析結(jié)論進行檢驗無疑會提高其質(zhì)量,也是其不可缺少的一部分。
4 結(jié)語
在信息化戰(zhàn)爭中,指揮人員可以有效利用大數(shù)據(jù)探尋信息化戰(zhàn)爭的內(nèi)在規(guī)律,而不是“淹沒”在海量數(shù)據(jù)中一籌莫展。因此,大數(shù)據(jù)分析在作戰(zhàn)指揮中的作用越來越突出。為了快速為作戰(zhàn)決策提供高價值的情報,大數(shù)據(jù)分析必須解決動態(tài)組織樣本數(shù)據(jù)和對分析結(jié)論進行檢驗的難題。當前,作戰(zhàn)指揮領域大數(shù)據(jù)分析的研究方興未艾,有許多難題尚待解決。面對諸多困難與挑戰(zhàn),只有調(diào)動多方力量,充分吸收并借鑒各相關領域研究的方法或成果,勇于探索和創(chuàng)新,才能實現(xiàn)大數(shù)據(jù)分析有效服務于作戰(zhàn)指揮的目標。
摘 要:大數(shù)據(jù)是當今世界信息化建設發(fā)展的大趨勢,它帶來了一場工作、生活和思維上的大變革,也引發(fā)了對大數(shù)據(jù)背景下軍隊審計數(shù)據(jù)分析的思考。文章基于大數(shù)據(jù)發(fā)展趨勢和軍隊審計工作現(xiàn)狀,指出應從數(shù)據(jù)基礎式審計、研判數(shù)據(jù)結(jié)構(gòu)、運用挖掘型技術、構(gòu)建安全體系等方面入手,加強大數(shù)據(jù)背景下軍隊審計數(shù)據(jù)與信息化建設。
關鍵詞:大數(shù)據(jù) 軍隊審計 數(shù)據(jù)分析
大數(shù)據(jù)是以云計算為基礎,通過信息存儲、分享和挖掘,將大量、高速、多變的終端數(shù)據(jù)存儲下來并分析計算,尋求解決問題的有效方法。隨著軍隊信息化建設的不斷推進,未來軍事經(jīng)濟活動都將以數(shù)據(jù)信息流的形式展現(xiàn)和保存,產(chǎn)生的數(shù)據(jù)量增長迅速,數(shù)據(jù)種類和格式日漸豐富。面對一個個數(shù)量龐大、種類繁雜的數(shù)據(jù)信息源,審計機關不僅要具備對海量數(shù)據(jù)的采集和存儲的能力,更重要的是能夠迅速分析和挖掘數(shù)據(jù),從中找出審計線索、發(fā)現(xiàn)問題、尋求對策。
一、大數(shù)據(jù)的定義與特征
根據(jù)維基百科的定義,大數(shù)據(jù)是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。對于大數(shù)據(jù),美國著名的顧能公司給出了這樣的定義:是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。隨著大數(shù)據(jù)研究的深入,大數(shù)據(jù)概念的內(nèi)涵和外延不斷地產(chǎn)生變化,業(yè)界對其定義尚未完全統(tǒng)一。目前主流的定義基本是從大數(shù)據(jù)的特征出發(fā),試圖通過闡述和歸納這些特征來給出大數(shù)據(jù)的定義,其中比較有代表性的是4V。大數(shù)據(jù)的4個“V”有四個層面:一是數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別。二是數(shù)據(jù)類型繁多。包括網(wǎng)絡日志、視頻、圖片、地理位置等信息。三是處理速度快。1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質(zhì)的不同。四是只要合理利用數(shù)據(jù)并對其進行正確、準確的分析,將會帶來很高的價值回報。業(yè)界將其歸納為4個“V”――Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價值密度低)。大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應用,具有數(shù)據(jù)量大、查詢分析復雜等特點,強調(diào)將數(shù)據(jù)結(jié)合到業(yè)務流程和決策過程中,部分類型的數(shù)據(jù)必須實時分析才能對業(yè)務產(chǎn)生價值。
二、大數(shù)據(jù)背景給軍隊審計數(shù)據(jù)分析帶來的機遇和挑戰(zhàn)
(一)大數(shù)據(jù)背景給軍隊審計數(shù)據(jù)分析帶來的機遇
1.軍隊審計數(shù)據(jù)分析的認同感大為增強。軍隊審計部門作為綜合性的經(jīng)濟監(jiān)督部門,一直秉承數(shù)據(jù)說話的傳統(tǒng)。審計報告中無論是綜合評價,還是揭示問題,無一不是以數(shù)據(jù)為支撐的。在大數(shù)據(jù)背景下,海量數(shù)據(jù)離散地存儲于不同信息系統(tǒng)中??沙浞掷脭?shù)據(jù)倉庫、聯(lián)機分析、數(shù)據(jù)挖掘和數(shù)據(jù)可視化等技術,對這些數(shù)據(jù)進行關聯(lián)并深度挖掘分析,科學評估經(jīng)費的使用情況和法規(guī)的實施效果,從而得出客觀的審計結(jié)論。所有這一切都將得到各級黨委和被審計單位的高度認同,從而進一步提升軍隊審計自身的地位。
2.軍隊審計數(shù)據(jù)分析所需的基礎數(shù)據(jù)的獲取將變得更為便利。在破除了軍隊內(nèi)部協(xié)同思想理念上的障礙后,隨著大數(shù)據(jù)技術發(fā)展,跨越系統(tǒng)、跨越平臺、跨越數(shù)據(jù)流結(jié)構(gòu)的技術將使軍隊內(nèi)部縱向、橫向部門得以流暢協(xié)同。軍隊審計部門不再需要“點對點”地與被審計單位進行聯(lián)網(wǎng),在內(nèi)部局域網(wǎng)設定的許可權(quán)限內(nèi),可以直接查詢和利用相關數(shù)據(jù)信息,極大地節(jié)約了審計成本;同時由于利用大數(shù)據(jù)技術,數(shù)據(jù)處理及分析響應時間將大幅減少,審計工作的效率將明顯提高,可以同時對多個類別、多種領域的數(shù)據(jù)進行分析、處理。
3.軍隊審計數(shù)據(jù)分析將有助于提高黨委決策的科學性和準確性,推動預測預警和應急響應機制建設,更加有效地規(guī)范軍事經(jīng)濟活動。審計人員可以通過對歷年海量數(shù)據(jù)的統(tǒng)計分析,挖掘出軍事經(jīng)濟活動的特點規(guī)律,對各類違規(guī)違紀行為進行總結(jié)歸納,為黨委建章立制提供參考依據(jù);同時還能科學地評估管理規(guī)章的執(zhí)行效果,從而幫助各級黨委不斷發(fā)現(xiàn)問題、整改落實。隨著審計分析的進一步深化,審計分析將超越傳統(tǒng)的數(shù)據(jù)分析方法,不但是對純數(shù)據(jù)可以進行分析挖掘,對財務賬表、報告等都可以進行深度挖掘、人工智能。
(二)大數(shù)據(jù)背景給軍隊審計數(shù)據(jù)分析帶來的挑戰(zhàn)
大數(shù)據(jù)在給軍隊審計信息化帶來機遇的同時,也帶來前所未有的挑戰(zhàn):一是實現(xiàn)資源統(tǒng)一規(guī)劃和使用,必須以數(shù)據(jù)編碼和信息標準統(tǒng)一、相互之間兼容互聯(lián)為前提。由于目前缺乏制度依據(jù),部門間橫向協(xié)同難,原有的“信息孤島”將給審計機關獲取審計數(shù)據(jù)以及進行持續(xù)化審計造成困難。二是面對數(shù)量龐大、種類繁雜的數(shù)據(jù)信息源,審計機關不僅要具備對海量數(shù)據(jù)的采集和存儲的能力,更重要的是能夠迅速分析和挖掘數(shù)據(jù),從傳統(tǒng)的“經(jīng)驗依賴”轉(zhuǎn)化為“數(shù)據(jù)依賴”,審計人員的數(shù)據(jù)駕馭能力將受到考驗。三是審計業(yè)務流程大多以數(shù)據(jù)信息形式展現(xiàn),資金流向更多體現(xiàn)為數(shù)據(jù)信息流的交換,使得違規(guī)違紀行為更加隱蔽和多樣,微小的數(shù)據(jù)變動就可能造成經(jīng)濟損失。以往僅限于重點人員和財務的審計已經(jīng)不能滿足需要,抽樣分析以及單一的財務賬目分析也難以發(fā)現(xiàn)微小數(shù)據(jù)異常,這就要求審計機關對審計對象進行全面覆蓋。四是審計機關作為軍事經(jīng)濟運行安全的免疫系統(tǒng),不僅要對已存在的問題進行查處和修補,還要對潛在的風險進行及時的揭示和抵御,更要通過大數(shù)據(jù)這個金礦,從更高層面、更全范圍、更廣視角為上級黨委提供系統(tǒng)性、綜合性、前瞻性的審計建議。
三、大數(shù)據(jù)背景下軍隊審計數(shù)據(jù)分析的策略
(一)明確工作目標導向,實施數(shù)據(jù)基礎式審計
傳統(tǒng)的以審計組劃分的分散式審計模式已不能適應大數(shù)據(jù)背景下審計數(shù)據(jù)分析工作要求。首先,當前軍隊審計工作要建立健全制度、整合審計資源,結(jié)合審計人員的專業(yè)理論素養(yǎng)、實踐工作經(jīng)驗、數(shù)據(jù)處理能力等因素,著手組建數(shù)據(jù)集中分析模式團隊。其次,明確審計工作目標導向,按照“總體全面分析、重點業(yè)務分析、重點事項分析”逐層遞進的思路,以系統(tǒng)全面的數(shù)據(jù)信息源為基礎,堅持“面向業(yè)務需求、指導審計實踐、推動數(shù)據(jù)分析”的原則開展審計數(shù)據(jù)分析工作。最后,要理清軍隊審計數(shù)據(jù)分析的工作思路,運用信息系統(tǒng)實施數(shù)據(jù)基礎式審計方法,全面分析被審計單位在經(jīng)濟活動中存在的問題與不足,為軍隊審計工作的順利開展提供數(shù)據(jù)支撐和技術保證。
(二)研判后臺數(shù)據(jù)結(jié)構(gòu),掌握重點數(shù)據(jù)資源
在大數(shù)據(jù)時代,軍事經(jīng)濟數(shù)據(jù)將呈現(xiàn)指數(shù)增長,挖掘重點及敏感數(shù)據(jù)審計的難度日益加大。做好審計數(shù)據(jù)的掘取、存儲、處理與應用,對提高審計效率、實現(xiàn)分析結(jié)果的精準化具有重要作用。通過檢查被審計單位內(nèi)部控制制度,審查單位內(nèi)部對不同業(yè)務數(shù)據(jù)的使用管理是否到位,數(shù)據(jù)庫管理和安全操作制度是否完善,重點領域數(shù)據(jù)庫常態(tài)監(jiān)管措施是否嚴格,移動設備安全使用規(guī)程是否執(zhí)行;依據(jù)數(shù)據(jù)庫設計文檔和數(shù)據(jù)注釋等媒介,研究論證后臺數(shù)據(jù)結(jié)構(gòu),確定重點、敏感信息數(shù)據(jù)庫范圍;采取穿行測試法、重新執(zhí)行法、代碼審查法、文檔審查法等技術手段深入挖掘,切實掌握重點事項、信息、賬表和報告間的勾稽關系。
(三)運用挖掘型分析技術,開展數(shù)據(jù)深度分析
目前軍隊審計中應用較多的是查詢型分析和驗證型分析,無法滿足深刻揭示軍事經(jīng)濟活動內(nèi)在規(guī)律的現(xiàn)實需要,必須要引入挖掘型分析技術。挖掘型分析是利用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工具進行的審計分析,主要有分類、回歸分析、聚類、關聯(lián)規(guī)則等方法。運用挖掘型數(shù)據(jù)分析技術,首先要做好審計數(shù)據(jù)的分類、存儲、快速調(diào)用等工作,整合分析數(shù)據(jù)資源,搭建云數(shù)據(jù)存儲平臺,完善數(shù)據(jù)整理和研判機制,實現(xiàn)重點數(shù)據(jù)庫間的兼容互聯(lián),共享審計云平臺服務器運算能力資源。其次,要研發(fā)數(shù)據(jù)審計方法和分析工具,運用移動辦公、云計算等技術對海量數(shù)據(jù)進行遠程分析,深度分析審計疑點及問題線索,進而實現(xiàn)數(shù)據(jù)分析結(jié)果的精確化。
(四)把握系統(tǒng)運行特點,構(gòu)建數(shù)據(jù)安全體系
大數(shù)據(jù)在給軍隊審計工作創(chuàng)新發(fā)展帶來機遇的同時,也為信息資源安全帶來了挑戰(zhàn)。軍隊審計部門掌握了大量關系到國家安全和國防實力的經(jīng)濟數(shù)據(jù),這些寶貴的數(shù)據(jù)資源一旦損失,將會對國家安全造成無法挽回的損失和后果。要確保數(shù)據(jù)資源安全,必須全面了解被審計單位信息系統(tǒng)的管理體制、總體架構(gòu)、規(guī)劃設計、管理水平等特點,重點調(diào)研審計信息系統(tǒng)的數(shù)據(jù)資源,尤其是清楚掌握后臺數(shù)據(jù)庫的的項目、數(shù)量、功能模塊、版本、管理維護部門、訪問模式、數(shù)據(jù)存儲和備份等信息。要重視審計數(shù)據(jù)及其信息安全系統(tǒng)的建設,創(chuàng)新大數(shù)據(jù)信息安全審計技術的研發(fā),加強對重點領域敏感審計數(shù)據(jù)的監(jiān)管,運用大數(shù)據(jù)技術應對高級可持續(xù)攻擊,并精心培養(yǎng)一大批既具備軍隊審計業(yè)務知識又具備數(shù)據(jù)挖掘和應用開發(fā)能力的專業(yè)技術人才,著力構(gòu)建完善的數(shù)據(jù)安全體系。
(責編:若佳)
摘要:隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)分析也應運而生。將大數(shù)據(jù)分析應用于數(shù)學課堂教學是一種全新的嘗試。本文簡要分析了大數(shù)據(jù)分析的概念,從不同方面對基于大數(shù)據(jù)分析下的教學課堂教學進行了深入研究,結(jié)合筆者豐富的教學實踐,最終提出了一些基于大數(shù)據(jù)分析下的數(shù)學課堂教學的策略。希望通過本文的分析研究,能夠為更好地進行數(shù)學課堂教學,提供一些有益的借鑒與參考。
關鍵詞:大數(shù)據(jù)分析;數(shù)學課堂;教學研究
如今,我們已經(jīng)進入到了一個“數(shù)據(jù)驅(qū)動學校、分析改革教育”的大數(shù)據(jù)時代,大數(shù)據(jù)正影響著傳統(tǒng)教育與傳統(tǒng)教學,未來大數(shù)據(jù)必將改變傳統(tǒng)教育的面貌[1]。隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)分析也相應地產(chǎn)生。因而,研究基于大數(shù)據(jù)分析下的數(shù)學課堂教學具有較為重要的理論意義和現(xiàn)實意義。
一、大數(shù)據(jù)分析的概念
1.大數(shù)據(jù)的概念。就數(shù)據(jù)本身而言,其是記載信息的一種載體,當然,也是知識的來源。數(shù)據(jù)的不斷增加,表示其相應的記錄范圍、測量范圍和分析范圍在不斷擴大,表示人類獲取的知識越來越多,獲取的信息量越來越大,而知識的邊界也在相應地不斷擴展與延伸。所謂大數(shù)據(jù),可以從宏觀和圍觀兩個角度來進行理解,有不少國內(nèi)外學者選擇從宏觀角度理解和研究大數(shù)據(jù),其對于大數(shù)據(jù)的概念做了以下定義,即需要新處理模式才可以具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn),大數(shù)據(jù)具有4V特點,分別是Volume(數(shù)據(jù)量大)、Velocity(實時性強)、Variety(種類多樣)、Veracity(真實性),另外還有一部分學者認為應當再加兩個V,即Value(價值)和Visualization(可視化)[2]。而維基百科給出的定義則是無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。
2.大數(shù)據(jù)分析的概念。所謂大數(shù)據(jù)分析,即對規(guī)模巨大、數(shù)量龐大的數(shù)據(jù)進行分析。其具有四個非常顯著的特征:首先,數(shù)據(jù)量大;其次,速度很快;再次,種類繁多;最后,真實性。而大數(shù)據(jù)分析的目的就是要通過對歷史數(shù)據(jù)的分析和挖掘,科學總結(jié)與發(fā)現(xiàn)其中蘊藏的規(guī)律和模式,并結(jié)合源源不斷的動態(tài)流式數(shù)據(jù)去預測事物未來的發(fā)展趨勢[3]。
二、基于大數(shù)據(jù)分析下的數(shù)學課堂教學策略
1.更新教學觀念,構(gòu)建數(shù)據(jù)分析觀念。物質(zhì)決定意識,意識是物質(zhì)的反映。在高中數(shù)學教學中,教師在課堂教學的過程中,教學方法、教學模式難免會受其自身教學觀念的影響,因而數(shù)學教師首先必須先更新教學觀念,構(gòu)建數(shù)據(jù)分析觀念。在新課標中提出了“數(shù)據(jù)分析觀念”一詞,這一詞是由“統(tǒng)計觀念”變更而來。由此可見,隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)分析也日益受到人們的關注與重視。因而,有必要在數(shù)學課堂教學構(gòu)建相應的背景,構(gòu)建數(shù)據(jù)分析觀念,使學生樹立數(shù)據(jù)分析的意識,并對其予以重視[4]。
2.勇于探索,在數(shù)學教學中嘗試分層教學。在現(xiàn)行的高中數(shù)學課堂教學上,一般采取班級統(tǒng)一上課的模式,這樣的教學模式比較固定,缺乏新意,不利于培養(yǎng)和發(fā)展學生的個性,更不利于挖掘?qū)W生的潛能。我國古代教育師祖孔子曾提出“因材施教”,就是要求教師根據(jù)每個學生不同的情況,對學生進行不同類型的教育。在高中數(shù)學課堂教學中,教師可以對學生嘗試分層教學。一個班有眾多的學生,學生與學生之間存在著個體、個性差異,對不同的學生進行不同類型的教學,能夠促進有效教學。對于個性化差異和個體化差異比較明顯的小學生,也可以嘗試不同的教學方法,嘗試全新的教學模式,對于不同基礎和不同背景下的學生,要正視其存在的個體差異,對他們進行分層次的教學,這樣有利于促進學生更好地學習數(shù)學,也有利于充分挖掘?qū)W生的數(shù)學潛能。
3.學會運用大數(shù)據(jù)分析和獲取數(shù)據(jù)中的有用信息。在高中數(shù)學教學中,教師應注意引導和幫助學生學會運用大數(shù)據(jù)分析和獲取數(shù)據(jù)中的有用信息,充分調(diào)動學生學習數(shù)學的積極性和主動性。通過激發(fā)學生的學習興趣,幫助學生提高他們的學習效率,這樣既有助于促進學生全面發(fā)展,也有助于提升高中數(shù)學課堂教學的效率[5]。舉例來說,教師可以結(jié)合高中數(shù)學教材內(nèi)容,大數(shù)據(jù)分析工具制定教學計劃,例如在學習《空間向量》這一章時,教師可以引導學生結(jié)合實際生活,充分發(fā)揮想象力,對空間向量進行思考,還可以引入與空間向量相關的內(nèi)容,通過相關數(shù)據(jù)分析,幫助學生加深對知識的理解。同時,帶動學生主動思考,積極參與課堂互動。此外,教師還應教學生學會獲取數(shù)據(jù)中的有用信息。以高中數(shù)學《統(tǒng)計》這一章為例,在學習《統(tǒng)計》這一章時涉及抽樣方法以及總體分布的估計,教師可以在具體教學過程中,引導學生利用大數(shù)據(jù)對相關數(shù)據(jù)進行分析,然后從中獲取有用的信息,以幫助解題。
4.引入數(shù)據(jù)挖掘算法,提升數(shù)學運算能力。數(shù)學教師除了按照教學大綱要求完成教學任務之外,還要注意在數(shù)學課堂中引入數(shù)據(jù)挖掘算法,注意提升學生的數(shù)學運算能力。一方面,數(shù)學教師要利用大數(shù)據(jù)分析工具密切關注學生對所學數(shù)學知識的掌握情況;另一方面,還要密切關注學生對于數(shù)學運算能力的掌握。引導和幫助學生學會收集數(shù)據(jù)和使用數(shù)據(jù),利用大數(shù)據(jù)中的數(shù)據(jù)挖掘算法,培養(yǎng)數(shù)學解題能力。對于高中學生而言,數(shù)學運算能力是其必須掌握的,數(shù)學運算能力是學好數(shù)學的前提和基礎。因而,數(shù)學運算能力非常重要。舉例來說,在高中數(shù)學的運算中,涉及函數(shù)、指數(shù)和向量等計算,而這些計算相對而言又比較復雜,如果在計算過程中出現(xiàn)失誤,將導致整個運算結(jié)果錯誤。這就要求學生具備較強的運算能力,在運算過程中保持細心、認真和嚴謹?shù)膽B(tài)度進行運算。在高中數(shù)學教學中,教師要教學生運用不同的數(shù)學方法進行解題,讓學生學會舉一反三。
5.學會分類,重視數(shù)學知識的積累。高中數(shù)學學科是一門具有較強的抽象性和較強的邏輯性的學科,知識點還比較多,這就要求學會分類,對各類數(shù)學知識進行分門別類,這樣有助于加深對知識的理解,也有助于理清數(shù)學知識的脈絡,促進學生更好地進行下一階段的數(shù)學學習。此外,還應重視數(shù)學知識的積累。高中數(shù)學知識具有較強的連貫性和銜接性,學生在學習過程中如果出現(xiàn)知識點斷層問題,很容易影響下一階段的數(shù)學知識學習,致使前期所學的知識與后期將要學習的知識無法較好地銜接,影響學生的學習積極性,也會在一定程度上影響學生的整體成績。因而,在高中數(shù)學教學過程中,教師要注意幫助學生做好相關知識點的復習和鞏固,加深學生對前期所學知識的印象。例如:在初中的數(shù)學學習過程中,教師對十字相乘法已經(jīng)不作要求了,同時對三次或三次以上多項式因式分解也不作要求了,但是到了高中教材中卻多處要用到。另外二次根式中對分子、分母有理化這也是初中不作要求的內(nèi)容,但是分子、分母有理化卻是高中函數(shù)、不等式常用的解題技巧,特別是分子有理化應用更加廣泛。所以,教師在教學過程中,應該多復習以前學生學過的知識,將其進行一定的積累,同時,也能為其今后數(shù)學知識的學習奠定良好的基礎。此外,還要養(yǎng)成良好的數(shù)學學習習慣和數(shù)學知識積累意識,在實際學習過程中,充分重視數(shù)學知識的積累,通過各種不同的方式促進對數(shù)學知識的理解,并且學會運用自己所學的數(shù)學方法來解決數(shù)學問題,通過這種方法能夠使學生不斷地鞏固所學的數(shù)學知識,提升數(shù)學解題能力,提升整體數(shù)學素質(zhì)。
6.感悟數(shù)字化的便利,學以致用,提升數(shù)學應用意識。大數(shù)據(jù)時代的來臨,改變了人們以往的生活方式,改變了人們生活的方方面面,也在一定程度上改變了數(shù)學課堂教學,舉例來說,大數(shù)據(jù)時代的來臨改變了高中數(shù)學課堂教學的形式、方法等。教師可以通過大數(shù)據(jù)提供的數(shù)字化信息,運用多媒體設備進行備課以及給學生布置作業(yè),還可以利用大數(shù)據(jù)分析班里每位同學的學習情況。在數(shù)學學習過程中,學生在感悟數(shù)字化的便利的同時,還要學會將所學的數(shù)學知識融會貫通,學以致用。當然,有一點必須強調(diào)的是,無論哪一學科,都有其自身的特性及作用。以高中數(shù)學學科為例,數(shù)學是一門科學性與綜合性較強的學科,其作用之一就是能夠培養(yǎng)人的邏輯思維推算能力。并且,數(shù)學還是一門與我們生活息息相關的學科。因而,在學習數(shù)學這門課程時,教師要當好向?qū)У慕巧?,注意培養(yǎng)學生的數(shù)學學習意識,要讓學生學以致用,注重提升他們的數(shù)學應用意識。
三、結(jié)束語
綜上所述,基于大數(shù)據(jù)分析下的數(shù)學課堂教學策略主要有:第一,更新教學觀念,構(gòu)建數(shù)據(jù)分析觀念。第二,勇于探索,在數(shù)學教學中嘗試分層教學。第三,培養(yǎng)數(shù)學學習興趣,學會獲取數(shù)據(jù)中的有用信息。第四,引入數(shù)據(jù)挖掘算法,提升數(shù)學運算能力。第五,學會分類,重視數(shù)學知識的積累。第六,感悟數(shù)字化的便利,學以致用,提升數(shù)學應用意識。筆者希望有更多的有志之士,能夠投身到這個課題的研究之中,指出筆者在文中的不足之處,同時也可以為基于大數(shù)據(jù)分析下的數(shù)學課堂教學這一課題的研究,做出自己應有的一份貢獻。
摘要:從近幾年的經(jīng)濟發(fā)展來看,我國金融已經(jīng)從以前的傳統(tǒng)金融邁進了互聯(lián)網(wǎng)金融時代,在政府的大力支持下,促使了互聯(lián)網(wǎng)行業(yè)蓬勃的發(fā)展,同時也有力地推進了我國傳統(tǒng)金融行業(yè)的改革。雖然互聯(lián)網(wǎng)金融行業(yè)可以更快捷、更有效地處理大量數(shù)據(jù)而被廣泛的使用,但是這也給金融行業(yè)帶來了新的挑戰(zhàn)和風險,如風險控制、預警及金融穩(wěn)定等。因此,為了能夠使得互聯(lián)網(wǎng)金融行業(yè)安全、快速地發(fā)展起來,我們必須建立起一個健全的互聯(lián)網(wǎng)金融風險預警體系,才能保證互聯(lián)網(wǎng)金融順利地進行。
關鍵詞:大數(shù)據(jù) 互聯(lián)網(wǎng)金融 金融風險 風險預警
近幾年來,我國互聯(lián)網(wǎng)行業(yè)不斷發(fā)展,互聯(lián)網(wǎng)金融也蓬勃地發(fā)展起來,2015年中國的互聯(lián)網(wǎng)金融行業(yè)規(guī)模已經(jīng)突破了14萬億元,互聯(lián)網(wǎng)金融已經(jīng)遍及全中國。雖然如此,互聯(lián)網(wǎng)金融中仍然存在著很多的不足和風險,為了能夠更好地控制和發(fā)現(xiàn)互聯(lián)網(wǎng)金融中存在的風險,我們必須有建立一個健全的互聯(lián)網(wǎng)金融預警系統(tǒng)。本文就是以大數(shù)據(jù)為基礎,結(jié)合互聯(lián)網(wǎng)金融自身獨有的特點,建立大數(shù)據(jù)分析下的互聯(lián)網(wǎng)金融風險預警系統(tǒng)。運用這個系統(tǒng)能提前發(fā)現(xiàn)互聯(lián)網(wǎng)金融中的各種風險及不足,可以讓企業(yè)提前做好準備及防范,保證互聯(lián)網(wǎng)金融更安全地發(fā)展起來。
一、概念
互聯(lián)網(wǎng)金融是指依托互聯(lián)網(wǎng)工具及通信工具來實現(xiàn)資金互轉(zhuǎn)、支付等業(yè)務的新興行業(yè)模式。這種互聯(lián)網(wǎng)金融模式主要依托的是互聯(lián)網(wǎng)技術水平,然而隨著互聯(lián)網(wǎng)絡技術水平的提高,互聯(lián)網(wǎng)金融也在快速地發(fā)展。
二、大數(shù)據(jù)及其特點
(一)數(shù)據(jù)分類
在互聯(lián)網(wǎng)金融行業(yè)中,數(shù)據(jù)貫穿了整個網(wǎng)絡金運轉(zhuǎn)過程。在互聯(lián)網(wǎng)金融交易中主要有:參與者(客戶)、互聯(lián)網(wǎng)金融企業(yè)及相關的金融產(chǎn)品和服務?;ヂ?lián)網(wǎng)金融不僅僅可以輸入、保存參與者(客戶)信息數(shù)據(jù)以及提供產(chǎn)品信息數(shù)據(jù),甚至還可以保留參與者(客戶)在對互聯(lián)網(wǎng)平臺進行操作時的各種數(shù)據(jù)信息,這些數(shù)據(jù)信息正是互聯(lián)網(wǎng)金融大數(shù)據(jù)庫,是網(wǎng)絡金融的基礎。根據(jù)互聯(lián)網(wǎng)金融數(shù)據(jù)的操作過程,可將其分類為:用戶信息數(shù)據(jù)、成交信息數(shù)據(jù)、用戶操作數(shù)據(jù)等。
用戶信息數(shù)據(jù)是指每個參與者(客戶)在建立賬戶時要填寫的基本資料,這些資料被保存后就會被自動儲存到企業(yè)的信息系統(tǒng)里。用戶資料數(shù)據(jù)關系到每個用戶的私人資料,所以企業(yè)必須對此數(shù)據(jù)進行嚴格保密,進行統(tǒng)一的管理,不能被泄露。
成交信息數(shù)據(jù)是指互聯(lián)網(wǎng)金融行業(yè)為用戶提供了商品及服務,然后用戶對此商品或服務進行購買成交時,有成交信息數(shù)據(jù),可以保留你成交過程中的整個操作,作為你安全成交的憑證和依據(jù),防止交易過程中產(chǎn)生的風險。用戶操作數(shù)據(jù),是記錄用戶在對互聯(lián)網(wǎng)金融行業(yè)平臺進行操作時相應過程的記錄。
(二)數(shù)據(jù)特點
互聯(lián)網(wǎng)金融數(shù)據(jù)分為以下特點:規(guī)模廣、多樣化、高效性。首先,規(guī)模廣是指互聯(lián)網(wǎng)金融數(shù)據(jù)涉及廣泛,覆蓋廣。其次,多樣化是指互聯(lián)網(wǎng)數(shù)據(jù)涉及種類多,信息數(shù)據(jù)的多元化。最后,高效性是指對互聯(lián)網(wǎng)金融數(shù)據(jù)信息處理及時、準確、高效。
三、互聯(lián)網(wǎng)金融風險
在互聯(lián)網(wǎng)金融發(fā)展過程中,存在不少風險,主要體現(xiàn)如下:第一,用戶對互聯(lián)網(wǎng)金融與傳統(tǒng)金融概念不清晰,投資風險意識不強,有人認為互聯(lián)網(wǎng)金融是創(chuàng)新投資,與傳統(tǒng)金融不同,其實互聯(lián)網(wǎng)金融與改變傳統(tǒng)金融并沒有本質(zhì)上的區(qū)別;第二,存在技術不足與人為破壞導致的風險,互聯(lián)網(wǎng)金融雖然已經(jīng)被廣泛使用,但是互聯(lián)網(wǎng)技術風險還是存在的,例如計算機故障與其他類型的風險,例如:黑客、病毒等。
第三,經(jīng)營多樣化導致監(jiān)管風險。互聯(lián)網(wǎng)金融的多樣化導致風險監(jiān)管難度更大,涉及到銀行業(yè)務、證券業(yè)務、保險業(yè)務等,業(yè)務交叉性強。第四,互聯(lián)網(wǎng)金融市場在一定程度上與傳統(tǒng)金融市場相沖擊。
互聯(lián)網(wǎng)金融的興起與傳統(tǒng)商業(yè)銀行業(yè)在一定程度上是相沖擊的,使得銀行間的競爭增大,相互抬高利率,而且還改變負債的結(jié)構(gòu)。
四、互聯(lián)網(wǎng)金融風險預警系統(tǒng)
(一)以數(shù)據(jù)為基礎
在互聯(lián)網(wǎng)金融風險預警系統(tǒng)建立的過程中,我們必須注意以下幾點:
第一,可操作性,在互聯(lián)網(wǎng)金融風險預警系統(tǒng)建立時,要結(jié)合本企業(yè)實際情況,方便、安全、易操作;在對數(shù)據(jù)進行分析時,要有利于操作,這樣才能快速識別風險,作出防范。
第二,及時性,對于互聯(lián)網(wǎng)金融行業(yè)的數(shù)據(jù)我們必須及時處理,具有高效性,所以在進行建立該系統(tǒng)的時候必須要注意時限性,確保能夠及時地發(fā)現(xiàn)風險及不足,這樣才能有充足的時間去預防,避免出錯,造成不良損失。
第三,準確性,在建立該預警系統(tǒng)的過程中要保證數(shù)據(jù)的準確性,才能避免對風險作出錯誤的判斷,造成不必要的損失。
(二)系統(tǒng)數(shù)據(jù)分級
在互聯(lián)網(wǎng)金融預警系統(tǒng)分為四個級別,分別如下:
1、數(shù)據(jù)管理
互聯(lián)網(wǎng)金融預警系統(tǒng)是以數(shù)據(jù)為基礎的,預警系統(tǒng)對數(shù)據(jù)進行分析與處理,所以要對數(shù)據(jù)的管理建立健全系統(tǒng)。這樣可以更方便地對數(shù)據(jù)進行導出、整理及存儲。
2、數(shù)據(jù)整合
數(shù)據(jù)整合主要是風險預警系統(tǒng)對數(shù)據(jù)進行整體的分析,進行風險預警。
3、數(shù)據(jù)分析
風險預警系統(tǒng)進行數(shù)據(jù)整合后,對所有的數(shù)據(jù)進行分析和處理,從而來判定風險。所以,風險預警系統(tǒng)必須具備智能性。
4、數(shù)據(jù)結(jié)果
數(shù)據(jù)解釋就是數(shù)據(jù)分析能夠?qū)︼L險進行解釋及反應,并且分析結(jié)果。
五、結(jié)論與建議
綜上所述,互聯(lián)網(wǎng)金融風險預警系統(tǒng)主要作用是降低企業(yè)經(jīng)營過程中的失誤,對風險能過提早進行預警,及時作出防范,減少不必要的損失。在互聯(lián)網(wǎng)金融風險預警系統(tǒng)運行過程中,我們提出幾點建議:第一,企業(yè)應對員工建立健全的考核評價體系,“人”是萬事的主導者,所以建立完整的考核評價體系是必然的;第二,企業(yè)應該制定科學的金融風險預警系統(tǒng)操作規(guī)范。為了確保該系統(tǒng)能實現(xiàn)規(guī)范性的操作,企業(yè)應該制定一套科學規(guī)范的程序,同時還要制定該系統(tǒng)的使用規(guī)范及流程,以便明確操作人員的權(quán)責及范圍,對風險進行及時處理與實時監(jiān)測。