時(shí)間:2023-05-30 14:44:54
序論:在您撰寫數(shù)據(jù)分析論文時(shí),參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
將醫(yī)院、醫(yī)療保健組織等數(shù)字化的醫(yī)療數(shù)據(jù)以特定的格式、協(xié)議發(fā)送到醫(yī)療數(shù)據(jù)分析模塊進(jìn)行分析與疾病預(yù)測.醫(yī)療數(shù)據(jù)提取模塊:該模塊由醫(yī)院電子病歷系統(tǒng)負(fù)責(zé)實(shí)現(xiàn),我們使用openEHR系統(tǒng)作為醫(yī)院電子病歷系統(tǒng),并在openEHR中實(shí)現(xiàn)醫(yī)療數(shù)據(jù)的提取功能.openEHR系統(tǒng)是一個(gè)開源、靈活的電子病歷系統(tǒng),支持HL7衛(wèi)生信息交換標(biāo)準(zhǔn).很多醫(yī)療健康組織、政府和學(xué)術(shù)科研單位都使用openEHR進(jìn)行開發(fā)和科研工作.如一種基于openEHR的患者病歷數(shù)據(jù)管理模型、openEHR等許多開源的電子病歷平臺(tái)的對比與評(píng)估和基于openEHR的檔案建模等.?dāng)?shù)據(jù)交換模塊:基于Web服務(wù)的數(shù)據(jù)交換模塊使用醫(yī)療數(shù)據(jù)通信協(xié)議實(shí)現(xiàn)醫(yī)療數(shù)據(jù)分析模塊與醫(yī)療數(shù)據(jù)提取模塊的數(shù)據(jù)交換.Web服務(wù)是一個(gè)平立、松耦合的Web應(yīng)用程序.由于Web服務(wù)的跨平臺(tái)特性,許多模型與框架是基于Web服務(wù)構(gòu)建的,如基于Web服務(wù)集成分布式資源和數(shù)據(jù)流分析測試等.在本文提出的醫(yī)療數(shù)據(jù)分析模型中,使用Web服務(wù)來連接醫(yī)療數(shù)據(jù)分析模塊和醫(yī)療數(shù)據(jù)提取模塊.醫(yī)療數(shù)據(jù)提取模塊作為Web服務(wù)的服務(wù)端,實(shí)現(xiàn)的方法包括存取數(shù)據(jù)、數(shù)據(jù)預(yù)處理、序列化等,改進(jìn)后的模型要求實(shí)現(xiàn)指定維度,指定屬性數(shù)據(jù)的讀取.本文提出的醫(yī)療數(shù)據(jù)分析模塊作為Web服務(wù)的客戶端,通過HTTP服務(wù)向數(shù)據(jù)提取模塊請求獲取數(shù)據(jù),并對數(shù)據(jù)進(jìn)行預(yù)處理.醫(yī)療數(shù)據(jù)分析模塊:我們使用Caisis開源平臺(tái)作為醫(yī)療數(shù)據(jù)分析與疾病預(yù)測系統(tǒng)實(shí)現(xiàn)這一模塊.Caisis是基于Web的開源癌癥數(shù)據(jù)管理系統(tǒng),一些臨床醫(yī)學(xué)研究使用Caisis系統(tǒng)管理和歸檔數(shù)字顯微圖像,通過向Caisis系統(tǒng)中添加特征選擇和SVM算法,使用SVM算法對醫(yī)療數(shù)據(jù)進(jìn)行分析和疾病預(yù)測,因此使用的特征選擇算法需要基于SVM,可以提高數(shù)據(jù)分析和疾病預(yù)測過程的效率和準(zhǔn)確度.
2數(shù)據(jù)分析模塊與算法
2.1SVM算法SVM算法最初是由Vapnik等人在1995年提出的一種可訓(xùn)練的機(jī)器學(xué)習(xí)算法.依據(jù)統(tǒng)計(jì)學(xué)習(xí)理論、VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論,從一定數(shù)目的樣本信息在學(xué)習(xí)能力和復(fù)雜度(對訓(xùn)練樣本的學(xué)習(xí)程度)中找到最佳折中,以期望獲得最好的推廣能力(或稱泛化能力).
2.2基于SVM的醫(yī)療數(shù)據(jù)分析模塊將SVM分類算法應(yīng)用到醫(yī)療數(shù)據(jù)分析模塊中,進(jìn)行疾病預(yù)測.基于SVM的醫(yī)療數(shù)據(jù)分析模塊,通過數(shù)據(jù)交換模塊獲取原始組數(shù)據(jù)(患病病人醫(yī)療數(shù)據(jù)和對照組病人數(shù)據(jù)).通過特征選擇過程輸入到SVM分類器中進(jìn)行訓(xùn)練,訓(xùn)練后可以對新的醫(yī)療數(shù)據(jù)進(jìn)行分析預(yù)測.
3改進(jìn)的醫(yī)療數(shù)據(jù)交換模塊
3.1醫(yī)療數(shù)據(jù)交換模塊在原始的醫(yī)療數(shù)據(jù)交換模塊中,數(shù)據(jù)請求原語只由4條通信原語組成.由原始醫(yī)療數(shù)據(jù)分析模型的3個(gè)模塊構(gòu)建,其中在醫(yī)療數(shù)據(jù)分析模塊與醫(yī)療數(shù)據(jù)提取模塊之間的4條通信原語包括2條請求和2條應(yīng)答.由于醫(yī)療數(shù)據(jù)的維度極大,屬性很多,但是在預(yù)測某個(gè)疾病時(shí),只有很少的一部分屬性會(huì)對分類預(yù)測產(chǎn)生影響.這樣的全部維度的數(shù)據(jù)都需要傳輸,浪費(fèi)了時(shí)間,降低了數(shù)據(jù)傳輸效率,影響了醫(yī)療數(shù)據(jù)分析模塊的算法效率.
3.2改進(jìn)的醫(yī)療數(shù)據(jù)交換模塊在改進(jìn)的醫(yī)療數(shù)據(jù)交換模塊中,在數(shù)據(jù)傳輸協(xié)議中增加了4條原語.在每條原語中不僅有醫(yī)療記錄條數(shù)的要求,還包括對所請求醫(yī)療數(shù)據(jù)維度和屬性的具體說明.醫(yī)療數(shù)據(jù)分析模塊先請求一小部分全部維度的數(shù)據(jù),對這小部分?jǐn)?shù)據(jù)進(jìn)行特征選擇.然后醫(yī)療數(shù)據(jù)分析模塊只請求特征選擇出來的對預(yù)測相關(guān)的屬性的剩余所有醫(yī)療數(shù)據(jù).最后通過SVM分類算法進(jìn)行訓(xùn)練和預(yù)測.在新的醫(yī)療數(shù)據(jù)交換模塊中,大部分?jǐn)?shù)據(jù)中只有小部分相關(guān)屬性被傳輸?shù)綌?shù)據(jù)分析模塊,極大地減少了數(shù)據(jù)傳輸總量,也同時(shí)增加了分析模塊預(yù)測算法的效率.
4原始模型與改進(jìn)模型的對比結(jié)果
對于使用數(shù)據(jù)的動(dòng)機(jī),除了對數(shù)據(jù)對象主體的認(rèn)知識(shí)別之外,還有要對數(shù)據(jù)呈現(xiàn)的顯性和隱性規(guī)律進(jìn)行發(fā)現(xiàn),從自然語言上看,腦力活動(dòng)對數(shù)據(jù)處理的第一步就是降低數(shù)據(jù)間的差異化,進(jìn)行熵減的分析行為。哲學(xué)家維特根斯坦認(rèn)為,對于哲學(xué)本質(zhì)的界定都屬無法言說之物,應(yīng)用到數(shù)據(jù)分析領(lǐng)域,數(shù)據(jù)存在一種由內(nèi)而外的泛化慣性,不斷對原有數(shù)據(jù)形成新的描述,造成數(shù)據(jù)陣營的擴(kuò)張,而其信息主體則是穩(wěn)定的,對描述性數(shù)據(jù)和活動(dòng)數(shù)據(jù)存在吸附力,屬于無法言說的本質(zhì)最邊緣。立足于這種思想觀點(diǎn),我們可以認(rèn)為貌似松散無序的數(shù)據(jù)間存在一種牢固的血緣數(shù)據(jù)關(guān)系,因?yàn)樗袛?shù)據(jù)都是基于信息主體泛化出的描述性和活動(dòng)性數(shù)據(jù),而這種熵減的動(dòng)作其表現(xiàn)形式可以等同于對數(shù)據(jù)血緣關(guān)系的向上追溯,技術(shù)上則表現(xiàn)為一種尋找最大扇出的上層。這樣,熵減的技術(shù)實(shí)現(xiàn)就是通過建立血緣關(guān)系而去尋找最大扇出的上層,這種分析法易于在數(shù)據(jù)發(fā)現(xiàn)應(yīng)用中,通過檢索建立模糊入口點(diǎn)去組織發(fā)現(xiàn)數(shù)據(jù),其與扇出或扇入點(diǎn)的血緣關(guān)系越近,入口點(diǎn)對其的吸附力越強(qiáng)、權(quán)重越高。但這樣會(huì)出現(xiàn)另一個(gè)無法回避的問題,即通過活動(dòng)在最外界的數(shù)據(jù)從體量上看相當(dāng)可觀,由外到內(nèi)追溯扇出上層的勞動(dòng)比較沉重,從而會(huì)理所當(dāng)然地采取抽樣的方式進(jìn)行,此項(xiàng)活動(dòng)的進(jìn)行必須假定數(shù)據(jù)世界觀上層的有限集合認(rèn)定上,堅(jiān)信必定會(huì)將血緣關(guān)系歸集到某幾個(gè)關(guān)鍵數(shù)據(jù)表達(dá)之上,這樣才會(huì)使本項(xiàng)活動(dòng)的實(shí)施行為具備基本的意義和價(jià)值。從效果上看,對數(shù)據(jù)進(jìn)行熵減有利于我們甄別數(shù)據(jù)關(guān)系隱含的內(nèi)在規(guī)律,也有利于我們建立具有良好適應(yīng)性的數(shù)據(jù)生態(tài)模型,為更好地認(rèn)識(shí)和利用數(shù)據(jù)打下基礎(chǔ)??梢院侠頃诚胍幌拢?dāng)我們就一個(gè)焦點(diǎn)議題開展討論后,熵減讓我們迅速聚焦到議題的內(nèi)核,甚至直面議題背后隱含的現(xiàn)象實(shí)質(zhì),不必糾纏于不必要的信息干擾,對討論內(nèi)核進(jìn)行強(qiáng)化呈現(xiàn),智力活動(dòng)所崇尚的方式也可以在計(jì)算活動(dòng)中得以體現(xiàn)。熵減在某種意義上不是對某一類數(shù)據(jù)分析所采取的手段,而是對數(shù)據(jù)認(rèn)識(shí)的宏觀行為,其在計(jì)算領(lǐng)域內(nèi)的呈現(xiàn)方式,與我們對事物自然認(rèn)知而采取的抽象和引申別無二致,如此深入下來,對熵減策略的研究更重要于對熵減活動(dòng)的歸納,通過對策略模型的推演,可以有效地發(fā)揮機(jī)器學(xué)習(xí)的能力,如果在策略模型的研究上實(shí)施開展,將會(huì)極大降低加工難度。
2建立標(biāo)簽關(guān)系的反向工程
當(dāng)我們框定了熵減的方法體系后,在數(shù)據(jù)間建立血緣關(guān)系則顯得尤為重要,由于數(shù)據(jù)生長動(dòng)力呈現(xiàn)由內(nèi)而外的泛化驅(qū)動(dòng),但是本身這種泛化在信息化過程中很多是無組織的行為,缺少邏輯上預(yù)先定義,所以數(shù)據(jù)生成后,大量的數(shù)據(jù)關(guān)系被衰減掉,從正向渠道難以對數(shù)據(jù)關(guān)系建立血緣,工程極其浩瀚復(fù)雜。由于血緣關(guān)系無法完全在數(shù)據(jù)生長中自然形成,正向人工干預(yù)又存在操作難度,所以反其道而行之則是唯一通道。數(shù)據(jù)加工的反向性,優(yōu)勢首先體現(xiàn)在由微觀到宏觀的加工難度大幅下降,因?yàn)槠涔ぷ魈幱诔橄蟮淖畹讓樱共捎帽姲J郊庸こ蔀榭赡?。其次,這種加工模式,可以在有效建立一種數(shù)據(jù)關(guān)系的閉環(huán)管理的同時(shí),不會(huì)抑制數(shù)據(jù)生長的空間和速率,不會(huì)因加工效率低而凝固數(shù)據(jù)資產(chǎn)化的進(jìn)程。在反向加工的過程中,需要通過標(biāo)簽聯(lián)結(jié)數(shù)據(jù)關(guān)系,這時(shí)候我們要關(guān)注標(biāo)簽的質(zhì)量和復(fù)用度,由于標(biāo)簽定義存在難度,所以要松綁標(biāo)簽定義來促成數(shù)據(jù)加工的快速實(shí)施,解決的重點(diǎn)則遷移到標(biāo)簽在后期管理中的智能化上。首先,可以通過標(biāo)簽在關(guān)系聯(lián)結(jié)中的重復(fù)出現(xiàn)進(jìn)行跟蹤,識(shí)別是標(biāo)簽二義性還是加工者的活動(dòng)差異。活動(dòng)差異標(biāo)簽最基本的處理方法是進(jìn)行聚合,形成知識(shí)歸納;二義標(biāo)簽則需要改進(jìn)表達(dá)。其次,依賴血緣關(guān)系建立可視化圖譜,從數(shù)據(jù)結(jié)構(gòu)工程里可以有效識(shí)別關(guān)系路徑的黏合點(diǎn),即發(fā)現(xiàn)重復(fù)路徑中出現(xiàn)的一個(gè)以上的標(biāo)簽,消除由知識(shí)結(jié)構(gòu)差異造成的人為誤會(huì),對標(biāo)簽進(jìn)行合并。這樣,通過標(biāo)簽的智能化后期管理就可以將加工難度上移,建立分層加工的工廠模式。這種加工存在基本準(zhǔn)則,并要建立基本的衡量尺度來保證標(biāo)簽有效性,加工工藝可以從標(biāo)簽質(zhì)量、使用度、命中率等指標(biāo)進(jìn)行測量。其中,質(zhì)量有賴于標(biāo)簽本身定義成分的內(nèi)涵,要確認(rèn)其被受眾廣泛理解;使用度是在加工活動(dòng)中的使用次數(shù),是否被數(shù)據(jù)關(guān)系廣泛應(yīng)用,使用度較低的標(biāo)簽要確認(rèn)其存在價(jià)值,通過標(biāo)簽間同時(shí)出現(xiàn)概率決定其含義表達(dá)是否具備唯一性;命中率則建立在使用者的自然需要基礎(chǔ)上,如果某一標(biāo)簽絕少被使用者利用或調(diào)度,與整體觀測結(jié)果是否存在數(shù)值上的明顯差異。整體上看,通過這些基本準(zhǔn)則建立標(biāo)簽管理的異常檢測分析,來保證加工質(zhì)量的方式具備技術(shù)的可行性,但同時(shí)更需要對后期的數(shù)據(jù)運(yùn)行建立領(lǐng)域指標(biāo)模型來校驗(yàn)。
3利用詞條原子化推導(dǎo)入口點(diǎn)
1.1資料來源
AEFI數(shù)據(jù)來源于中國疑似預(yù)防接種信息管理系統(tǒng)。疫苗接種數(shù)據(jù)來源于中國免疫規(guī)劃信息管理系統(tǒng)。1.2統(tǒng)計(jì)方法采用描述性流行病學(xué)方法,運(yùn)用EXCEL2007進(jìn)行統(tǒng)計(jì)分析。
2結(jié)果
2.1地區(qū)分布
2013年鞍山市共報(bào)告AEFI189例,與2012年相比(35例)上升了440%??h級(jí)AEFI報(bào)告覆蓋率100%。各縣(市、區(qū))AEFI報(bào)告數(shù)與2012年相比上升了55.56%~4200%。
2.2年齡與性別分布
男女性別比為1.49:1。報(bào)告例數(shù)排前位的年齡組分別是0歲組(101例,占53.44%)、1歲組(51例,占26.98%)、6歲組(23例,占12.17%)。
2.3疫苗和劑次分布
AEFI涉及的疫苗排前位的分別是:百白破疫苗(70例,占37.04%)、麻風(fēng)疫苗(36例,19.05%)、白破疫苗(23例,12.17%)。接種疫苗第1劑次發(fā)生AEFI128例,占67.73%;第2劑次18例,占9.52%;第3劑次17例,占8.99%;第4劑次26例,占13.76%。以疫苗單劑次統(tǒng)計(jì),AEFI涉及的疫苗排前位的分別是麻風(fēng)疫苗(36例)、第4劑次百白破疫苗(25例)、白破疫苗(23例)、第1劑次百白破疫苗(22例)。
2.4報(bào)告發(fā)生率
根據(jù)國家免疫規(guī)劃疫苗接種率監(jiān)測報(bào)告數(shù)據(jù)估算,2013年我市AEFI報(bào)告發(fā)生率為32.27/10萬劑次。國家免疫規(guī)劃各疫苗AEFI報(bào)告發(fā)生率波動(dòng)在3.82/10萬劑次~125.28/10萬劑次。報(bào)告發(fā)生率居前位的分別為:麻風(fēng)疫苗125.28/10萬劑次,白破疫苗84.57/10萬劑次,百白破疫苗65.17/10萬劑次。
3討論
整個(gè)系統(tǒng)以廣電大數(shù)據(jù)分析平臺(tái)為基礎(chǔ)構(gòu)建,系統(tǒng)由數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)分析中心、三個(gè)數(shù)據(jù)應(yīng)用中心(推薦中心、決策中心和服務(wù)中心)組成和系統(tǒng)管理模塊組成。
1.1數(shù)據(jù)采集系統(tǒng)
大數(shù)據(jù)時(shí)代,大數(shù)據(jù)有著來源復(fù)雜、體量巨大、價(jià)值潛伏等特點(diǎn),這使得大數(shù)據(jù)分析必然要依托計(jì)算機(jī)技術(shù)予以實(shí)現(xiàn).因此從兩個(gè)方向上加強(qiáng)數(shù)據(jù)采集統(tǒng)建設(shè),一是側(cè)重于數(shù)據(jù)的處理與表示,強(qiáng)調(diào)采集、存取、加工和可視化數(shù)據(jù)的方法;二是研究數(shù)據(jù)的統(tǒng)計(jì)規(guī)律,側(cè)重于對微觀數(shù)據(jù)本質(zhì)特征的提取和模式發(fā)現(xiàn),在兩個(gè)方向上的協(xié)同、均衡推進(jìn),以此來保障大數(shù)據(jù)平臺(tái)應(yīng)用的穩(wěn)健成長和可持續(xù)發(fā)展.廣電的網(wǎng)絡(luò)和用戶是其核心資產(chǎn),而其中流動(dòng)的數(shù)據(jù)(包括用戶基礎(chǔ)數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)管/日志數(shù)據(jù)、用戶位置數(shù)據(jù)、終端信息等)是核心數(shù)據(jù)資產(chǎn).對于廣電運(yùn)營商來說,最有價(jià)值的數(shù)據(jù)來自基礎(chǔ)網(wǎng)絡(luò),對于基礎(chǔ)網(wǎng)絡(luò)數(shù)據(jù)的挖掘和分析是運(yùn)營商大數(shù)據(jù)挖掘的最重要方向.因此其數(shù)據(jù)采集的目標(biāo)包括機(jī)頂盒數(shù)據(jù)、CRM數(shù)據(jù)、帳務(wù)數(shù)據(jù)、客服數(shù)據(jù)、運(yùn)維數(shù)據(jù)、媒資數(shù)據(jù)、GIS數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)和其他手工錄入、表格數(shù)據(jù).采集頻率要求可以實(shí)現(xiàn)實(shí)時(shí)采集和定時(shí)批量采集.采集這類數(shù)據(jù)帶來一個(gè)問題就是各類數(shù)據(jù)雜亂無章,會(huì)導(dǎo)致數(shù)據(jù)質(zhì)量問題越來越嚴(yán)重,通過引進(jìn)實(shí)時(shí)質(zhì)量監(jiān)控和清洗技術(shù),建設(shè)強(qiáng)大的分布式計(jì)算和集群能力,提高數(shù)據(jù)監(jiān)控和數(shù)據(jù)采集性能,利用分布式處理技術(shù),實(shí)現(xiàn)數(shù)據(jù)抽取、數(shù)據(jù)清洗以及相應(yīng)的數(shù)據(jù)質(zhì)量檢查工作,保證采集到高質(zhì)量的數(shù)據(jù),將廣電大數(shù)據(jù)中心建設(shè)成一個(gè)覆蓋廣電系統(tǒng)全部數(shù)據(jù)的存儲(chǔ)中心,具備采集各類結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)的處理能力.
1.2數(shù)據(jù)分析中心
廣電企業(yè)每時(shí)每刻都在產(chǎn)生大量的數(shù)據(jù),需要對這些數(shù)據(jù)歸集、提煉,廣電企業(yè)大數(shù)據(jù)平臺(tái)建設(shè)的意義在于有效掌握規(guī)模龐大的數(shù)據(jù)信息,對這些數(shù)據(jù)信息進(jìn)行智能處理,從中分析和挖掘出有價(jià)值的信息.在廣電大數(shù)據(jù)分析中需要對直播節(jié)目分析、互動(dòng)業(yè)務(wù)分析、互聯(lián)網(wǎng)流量分析、互聯(lián)網(wǎng)內(nèi)容分析、廣電客戶分析、市場收益分析、智能內(nèi)容推送和廣告分析等,通過這類數(shù)據(jù)分析,能夠?qū)崟r(shí)了解廣電運(yùn)營商的經(jīng)營狀況,提供決策支持.因此采用兩種方式分析方法對收集到的數(shù)據(jù)進(jìn)行分析處理.一是采用在線分析方法技術(shù),使分析人員能夠迅速、一致、交互地從各個(gè)方面觀察信息,以達(dá)到深入理解數(shù)據(jù)的目的.這些信息是從原始數(shù)據(jù)直接轉(zhuǎn)換過來的,他們以用戶容易理解的方式反映企業(yè)的真實(shí)情況.在線分析策略是將關(guān)系型的或普通的數(shù)據(jù)進(jìn)行多維數(shù)據(jù)存貯,以便于進(jìn)行分析,從而達(dá)到在線分析處理的目的.這種多維數(shù)據(jù)存儲(chǔ)可以被看作一個(gè)超立方體,沿著各個(gè)維方向存貯數(shù)據(jù),它允許分析人員沿事物的軸線方便地分析數(shù)據(jù),分析形式一般有切片和切塊以及下鉆、挖掘等操作.二是數(shù)據(jù)挖掘是從海量、不完全的、有噪聲的數(shù)據(jù)中挖據(jù)出隱含的、未知的、用戶可能感興趣的和對決策有潛在價(jià)值的知識(shí)和規(guī)則.這些規(guī)則蘊(yùn)含了數(shù)據(jù)庫中一組對象之間的特定關(guān)系,揭示出一些有用的信息,可以為經(jīng)營決策、市場策劃和金融預(yù)測等方面提供依據(jù).
1.3數(shù)據(jù)應(yīng)用中心
在大數(shù)據(jù)分析平臺(tái)應(yīng)用過程中,數(shù)據(jù)本身并不是數(shù)據(jù)分析和數(shù)據(jù)挖掘的重點(diǎn),重點(diǎn)在于如何應(yīng)用這些技術(shù)去解決企業(yè)在運(yùn)營中實(shí)際的商業(yè)問題.通過對數(shù)據(jù)分析和挖掘,了解企業(yè)運(yùn)行過程存在問題,預(yù)判企業(yè)中各類業(yè)務(wù)發(fā)展走向.對數(shù)據(jù)分析與挖掘結(jié)果來說主要有兩個(gè)方面,一是將分析結(jié)果給客戶使用,另一個(gè)是將分析結(jié)果提供給內(nèi)部用戶使用,因此在大數(shù)據(jù)分析平臺(tái)設(shè)計(jì)中,將數(shù)據(jù)應(yīng)用劃分為三個(gè)應(yīng)用中心:
1)推薦中心
推薦中心面向收視、寬帶使用用戶,通過分析使用用戶的收視、互聯(lián)網(wǎng)、消費(fèi)等行為,將使用用戶分群,總結(jié)群體特征,向不同群體推薦個(gè)性化的電視節(jié)目、廣告和增值應(yīng)用服務(wù).從而提升用戶的使用體驗(yàn),提升用戶的滿意度和粘度.
2)決策中心
決策中心面向廣電企業(yè)內(nèi)部決策者、管理者、經(jīng)營分析人員,通過對企業(yè)經(jīng)營數(shù)據(jù)的KPI、運(yùn)營監(jiān)控、經(jīng)營盤點(diǎn),使企業(yè)決策者掌握企業(yè)運(yùn)營狀況及發(fā)展趨勢;智能報(bào)告協(xié)助分析人員自動(dòng)定位經(jīng)營中的問題;即席查詢在預(yù)定義的語義層基礎(chǔ)上,實(shí)現(xiàn)靈活的自定義查詢;通過主題分析滿足各部門、崗位的多維度分析需求;通過專題分析就某一具體問題進(jìn)行深入挖掘,輔助專業(yè)分析人員的工作;統(tǒng)計(jì)報(bào)表滿足各部門常規(guī)統(tǒng)計(jì)需求.
3)服務(wù)中心
服務(wù)中心面向廣電的合作伙伴,比如:電視臺(tái)、廣告商、服務(wù)和內(nèi)容提供商、相關(guān)政府職能部門等.通過對使用用戶收視行為的實(shí)時(shí)分析,將電視欄目實(shí)時(shí)收視率提供給電視臺(tái),電視臺(tái)根據(jù)收視率進(jìn)行在線的問卷調(diào)查,提高電視臺(tái)的影響力,幫助其增強(qiáng)欄目的評(píng)價(jià)體系.為廣告商提供精準(zhǔn)的廣告投放策略,實(shí)時(shí)準(zhǔn)確的廣告投放評(píng)估,幫助廣告商提升廣告到達(dá)率、準(zhǔn)確度和營銷效果.為服務(wù)和內(nèi)容提供商的電影、電視和增值應(yīng)用等產(chǎn)品提升收視率和使用頻率,并進(jìn)行評(píng)估,為其提供受眾喜好特征,幫助其推出有針對性的產(chǎn)品.通過用戶收視數(shù)據(jù)、節(jié)目反饋等信息,將相關(guān)輿情向相關(guān)政府部門匯報(bào).
1.4系統(tǒng)管理
系統(tǒng)管理是大數(shù)據(jù)分析平臺(tái)一個(gè)輔助功能模塊,主要是為了系統(tǒng)管理員對大數(shù)據(jù)平臺(tái)進(jìn)行有效的監(jiān)控和管理,提升大數(shù)據(jù)分析平臺(tái)性能使用,包含有如下幾個(gè)模塊:權(quán)限管理、數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)管理、調(diào)度管理、系統(tǒng)監(jiān)控等.
2數(shù)據(jù)應(yīng)用分析
移動(dòng)互聯(lián)網(wǎng)的發(fā)展為傳統(tǒng)行業(yè)帶來了新的思考,如何在互聯(lián)網(wǎng)時(shí)代更好地實(shí)現(xiàn)以客戶為中心的服務(wù)理念,借助大數(shù)據(jù)分析平臺(tái)、海量的客戶非結(jié)構(gòu)化的行為數(shù)據(jù)和傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),可以有效提升廣電個(gè)性化、人性化的服務(wù)水平.大數(shù)據(jù)分析平臺(tái)通過整合廣電網(wǎng)絡(luò)中多個(gè)數(shù)據(jù)源,并按照主題進(jìn)行劃分,在定義主題的過程中,提供廣電業(yè)務(wù)概念的規(guī)范定義.?dāng)?shù)據(jù)模型不偏重于面向某個(gè)應(yīng)用,而是站在企業(yè)角度統(tǒng)攬全局,提供可擴(kuò)展的模型設(shè)計(jì),偏范式化的設(shè)計(jì)使平臺(tái)在最大程度上保持一致和靈活擴(kuò)展性.依托某廣電網(wǎng)絡(luò)公司業(yè)務(wù)開展情況,搭建數(shù)據(jù)分析平臺(tái),具有如圖2所示的主題結(jié)構(gòu),共計(jì)8大類53小類,從廣電網(wǎng)絡(luò)運(yùn)營的各個(gè)方面進(jìn)行了數(shù)據(jù)分析.
2.1直播節(jié)目分析主題
直播電視節(jié)目作為廣電運(yùn)營模式中一直沿用的產(chǎn)品類型,對于廣電用戶的影響和廣電運(yùn)營商運(yùn)營模式起著至關(guān)重要的作用.實(shí)時(shí)直播節(jié)目分析,用戶可以實(shí)時(shí)查看每個(gè)時(shí)間點(diǎn)上每個(gè)節(jié)目收視率,以此為據(jù)來指導(dǎo)產(chǎn)品定制、節(jié)目選擇、用戶推廣等方面的商業(yè)應(yīng)用,對直播節(jié)目的多維度分析,運(yùn)營商可深入分析直播節(jié)目收視特性及受眾影響規(guī)律,以指導(dǎo)運(yùn)營優(yōu)化,提高節(jié)目的收視率和營收.
2.2多媒體業(yè)務(wù)分析主題
廣電行業(yè)的雙向網(wǎng)絡(luò)改造不僅將視頻點(diǎn)播、通信及娛樂業(yè)務(wù)成為可能,同時(shí)配備增值業(yè)務(wù),如廣告、支付、股票、游戲、付費(fèi)節(jié)目等服務(wù).可以明顯看到哪類業(yè)務(wù)最受歡迎,哪類業(yè)務(wù)的增長趨勢良好,哪類業(yè)務(wù)應(yīng)用下滑得較快,哪類業(yè)務(wù)不受用戶歡迎,從這樣的分析結(jié)果中,可以為廣電網(wǎng)絡(luò)以后的業(yè)務(wù)引進(jìn)中提供指導(dǎo),避免引進(jìn)的業(yè)務(wù)不受用戶歡迎,同時(shí)也可以預(yù)見性的引進(jìn)一些代表將來趨勢性的業(yè)務(wù),提前做好業(yè)務(wù)儲(chǔ)備工作.互動(dòng)業(yè)務(wù)的互動(dòng)特性為廣電運(yùn)營商增加客戶粘度、制定產(chǎn)品投放策略、獲取最大化收益及市場價(jià)值提供了前所未有的空間,通過對互動(dòng)業(yè)務(wù)的應(yīng)用分析,可以分析出用戶的行為趨勢.利用這樣的分析結(jié)果改善廣電業(yè)務(wù)引進(jìn),提高用戶的粘度和ARPU值.
2.3互聯(lián)網(wǎng)應(yīng)用分析主題
廣電作為政府宣傳的喉舌,一個(gè)主要的特點(diǎn)就是可管可控,相對此而言,互聯(lián)網(wǎng)網(wǎng)絡(luò)一個(gè)重要特點(diǎn)就是用戶各類行為的不可控性.在三網(wǎng)融合的新環(huán)境下,廣電網(wǎng)絡(luò)一個(gè)重大改變就是引進(jìn)了互聯(lián)網(wǎng)業(yè)務(wù),同時(shí)通過多屏互動(dòng)技術(shù)使廣電終端類型日益復(fù)雜,如何對廣電網(wǎng)絡(luò)引進(jìn)的互聯(lián)網(wǎng)業(yè)務(wù)和終端進(jìn)行有效的管控,成為擺在廣電網(wǎng)絡(luò)運(yùn)營商面前一個(gè)重要課題.運(yùn)營商可以清晰地看到用戶在討論什么、在看什么,以此來分析用戶將來可能采取的行為趨勢,進(jìn)而來引導(dǎo)用戶輿論與行為,實(shí)現(xiàn)對廣電網(wǎng)絡(luò)的可管可控的最終目的.同時(shí)廣電網(wǎng)絡(luò)也可以利用互聯(lián)網(wǎng)數(shù)據(jù)從如下兩方面做了分析,運(yùn)營流量及應(yīng)用優(yōu)化,節(jié)省網(wǎng)絡(luò)帶寬,減少運(yùn)營費(fèi),同時(shí)用以提高用戶體驗(yàn)度,增加用戶粘性;充分利用線上、線下同步運(yùn)營模式,深入挖掘線上討論內(nèi)容,為線下運(yùn)營提供指導(dǎo).
2.4廣電客戶分析主題
在三網(wǎng)融合的環(huán)境下,廣電網(wǎng)絡(luò)在逐漸擺脫事業(yè)單位模式下經(jīng)營模式,向“市場驅(qū)動(dòng)”、“客戶驅(qū)動(dòng)”經(jīng)營模式的轉(zhuǎn)變,“以客戶為中心”的理念和策略不可或缺,而廣電網(wǎng)絡(luò)擁有的客戶群和常規(guī)用戶分析的客戶群體有著本質(zhì)區(qū)別,以往分析往往針對個(gè)體用戶進(jìn)行分析,廣電網(wǎng)絡(luò)面向的用戶通常是以家庭為單位的,這給廣電網(wǎng)絡(luò)用戶行為分析帶來不可預(yù)料的困難.通過針對用戶群體不同年齡、不同時(shí)間段的收視行為和上網(wǎng)行為分析,可以區(qū)分某一時(shí)間段內(nèi)該家庭用戶內(nèi)個(gè)人的行為,可以清晰看到各類用戶在各個(gè)階段的變化情況,以及這個(gè)變化給廣電網(wǎng)絡(luò)運(yùn)營帶來的變化.從用戶信息出發(fā),以用戶應(yīng)用行為為主線,深入挖掘用戶關(guān)系,為廣電用戶關(guān)系管理提供有效基礎(chǔ)數(shù)據(jù),提高用戶滿意度、忠誠度,提高廣電網(wǎng)絡(luò)市場運(yùn)作的主動(dòng)性.
2.5市場收益分析主題
三網(wǎng)融合后,廣電網(wǎng)絡(luò)作為一個(gè)市場主體,需要適應(yīng)日趨激烈的市場競爭環(huán)境,提升廣電運(yùn)營商的企業(yè)核心競爭力,應(yīng)充分利用業(yè)務(wù)支撐系統(tǒng)產(chǎn)生的大量寶貴的數(shù)據(jù)資源,建立廣電企業(yè)收益分析系統(tǒng),實(shí)現(xiàn)對收益數(shù)據(jù)的智能化加工和處理,為市場運(yùn)營工作提供及時(shí)、準(zhǔn)確、科學(xué)的決策依據(jù).利用先進(jìn)的OLAP技術(shù)和數(shù)據(jù)挖掘技術(shù),幫助企業(yè)的經(jīng)營決策層了解企業(yè)經(jīng)營的現(xiàn)狀,發(fā)現(xiàn)企業(yè)運(yùn)營的優(yōu)勢和劣勢,預(yù)測未來趨勢;幫助細(xì)分市場和客戶,指導(dǎo)營銷、客服部門進(jìn)行有針對性的營銷和高效的客戶關(guān)系管理;對決策的執(zhí)行情況和結(jié)果進(jìn)行客觀準(zhǔn)確的評(píng)估,深受用戶的青睞.如圖7所示的收益分析結(jié)果,可以清晰看出企業(yè)各類業(yè)務(wù)在營收中所占比例,可以明確了解哪類業(yè)務(wù)是企業(yè)的優(yōu)質(zhì)業(yè)務(wù),哪類業(yè)務(wù)需要進(jìn)一步加強(qiáng)開拓市場,同時(shí)也可以預(yù)測哪類業(yè)務(wù)會(huì)有更大的推廣空間,為企業(yè)持續(xù)開展業(yè)務(wù)提供指導(dǎo).
2.6智能內(nèi)容推送主題
深層次挖掘用戶潛在的需求,以用戶的需求為導(dǎo)向,向用戶推送有針對性的內(nèi)容.廣電運(yùn)營商通過對用戶差異性的運(yùn)營策略,激發(fā)用戶參與的熱情,讓用戶有持續(xù)的良好體驗(yàn),提升對用戶的吸引力和黏著度.信息精準(zhǔn)、智能推送的關(guān)鍵在于把握住用戶的行為習(xí)慣,同時(shí)讓每一個(gè)用戶都可以按自己需求方便、快捷地調(diào)整、歸類相關(guān)信息.大數(shù)據(jù)分析平臺(tái)基于用戶行為收集分析系統(tǒng),挖掘出用戶潛在需求,充分了解了用戶的真實(shí)意愿,將有助于廣電運(yùn)營商建立以客戶為中心的服務(wù)理念,提升社會(huì)影響力.
3總結(jié)
隨著煙草行業(yè)信息化推進(jìn)現(xiàn)代化進(jìn)程的快速發(fā)展,新興的IT技術(shù)、先進(jìn)的IT技術(shù)等已不斷融入到煙草行業(yè)的生產(chǎn)、營銷及管理等過程中,逐漸改變了煙草行業(yè)原有的經(jīng)營管理模式,加快了煙草行業(yè)結(jié)構(gòu)調(diào)整,完善管理體制,提升市場競爭力??梢哉f,信息化建設(shè)給煙草行業(yè)帶來了改革與發(fā)展。因此,對新興技術(shù)的研究與探索,具有十分重要的意義。尤其是視頻監(jiān)控技術(shù)的發(fā)展,給煙草行業(yè)的帶來了較多的好處,煙草從種植、生產(chǎn)、流通、消費(fèi)的每個(gè)環(huán)節(jié)中,視頻監(jiān)控技術(shù)都發(fā)揮了重要作用。視頻大數(shù)據(jù)分析技術(shù)是近兩年興起的技術(shù),視頻大數(shù)據(jù)分析的應(yīng)用,在公安視頻偵查等中已突顯其發(fā)展前景,本文將針對煙草行業(yè),討論視頻大數(shù)據(jù)分析的發(fā)展應(yīng)用。
2視頻監(jiān)控在煙草行業(yè)的發(fā)展及應(yīng)用現(xiàn)狀
(1)煙田監(jiān)控:實(shí)現(xiàn)對煙田、育苗大棚內(nèi)實(shí)時(shí)監(jiān)控;
(2)煙葉收購站監(jiān)控:實(shí)現(xiàn)對煙草所有站點(diǎn)煙葉收購全流程監(jiān)控視頻調(diào)看、查詢、巡視、控制的功能;
(3)生產(chǎn)及公用設(shè)施區(qū)監(jiān)控:主要用于監(jiān)控車間內(nèi)重要設(shè)備、生產(chǎn)線運(yùn)行、物流線路及環(huán)境狀況,以及動(dòng)力中心車間內(nèi)空調(diào)、鍋爐等重要設(shè)備的運(yùn)行及環(huán)境狀況,防止災(zāi)害和事故的發(fā)生。
(4)煙草物流配送中心監(jiān)控:對物流配送中心進(jìn)行實(shí)時(shí)監(jiān)控;
3視頻大數(shù)據(jù)分析的技術(shù)需求
隨著視頻監(jiān)控在煙草行業(yè)的大規(guī)模應(yīng)用,視頻數(shù)據(jù)量的增加,每天產(chǎn)生的數(shù)據(jù)量都是以TB(1000GB)級(jí)別計(jì)算的,若是利用傳統(tǒng)的技術(shù)手段對每天的視頻進(jìn)行檢索和分析,則需要數(shù)小時(shí)的時(shí)間才能夠完成,工作量及工作難度可想而知;而對于更高級(jí)別的視頻數(shù)據(jù),如PB(1000TB)級(jí)別的視頻數(shù)據(jù)進(jìn)行分析和檢索時(shí)間那就是很多天了。視頻檢索與分析的效率低下,也是目前視頻數(shù)據(jù)利用效率及數(shù)據(jù)價(jià)值低下的首要原因。為此,如何提高視頻數(shù)據(jù)分析與檢索的效率,如何針對PB(1000TB)級(jí)別甚至EB(1000PB)級(jí)別的海量數(shù)據(jù)進(jìn)行分析與檢索,提升視頻監(jiān)控?cái)?shù)據(jù)價(jià)值,成為了當(dāng)前用戶的首要需求,也成為了當(dāng)前視頻大數(shù)據(jù)分析技術(shù)的難點(diǎn)及關(guān)鍵點(diǎn)之一。同時(shí),在對視頻進(jìn)行檢索與分析的過程中,需要考慮檢索結(jié)果的準(zhǔn)確性。由于視頻圖像信息為非結(jié)構(gòu)化數(shù)據(jù),如何合理有效地對非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行檢索分析,優(yōu)化計(jì)算機(jī)圖像識(shí)別算法,是提高視頻大數(shù)據(jù)分析準(zhǔn)確性關(guān)鍵所在。再者,當(dāng)完成視頻檢索與分析后,如何做好視頻數(shù)據(jù)與非視屏數(shù)據(jù)的整合與關(guān)聯(lián)工作,是后期視頻數(shù)據(jù)應(yīng)用時(shí)重點(diǎn)考慮的內(nèi)容。
4視頻大數(shù)據(jù)在煙草行業(yè)的應(yīng)用思考
時(shí)下,煙田監(jiān)控、煙葉收購站監(jiān)控、生產(chǎn)及公用設(shè)施區(qū)監(jiān)控、煙草物流配送中心監(jiān)控等的視頻監(jiān)控?cái)?shù)據(jù)較多僅僅用作安防視頻使用,還未涉及到與煙草業(yè)務(wù)的關(guān)聯(lián);隨著視頻監(jiān)控建設(shè)的完善及視頻大數(shù)據(jù)技術(shù)發(fā)展,各類監(jiān)控視頻數(shù)據(jù)量的增加,考慮到投資回報(bào)比,是否可以通過視頻大數(shù)據(jù)分析,將煙草業(yè)務(wù)與視頻監(jiān)控相關(guān)聯(lián),在海量的視頻監(jiān)控?cái)?shù)據(jù)中提取有益于煙草行業(yè)發(fā)展的變革或新技術(shù)呢?
4.1安防業(yè)務(wù)
基于傳統(tǒng)視頻監(jiān)控,安防業(yè)務(wù)是傳統(tǒng)業(yè)務(wù)之一,通過大數(shù)據(jù)分析,有效快捷的提取安防所需要的視頻片段。同時(shí)基于視頻行為告警策略,及時(shí)告警。
4.2安全生產(chǎn)
結(jié)合視頻大數(shù)據(jù)分析,將以往多次生產(chǎn)事故監(jiān)控視頻整合,通過對多次生產(chǎn)安全事故的分析,總結(jié)出更為安全可靠的生產(chǎn)規(guī)則;再則通過視頻監(jiān)控與生產(chǎn)行為的結(jié)合,制定安全生產(chǎn)標(biāo)準(zhǔn),通過聲音報(bào)警或警示燈報(bào)警等技術(shù),在不符合標(biāo)準(zhǔn)視頻監(jiān)控預(yù)定義的安全規(guī)則情況時(shí),能夠及時(shí)報(bào)警。通過視頻監(jiān)控分析,提升生產(chǎn)的安全性。如采用彩色網(wǎng)絡(luò)快球攝像機(jī)和彩色固定網(wǎng)絡(luò)槍式攝像機(jī),彩色網(wǎng)絡(luò)快球攝像機(jī)的預(yù)制位設(shè)置應(yīng)優(yōu)先,根據(jù)視頻大數(shù)據(jù)分析后,系統(tǒng)可提供不同故障區(qū)域或設(shè)備的故障信號(hào),各工藝段或設(shè)備的操作運(yùn)行信號(hào),通過系統(tǒng)集成與生產(chǎn)監(jiān)控實(shí)現(xiàn)聯(lián)動(dòng),平常攝像機(jī)對正在操作或運(yùn)行設(shè)備進(jìn)行監(jiān)控,一旦某個(gè)故障點(diǎn)報(bào)警,攝像機(jī)立刻自動(dòng)轉(zhuǎn)動(dòng)到報(bào)警點(diǎn),監(jiān)控中心的NVR主機(jī)開始錄像等。
4.3效率生產(chǎn)
結(jié)合視頻大數(shù)據(jù)分析,通過分析各個(gè)不同煙站或煙廠中的同一種生產(chǎn)行為,結(jié)合對海量數(shù)據(jù)進(jìn)行智能分析,提取出價(jià)值數(shù)據(jù)片段,形成元數(shù)據(jù)信息庫,再通過人為加工后期數(shù)據(jù),總結(jié)形成效率生產(chǎn)有用的價(jià)值信息,提供生產(chǎn)借鑒,提高生產(chǎn)效率。
4.4創(chuàng)新生產(chǎn)
通過視頻大數(shù)據(jù)分析,將以往的視頻通過軌跡分析,得出以往生產(chǎn)過程中各類生產(chǎn)動(dòng)作中不必要或者多余的部分,簡化或者優(yōu)化生產(chǎn)規(guī)則;通過對給類生產(chǎn)行為的總結(jié),提出合理的建議,為生產(chǎn)提出創(chuàng)新性意見或建議,提高生產(chǎn)率。
5結(jié)論
系統(tǒng)主要實(shí)現(xiàn)軟件的模塊話設(shè)計(jì),包括反射率數(shù)據(jù)分析模塊、速度分析模塊、天線運(yùn)行穩(wěn)定性分析模塊以及雷達(dá)組網(wǎng)數(shù)據(jù)分析模塊。
1.1反射率分析模塊
反射率的大小體現(xiàn)了氣象目標(biāo)的降水粒子的密度分布及體積大小,在實(shí)際氣象技術(shù)中長期用于表示氣象目標(biāo)的強(qiáng)度,在工作上采用dBZ單位表示。對于空管氣象雷達(dá)圖,數(shù)據(jù)顯示采用PPI(PlanPositionImage)顯示方式。該方式?jīng)Q定了一張氣象雷達(dá)圖由圓錐俯視平面上分析空間的回波構(gòu)成。在設(shè)計(jì)上簡單介紹其設(shè)計(jì)流程,首先必須讀取原始數(shù)據(jù),并判斷是否首次讀取,若為首次讀取則對其進(jìn)行預(yù)處理,否則進(jìn)行坐標(biāo)轉(zhuǎn)換;其次進(jìn)行圖像繪制并判斷是否需要改變仰角。此處需要關(guān)注的關(guān)鍵是如何進(jìn)行數(shù)據(jù)的預(yù)處理。在實(shí)現(xiàn)上,對接收的數(shù)據(jù)進(jìn)行反射率信息結(jié)構(gòu)體賦值。當(dāng)然該結(jié)構(gòu)體包括了記錄實(shí)際仰角角度、數(shù)據(jù)文件路徑存儲(chǔ)、雷達(dá)波段判斷以及相關(guān)數(shù)據(jù)的偏移。通過掃描上述結(jié)構(gòu)體可以實(shí)現(xiàn)對雷達(dá)數(shù)據(jù)的預(yù)處理。
1.2速度分析模塊
多普勒雷達(dá)采用了速度退化模糊技術(shù)以擴(kuò)大其對徑向風(fēng)速測量不模糊的區(qū)間。結(jié)構(gòu)設(shè)計(jì)主要考慮數(shù)據(jù)顯示的徑向方式,流程設(shè)計(jì)則與反射模塊類似。當(dāng)然在界面設(shè)計(jì)上,系統(tǒng)將提供對顏色配置的定義,使其人機(jī)交互更為快捷。
1.3天線穩(wěn)定性分析模塊
天線是雷達(dá)數(shù)據(jù)采集的關(guān)鍵部位,長期以來是影響雷達(dá)運(yùn)行的主要關(guān)鍵點(diǎn)之一。其依賴于底下的電機(jī)進(jìn)行旋轉(zhuǎn),目前大多數(shù)進(jìn)口電機(jī)可以保證24小時(shí)安全運(yùn)行。而運(yùn)行時(shí)仰角提升和轉(zhuǎn)速的平穩(wěn)性直接影響雷達(dá)數(shù)據(jù)的采集。為此,我們通過在徑向數(shù)據(jù)上采用方位角及仰角進(jìn)行掃描實(shí)現(xiàn)曲線圖監(jiān)控。通過選擇基數(shù)據(jù)再進(jìn)行預(yù)處理后繪制相關(guān)曲線實(shí)現(xiàn)對天線運(yùn)行狀態(tài)的評(píng)估。其中,曲線圖的繪制需要的參數(shù)為:縱坐標(biāo)為氣象雷達(dá)實(shí)際運(yùn)行的每層仰角均值;橫坐標(biāo)為范圍角:0-360°。
1.4雷達(dá)組網(wǎng)分析模塊
按照民航局的總體規(guī)劃,未來空管將實(shí)現(xiàn)多氣象雷達(dá)覆蓋,在這過程,多個(gè)氣象雷達(dá)的組網(wǎng)將成為氣象雷達(dá)數(shù)據(jù)的主要來源。這種模式將使得數(shù)據(jù)覆蓋面更大、數(shù)據(jù)安全性更高、數(shù)據(jù)準(zhǔn)確性更強(qiáng)。而與此同時(shí)帶來了雷達(dá)數(shù)據(jù)融合組網(wǎng)的技術(shù)難點(diǎn)。設(shè)計(jì)上,首先模塊將定義雷達(dá)站點(diǎn)配置信息,并與此同時(shí)提供組網(wǎng)雷達(dá)可選數(shù)據(jù);其次對選擇雷達(dá)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;再之則對雷達(dá)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)平均并做坐標(biāo)轉(zhuǎn)換;最后進(jìn)行拼圖處理。在這過程中,需要對雷達(dá)數(shù)據(jù)的強(qiáng)度進(jìn)行自適應(yīng)調(diào)整、顯示范圍自適應(yīng)調(diào)整。與上述同理,系統(tǒng)核心在于預(yù)處理。在C#中定義List數(shù)據(jù)列表,并在定義其結(jié)構(gòu)為[站點(diǎn)標(biāo)示][距離][方位角],對于數(shù)據(jù)讀取時(shí),需要進(jìn)行插值算法處理,此時(shí)的單時(shí)數(shù)據(jù)拼接分析可以實(shí)現(xiàn)不同仰角和方位角的篩選。為了控制系統(tǒng)數(shù)據(jù)的準(zhǔn)確性可以在前端定義雷達(dá)數(shù)據(jù)方位角表,根據(jù)表進(jìn)行映射處理。通常如若出現(xiàn)非連續(xù)數(shù)據(jù)可以在預(yù)處理上對其進(jìn)行差值補(bǔ)償。在C#上可以采用反差圓補(bǔ)償方法。
2.結(jié)束語
1.1數(shù)據(jù)采集
數(shù)據(jù)的采集是指利用傳感器、社交網(wǎng)絡(luò)以及移動(dòng)互聯(lián)網(wǎng)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的海量數(shù)據(jù),這是一切數(shù)據(jù)分析的基礎(chǔ)。數(shù)據(jù)的采集需要解決分布式高速高可靠數(shù)據(jù)的采集、高速數(shù)據(jù)全映像等數(shù)據(jù)收集技術(shù)。還要設(shè)計(jì)質(zhì)量評(píng)估模型,開發(fā)數(shù)據(jù)質(zhì)量技術(shù)。而數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識(shí)別體系及軟硬件資源接入系統(tǒng),實(shí)現(xiàn)對海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理等。
1.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)采集的過程本身就有會(huì)有很多數(shù)據(jù)庫,但如果想達(dá)到有效分析海量數(shù)據(jù)的目的,就必將這些來自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫,或者分布式存儲(chǔ)集群,而且在導(dǎo)入基礎(chǔ)上做一些簡單的辨析、抽取、清洗等操作。
①抽?。阂?yàn)槲覀兺ㄟ^各種途徑獲取的數(shù)據(jù)可能存在多種結(jié)構(gòu)和類型,而數(shù)據(jù)抽取過程可以有效地將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)換為單一的結(jié)構(gòu)或者便于處理的類型。以達(dá)到快速分析處理的目的。
②清洗:對于海量數(shù)據(jù)而言,數(shù)據(jù)所處的價(jià)值層次不一樣,就必然存在由于價(jià)值低而導(dǎo)致開發(fā)成本偏大的數(shù)據(jù),還有與數(shù)據(jù)分析毫無關(guān)系的數(shù)據(jù),而另一些數(shù)據(jù)則是完全錯(cuò)誤的干擾項(xiàng),所以對數(shù)據(jù)通過過濾“去噪”從而提取出有效數(shù)據(jù)是十分重要的步驟。
1.3數(shù)據(jù)的存儲(chǔ)與管理
當(dāng)我們采集數(shù)據(jù)完成后,就需要將其存儲(chǔ)起來統(tǒng)一管理,主要途徑就是建立相應(yīng)的數(shù)據(jù)庫,進(jìn)行統(tǒng)一管理和調(diào)用。在此基礎(chǔ)上,需要解決大數(shù)據(jù)的可存儲(chǔ)、可表示、可處理、可靠性及有效傳輸?shù)葞讉€(gè)關(guān)鍵問題。還需開發(fā)可靠的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲(chǔ)、計(jì)算融入存儲(chǔ)、數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲(chǔ)技術(shù);以及分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù)、異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù)、數(shù)據(jù)組織技術(shù)、研究大數(shù)據(jù)建模技術(shù)、索引、移動(dòng)、備份、復(fù)制、可視化技術(shù)。
1.4數(shù)據(jù)的統(tǒng)計(jì)分析
一般情況下,統(tǒng)計(jì)與分析主要就是利用分布式數(shù)據(jù)庫,或者分布式計(jì)算集群來對存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會(huì)有極大的占用。
1.5數(shù)據(jù)分析與挖掘
所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫中的大量不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,揭示出隱含的、先前未知的并有潛在價(jià)值的信息的過程。與前面統(tǒng)計(jì)和分析過程不同的是,數(shù)據(jù)挖掘一般不會(huì)有預(yù)先設(shè)計(jì)好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(Predict)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型的算法有用于聚類的K-means、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
2數(shù)據(jù)分析的8個(gè)層次
2.1標(biāo)準(zhǔn)化報(bào)告(StandardReports)
標(biāo)準(zhǔn)化報(bào)告作為數(shù)據(jù)分析的第一個(gè)層次,要求相對較低,主要是借助相應(yīng)的統(tǒng)計(jì)工具對數(shù)據(jù)進(jìn)行歸納總結(jié),得出包含主要參數(shù)指標(biāo)的標(biāo)準(zhǔn)化報(bào)告。類似于一個(gè)銷售企業(yè)每月或者每季度的財(cái)務(wù)報(bào)表。
2.2即席查詢(AdHocReports)
用戶可以通過自己的需求,靈活地選擇查詢條件,系統(tǒng)就能夠根據(jù)用戶的需求選擇生成相應(yīng)的統(tǒng)計(jì)報(bào)表。即席查詢與普通應(yīng)用查詢最大的不同是普通的應(yīng)用查詢是定制開發(fā)的,而即席查詢所有的查詢條件都是用戶自己定義的。在面向高層的數(shù)據(jù)分析軟件中,用戶隨意添加想要查詢的指標(biāo)按鈕再加上相應(yīng)的限制條件,就可以立即生成可視化的統(tǒng)計(jì)結(jié)果,不僅一目了然,而且沒有任何操作難度。
2.3多維分析(QueryDrilldown)
多維分析是指對具有多個(gè)維度和指標(biāo)所組成的數(shù)據(jù)模型進(jìn)行的可視化分析手段的統(tǒng)稱,常用的分析方式包括:下鉆、上卷、切片(切塊)、旋轉(zhuǎn)等各種分析操作。以便剖析數(shù)據(jù),使分析者、決策者能從多個(gè)角度多個(gè)側(cè)面觀察數(shù)據(jù),從而深入了解包含在數(shù)據(jù)中的信息和內(nèi)涵。上卷是在數(shù)據(jù)立方體中執(zhí)行聚集操作,通過在維級(jí)別中上升或通過消除某個(gè)或某些維來觀察更概括的數(shù)據(jù)。上卷的另外一種情況是通過消除一個(gè)或者多個(gè)維來觀察更加概括的數(shù)據(jù)。下鉆是在維級(jí)別中下降或者通過引入某個(gè)或者某些維來更細(xì)致地觀察數(shù)據(jù)。切片是在給定的數(shù)據(jù)立方體一個(gè)維上進(jìn)行的選擇操作,切片的結(jié)果是得到了一個(gè)二維的平面數(shù)據(jù)(切塊是在給定的數(shù)據(jù)立方體的兩個(gè)或者多個(gè)維上進(jìn)行選擇操作,而切塊的結(jié)果是得到了一個(gè)子立方塊)。轉(zhuǎn)軸相對比較簡單,就是改變維的方向。
2.4儀表盤與模擬分析(Alerts)
儀表盤用于監(jiān)控一些關(guān)鍵指標(biāo)。模擬分析是由操作者動(dòng)態(tài)地加以調(diào)節(jié)的控件(如滑動(dòng)塊、可調(diào)旋鈕、選擇框等),來控制管理決策模型行為某些參數(shù)。當(dāng)操作者通過控制面板對模型中的參數(shù)值或變量值進(jìn)行調(diào)節(jié)時(shí),圖形中的曲線、柱形組或分析指標(biāo)等要素就會(huì)發(fā)生相應(yīng)的運(yùn)動(dòng),而這種運(yùn)動(dòng)正好反映了該參數(shù)的變化對模型行為的影響,如果這種變動(dòng)引起了模型中最優(yōu)解或其他關(guān)鍵數(shù)字的變化,能夠隨時(shí)將關(guān)于這種變化的結(jié)論正確地顯示出來。
2.5統(tǒng)計(jì)分析(StatisticallyAnalysis)
我們知道概率論是數(shù)理統(tǒng)計(jì)的基礎(chǔ),數(shù)理統(tǒng)計(jì)是在其基礎(chǔ)上研究隨機(jī)變量,并應(yīng)用概率論的知識(shí)做出合理的估計(jì)、推斷與預(yù)測。概率論中討論的各種分布在數(shù)理統(tǒng)計(jì)中作為統(tǒng)計(jì)模型來分析處理帶有隨機(jī)誤差的數(shù)據(jù)。典型的數(shù)理統(tǒng)計(jì)方法有參數(shù)估計(jì)、假設(shè)檢驗(yàn)和回歸分析。而統(tǒng)計(jì)分析主要是對用戶所關(guān)注的問題進(jìn)行推斷、預(yù)測和控制的分析方法。具體可以分為以下三方面:
①描述統(tǒng)計(jì):主要是集中趨勢、離散程度、分布形狀等,統(tǒng)計(jì)圖(方圖、箱線圖、散點(diǎn)圖等);
②數(shù)據(jù)的分類匯總;
③基礎(chǔ)統(tǒng)計(jì)分析:方差分析、時(shí)間序列分析、相關(guān)和回歸分析、(主成分)因子分析等統(tǒng)計(jì)分析方法。
2.6預(yù)測(Forecasting)
在統(tǒng)計(jì)分析和數(shù)據(jù)挖掘領(lǐng)域,對未來的預(yù)測已經(jīng)有了很多數(shù)學(xué)模型以及解決具體問題的相關(guān)算法。其核心思想便是從歷史數(shù)據(jù)中找出數(shù)據(jù)的發(fā)展模式,然后以這些模式為支點(diǎn),就可以對未來進(jìn)行預(yù)測。
2.7預(yù)測模型(PredictiveModeling)
隨著數(shù)據(jù)分析學(xué)家對數(shù)據(jù)挖掘技術(shù)的不斷探索,出現(xiàn)了很多預(yù)測模型以及與之相對應(yīng)的算法,但是很難確定某個(gè)模型是最精確的,因?yàn)椴煌念I(lǐng)域,不同的條件,對應(yīng)的預(yù)測模型是不一樣的,所以沒有統(tǒng)一化的最優(yōu)模型,只存在有選擇性的最優(yōu)模型。下面介紹幾種典型的預(yù)測模型。
①回歸模型:回歸模型可以分為一元線性回歸模型和多元線性回歸模型。一元線性回歸模型可表示為yt=b0+b1xt+ut,該式表示變量yt和xt之間的真實(shí)關(guān)系。其中yt稱作被解釋變量(或相依變量、因變量),xt稱作解釋變量(或獨(dú)立變量、自變量),ut稱作隨機(jī)誤差項(xiàng),b0稱作常數(shù)項(xiàng)(截距項(xiàng)),b1稱作回歸系數(shù)。b0+b1xt是非隨機(jī)部分,ut是隨機(jī)部分。而在很多情況下,回歸模型必包含兩個(gè)或更多自變量才能夠適應(yīng)地描述經(jīng)濟(jì)現(xiàn)象各相關(guān)量之間的聯(lián)系,這就是多元線性回歸模型需要解決的問題,其一般形式為:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是這個(gè)多元回歸問題的m個(gè)自變量,b1、b2、…、bm是回歸方程對應(yīng)于各自變量的系數(shù),又稱偏回歸系數(shù)。
②貝葉斯網(wǎng)絡(luò):貝葉斯網(wǎng)絡(luò)是基于概率推理的數(shù)學(xué)模型,而概率推理是通過一些產(chǎn)量的信息來獲取其他概率信息的過程。貝葉斯網(wǎng)絡(luò)會(huì)建立一個(gè)有向無環(huán)圖和一個(gè)概率表集合,有向無環(huán)圖中的每一個(gè)節(jié)點(diǎn)便是一個(gè)隨機(jī)變量,而有向邊表示隨機(jī)變量間的條件依賴,條件概率表中的每一個(gè)元素對應(yīng)有向無環(huán)圖中唯一的節(jié)點(diǎn),存儲(chǔ)此節(jié)點(diǎn)對其所有直接前驅(qū)節(jié)點(diǎn)的條件概率。貝葉斯網(wǎng)絡(luò)是為了解決不定性與不完整性問題而提出的,在多個(gè)領(lǐng)域中獲得廣泛應(yīng)用。
③基于時(shí)間序列分析的指數(shù)平滑模型在時(shí)間序列分析中指數(shù)平滑模型是最靈活和準(zhǔn)確的方法,在經(jīng)濟(jì)領(lǐng)域也被證明是最有效的預(yù)測模型。在不同的時(shí)間序列下,指數(shù)平滑模型可以分為簡單指數(shù)平滑法、帶有趨勢調(diào)整的指數(shù)平滑法、帶有阻尼趨勢的指數(shù)平滑法、簡單季節(jié)指數(shù)平滑法、帶有趨勢和季節(jié)調(diào)整的指數(shù)平滑法五種不復(fù)雜度的模型。
2.8最優(yōu)化
(Optimization)因?yàn)閮?yōu)化問題往往可以帶來巨額的收益,通過一系列可行的優(yōu)化,可以使收益得到顯著提高。所謂最優(yōu)化就是從有限或者無限種可行的方案中選取最優(yōu)的方案。如果可以通過簡單的評(píng)判,就可以確定最優(yōu)方案那是最好的。但是事實(shí)不會(huì)那么簡單,所以優(yōu)化技術(shù)已經(jīng)發(fā)展出了一系列的理論來解決實(shí)際問題。其常用的優(yōu)化技術(shù)為:
①線性規(guī)劃:當(dāng)目標(biāo)函數(shù)與約束函數(shù)都是線性函數(shù)時(shí),就是一個(gè)線性規(guī)劃問題。而當(dāng)同時(shí)滿足約束函數(shù)和目標(biāo)函數(shù)時(shí),則可以認(rèn)為是最優(yōu)解。
②整數(shù)規(guī)劃:要求決策變量取整數(shù)值的數(shù)學(xué)規(guī)劃。
③多目標(biāo)規(guī)劃:指衡量一個(gè)決策優(yōu)劣的標(biāo)準(zhǔn)不止一個(gè),也就是有多目標(biāo)函數(shù)。
④動(dòng)態(tài)規(guī)劃:將一個(gè)復(fù)雜的問題劃分為多個(gè)階段,逐段求解,最終求出全局最優(yōu)解。
3用Excel實(shí)現(xiàn)簡單的數(shù)據(jù)分析
①對于企業(yè)而言最重要的是利潤,所以管理者必須要從這張表中得到最關(guān)鍵也最容易得到的銷量和銷售額以及與其相關(guān)的一些數(shù)據(jù),通常是用最基本的數(shù)理統(tǒng)計(jì)結(jié)果來直觀地反映該企業(yè)在某個(gè)期間的盈利情況。
②其次,我們必須要做進(jìn)一步的分析。已經(jīng)對整體的情況有了一定的把握,所以就可以朝著不同的方向去挖掘一些有價(jià)值的信息,為企業(yè)高層做決策提供有力的依據(jù)。對產(chǎn)品銷售而言,客戶結(jié)構(gòu)能夠有效地反映客戶的地域分布,企業(yè)可以根據(jù)客戶的來源,在未開辟客戶的地域去尋找新的目標(biāo)客戶群。而銷量結(jié)構(gòu)可以直觀地反映企業(yè)最大銷量來自哪個(gè)地區(qū),對銷量較小的地區(qū)可以加大宣傳力度或者增加銷售網(wǎng)點(diǎn)來保持各地區(qū)銷售均衡。還可以及時(shí)地調(diào)整銷售方式來擴(kuò)大市場份額,而對于銷量最小的地區(qū)考慮開辟新的市場。
統(tǒng)計(jì)了各地區(qū)的銷售總額和平均銷售額以及兩者的對比關(guān)系。由此可以得出地區(qū)平均購買力大小,以及各地區(qū)總銷售額大小。借助圖表描述,管理者可以對企業(yè)在某段期間內(nèi)的銷售狀況有一個(gè)大概的把握,只有掌握了這些的信息,才能更細(xì)化地去研究具體的影響因素。劃分等級(jí),對于經(jīng)常性大量購買的客戶必須要以最優(yōu)惠的價(jià)格和最好的服務(wù)讓其滿意,以形成一個(gè)穩(wěn)定的大客戶群。而對于那些少量購買的客戶,也要制定出相應(yīng)合適的方案來留住客戶。所以,分析銷售額的分布情況,可以掌握客戶的購買力度而且還能及時(shí)做一些留住大客戶的舉措。
4用R語言實(shí)現(xiàn)數(shù)據(jù)多層次分析
R語言是一種自由軟件編程語言與操作環(huán)境,是一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng),它是一種用來進(jìn)行數(shù)據(jù)探索、統(tǒng)計(jì)分析和作圖的解釋型語言。它可以提供一些集成的統(tǒng)計(jì)工具,但更大量的是它提供各種數(shù)學(xué)計(jì)算、統(tǒng)計(jì)計(jì)算的函數(shù),從而使使用者能靈活機(jī)動(dòng)地進(jìn)行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計(jì)計(jì)算方法。而在使用R語言進(jìn)行數(shù)據(jù)分析處理時(shí),當(dāng)我們遇到很大的原始數(shù)據(jù),但用來建模的數(shù)據(jù)較小,則可以先在數(shù)據(jù)庫中進(jìn)行整理,然后通過R與數(shù)據(jù)庫的接口提取數(shù)據(jù),數(shù)據(jù)庫適合存放和整理比較規(guī)整的數(shù)據(jù),和R中的數(shù)據(jù)框有良好的對應(yīng)關(guān)系,這也是R中絕大多數(shù)統(tǒng)計(jì)模型的標(biāo)準(zhǔn)數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)庫中大部分的運(yùn)算都不需要消耗很大的內(nèi)存。
5結(jié)語