時間:2022-04-01 11:30:56
序論:在您撰寫大數(shù)據(jù)下信息資源管理創(chuàng)新分析時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的1篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導您走向新的創(chuàng)作高度。
在大數(shù)據(jù)時代,信息資源管理在思維上要關(guān)注研究對象的完備性、接受數(shù)據(jù)信息的混雜、注重相關(guān)關(guān)系;在流程上則應革新信息采集模式、構(gòu)建分布式信息存儲平臺、變革信息分析流程、提高信息提供質(zhì)量,從而實現(xiàn)信息資源管理的整體優(yōu)化。
引言
信息資源管理是在上個世紀70年代末80年代初為解決企業(yè)和政府信息資源管理和利用問題而興起的一個新興領(lǐng)域。它將信息作為一種資源進行管理,并隨著社會和技術(shù)的發(fā)展,形成了一系列理論和方法,成為當今最引人注目的研究領(lǐng)域之一。20世紀90年代后期,為了應對傳統(tǒng)計算機技術(shù)難以處理的海量數(shù)據(jù)問題,科學研究領(lǐng)域率先提出了大數(shù)據(jù)的概念。2008年,Yahoo、Google、阿里巴巴等大型互聯(lián)網(wǎng)和電子商務公司在運營過程中,出現(xiàn)了很多問題,如處理的數(shù)據(jù)量大、種類多,數(shù)據(jù)的流動速度快,而且數(shù)據(jù)經(jīng)常是不完備甚至是不可理解的[1]。為了有效地解決這些問題,大數(shù)據(jù)的理念和技術(shù)被應用,且不斷更新大數(shù)據(jù)的技術(shù)和架構(gòu)。除了在科研和經(jīng)濟領(lǐng)域引起熱潮,政府也將大數(shù)據(jù)問題提升到了戰(zhàn)略層次。2015年,國務院頒布了《促進大數(shù)據(jù)發(fā)展行動綱要》[2],指出大數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源,這也是中國正式啟動和實施國家大數(shù)據(jù)戰(zhàn)略的標志。大數(shù)據(jù)與信息資源管理緊密相關(guān),大數(shù)據(jù)的思維影響著信息資源管理的思想,指導處理大數(shù)據(jù)環(huán)境下信息資源管理中涌現(xiàn)的問題,并為信息資源管理發(fā)展出全新的方法論。就方法論而言,大數(shù)據(jù)帶來的新思維,即整體性、容錯性以及相關(guān)性思維,給傳統(tǒng)的科學方法論帶來了巨大沖擊。大數(shù)據(jù)技術(shù)則為信息資源管理的發(fā)展奠定基礎(chǔ),為其實現(xiàn)指明道路,并提供動力。就非結(jié)構(gòu)化數(shù)據(jù)處理而言,大數(shù)據(jù)提出了多源信息融合理論[3],并在技術(shù)實現(xiàn)上給予支持,保障信息采集的完備性、信息分析的科學性,以及信息成果或產(chǎn)品的高價值。簡而言之,大數(shù)據(jù)與信息資源管理緊密相關(guān),其思維指導著信息資源管理思想在大數(shù)據(jù)環(huán)境下的變革,其技術(shù)在信息資源管理流程方面具有良好的可移植性,促使信息資源管理流程適應大數(shù)據(jù)時代的發(fā)展。
1大數(shù)據(jù)思維與技術(shù)
“大數(shù)據(jù)”(BigData)是一個較為抽象的概念,現(xiàn)在還沒有統(tǒng)一的定義。大數(shù)據(jù)最早由美國著名未來學家Toffer在《TheThirdWave》一書中提出,其將大數(shù)據(jù)贊頌為“第三次浪潮的華彩樂章”[4];2000年Diebold[5]所撰寫的論文《“BigData”DynamicFactorModelsforMacroeconomicMeasurementandForecasting》是大數(shù)據(jù)第一次出現(xiàn)在學術(shù)期刊中。維基百科將大數(shù)據(jù)定義為無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合[6]。這并不是個嚴謹?shù)亩x,但卻是各種學術(shù)和應用領(lǐng)域最廣泛引用的一個定義。2012年初,麥肯錫公司用“大數(shù)據(jù)”來指那些數(shù)據(jù)量特別巨大,并包含結(jié)構(gòu)性、半結(jié)構(gòu)性和非結(jié)構(gòu)性的數(shù)據(jù)[7],促進了大數(shù)據(jù)的廣泛傳播,并引起了學界對大數(shù)據(jù)的研究熱潮。有研究以大數(shù)據(jù)的五個特征作為補充,得出一個較為清晰的概念,即大數(shù)據(jù)是以容量大、存取速度快、類型多、真實性、價值回報高為主要特征的數(shù)據(jù)集合[1]。雖然關(guān)于大數(shù)據(jù)的研究持續(xù)的時間不長,但關(guān)于大數(shù)據(jù)的研究與應用卻已深入到社會的方方面面,深刻地影響著人們的生產(chǎn)與生活。
1.1大數(shù)據(jù)思維
得大數(shù)據(jù)者得天下,要想充分發(fā)揮大數(shù)據(jù)的價值,首先要建立大數(shù)據(jù)思維。簡單來說,大數(shù)據(jù)時代,人們必須用數(shù)據(jù)的眼光重新看待這個世界,將一切數(shù)據(jù)化,并且依托數(shù)據(jù)做出更為有效的決策。大數(shù)據(jù)主要給人們帶來了三個全新的思維,即整體性思維、容錯性思維以及相關(guān)性思維,這三個思維將幫助人們更好地理解大數(shù)據(jù)。1.1.1整體性思維。大數(shù)據(jù)思維對整體性的追求,實質(zhì)上是一種“樣本=總體”的思維轉(zhuǎn)變[8],即要分析與某事物相關(guān)的盡可能多的數(shù)據(jù),甚至所有數(shù)據(jù),而不再只依賴通過隨機分析法(抽樣調(diào)查)得到的少量數(shù)據(jù)樣本,通過這種方式可以抓住隨機抽樣方法中抓不到的細節(jié)。這里使用“盡可能多”來闡述大數(shù)據(jù),是由于在現(xiàn)實中會受到人體自身與技術(shù)發(fā)展水平的限制,所能獲取和處理的數(shù)據(jù)終歸是有限的。不過隨著信息技術(shù)的進步,人們可以處理的數(shù)據(jù)量會不斷增加[8]。1.1.2容錯性思維。大數(shù)據(jù)思維的容錯性是指其不再追求數(shù)據(jù)的精確性,即接受數(shù)據(jù)的混雜性,不同于以往科學研究中對高質(zhì)量數(shù)據(jù)收集處理和精確性結(jié)果獲得的訴求,大數(shù)據(jù)從大量混雜的數(shù)據(jù)中挖掘知識和價值,宏觀上失去了精確性,但微觀上卻能獲得準確性。大數(shù)據(jù)的混雜性主要體現(xiàn)在兩個方面,一是數(shù)據(jù)容量巨大,質(zhì)量參差不齊;二是數(shù)據(jù)結(jié)構(gòu)多樣,結(jié)構(gòu)化、半結(jié)構(gòu)化、準結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)共存。大數(shù)據(jù)體現(xiàn)著“樣本=總體”的思想追求,由于人體本身與技術(shù)發(fā)展水平的限制,所能獲取與處理的數(shù)據(jù)是并且永遠是有限的,因此無需也無法追求精確度[8]。此外,適用于傳統(tǒng)數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)只有5%,只有接受混亂,才能利用剩下的95%的數(shù)據(jù)資源[9]。1.1.3相關(guān)性思維。大數(shù)據(jù)思維的相關(guān)性是指不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。與因果關(guān)系不同,相關(guān)關(guān)系不需要揭示事物內(nèi)部的運行機制,類似于將數(shù)據(jù)封裝成一個個的黑箱,用戶只需要關(guān)注外在的宏觀行為,忽略內(nèi)部的各種復雜關(guān)系轉(zhuǎn)化,然后通過比對來找到宏觀行為中的數(shù)據(jù)之間的相關(guān)關(guān)系。這種對數(shù)據(jù)之間相關(guān)關(guān)系的挖掘,在面對非線性關(guān)系分析時,顯示出了極大的優(yōu)越性。相關(guān)性思維使人們關(guān)注“是什么”而不是“為什么”,幫助人們更好地了解這個世界[9]。
1.2大數(shù)據(jù)技術(shù)
根據(jù)大數(shù)據(jù)的應用實踐過程,可將大數(shù)據(jù)技術(shù)劃分為大數(shù)據(jù)采集技術(shù)、存儲與管理技術(shù)、分析技術(shù)以及安全與隱私保護技術(shù)等。1.2.1大數(shù)據(jù)采集技術(shù)。常用的大數(shù)據(jù)采集技術(shù)有射頻識別技術(shù)(RFID)、形碼技術(shù)、視頻監(jiān)控技術(shù)、網(wǎng)絡爬蟲采集技術(shù)、情感識別技術(shù)與智能錄播技術(shù)、移動APP技術(shù)與點陣數(shù)碼筆技術(shù)等[10]。主要集中于云環(huán)境下大數(shù)據(jù)的采集、分布式大數(shù)據(jù)的采集技術(shù)以及各領(lǐng)域大數(shù)據(jù)采集三個方面。如,方暉[11]研究出了基于相干功率譜密度估計的云信息采集方法。楊懿等[12]研究的用電信息采集系統(tǒng)架構(gòu)優(yōu)化主要是利用了大數(shù)據(jù)的分布式采集技術(shù)。趙紅艷[13]設計的基于大數(shù)據(jù)的小微企業(yè)信息自動采集系統(tǒng),實現(xiàn)了網(wǎng)頁信息抓取、處理、集成、存儲和查詢等。1.2.2大數(shù)據(jù)存儲與管理技術(shù)。大數(shù)據(jù)存儲與管理技術(shù)主要涉及NoSQL存儲方案設計、分布式文件系統(tǒng)構(gòu)建、分布式并行數(shù)據(jù)集群技術(shù)的研究、面向大數(shù)據(jù)處理的MapReduce模型實現(xiàn)以及基于Hadoop開源體系的系統(tǒng)平臺建設等方面[10]。非關(guān)系型分布式數(shù)據(jù)庫(NoSQL)是分布式存儲的主要技術(shù),具有不需要預定義模式、無共享架構(gòu)、彈性可擴展、數(shù)據(jù)分區(qū)、異步復制以及追求最終一致性和軟事務等特征[1]。如Hadoop分布式文件系統(tǒng)HDFS具有高度容錯性,可以應用在那些低配置的硬件上,并保持高吞吐量的數(shù)據(jù)訪問。1.2.3大數(shù)據(jù)分析技術(shù)。目前,大數(shù)據(jù)分析技術(shù)的研究主要涉及云計算、分布式數(shù)據(jù)庫、MapReduce、基于機器學習的大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)挖掘技術(shù)、大數(shù)據(jù)分析系統(tǒng)的構(gòu)建、可視化技術(shù)等多個方面[10]。云計算是一種可擴展的基于互聯(lián)網(wǎng)的資源配置方式,對軟件的開發(fā)與測試有著深刻的影響[14]。分布式數(shù)據(jù)庫主要是用計算機網(wǎng)絡對分散的數(shù)據(jù)節(jié)點建立邏輯上的統(tǒng)一,具有降低數(shù)據(jù)傳送代價、提供系統(tǒng)可靠性以及便于系統(tǒng)擴充等優(yōu)點[1]。HadoopMapReduce是一種編程模型,適合大數(shù)據(jù)規(guī)模集(大于1TB)的并行運算。1.2.4大數(shù)據(jù)安全與隱私保護技術(shù)目前,大數(shù)據(jù)安全與隱私保護技術(shù)的研究有數(shù)據(jù)加密算法、位置大數(shù)據(jù)的隱私保護、隱私保護的技術(shù)架構(gòu)研究以及隱私保護的立法等[10]。Rivest在1991年開發(fā)出技術(shù)上更為趨近成熟的MD5算法,并在一致性驗證、數(shù)字簽名、安全訪問認證等領(lǐng)域有著很好的效果。聶燕敏、陳剛和何志強[15]設計的分布式位置隱私保護模型,實現(xiàn)了精確位置分割和多層次粗糙位置融合的新算法,并采用信息熵的理論進行實證,顯示新算法對位置大數(shù)據(jù)隱私保護效果顯著。楊鑫[16]將入侵檢測技術(shù)、容忍技術(shù)以及通用框架模型相結(jié)合,在入侵檢測框架中添加入侵容忍單元,從而提出了改進入侵容忍系統(tǒng)模型的設計方案。
2大數(shù)據(jù)對信息資源管理的影響
大數(shù)據(jù)對信息資源管理的影響主要體現(xiàn)在思想與流程兩個方面。信息資源管理思想是動態(tài)變化的,在大數(shù)據(jù)時代,由于數(shù)據(jù)的5V特征的影響,會表現(xiàn)出關(guān)注研究對象的完備性、接受數(shù)據(jù)信息的混雜和注重相關(guān)關(guān)系等特性。而在信息資源管理流程方面,由于大數(shù)據(jù)技術(shù)的推進,以及信息資源管理的新思想的作用,信息采集、信息組織、信息分析以及信息提供都會在一定程度上受到影響。
2.1對信息資源管理思想的影響
信息資源管理經(jīng)歷了以圖書館為象征的傳統(tǒng)管理階段、以電子信息系統(tǒng)為標志的自動化技術(shù)管理階段、對信息活動全要素進行管理的信息資源管理階段以及最新發(fā)展形成的知識管理階段四個發(fā)展階段。在信息資源管理的發(fā)展演變過程中,比較主流的信息資源管理思想有信息是一種資源、信息資源管理新模式、以人為中心三種:(1)信息是一種與物質(zhì)、能源同等甚至更加重要的資源,把信息看成寶貴的資源,認同其作為資源的地位,是面對信息資源所持有的一種科學態(tài)度[17];(2)信息資源管理新模式是指從技術(shù)、經(jīng)濟、人文三個維度對信息資源進行管理,從而保證信息資源開發(fā)與利用的科學性,保持管理模式的先進性;(3)以人為中心是指將關(guān)注的重心從技術(shù)轉(zhuǎn)移到人本身,如人對技術(shù)的態(tài)度、人與技術(shù)的關(guān)系、人的信息使用行為、人的信息心理等[18]。信息資源管理思想在不同的階段有著不同的內(nèi)容,即信息資源管理思想是動態(tài)變化的,隨著時代的發(fā)展而不斷替換與更新。大數(shù)據(jù)思維是數(shù)據(jù)規(guī)模與復雜度發(fā)展到一定階段的產(chǎn)物,符合當前發(fā)展趨勢,對信息資源管理思想的發(fā)展與變革具有指導作用。2.1.1關(guān)注研究對象的完備性。在傳統(tǒng)管理階段,由于資金、技術(shù)等各種資源的短缺,人們對研究對象(狹義的信息資源)的整體性要求不高,在進行信息采集時,抽樣是比較常用的方式。而隨著經(jīng)濟的發(fā)展,信息技術(shù)的提高,尤其是現(xiàn)在大數(shù)據(jù)思想與技術(shù)的沖擊,關(guān)注研究對象的完備性是保證組織先進性的根本要求。即只有收集與研究對象有關(guān)的全部信息,才能充分挖掘信息的價值,在保證真實的基礎(chǔ)上,充分發(fā)揮信息資源的價值。2.1.2接受數(shù)據(jù)信息的混雜。隨著社交網(wǎng)絡的發(fā)展,網(wǎng)絡用戶的角色從數(shù)據(jù)的使用者,變成了數(shù)據(jù)的生產(chǎn)者,數(shù)據(jù)規(guī)模迅速擴展。就移動互聯(lián)網(wǎng)而言,據(jù)統(tǒng)計全球每個月移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達1.3EB[1]。同時,不是結(jié)構(gòu)化的數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的占比迅速擴大,且未來不是結(jié)構(gòu)化的數(shù)據(jù)將占到數(shù)據(jù)總量的80%~90%[9]。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)信息是信息資源的重要組成部分,且隨著時代的發(fā)展,其在信息資源中所占的比例將越來越大,數(shù)據(jù)信息的混雜促使信息資源管理的難度升級。因此,要優(yōu)化信息資源管理,接受數(shù)據(jù)信息的混雜勢在必行。2.1.3注重相關(guān)關(guān)系。因果關(guān)系是指對已經(jīng)發(fā)生的事件,根據(jù)其原因來判斷其結(jié)果。與因果關(guān)系不同,相關(guān)關(guān)系是指針對幾個相互聯(lián)系的變量,一個或幾個變量的變動會引起與之相對應的另一變量的規(guī)律性變動,即正相關(guān)或負相關(guān)[19]。隨著信息技術(shù)的發(fā)展,信息資源管理的對象更為混雜,很難真正地、容易地找到因果關(guān)系,相關(guān)關(guān)系在這時凸顯出來,且在信息資源管理活動中顯示出極大的優(yōu)越性。
2.2對信息資源管理流程的影響
按業(yè)務流程進行劃分,信息資源管理包括信息采集、信息組織、信息分析和信息提供等活動。信息采集是指采集人員出于自身從事科學研究的需要,或供他人或企業(yè)作為決策、研究的參考,從而進行的利用社會調(diào)查、網(wǎng)絡工具、圖書和報刊資料等工具進行的專門性的信息采集工作[20],其實質(zhì)是將信息資源從紛繁復雜的信息中提煉出來的過程。信息組織是指對采集到的信息按其形式特征和內(nèi)容特征有序化,然后進行重新組織與控制的活動,包括信息篩選、信息分析、信息描述與揭示、信息整序與存儲四方面內(nèi)容[21]。信息分析是指信息分析人員以用戶的信息需求為依據(jù),利用各種分析工具和分析技術(shù),運用不同的分析方法,對已有信息進行分析、對比、提煉、濃縮和綜合,從而得到分析研究結(jié)果的過程[22]。信息提供是指針對用戶的特定需求,將信息機構(gòu)收藏的信息或信息獲取與查詢工具提供給用戶利用的活動[22]。信息資源管理活動的實質(zhì),就是為了將信息機構(gòu)所存儲的信息能夠為企業(yè)或組織的管理工作服務,為個人的學習、科學研究及日常生活服務。大數(shù)據(jù)作為信息資源管理的技術(shù)手段,其發(fā)展對信息資源管理理論、技術(shù)方法以及應用都有著極大的影響,且大數(shù)據(jù)對信息資源管理的影響會貫穿信息資源管理流程的每一個環(huán)節(jié)。2.2.1對信息采集的影響。從信息采集的角度看,大數(shù)據(jù)環(huán)境下數(shù)字信息資源的空間結(jié)構(gòu)發(fā)生了大的變化。2005年以前,政府約占有全部信息資源的80%。而2011年,麥肯錫公司的報告顯示,政府對數(shù)字信息資源的占有率下降到了12%左右,更多的信息資源分散在信息服務商的手中。由此可見,大數(shù)據(jù)環(huán)境下數(shù)字信息資源的空間結(jié)構(gòu)分布呈現(xiàn)出扁平化和多樣化的特點,因此,尋求信息采集的創(chuàng)新和突破迫在眉睫[23]。2.2.2對信息組織的影響。大數(shù)據(jù)對信息組織的影響主要體現(xiàn)在信息存儲與處理兩個方面。大數(shù)據(jù)的“大”不僅指數(shù)據(jù)容量巨大,還體現(xiàn)在數(shù)據(jù)結(jié)構(gòu)的多樣性、處理速度快的時效性等多方面要求。而數(shù)據(jù)作為信息存儲和處理的最小單元,其復雜性直接導致數(shù)據(jù)組織的難度直線升級。傳統(tǒng)的信息組織方式只適應于適合關(guān)系型數(shù)據(jù)庫處理的結(jié)構(gòu)化數(shù)據(jù),而對于未來占數(shù)據(jù)總量80%~90%的不是結(jié)構(gòu)化的數(shù)據(jù)的處理與存儲則需要借助于大數(shù)據(jù)技術(shù)。此外,在分析處理海量數(shù)據(jù)時,關(guān)系型數(shù)據(jù)庫存在不支持橫向擴充、處理時間過長等缺陷。2.2.3對信息分析的影響。大數(shù)據(jù)對信息分析的影響主要體現(xiàn)在研究范式的演進和研究質(zhì)量的提高兩個方面。就研究范式的演進而言,科學研究的范式可劃分為科學實驗、模型歸納和模擬仿真三個階段?,F(xiàn)今伴隨著大數(shù)據(jù)技術(shù)的發(fā)展,以及科學研究進程與科學數(shù)據(jù)管理遇到的挑戰(zhàn),進入了第四范式,即數(shù)據(jù)密集型科學范式[24]。從研究質(zhì)量的提升來看,能否通過信息分析把握事物的狀態(tài)、性能和效果,準確萃取有用信息支持決策,挖掘隱藏信息做出預測,集成相關(guān)信息進行評估,這些信息分析重要目標的實現(xiàn)在很大程度取決于信息分析的質(zhì)量。大數(shù)據(jù)能進行前瞻性預測和實施實時精準的管理的特征為提高信息分析的質(zhì)量提供了巨大動力。2.2.4對信息提供的影響。信息提供的范圍比較廣,目前,主流的研究領(lǐng)域有信息行為研究、個性化推薦研究、可視化研究以及信息安全與隱私保護研究等。就信息行為與個性化推薦而言,大數(shù)據(jù)的相關(guān)性思維具有明顯的優(yōu)越性,如亞馬遜個性化推薦系統(tǒng)[9],就是通過分析發(fā)現(xiàn)書籍之間相關(guān)關(guān)系取代傳統(tǒng)的對用戶樣本數(shù)據(jù)的研究,從而更加貼近用戶的信息需求,賺取更多的利益。從可視化來看,大數(shù)據(jù)可視化在工具及理論方面相對較成熟,對信息資源管理過程中的可視化問題具有指導意義。在信息安全與隱私保護方面,大數(shù)據(jù)技術(shù)的研究方向很多,除了傳統(tǒng)的加密算法、立法保護等方面的研究外,還對非結(jié)構(gòu)化數(shù)據(jù)的保護問題以及技術(shù)架構(gòu)等方面進行了較為深入的研究,對信息提供的安全保護問題提供新的思路。
3基于大數(shù)據(jù)的信息資源管理創(chuàng)新
利用大數(shù)據(jù)的思維與技術(shù)對信息資源管理的思想和流程進行創(chuàng)新,是一個循序漸進的過程。就思想創(chuàng)新而言,每一個思想都會對信息資源管理的所有環(huán)節(jié)產(chǎn)生影響,即在信息資源管理的每個活動中都會有所體現(xiàn)。就流程創(chuàng)新而言,是思想與技術(shù)的共同體現(xiàn),思想為其創(chuàng)新指明方向,而技術(shù)則為其實現(xiàn)提供支撐。同時,流程的創(chuàng)新,不只是單個環(huán)節(jié)的創(chuàng)新,更是整個信息資源管理效果最優(yōu)化的真實體現(xiàn)。
3.1信息資源管理思想創(chuàng)新
數(shù)據(jù)信息是信息資源管理研究對象的重要組成部分,因此,將大數(shù)據(jù)思維延伸至信息資源管理方面很有必要。同時,大數(shù)據(jù)思維對信息資源管理的影響涉及信息資源管理流程的每一個環(huán)節(jié),即在信息資源管理流程的每一個環(huán)節(jié)都應該注重大數(shù)據(jù)思維的應用,從而達到信息資源管理的整體優(yōu)化。3.1.1信息資源管理的整體性。信息資源管理的整體性是指要關(guān)注研究對象的完備性,是對傳統(tǒng)抽樣調(diào)查的補充。信息資源管理的整體性主要體現(xiàn)在信息采集與信息組織兩個階段。在信息采集階段,整體性要求注重采集的全面性,即要窮盡與信息需求相關(guān)的所有信息。在信息組織階段,整體性要求盡可能窮盡研究對象的所有具有代表性的特征,尤其是對內(nèi)容特征的提取,會直接影響后面信息檢索的效率。3.1.2信息資源管理的容錯性。信息資源管理的容錯性是指要接受信息內(nèi)容資源的混雜性,是在關(guān)注信息內(nèi)容資源全集的基礎(chǔ)上,由規(guī)模化效應抵消由信息內(nèi)容資源的混雜性帶來的誤差。大數(shù)據(jù)的混雜是由數(shù)據(jù)的復雜性造成的,信息內(nèi)容資源的混雜則更為復雜,這是由于信息內(nèi)容資源不只是數(shù)據(jù),還包括句子、文章、書籍等,會涉及句子的切分、自然語言的處理等復雜問題。信息資源管理的容錯性思想主要體現(xiàn)在信息組織和信息分析階段。在信息組織階段,容錯性能夠保障數(shù)據(jù)處理的順利進行。而在信息分析階段,容錯性則保證分析結(jié)果的科學性與可行性。3.1.3信息資源管理的相關(guān)性。信息資源管理的相關(guān)性,不是對因果關(guān)系的全盤否定,而是在對相關(guān)關(guān)系給予肯定的同時,注重因果關(guān)系、相關(guān)關(guān)系以及相關(guān)關(guān)系與因果關(guān)系的結(jié)合使用?,F(xiàn)在,相關(guān)關(guān)系在信息資源管理的每一個環(huán)節(jié)都有應用。在信息采集階段,通過采集數(shù)據(jù)間的相關(guān)關(guān)系,可以實現(xiàn)預測功能。如:谷歌公司通過采集人們在網(wǎng)上的搜索關(guān)于流感的相關(guān)關(guān)系記錄來完成冬季流感在美國如何傳播的預測[25]。在信息組織階段,關(guān)注相關(guān)關(guān)系是為了更好地存儲,在節(jié)省存儲空間的同時,加快信息資源應用時的響應速度。在信息分析階段,關(guān)注用戶之間的相關(guān)關(guān)系、產(chǎn)品之間的相關(guān)關(guān)系、用戶與產(chǎn)品之間的相關(guān)關(guān)系以及它們之間的替換或結(jié)合使用等,提高系統(tǒng)的效率與效益,如亞馬遜的個性化推薦服務。在信息提供階段,相關(guān)關(guān)系的應用則是為了更“懂”用戶,更加貼近用戶的需求。就亞馬遜推薦系統(tǒng)而言,理想的情況應是只為用戶推薦一個結(jié)果,而這個結(jié)果正是用戶所需要的。
3.2信息資源管理流程創(chuàng)新
基于大數(shù)據(jù)的思維與技術(shù),對信息資源管理流程進行創(chuàng)新具有極大的可行性,而且目前在信息資源管理方面,已經(jīng)有了將大數(shù)據(jù)與其某些環(huán)節(jié)融合起來研究或應用的案例,并取得了不小的成果。大數(shù)據(jù)對信息資源管理的影響為其創(chuàng)新提供了極大的可能性。在具體創(chuàng)新中,大數(shù)據(jù)思維為信息資源管理的發(fā)展指明方向,而大數(shù)據(jù)技術(shù)則為其成為現(xiàn)實奠定基礎(chǔ)。3.2.1革新信息采集模式。在信息技術(shù)與大數(shù)據(jù)技術(shù)的共同作用下,信息采集的理念與技術(shù)實現(xiàn)有了很大的提升,這為信息采集模式的轉(zhuǎn)變奠定了基礎(chǔ)。大數(shù)據(jù)環(huán)境下,信息采集的模式更加細化、科學、可靠。就以紙質(zhì)文本信息的采集為例,為了彌補全文檢索命中率低、耗時長的缺陷,提出了內(nèi)容信息的采集問題,具體的操作步驟為[26]:(1)關(guān)鍵詞化數(shù)據(jù),即對文本進行基于關(guān)鍵詞的自動聚類分析;(2)結(jié)構(gòu)化數(shù)據(jù),即建立數(shù)據(jù)庫,分門別類地存儲采集到的文本基礎(chǔ)信息;(3)知識化數(shù)據(jù),即采用知識管理的概念對信息進行深加工,建立知識數(shù)據(jù)庫,采集文本知識信息。只有實現(xiàn)文本信息的內(nèi)容采集,才能對其進行智慧高效應用。3.2.2構(gòu)建分布式信息存儲平臺。數(shù)據(jù)復雜度的提升,對信息存儲提出了全新的要求與挑戰(zhàn)。針對關(guān)系型數(shù)據(jù)庫在架構(gòu)及處理速度等方面存在的問題,提出了將大數(shù)據(jù)分布式處理的理念融入信息存儲的新模式,構(gòu)建分布式信息存儲平臺。如:數(shù)據(jù)倉庫中的大規(guī)模并行處理系統(tǒng)(MassivelyParallelProcessing,MPP),其實現(xiàn)機理是先將任務同時到多個服務器節(jié)點上,分別進行處理,然后對其進行匯總,從而產(chǎn)生最后的結(jié)果[1]。3.2.3變革信息分析流程。大數(shù)據(jù)環(huán)境下,信息分析的流程為:信息需求定義與計劃→信息檢索與數(shù)據(jù)采集→多源信息融合與清洗→信息分析與挖掘→結(jié)果解讀與信息提煉→報告撰寫與傳遞[27]。在信息分析方法的選擇與使用方面,更加注重定性分析與定量分析的結(jié)合,從而使分析結(jié)果真實可靠,提升產(chǎn)品價值。同時,多源信息融合與清洗是大數(shù)據(jù)時代信息多樣化發(fā)展的必然要求。與傳統(tǒng)的信息分析流程相比,大數(shù)據(jù)環(huán)境下的信息分析有著獨特的優(yōu)越性,如:更加注重與用戶之間的關(guān)聯(lián),注重信息資源的完備性,關(guān)注各個環(huán)節(jié)之間的連接等。3.2.4提升信息提供質(zhì)量。大數(shù)據(jù)環(huán)境下,對信息提供進行創(chuàng)新主要體現(xiàn)在個性化信息服務、信息安全與隱私保護兩個方面。就個性化信息服務而言,通過對全體數(shù)據(jù)的分析、對相關(guān)關(guān)系的挖掘,更容易真正地發(fā)現(xiàn)用戶的信息需求,做出針對性較強的推薦。如林登所言“如果系統(tǒng)運作良好,亞馬遜應該只推薦你一本書,而這本書就是你將要買的下一本書”[9]。就信息安全與隱私保護而言,在加強法律法規(guī)建設、提高人們的隱私意識與自我保護意識的基礎(chǔ)上,還應關(guān)注技術(shù)的發(fā)展,根據(jù)數(shù)據(jù)的生命周期,從物理安全、系統(tǒng)安全、網(wǎng)絡安全、存儲安全、審計安全、訪問安全等角度建立完善的隱私安全技術(shù)體系[28]。此外,大數(shù)據(jù)拓寬了信息提供的渠道,改善了信息提供的方式,加強了提供者與接收者之間的聯(lián)系,并形成新的信息提供模式。
4結(jié)語
大數(shù)據(jù)與信息資源管理緊密相關(guān),通過對大數(shù)據(jù)思維與技術(shù)的解讀,為信息資源管理的思想以及流程的創(chuàng)新指明了方向。就思想而言,信息資源管理思想是動態(tài)變化的,即隨著時代的進步、信息技術(shù)的發(fā)展,信息資源管理思想會產(chǎn)生新的內(nèi)涵。本文主要是將大數(shù)據(jù)思維融入信息資源管理,從而產(chǎn)生獨具信息資源管理特色的整體性、容錯性以及相關(guān)性思想。就技術(shù)而言,大數(shù)據(jù)技術(shù)與信息技術(shù)息息相關(guān),其基礎(chǔ)都是計算機技術(shù)、通信技術(shù)與網(wǎng)絡技術(shù)等,具有很好的可移植性,不過由于側(cè)重環(huán)節(jié)的不同,技術(shù)的重點研究方向略有差異,雙方可互相借鑒,從而完善自己的不足,提高系統(tǒng)效率。應將大數(shù)據(jù)的思維與技術(shù)作用于信息資源管理,從而革新信息采集模式、構(gòu)建分布式信息存儲平臺、優(yōu)化信息分析流程以及提升信息提供質(zhì)量,以達到信息資源管理的整體優(yōu)化。
參考文獻:
[1]趙剛.大數(shù)據(jù)技術(shù)與應用實踐指南(第2版)[M].北京:電子工業(yè)出版社,2016:1.
[2]國務院.國務院關(guān)于印發(fā)促進大數(shù)據(jù)發(fā)展行動綱要的通知[EB/OL].[2018-10-15].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.
[3]化柏林,李廣建.大數(shù)據(jù)環(huán)境下多源信息融合的理論與應用探討[J].圖書情報工作,2015(16):5-10.
[4]TofferA.TheThirdWave[M].NewYork:BantamBooks,1981:26.
[5]DieboldFX.“BigData”DynamicFactorModelsforMacroeconomicMeasurementandForecasting[M].Cambridge:CambridgeUniversityPress,2003:115-122.
[6]Wikipedia.Bigdata[DB/OL].[2018-10-15].http://en.wikipedia.org/wiki/Big_data.
[7]李德偉.大數(shù)據(jù)改變世界[M].北京:電子工業(yè)出版社,2013:7.
[8]徐超.解析大數(shù)據(jù)思想及其在企業(yè)檔案管理中的價值[J].機電兵船檔案,2016(5):51-54.
[9]周蘇,張麗娜,王文.大數(shù)據(jù)可視化技術(shù)[M].北京:清華大學出版社,2016:15.
[10]常李艷,我國大數(shù)據(jù)技術(shù)研究趨勢[J].電腦知識與技術(shù),2017(2):2-4.
[11]方暉.大數(shù)據(jù)時代網(wǎng)絡下云信息采集方法的改進與研究[J].電子技術(shù)與軟件工程,2016(21):162-164.
[12]楊懿,王鑫,楊開瓊,等.大數(shù)據(jù)關(guān)鍵技術(shù)在用電信息采集系統(tǒng)架構(gòu)優(yōu)化中的應用研究[J].科技傳播,2015(20):116-118.
[13]趙紅艷.基于大數(shù)據(jù)技術(shù)的小微企業(yè)信息采集技術(shù)研究[J].科技展望,2015(30):1-3.
[14]壽步,王曉燕.云計算知識產(chǎn)權(quán)問題研究[M].上海:上海交通大學出版社,2014:3.
[15]聶燕敏,陳剛,何志強.基于信息熵的位置大數(shù)據(jù)隱私保護研究[J].黑龍江科技信息,2016(12):189.
[16]楊鑫.基于云平臺的大數(shù)據(jù)信息安全機制研究[J].情報科學,2017(1):110-114.
[17]李運蒙.信息資源管理[M].廣州:華南理工大學出版社,2016:5.
[18]馬費城,賴茂生,等.信息資源管理(第二版)[M].天津:高等教育出版社,2014:27.
[19]曲峰.大數(shù)據(jù)背景下公安邊防應急指揮信息采集研究[J].中國應急救援,2015(5):23-26.
[20]夏南強,殷克濤,謝乘風.信息采集學[M].北京:清華大學出版社,2012:13.
[21]葉繼元.信息組織(第二版)[M].北京:電子工業(yè)出版社,2015:2-7.
[22]婁策群,段堯清,張凱.信息管理學基礎(chǔ)(第二版)[M].北京:科學出版社,2009:146.
[23]張斌,馬費成.大數(shù)據(jù)環(huán)境下數(shù)字信息資源服務創(chuàng)新[J].情報理論與實踐,2014(6):28-33.
[24]TolleKM,TansleyD,StewartW.TheFourthParadigm:Data-intensiveScientificDiscovery[J].ProceedingsoftheIEEE,2011,99(8):334-1337.
[25]ViktorMS,KennethC.大數(shù)據(jù)時代[M].盛楊燕,等譯,杭州:浙江人民出版社.2013:1.
[26]王坤,郭起云,郭光.大數(shù)據(jù)時代下檔案信息采集新思路[J].數(shù)字與縮微影像,2014(2):7-8.
[27]化柏林.從棱鏡計劃看大數(shù)據(jù)時代下的情報分析[J].圖書與情報,2014(5):2-6.
[28]陳紅.大數(shù)據(jù)與圖書館保護讀者隱私的自律措施[J].圖書館學刊,2014(12):19-21.
作者:易明 馮翠翠 莫富傳 單位:華中師范大學信息管理學院