時(shí)間:2023-12-16 09:31:19
序論:在您撰寫統(tǒng)計(jì)學(xué)變量的分類時(shí),參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
近年來,用戶研究已經(jīng)成為產(chǎn)品設(shè)計(jì)界的重要研究手段,在產(chǎn)品的進(jìn)入期、成長期、成熟期甚至衰退期,用戶研究都起著至關(guān)重要的作用,它可以幫助產(chǎn)品概念的具體化、合理化地符合用戶需求,提品功能定義的依據(jù),等等。歸根結(jié)底,它起到了從用戶的需求域(感性描述)到設(shè)計(jì)的功能域(物理要素)的轉(zhuǎn)換作用,最終幫助設(shè)計(jì)者獲得成功產(chǎn)品所需的要素。
在用戶研究的領(lǐng)域里,我們已經(jīng)有了較為科學(xué)的方法來獲得需求域中的各類信息數(shù)據(jù),而如何將這些信息數(shù)據(jù)轉(zhuǎn)換成為我們所需要的設(shè)計(jì)要素則成為研究的重點(diǎn)和難點(diǎn)。用戶的需求來源于人,而產(chǎn)品的功能賦之予物,我們需要找到一種方法來發(fā)掘這主客體之間的聯(lián)系,定性定量分析毫無疑問是解決這一問題的必要方法。
二、統(tǒng)計(jì)學(xué):定量與定性研究結(jié)合
與其他產(chǎn)品設(shè)計(jì)的單一研究方法不同,在用戶研究中,定性與定量分析一般而言是相輔相成的,這樣做很好地結(jié)合了兩種分析各自的長處。定量分析能夠發(fā)現(xiàn)某個(gè)存在的現(xiàn)象,具有很好的說服力和可信性,是對事物“量”的分析,主要通過數(shù)據(jù)收集和分析來完成。定性研究則可以發(fā)掘隱藏在現(xiàn)象底下的規(guī)律及原因,具有能夠抓住本質(zhì)的深刻性和高效性,是對事物“質(zhì)”的分析,主要通過常識、感覺、經(jīng)驗(yàn)等主觀因素來參與分析。
在用戶研究中可以直接獲取的數(shù)據(jù)很少,因此定量分析沒有施展的空間,并且對于一些感性問題,例如用戶的需求、用戶的感覺等同樣也無能為力。定性分析則受主觀因素影響較大,具有不確定性的特點(diǎn)。如何能夠很好地發(fā)揮定量分析的可信度與定性分析的深刻度是我們所要解決的下一個(gè)問題,這里引入統(tǒng)計(jì)學(xué)的分析方法,將定量與定性分析結(jié)合起來。
三、用戶研究中的統(tǒng)計(jì)學(xué)
統(tǒng)計(jì)學(xué)廣泛運(yùn)用于生物、化學(xué)、心理學(xué)、社會學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域。它被用來了解與測量系統(tǒng)變異性,程序控制,對資料作出結(jié)論,并且完成資料取向的決策。而它的這些用途特點(diǎn)非常適合集心理學(xué)、社會學(xué)、人類學(xué)等多門學(xué)科交融的用戶研究,因此,我們可以通過引入統(tǒng)計(jì)學(xué)的方法,來對用戶研究中獲取的信息進(jìn)行定量和定性分析,從而完成需求域到功能域的轉(zhuǎn)化。
根據(jù)統(tǒng)計(jì)學(xué)的研究特點(diǎn),我們將其在用戶研究中的運(yùn)用步驟分為信息獲取、信息處理、數(shù)據(jù)分析、數(shù)據(jù)校驗(yàn)四個(gè)步驟。
1.信息獲取
用戶研究方法有很多,現(xiàn)大多已趨于成熟。我們在確定研究目的與目標(biāo)的前提下,有意識地選擇用戶研究的方法,并且明確其輸出的數(shù)據(jù)及形式,為今后的分析做準(zhǔn)備。在用戶研究中我們可以通過背景資料收集、問卷調(diào)查、用戶觀察、用戶訪談、用戶角色和用戶情境等方法獲得大量的文字?jǐn)?shù)據(jù)、圖像數(shù)據(jù)、問卷數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)和語音數(shù)據(jù),這些數(shù)據(jù)都可以通過進(jìn)一步的處理,轉(zhuǎn)換成統(tǒng)計(jì)學(xué)中可以運(yùn)用的數(shù)據(jù)形式。為了更好地進(jìn)行下一步的分析研究,要根據(jù)用戶研究對象的特點(diǎn)將這些信息分為用戶基本數(shù)據(jù)、用戶行為數(shù)據(jù)和用戶主觀數(shù)據(jù)。
基本數(shù)據(jù)主要是指對用戶的性別、年齡、職業(yè)、收入、教育、地區(qū)、家庭結(jié)構(gòu)、生活方式等量化后的數(shù)據(jù);行為數(shù)據(jù)是指用戶與產(chǎn)品的交互,即對于產(chǎn)品的使用及體驗(yàn)通過觀察測試等方法提取的數(shù)據(jù);主觀數(shù)據(jù)是指用戶對于產(chǎn)品的滿意度、情緒反應(yīng)、審美反應(yīng)、生活態(tài)度等通過問卷訪談等方式獲得的數(shù)據(jù)。由此我們便獲得了計(jì)算所需的數(shù)據(jù)。
2.信息處理
上面我們已經(jīng)論述了信息獲取的方法及信息的分類和特點(diǎn),但是這些信息的形式如文字、圖像、問卷大多都不能直接用于統(tǒng)計(jì)學(xué)的分析,因此我們要對信息進(jìn)行處理,也就是信息的量化。
(1)用戶基本數(shù)據(jù)量化
基本數(shù)據(jù)都屬于某種“品質(zhì)”或“屬性”,它們的量化方法可以使用取值為“1”或“0”的人工變量來表示是否存在,也就是對質(zhì)的因素的判斷。如“1”表示已婚,“0”表示未婚。同樣有時(shí)本身是“數(shù)量”因素也可以轉(zhuǎn)化成“質(zhì)”因素,如“1”表示年收入5萬到10萬,“0”表示年收入5萬以下。
(2)用戶行為數(shù)據(jù)量化
用戶行為數(shù)據(jù)可以通過試驗(yàn)器械的輔助,有計(jì)劃的觀察與測試來獲得。主要是行為過程中存在的與衡量目標(biāo)完成情況相關(guān)的變量。這些具體數(shù)據(jù)的情況與目標(biāo)有著直接關(guān)系,通??梢灾苯荧@得具體數(shù)值。如時(shí)間、頻率、數(shù)量、周期、步驟等。
(3)用戶主觀數(shù)據(jù)量化
用戶主觀數(shù)據(jù)主要通過對用戶的問卷與訪談得到,是從用戶的主觀因素出發(fā)對用戶體驗(yàn)進(jìn)行量化。在這里,我們可以用數(shù)值來表示主觀因素的程度,通過這種方法來量化這些主觀的、抽象的、感性的信息。如滿意程度可以由-3,-2,-1,0,1,2,3這7個(gè)數(shù)值表示,-3為最不滿意,3為最滿意。同理抽象感性詞匯可以選擇一對反義詞作為兩極,由負(fù)值到正值表示符合的程度。如傳統(tǒng)和現(xiàn)代、圓潤和尖銳等。
此外,為了消除數(shù)據(jù)計(jì)量單位不同的影響,便于數(shù)據(jù)的直接比較,要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化——使數(shù)據(jù)矩陣式中每列數(shù)據(jù)的平均值為0,方差為1;或者規(guī)格化——將每列的最大數(shù)據(jù)變?yōu)?,最小數(shù)據(jù)變?yōu)?,其余數(shù)據(jù)取值在0~1之間。
3.數(shù)據(jù)分析
在對數(shù)據(jù)進(jìn)行必要的處理以后我們就要開始進(jìn)行統(tǒng)計(jì)分析。為了便于介紹統(tǒng)計(jì)方法,我們先將處理好的數(shù)據(jù)分類。在統(tǒng)計(jì)學(xué)中根據(jù)變量數(shù)學(xué)性質(zhì)的由低到高可將其劃分為:定類數(shù)據(jù)、定序數(shù)據(jù)、定距數(shù)據(jù)和定比數(shù)據(jù)。定比數(shù)據(jù)使用較少,此處略。定類數(shù)據(jù)是一個(gè)分類體系,通常將研究對象屬性分類后編號,其只能測量類別差。如華中、華北、華東等。定序數(shù)據(jù)多了類別間順序等級的信息,可以測量次序差。如幼年、少年、青年、中年、壯年、老年等。定距數(shù)據(jù)不僅可以測量差別,還可以測算距離,如10秒、20秒、30秒等。
下面介紹在設(shè)計(jì)領(lǐng)域常會遇到的變量類型之間的關(guān)系測量以及相對應(yīng)的方法類別,具體公式與計(jì)算方法可以參看相關(guān)統(tǒng)計(jì)學(xué)書目。
(1)雙變量統(tǒng)計(jì)
兩個(gè)變量之間關(guān)系的探討在用戶研究中是重要的內(nèi)容。相關(guān)分析是解決這個(gè)問題最為常用的統(tǒng)計(jì)學(xué)方法。判斷兩個(gè)變量之間的關(guān)系主要從它們的相關(guān)程度、相關(guān)正負(fù)、相關(guān)類型等方面來看,在通常情況下為線性相關(guān),可從相關(guān)系數(shù)中看出兩個(gè)變量之間的關(guān)系。
①兩個(gè)定類變量以及定類與定序變量之間的關(guān)系可使用相關(guān)分析中的λ和τy測量法。λ測量法可以是不分變量與自變量的對稱形式。如丈夫購車標(biāo)準(zhǔn)與妻子購車標(biāo)準(zhǔn)之間的關(guān)系。τy測量法要求具有自變量與因變量之別,如性別與購車標(biāo)準(zhǔn)之間的關(guān)系。定類與定序變量關(guān)系也可用此兩種系數(shù),如收入水平與購車標(biāo)準(zhǔn)之間的關(guān)系。
②兩個(gè)定序變量之間的關(guān)系可以使用Gamma系數(shù)和dY系數(shù)來表示。例如同等收入水平年齡與購車價(jià)格之間的關(guān)系。
③定類與定距、定序與定距可采用相關(guān)比率測量法。如性別與某手機(jī)功能操作次數(shù)之間的關(guān)系或是年齡與后者之間的關(guān)系。除此之外,也可以使用單因素方差分析。
變量之間除相關(guān)關(guān)系還可以用函數(shù)關(guān)系來表示,線性回歸分析可以測量變量之間的線性關(guān)系,它是在研究過程中將一些因素作為所控制的變量(自變量),而另一些隨機(jī)變量作為它們的因變量來進(jìn)行分析的。一元線性回歸可以用來解決雙變量統(tǒng)計(jì)問題。
(2)多變量統(tǒng)計(jì)
在設(shè)計(jì)領(lǐng)域中研究的問題影響因素往往較為復(fù)雜,在雙變量統(tǒng)計(jì)不能滿足要求的時(shí)候我們就要用到多變量統(tǒng)計(jì)方法,主要有多元線性回歸分析,Logistic回歸分析、聚類分析、主成分分析、因子分析等。
①多元線性回歸分析。研究在線性相關(guān)條件下,兩個(gè)和兩個(gè)以上自變量對一個(gè)因變量的數(shù)量變化關(guān)系,稱為多元線性回歸分析,表現(xiàn)這一數(shù)量關(guān)系的數(shù)學(xué)公式稱為多元線性回歸模型。它解決的問題是通過抽樣調(diào)查的數(shù)據(jù),確定自變量和因變量之間關(guān)系的密切程度;確定多個(gè)自變量對應(yīng)變量的共同影響,比較各個(gè)自變量對因變量影響的大??;確定因變量和自變量之間的關(guān)系表達(dá)式,即回歸方程式。如臺燈外形表現(xiàn)現(xiàn)代感程度分別與其燈罩、燈頸、燈座造型、材質(zhì)、色彩的關(guān)系,這種方法在感性工學(xué)研究中經(jīng)常使用。
②Logistic回歸分析。線性回歸模型的一個(gè)局限性是要求因變量是定量變量(定距變量、定比變量),而不能是定性變量(定序變量、定類變量)。但是在許多實(shí)際問題中,經(jīng)常出現(xiàn)因變量是定性變量(分類變量)的情況。Logistic回歸分析就是用于處理分類因變量的統(tǒng)計(jì)分析方法。其因變量只取兩個(gè)值,表示一種決策、一種結(jié)果的兩種可能性。如消費(fèi)者是否購買產(chǎn)品與產(chǎn)品性能、外觀、價(jià)格、
品牌等因素之間的關(guān)系。
③聚類分析。聚類分析是研究“物以類聚”的一種多元統(tǒng)計(jì)分析方法。聚類分析的基本思想是根據(jù)對象間的相關(guān)程度進(jìn)行類別的聚合。例如可以通過測試者對于較多產(chǎn)品的評價(jià)運(yùn)用聚類分析將產(chǎn)品分別歸類。又如通過對消費(fèi)者生活形態(tài)的研究將其分類,有針對性地進(jìn)行產(chǎn)品開發(fā)。聚類分析可用樹藝術(shù)與設(shè)計(jì)ˉ形圖來表示結(jié)果。
④主成分分析。把多個(gè)變量(指標(biāo))化為少數(shù)幾個(gè)綜合變量(綜合指標(biāo)),而這幾個(gè)綜合變量可以反映原來多個(gè)變量的大部分信息。為了使這些綜合變量所含的信息互不重疊,應(yīng)要求它們之間互不相關(guān)。例如在評價(jià)一個(gè)產(chǎn)品設(shè)計(jì)時(shí),往往有很多因素,通過主成分分析可以用少數(shù)幾個(gè)綜合因素對其進(jìn)行評價(jià),減少工作量。
⑤因子分析。因子分析可以看成是主成分分析的一種推廣。它的基本目的是,找出隱藏在一組測量到的變量中的一些更基本的,但又無法直接測量到的隱性變量(愛好、態(tài)度、能力)去解釋顯在變量(設(shè)計(jì)成功與否、銷售量、點(diǎn)擊率)。例如從眾多人們顯在的生活習(xí)慣中找到人們選擇使用購買生活用品的潛在因子。這種方法可以應(yīng)用在用戶研究中的生活方式研究之中。
4.數(shù)據(jù)檢驗(yàn)
數(shù)據(jù)檢驗(yàn)其實(shí)是貫穿整個(gè)計(jì)算過程中的,一些計(jì)算方法需要檢測數(shù)據(jù)是否適合做此類運(yùn)算,如回歸分析的擬合優(yōu)度檢驗(yàn),因子分析的KMO檢驗(yàn),而回歸分析可以用逆運(yùn)算進(jìn)行檢驗(yàn)等。當(dāng)然一般人都會認(rèn)為數(shù)據(jù)是客觀而準(zhǔn)確的,但是準(zhǔn)確的數(shù)據(jù)之后,依賴分析師的常識、經(jīng)驗(yàn)和主觀判斷,來選擇和運(yùn)用適合分析方法,并以嚴(yán)謹(jǐn)?shù)难芯繎B(tài)度來完成整個(gè)分析步驟。
Abstract: The variable is in a statistics basic category, but each kind of statistics teaching material is different to its definition, creates the understanding confusion; The author unified the teaching experience to carry on the thorough ponder to the variable concept, caused its better and better by the time.
關(guān)鍵詞:變量標(biāo)志統(tǒng)計(jì)指標(biāo)統(tǒng)計(jì)數(shù)據(jù)
Key words: Variable Symbol Statistical target Statistical data
作者簡介:魯瑜,女,1963年9月出生,講師。籍貫:安徽省桐城縣,出生地:河南省洛陽市。1986年洛陽大學(xué)計(jì)劃統(tǒng)計(jì)專業(yè)??飘厴I(yè),1997年中南財(cái)經(jīng)政法大學(xué)財(cái)務(wù)會計(jì)學(xué)本科畢業(yè),2007年西安建筑科技大學(xué)工業(yè)工程碩士畢業(yè)。研究方向?yàn)榻y(tǒng)計(jì)核算、企業(yè)會計(jì)。
那么統(tǒng)計(jì)學(xué)中講的“變量”該如何理解呢?變量的概念是發(fā)展變化的,按發(fā)展變化的時(shí)序有以下幾種理解:第一、統(tǒng)計(jì)中的變量是指可變的數(shù)量標(biāo)志;第二、變量是指可變的數(shù)量標(biāo)志和全部統(tǒng)計(jì)指標(biāo);第三、變量是指可變的數(shù)量標(biāo)志和可變的統(tǒng)計(jì)指標(biāo);第四、變量是說明現(xiàn)象某種可變特征的概念,更明確一點(diǎn),即:變量包括可變的品質(zhì)標(biāo)志和可變的數(shù)量標(biāo)志和可變的統(tǒng)計(jì)指標(biāo)。普遍的認(rèn)為第四種理解更符合客觀實(shí)際,筆者也贊同第四種理解。
一、統(tǒng)計(jì)中的變量是指可變的數(shù)量標(biāo)志這種理解較狹隘,通過講解引入可變的品質(zhì)標(biāo)志也是變量,即“可變的標(biāo)志”都應(yīng)作變量看待。
一般變量的講解是這樣進(jìn)行下去的:首先明確統(tǒng)計(jì)學(xué)中的幾個(gè)基本概念,三對六個(gè):第一對是統(tǒng)計(jì)總體和總體單位,簡稱總體和單位;第二對是統(tǒng)計(jì)標(biāo)志和統(tǒng)計(jì)指標(biāo),簡稱標(biāo)志和指標(biāo);第三對是變異和變量??傮w是所研究對象的全體,是由具有某種共同性質(zhì)的許多個(gè)體所構(gòu)成的整體,構(gòu)成總體的各個(gè)個(gè)別單位,簡稱單位,也稱個(gè)體,總體和單位的概念是隨著研究目的的不同而發(fā)生變化的;標(biāo)志是說明單位特征的名稱,強(qiáng)調(diào)單位是標(biāo)志的承擔(dān)著,指標(biāo)是反映現(xiàn)象總體數(shù)量特征的概念或名稱和具體數(shù)值(指標(biāo)名稱+指標(biāo)數(shù)值構(gòu)成完整的統(tǒng)計(jì)指標(biāo),但只有概念或名稱的指標(biāo)是統(tǒng)計(jì)設(shè)計(jì)和統(tǒng)計(jì)理論中使用的指標(biāo)概念),是綜合各單位的某一標(biāo)志而得到的,通過對指標(biāo)概念的理解,首先明確指標(biāo)是說明總體的,其次明確指標(biāo)都是用數(shù)值表示的,沒有不用數(shù)值表現(xiàn)的統(tǒng)計(jì)指標(biāo),這是指標(biāo)和標(biāo)志的區(qū)別之一,由于總體和單位之間存在著變換關(guān)系,標(biāo)志和指標(biāo)之間也會發(fā)生變換;變異和變量,我多年的教學(xué)經(jīng)驗(yàn)通常是通過對標(biāo)志的分類講下去的,標(biāo)志按在總體單位上的表現(xiàn)是否穩(wěn)定可分為不變標(biāo)志和可變標(biāo)志,一個(gè)總體中,各個(gè)單位的某一標(biāo)志的具體表現(xiàn)都相同的標(biāo)志為不變標(biāo)志(強(qiáng)調(diào)同質(zhì)性),一個(gè)總體中,各個(gè)單位的某一標(biāo)志的具體表現(xiàn)不都(盡)相同的標(biāo)志為可變標(biāo)志(強(qiáng)調(diào)變異性),如人口總體性別是可變標(biāo)志,男性人口總體性別就是不變標(biāo)志;可變標(biāo)志在總體各個(gè)單位上具體表現(xiàn)上的差別就是變異,變異有品質(zhì)變異和數(shù)量變異,如人口總體性別就是品質(zhì)變異,年齡就是數(shù)量變異,數(shù)量變異也稱變量,即可變的數(shù)量標(biāo)志稱為變量,變量的具體取值為變量值。很顯然,通過以上的講解,通常認(rèn)為變量是指可變的數(shù)量標(biāo)志,即第一種變量的概念。
這種理解,未免太過于狹隘。教師若以此思想去指導(dǎo)教學(xué),難免會陷入不能自圓其說的境地。我們知道,一切總體單位都具有屬性特征和數(shù)量特征,統(tǒng)計(jì)學(xué)中將其稱為品質(zhì)標(biāo)志和數(shù)量標(biāo)志。例如人口總體,這些特征可能是性別、民族、籍貫、文化程度,也可能是身高、體重、年齡、工齡等。對統(tǒng)計(jì)研究對象而言,無論其屬性特征還是數(shù)量特征,往往均具有可變性。并且一個(gè)具體的特征可能在一種場合是可變的,而在另一場合是不變的。例如,上述所說人口總體性別是可變標(biāo)志,男性人口總體性別就是不變標(biāo)志了??梢娦詣e這個(gè)品質(zhì)標(biāo)志有時(shí)也是可變的。推而廣之,品質(zhì)標(biāo)志也具有可變性。這樣,凡是“可變的標(biāo)志”都應(yīng)作變量看待。
然而,這只是對總體內(nèi)部各單位的差異作靜態(tài)考察時(shí)的變量。如果僅僅把變量定義為“可變的標(biāo)志”,那么可變的統(tǒng)計(jì)指標(biāo)怎么解釋?它是否屬變量范疇呢?所以,還得對統(tǒng)計(jì)總體作考察。
二、變量是指可變的數(shù)量標(biāo)志和全部統(tǒng)計(jì)指標(biāo)這種理解也不準(zhǔn)確,不是所有的統(tǒng)計(jì)指標(biāo)都是變量,通過講解引入可變的統(tǒng)計(jì)指標(biāo)才是變量,即只有“可變的統(tǒng)計(jì)指標(biāo)”才應(yīng)作變量看待。
統(tǒng)計(jì)有數(shù)量性、總體性、具體性和社會性的特點(diǎn)(《基礎(chǔ)統(tǒng)計(jì)》,梁前德主編,高等教育出版社,2000年8月第1版),由統(tǒng)計(jì)的具體性可知,統(tǒng)計(jì)所研究的社會經(jīng)濟(jì)現(xiàn)象的數(shù)量方面是具體的量,是具體的社會經(jīng)濟(jì)現(xiàn)象在具體時(shí)間、地點(diǎn)、條件下的數(shù)量表現(xiàn)、數(shù)量關(guān)系和數(shù)量界限。例如,甲公司2005年的銷售收入60億元就是一個(gè)統(tǒng)計(jì)指標(biāo),而且是具體的、唯一的數(shù)值。對于2005年的來講,銷售收入這個(gè)指標(biāo)只有一個(gè)數(shù)字。因而并非所有的統(tǒng)計(jì)指標(biāo)都是變量。但是若把甲公司2005年至2008年的銷售收入60萬元、69萬元、80萬元、84萬元依次排列,這時(shí)銷售收入就是一個(gè)變量。可見,只有當(dāng)同一統(tǒng)計(jì)總體的同一指標(biāo)在不同時(shí)間的指標(biāo)數(shù)值形成數(shù)列時(shí),統(tǒng)計(jì)指標(biāo)才可能成為變量。
因此,從靜態(tài)上看,某總體的某一統(tǒng)計(jì)指標(biāo)是常量,但把若干總體的同一指標(biāo)放在一起,指標(biāo)就變成變量了。例如,以洛陽市為總體時(shí),2005年各公司銷售收入指標(biāo)是各不相同的,它是一變量。從動態(tài)上看,我們常常使用時(shí)間數(shù)列來處理統(tǒng)計(jì)數(shù)據(jù),時(shí)間數(shù)列中的指標(biāo)數(shù)值往往隨時(shí)間變化而變化。如上,這種不斷變化的指標(biāo)也是變量,前后不同的指標(biāo)數(shù)值就是變量值??梢姡y(tǒng)計(jì)指標(biāo)也有可變與不變之分,因而,“可變的統(tǒng)計(jì)指標(biāo)”才應(yīng)看作變量。
上述第二種觀點(diǎn)是把全部統(tǒng)計(jì)指標(biāo)視為變量了,但不是所有的統(tǒng)計(jì)指標(biāo)都是變量,只有可變的統(tǒng)計(jì)指標(biāo)才是變量,因而我認(rèn)為是不妥的。第三種觀點(diǎn)倒是把可變的統(tǒng)計(jì)指標(biāo)視為變量了,但未包括可變的品質(zhì)標(biāo)志因而我認(rèn)為也是不妥的。第四種觀點(diǎn)我認(rèn)為比較可取,但在文字表述上還可進(jìn)一步具體化,由于說明現(xiàn)象某種特征的概念可以是標(biāo)志(說明總體單位的),也可以是指標(biāo)(說明總體的),因而我們不妨對變量作如下明確的定義:所有可變標(biāo)志和可變的統(tǒng)計(jì)指標(biāo)都是變量,即變量是說明現(xiàn)象某種可變特征的概念。
三、變量的分類:
(一)變量按具體表現(xiàn)不同分為分類變量(品質(zhì)變量)和數(shù)值變量(數(shù)量變量)。
分類變量是用于說明事物所屬類別方面的可變特征的變量,分類變量具體表現(xiàn)為分類數(shù)據(jù),它又可以分為定類變量和定序變量。定類變量是用于區(qū)分現(xiàn)象不同類別的變量,它的取值表現(xiàn)為定類數(shù)據(jù)(如產(chǎn)業(yè)部門)。定序變量是說明現(xiàn)象的有序類型的變量,它的取值表現(xiàn)為定序數(shù)據(jù)(如產(chǎn)品的質(zhì)量等級)。數(shù)值變量是用于說明事物數(shù)值方面的可變特征的變量,數(shù)值變量具體表現(xiàn)為數(shù)值數(shù)據(jù),按數(shù)值數(shù)據(jù)的性質(zhì)不同它可以分為定距變量和定比變量。定距變量是用于測度事物次序之間的距離的變量,它的取值表現(xiàn)為定距數(shù)據(jù)(如考試分?jǐn)?shù))。定比變量是說明現(xiàn)象的比例數(shù)據(jù)的變量,它的取值表現(xiàn)為定比數(shù)據(jù)(如體重)。
(二)變量按所使用的測量尺度不同分為定類變量、定序變量、定距變量和定比變量。
四種變量的概念已如上所述。四種變量對事物的反映是由低級到高級,由粗略到精確逐步遞進(jìn)的,高級變量能轉(zhuǎn)化為低級變量,但不能反過來。如可將考試成績百分制轉(zhuǎn)化為五分制,但不能反過來。另外,四種變量適合于不同的統(tǒng)計(jì)計(jì)算方法。定類變量適合計(jì)算頻數(shù)、頻率、x2檢驗(yàn)、列聯(lián)相關(guān)系數(shù)等;定序變量適合計(jì)算中位數(shù)、四分位差、等級相關(guān)、非參數(shù)檢驗(yàn)等;定距變量適合計(jì)算算術(shù)平均數(shù)、方差、積差相關(guān)、復(fù)相關(guān)、參數(shù)檢驗(yàn)等;定比變量適合所有的統(tǒng)計(jì)計(jì)算方法。幾乎所有的物理量和絕大多數(shù)經(jīng)濟(jì)量都屬于定比變量。因此,不僅可以計(jì)算總量指標(biāo)反映它們的總規(guī)模、總水平,還可以計(jì)算相對指標(biāo)和平均指標(biāo)反映它們的相對水平和一般水平。
(三)數(shù)值變量按變量取值是否連續(xù)分為連續(xù)型變量和離散型變量。
連續(xù)型變量是指可取無窮多個(gè)值,其取值是連續(xù)不斷的,不能一一列舉。它是用測量或計(jì)算的方法取得的數(shù)據(jù),如溫度、身高等。離散型變量是指只能取有限個(gè)值,而且其取值都是從整數(shù)位數(shù)斷開,可一一列舉。它只能用計(jì)數(shù)的方法取得的數(shù)據(jù),如企業(yè)數(shù)、人數(shù)等。
(四)數(shù)值變量按性質(zhì)不同分為確定性變量和隨機(jī)變量。
確定性變量是具有某種或某些起決定性作用的因素致使其沿著一定的方向呈上升、下降或水平變動的變量,如我國國民經(jīng)濟(jì)總是不斷發(fā)展的,具體表現(xiàn)為各種經(jīng)濟(jì)指標(biāo)數(shù)值上升或下降(如人均收入和單位能耗),雖然也有些波動,但變化的方向和趨勢是不可改變的,這些經(jīng)濟(jì)指標(biāo)就是確定性變量。隨機(jī)變量是指受多種方向和作用大小都不相同的隨機(jī)因素影響,致使其變動無確定方向即呈隨機(jī)變動的變量,如,在正常情況下某種機(jī)械產(chǎn)品的零件尺寸就是一個(gè)隨機(jī)變量。
總之,統(tǒng)計(jì)學(xué)是一門邏輯嚴(yán)密的傳統(tǒng)學(xué)科體系,作為統(tǒng)計(jì)學(xué)中幾個(gè)基本概念之一的變量應(yīng)有一個(gè)公認(rèn)的正確的解釋。這對今后統(tǒng)計(jì)學(xué)理論的研究發(fā)展都是很重要的。
參考文獻(xiàn):
[1]王軍虎主編.統(tǒng)計(jì)學(xué)基礎(chǔ)[M].武漢:武漢理工大學(xué)出版社,2007年7月:10
[2]梁前德主編.基礎(chǔ)統(tǒng)計(jì)[M].北京:高等教育出版社,2000年8月:6~9
[3]高凱平.關(guān)于社會經(jīng)濟(jì)統(tǒng)計(jì)學(xué)原理中變量概念的思考[J].山西財(cái)政稅務(wù)專科學(xué)校學(xué)報(bào).1999(6)
【摘要】 目的 探討累積比數(shù)logit模型在有序分類資料中的正確應(yīng)用。方法 利用在陜西某地開展的一項(xiàng)隊(duì)列研究數(shù)據(jù),分別采用累積比數(shù)logit模型和偏比例優(yōu)勢模型進(jìn)行分析,對二者的結(jié)果進(jìn)行比較。結(jié)果 在資料不符合比例優(yōu)勢假定的情況下,直接采用累積比數(shù)logit模型不一定合適。結(jié)論 累積比數(shù)logit模型的應(yīng)用有一定的條件限制,當(dāng)不符合其應(yīng)用條件時(shí),最好采用其他相應(yīng)方法。
【關(guān)鍵詞】 累積比數(shù)logit模型; 比例優(yōu)勢假定; 偏比例優(yōu)勢模型
Abstract: Objective To investigate the correct application of cumulative odds logit model on the ordinal data. Methods The cumulative odds logit model and partial proportional odds model were used for the data from a cohort study in Shaanxi Province, and the results were compared. Results The cumulative odds logit model might not be appropriate when the proportional odds assumption was violated. Conclusion The application of cumulative odds logit model is dependent on certain conditions. It is advisable to adopt other methods when the condition of cumulative odds logit model were violated.
Key words: cumulative odds logit model; proportional odds assumption; partial proportional odds model
累積比數(shù)logit模型是二分類logit模型的擴(kuò)展[1-2],主要用于處理反應(yīng)變量為有序分類變量的資料。該模型對資料要求不嚴(yán),解釋變量既可以是連續(xù)型變量,也可以是無序分類變量或有序分類變量。Amstrong等[3]經(jīng)模擬實(shí)驗(yàn)發(fā)現(xiàn),對于多分類有序反應(yīng)資料,如果采用一般的二分類logit模型而不是累積比數(shù)logit模型,則只能獲得50%~70%的檢驗(yàn)效能。說明在處理有序分類數(shù)據(jù)方面,累積比數(shù)logit模型要優(yōu)于二分類logit模型。但目前對該模型的使用條件、擬合優(yōu)度等內(nèi)容極少有探討。最近幾年已有不少文章對二分類logit模型的正確應(yīng)用進(jìn)行了探討[4-8],而對累積比數(shù)logit模型的研究卻不多見。本文通過實(shí)例對累積比數(shù)logit模型的使用條件和擬合優(yōu)度評價(jià)進(jìn)行了探討,為其正確應(yīng)用提供借鑒。
1 材料和方法
1. 1 資料來源 資料來自于陜西某地開展的胃黏膜病變與幽門螺桿菌關(guān)系的隊(duì)列研究。為探討幽門螺桿菌與胃黏膜病變進(jìn)展的關(guān)系,對400例淺表性胃炎患者檢測幽門螺桿菌感染狀態(tài),將其分為感染陽性和陰性2組,同時(shí)調(diào)查了2組患者的吸煙、飲酒情況,并對所有患者進(jìn)行隨訪。
1.2 胃黏膜病理診斷 用胃內(nèi)鏡觀察胃黏膜病變,并在胃體大小彎、胃角、胃竇大小彎、前后壁各取胃黏膜活檢組織1塊。病理切片按照全國胃、十二指腸活檢、病理診斷標(biāo)準(zhǔn)進(jìn)行診斷。每個(gè)受檢對象以最嚴(yán)重病變?yōu)榈谝辉\斷。病變嚴(yán)重程度由輕到重依次為淺表性胃炎(superficial gastritis, SG)、慢性萎縮性胃炎(chronic atrophic gastritis, CAG)、腸上皮化生(intestinal metaplasia, IM)和異型增生(dysplasia, DYS)。
1.3 統(tǒng)計(jì)學(xué)處理 本研究中的反應(yīng)變量為病變的不同嚴(yán)重程度,為有序分類資料。分析方法分別采用累積比數(shù)logit模型和偏比例優(yōu)勢模型進(jìn)行擬合。數(shù)據(jù)分析采用SAS 8.1統(tǒng)計(jì)軟件。P
2 結(jié) 果
2.1 累積比數(shù)logit模型分析 病例隨訪5年后,共失訪26例,剩余的374例中,135例仍為正?;騍G,139例進(jìn)展成為CAG,59例進(jìn)展為IM,41例進(jìn)展為DYS。多因素分析結(jié)果顯示,校正性別、年齡、吸煙、飲酒等因素后,幽門螺桿菌對胃黏膜進(jìn)展的影響無統(tǒng)計(jì)學(xué)意義(χ2=2.7439,P=0.0976)。見表1。
對該資料的比例優(yōu)勢假定條件進(jìn)行檢驗(yàn),結(jié)果發(fā)現(xiàn)該資料不滿足比例優(yōu)勢假定條件(χ2=38.85,P=0.0004),說明該資料采用累積比數(shù)logit模型分析可能并不合適。對模型的擬合優(yōu)度進(jìn)行分析,結(jié)果顯示,Deviance值和Pearson χ2值對應(yīng)的P值均小于0.05,說明模型擬合欠佳。表1 累積比數(shù)logit模型的參數(shù)估計(jì)
2.2 偏比例優(yōu)勢模型分析 偏比例優(yōu)勢模型也是基于累積logit的一種方法,但是它放寬了比例優(yōu)勢假定條件[9-11]。采用偏比例優(yōu)勢模型分析結(jié)果顯示(表2),幽門螺桿菌對胃黏膜進(jìn)展的影響有統(tǒng)計(jì)學(xué)意義(P=0.0113),這一結(jié)果與目前臨床和流行病學(xué)研究結(jié)果是一致的。而且從參數(shù)估計(jì)的標(biāo)準(zhǔn)誤來看,表2中的標(biāo)準(zhǔn)誤均小于表1中的標(biāo)準(zhǔn)誤。表2 偏比例優(yōu)勢模型的參數(shù)估計(jì)
3 討 論
本次研究分別采用累積比數(shù)logit模型和偏比例優(yōu)勢模型對同一組數(shù)據(jù)進(jìn)行分析,結(jié)果發(fā)現(xiàn),在數(shù)據(jù)違反比例優(yōu)勢假定條件的情況下,2種模型擬合結(jié)果差別較大。累積比數(shù)logit模型結(jié)果顯示幽門螺桿菌對胃黏膜病變的影響無統(tǒng)計(jì)學(xué)意義,而偏比例優(yōu)勢模型則表明幽門螺桿菌的影響有統(tǒng)計(jì)學(xué)意義。從統(tǒng)計(jì)學(xué)角度和實(shí)際角度綜合考慮,偏比例優(yōu)勢模型的誤差更小,且結(jié)果更為符合實(shí)際,提示本研究數(shù)據(jù)采用累積比數(shù)logit模型不合理。
實(shí)際中應(yīng)用累積比數(shù)logit模型時(shí),主要注意的使用條件就是比例優(yōu)勢假定條件,即自變量的回歸系數(shù)應(yīng)與分割點(diǎn)k無關(guān)[12]。換句話說,無論從哪一點(diǎn)分類,對所有的累積logit,變量χk都有一個(gè)相同的βk估計(jì)。對于一個(gè)自變量χk而言,不同累積比數(shù)發(fā)生比的回歸線相互平行,只是截距參數(shù)有所差別。以前有研究認(rèn)為,累積比數(shù)logit模型對這一條件并不敏感,但本次研究發(fā)現(xiàn),當(dāng)這一基本假設(shè)條件不滿足時(shí),結(jié)果的檢驗(yàn)效率會降低,容易產(chǎn)生假陰性錯(cuò)誤。
對于累積比數(shù)logit模型的擬合效果,可通過Pearson χ2和Deviance值來判斷。Pearson χ2通過比較模型預(yù)測的和觀測的事件發(fā)生和不發(fā)生的頻數(shù)檢驗(yàn)?zāi)P统闪⒌募僭O(shè),其自由度為自變量不同水平的組合數(shù)目與參數(shù)數(shù)目之差,χ2統(tǒng)計(jì)量小就意味著預(yù)測值與觀測值之間沒有顯著性差別,可認(rèn)為模型較好地?cái)M合了數(shù)據(jù)。Deviance通常稱為偏差,它是通過似然函數(shù)來測量所設(shè)模型與飽和模型之間的差異程度。當(dāng)Deviance值較小時(shí),可認(rèn)為所設(shè)模型與飽和模型之間的差異小,即所設(shè)模型擬合較好。這2個(gè)指標(biāo)值在多數(shù)情況下是一致的,如果存在不一致,一般認(rèn)為,當(dāng)用最大似然值擬合logit模型時(shí),Deviance值比Pearson χ2值更適用于測量擬合優(yōu)度[13]。需注意的是,當(dāng)模型中含有連續(xù)變量時(shí),Pearson χ2和Deviance指標(biāo)將不再近似于χ2分布,從而也不再適用于擬合優(yōu)度評價(jià)。Bender等[14]建議,如果累積比數(shù)logit模型含有連續(xù)變量時(shí),最好采用單獨(dú)的二分類logit模型利用Homser-Lemeshow指標(biāo)進(jìn)行評價(jià)。Pulksteins等[15]則提出了一種修正Pearson χ2和Deviance值,用于含連續(xù)變量的累積比數(shù)logit模型的擬合優(yōu)度評價(jià)等。
總之,累積比數(shù)logit模型的應(yīng)用不僅僅是參數(shù)求解,而是包含了一系列過程,如變量正確賦值、變量的初步描述、圖示檢查、變量選擇、參數(shù)求解、擬合優(yōu)度評價(jià)、結(jié)果的合理解釋等。它需要對專業(yè)和統(tǒng)計(jì)學(xué)知識的全面了解,也需要一個(gè)實(shí)事求是的態(tài)度。只有準(zhǔn)確掌握應(yīng)用條件,恰當(dāng)?shù)貙δP瓦M(jìn)行評價(jià),并結(jié)合專業(yè)知識進(jìn)行合理的解釋,才能得出可靠的結(jié)論。
參考文獻(xiàn)
[1] Bender R,Gruven U.Ordinal logistic regression in medical research[J].J R Coll Physic Lond,1997,31(5):546-551.
[2] McCullagh P.Regression models for ordinal data [J].J R Stat Soc(B),1980,42(2):109-142.
[3] Amstrong BG,Sloan M.Ordinal Regression models for epidemiologic data[J].Am J Epidemiol,1989,129(1):191-204.
[4] 馮國雙,陳景武,周春蓮.logistic回歸應(yīng)用中容易忽視的幾個(gè)問題[J].中華流行病學(xué)雜志,2004:25(6):544-545
[5] 趙宇東,劉嶸,劉延齡,等.多元logistic回歸的共線性分析[J].中國衛(wèi)生統(tǒng)計(jì),2001,17(5):259-261.
[6] 羅登發(fā),余松林.條件logistic回歸模型的殘差分析和影響診斷[J].中國衛(wèi)生統(tǒng)計(jì),1997:14(1):13-15.
[7] 魏朝暉.logistic回歸診斷[J].中國衛(wèi)生統(tǒng)計(jì),2001, 18(2):112-113.
[8] 趙清波,徐勇勇,夏結(jié)來.logistic回歸中高杠桿點(diǎn)的檢測[J].中國衛(wèi)生統(tǒng)計(jì),1997,14(2):17-20.
[9] Bender R,Benner A.Calculating ordinal regression models in SAS and S-Plus[J]. Biom J,2000,42(6):677-699.
[10] Peterson B, Harrell F.Partial proportional ordinal model for ordinal response variables[J].Appl Statist,1990,39(2):205-217.
[11] Lall R,Campbell MJ,Walters SJ,et al.A review of ordinal regression models applied to health-related quality of life assessments[J].Stat Methods Med Res,2002,11(1):49-67.
[12] Fahrmeir L, Tutz G.Multivariate statistical modeling based on generalized linear models [M].2nd ed. Berlin:Springer-Verlag,1998:75-79.
[13] 王濟(jì)川, 郭志剛.Logistic回歸模型——方法與應(yīng)用[M].北京:高等教育出版社,2001:58-65.
相關(guān)熱搜:統(tǒng)計(jì)學(xué) 統(tǒng)計(jì)學(xué)原理
一、數(shù)據(jù)統(tǒng)計(jì)分析的內(nèi)涵
數(shù)據(jù)分析是指運(yùn)用一定的分析方法對數(shù)據(jù)進(jìn)行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數(shù)據(jù)統(tǒng)計(jì)分析就是運(yùn)用統(tǒng)計(jì)學(xué)的方法對數(shù)據(jù)進(jìn)行處理。在實(shí)際的市場調(diào)研工作中,數(shù)據(jù)統(tǒng)計(jì)分析能使我們挖掘出數(shù)據(jù)中隱藏的信息,并以恰當(dāng)?shù)男问奖憩F(xiàn)出來,并最終指導(dǎo)決策的制定。
二、數(shù)據(jù)統(tǒng)計(jì)分析的原則
(1)科學(xué)性??茖W(xué)方法的顯著特征是數(shù)據(jù)的收集、分析和解釋的客觀性,數(shù)據(jù)統(tǒng)計(jì)分析作為市場調(diào)研的重要組成部分也要具有同其他科學(xué)方法一樣的客觀標(biāo)準(zhǔn)。(2)系統(tǒng)性。市場調(diào)研是一個(gè)周密策劃、精心組織、科學(xué)實(shí)施,并由一系列工作環(huán)節(jié)、步驟、活動和成果組成的過程,而不是單個(gè)資料的記錄、整理或分析活動。(3)針對性。就不同的數(shù)據(jù)統(tǒng)計(jì)分析方法而言,無論是基礎(chǔ)的分析方法還是高級的分析方法,都會有它的適用領(lǐng)域和局限性。(4)趨勢性。市場所處的環(huán)境是在不斷的變化過程中的,我們要以一種發(fā)展的眼光看待問題。(5)實(shí)用性。市場調(diào)研說到底是為企業(yè)決策服務(wù)的,而數(shù)據(jù)統(tǒng)計(jì)分析也同樣服務(wù)于此,在保證其專業(yè)性和科學(xué)性的同時(shí)也不能忽略其現(xiàn)實(shí)意義。
三、推論性統(tǒng)計(jì)分析方法
(1)方差分析。方差分析是檢驗(yàn)多個(gè)總體均值是否相等的一種統(tǒng)計(jì)方法,它可以看作是t檢驗(yàn)的一種擴(kuò)展。它所研究的是分類型自變量對數(shù)值型因變量的影響,比如它們之間有沒有關(guān)聯(lián)性、關(guān)聯(lián)性的程度等,所采用的方法就是通過檢驗(yàn)各個(gè)總體的均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響。(2)回歸分析。在數(shù)據(jù)統(tǒng)計(jì)分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應(yīng)的因果變化往往無法用精確的數(shù)學(xué)公式來描述,只有通過大量觀察數(shù)據(jù)的統(tǒng)計(jì)工作才能找到他們之間的關(guān)系和規(guī)律,解決這一問題的常用方法是回歸分析?;貧w分析是從定量的角度對觀察數(shù)據(jù)進(jìn)行分析、計(jì)算和歸納。
四、多元統(tǒng)計(jì)分析方法
關(guān)鍵詞:ArcGIS 土壤 區(qū)域 空間變異
中圖分類號:X53 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-3973(2012)010-108-02
1 引言
隨著信息社會的到來,人類社會進(jìn)入了信息大爆炸的時(shí)代。面對海量的信息,人們對信息的要求發(fā)生了巨大變化。隨著計(jì)算機(jī)技術(shù)的出現(xiàn)和快速發(fā)展,對空間位置信息和其他屬性類信息進(jìn)行統(tǒng)一管理的地理信息系統(tǒng)也隨之快速發(fā)展起來了。
在眾多的地理信息軟件中,美國公司ESRI公司推出的ArcGIS地理信息平臺是最具代表性的GIS軟件平臺,其強(qiáng)大的空間分析處理工具和不斷更新、完善的空間分析功能是其他軟件無法比擬的。
土壤是在巖石風(fēng)化產(chǎn)物基礎(chǔ)上發(fā)育形成的自然體,土壤中還有各種重金屬,通過ArcGIS的地統(tǒng)計(jì)模塊能夠揭示土壤重金屬的空間變異規(guī)律和空間分布,為實(shí)現(xiàn)土壤可持續(xù)利用和區(qū)域規(guī)劃提供理論依據(jù)。
2 ArcGIS中地統(tǒng)計(jì)模塊
來自法國的統(tǒng)計(jì)學(xué)家G.Matheron在經(jīng)過許多研究和分析后后創(chuàng)立了一門嶄新的統(tǒng)計(jì)學(xué)分支:地統(tǒng)計(jì)學(xué)。地統(tǒng)計(jì)學(xué)的基礎(chǔ)是區(qū)域化變量,以變異函數(shù)為工具,研究的對象是具有隨機(jī)性和結(jié)構(gòu)性的自然現(xiàn)象。
2.1 地統(tǒng)計(jì)基本原理
2.1.1 地統(tǒng)計(jì)假設(shè)
隨機(jī)性,正態(tài)分布和平穩(wěn)性分別是地統(tǒng)計(jì)原理的三個(gè)基本假設(shè)。在平穩(wěn)性中有兩大類:均值平穩(wěn)和二階平穩(wěn)、內(nèi)蘊(yùn)平穩(wěn)。均值平穩(wěn)假設(shè)均值是與位置無關(guān)的一個(gè)常量;二階平穩(wěn)與協(xié)方差有聯(lián)系;內(nèi)蘊(yùn)平穩(wěn)與半變異函數(shù)有聯(lián)系。二階平穩(wěn)假設(shè)在空間上的任意兩點(diǎn),如果它們的距離和方向都相同,那么它們的協(xié)方差也是相同的;內(nèi)蘊(yùn)平穩(wěn)則假設(shè)在空間上的任意兩點(diǎn),如果它們的距離和方向是相同的,那么它們的方差也是相同的。
本書共有10章:1.簡要介紹了本書的讀者對象、使用方法、組織架構(gòu)等;2.統(tǒng)計(jì)基礎(chǔ),對統(tǒng)計(jì)方面的基礎(chǔ)理論知識展開詳細(xì)描述,包括統(tǒng)計(jì)思維、數(shù)據(jù)格式、繪圖方式、概率分布等;3.統(tǒng)計(jì)推斷,講述了參數(shù)點(diǎn)估計(jì)、假設(shè)檢驗(yàn)、總體樣本、人口分布的概率圖和測試及蒙特卡羅模擬等;4.統(tǒng)計(jì)模型,包括模型簡介、回歸模型和實(shí)驗(yàn)設(shè)計(jì)分析等;5.多變量統(tǒng)計(jì)的基礎(chǔ),主要包括多變量隨機(jī)抽樣、多變量數(shù)據(jù)可視化、樣品幾何形狀、廣義方差等;6.多變量統(tǒng)計(jì)推斷,包括平均向量推論、兩個(gè)總體的均值矢量比較、方差-協(xié)方差矩陣的推論等;7.主成分分析,主要講解其定義和性質(zhì)、停止規(guī)則、殘差分析、統(tǒng)計(jì)推斷等;8.典型相關(guān)分析,描述數(shù)學(xué)公式、實(shí)際應(yīng)用、典型相關(guān)回歸等理論;9.判別和分類,主要包括兩個(gè)或幾個(gè)總體分類和空間平滑的分類分析;10.聚類分析,包括相似和非相似方法、層次和非層次聚類算法等。
本書強(qiáng)調(diào)幾何直觀的概念理解,所有的例子都比較簡單,并提供背景解釋。貫穿全書的習(xí)題集和解決方案包含部分?jǐn)?shù)值計(jì)算結(jié)果,讀者可以方便地確認(rèn)自己方法的準(zhǔn)確性。
本書是成像科學(xué)多變量統(tǒng)計(jì)學(xué)課程中一本非常優(yōu)秀的圖書,適合本科和研究生閱讀。該書也可為從事成像、光學(xué)和光電子學(xué)領(lǐng)域每天需要進(jìn)行數(shù)據(jù)處理分析的專業(yè)人士提供有價(jià)值的參考。
Peter Bajorski博士是羅切斯特理工學(xué)院統(tǒng)計(jì)學(xué)系的副教授,他在統(tǒng)計(jì)學(xué)研究領(lǐng)域包括回歸技術(shù)、多變量分析、實(shí)驗(yàn)設(shè)計(jì)、非參數(shù)方法和可視化方法等,成像研究包括光譜圖像目標(biāo)檢測等。
聶樹真,
助理研究員
(中國科學(xué)院光電研究院)
【摘要】 目的: 介紹應(yīng)用多重對應(yīng)分析方法實(shí)現(xiàn)對大樣本分類變量之間的相關(guān)性分析,旨在對大樣本疾病信息采集資料的臨床和基礎(chǔ)科研工作者提供可借鑒的統(tǒng)計(jì)學(xué)分析方法。方法:應(yīng)用SPSS11.5統(tǒng)計(jì)分析軟件中Data Reduction菜單的Optimal Scaling過程對大樣本分類變量進(jìn)行多重對應(yīng)分析,以研究它們之間的聯(lián)系。結(jié)果:慢性胃炎的4種病理組織診斷與8種中醫(yī)證型有一定的相關(guān)性,這對慢性胃炎的臨床診斷及治療具有指導(dǎo)意義,為慢性胃炎中醫(yī)證候規(guī)范化研究提供一定的思路。結(jié)論:對于中醫(yī)研究中常見的無序多分類或二分類變量,要同時(shí)研究它們之間的聯(lián)系,用多重對應(yīng)分析在結(jié)果的直觀性和可解釋性方面優(yōu)于對數(shù)線性模型。SPSS11.5統(tǒng)計(jì)分析軟件易于實(shí)現(xiàn)多個(gè)變量間的多重對應(yīng)分析。
【關(guān)鍵詞】 多重對應(yīng)分析; 相關(guān)性分析; 大樣本; 分類變量
長期以來,中醫(yī)的辨證分型紛繁多樣,難以統(tǒng)一,同時(shí)病理組織檢查是許多疾病診斷及治療的重要依據(jù)。如何理清中醫(yī)證型和病理診斷之間關(guān)系是許多臨床和基礎(chǔ)科研工作者遇到的難題。本研究介紹應(yīng)用多重對應(yīng)分析方法實(shí)現(xiàn)對中醫(yī)大樣本證型與病理診斷的相關(guān)性分析,以期為疾病的臨床診斷和治療提供參考依據(jù)和幫助,為中醫(yī)證候的規(guī)范化研究提供一定的思路,為大樣本疾病信息資料的臨床和基礎(chǔ)科研工作者提供可借鑒的統(tǒng)計(jì)學(xué)分析方法。
1 資料及方法
1.1 資料來源
本研究資料來源于上海市重點(diǎn)學(xué)科(第三期) 中醫(yī)診斷學(xué)建設(shè)項(xiàng)目(編號:S30302)。為2001年3月~2008年3月上海中醫(yī)藥大學(xué)附屬龍華醫(yī)院、曙光醫(yī)院、岳陽醫(yī)院及上海市第八人民醫(yī)院消化科門診且經(jīng)內(nèi)窺鏡及病理組織學(xué)檢查確診為慢性胃炎的患者1068例。以調(diào)查表的形式獲得包括基本情況、胃鏡及病理組織學(xué)診斷、中醫(yī)主癥、食欲食量、全身情況、舌脈象、其他情況等7個(gè)部分的內(nèi)容,共80個(gè)變量。所有變量經(jīng)過命名及量化處理,有程度差異的變量分別賦值1、2、3、4,以示輕重程度從無到重度。對于難以分清程度差異的變量根據(jù)有無分別賦值1、0。本研究借用其中病理診斷與中醫(yī)主要證型的部分實(shí)驗(yàn)數(shù)據(jù)。
1.2 統(tǒng)計(jì)學(xué)方法
調(diào)查表所得數(shù)據(jù)采用EipData3.1軟件進(jìn)行數(shù)據(jù)管理,雙遍錄入和核對,建立相關(guān)數(shù)據(jù)庫。應(yīng)用SPSS11.5統(tǒng)計(jì)分析軟件中Data Reduction菜單的Optimal Scaling過程對中醫(yī)主要證型與病理診斷結(jié)果進(jìn)行多重對應(yīng)分析,以研究它們之間的聯(lián)系。
2 分析步驟及結(jié)果
其分析步驟如下:
Analyze"Data Reduction"Optimal Scaling
Define
Variables框:HP、腸化生、病理萎縮、慢性炎癥
選中以上4個(gè)變量:Define Range
Maximum框:4 Continue 取值范圍在1~4之間
Variables框:主證
選中以上變量:Define Range
Maximum框:8 Continue 取值范圍在1~8之間
OK
結(jié)果見圖1。
HP感染慢性胃炎患者中醫(yī)證型以脾胃濕熱證多見,依次可見肝胃郁熱、脾胃氣虛等證,與脾胃虛寒證無明顯關(guān)聯(lián)。慢性炎癥類胃炎患者中醫(yī)證型以濕濁中阻證多見,次之可見脾虛濕阻證、脾胃氣虛證、肝氣郁結(jié)證,較少出現(xiàn)脾胃虛寒證。萎縮性胃炎患者中醫(yī)證型以虛證為主,以脾胃氣虛證多見,次見脾胃虛寒證,較少出現(xiàn)濕濁中阻、脾胃濕熱等實(shí)證。腸化生類胃炎患者中醫(yī)證型以肝胃郁熱、濕濁中阻證多見,次之見肝氣郁結(jié)、脾胃氣虛等證。
圖1 分析結(jié)果
3 討論
本研究采用大樣本的臨床病例資料,經(jīng)統(tǒng)計(jì)學(xué)多重對應(yīng)分析方法分析顯示,中醫(yī)證型與西醫(yī)病理組織診斷間有一定的相關(guān)性,這有助于了解疾病不同病情階段的中西醫(yī)診斷之間的內(nèi)在相關(guān)性,有利于用辨證與辨病相結(jié)合的方式為疾病的臨床診斷和治療提供依據(jù)和幫助。如對于無明顯臨床癥狀的患者,可以以病理組織的不同特點(diǎn)及舌脈象特征作為中醫(yī)辨證論治的依據(jù);對于病理組織檢查尚未明確的患者,可以結(jié)合中醫(yī)的辨證結(jié)果及其他檢查初步制定診療方案。也可為中西醫(yī)結(jié)合探討該疾病的病因病機(jī)及證治規(guī)律尋求理論及臨床實(shí)踐中的結(jié)合點(diǎn),同時(shí)為疾病的中醫(yī)證候客觀化研究提供一定的思路和方法。
中醫(yī)領(lǐng)域的研究很多變量多為無序多分類或二分類變量,同時(shí)研究它們之間的聯(lián)系可用的方法有對數(shù)線性模型和多重對應(yīng)分析兩種,從結(jié)果的直觀性和可解釋性上講,多重對應(yīng)分析要更好些。多重對應(yīng)分析是多維圖示分析技術(shù)的一種,是了解多維數(shù)據(jù)間聯(lián)系的一種強(qiáng)有力的方法,該分析方法既有頻數(shù)的分析,也有各變量間的關(guān)系圖示。其分析結(jié)果主要采用反映變量間相互關(guān)系的對應(yīng)分析圖來表示。該圖形中的每個(gè)散點(diǎn)代表了某個(gè)變量的一個(gè)水平,有較緊密關(guān)系的水平其散點(diǎn)將緊密地靠近一起,從而在結(jié)果的解釋上非常的直觀。在解釋該圖形時(shí)遵從的原則是:落在由原點(diǎn)(0,0)出發(fā)接近相同方位及圖形相同區(qū)域的同一變量的不同類別具有類似的性質(zhì);落在原點(diǎn)出發(fā)接近相同方向及圖形相同區(qū)域的不同變量的類別間可能有聯(lián)系。SPSS11.5統(tǒng)計(jì)分析軟件易于實(shí)現(xiàn)多個(gè)變量間的多重對應(yīng)分析。但在變量較多時(shí)可能會掩蓋真實(shí)聯(lián)系,同時(shí)使得圖形一片混亂,難以看清(根據(jù)此次實(shí)際操作經(jīng)驗(yàn),每次最多選入的變量不能超過13個(gè),否則真的是一片混亂,無法處理了)。此時(shí)需要用戶根據(jù)經(jīng)驗(yàn)和分析結(jié)果進(jìn)行耐心的篩選,以得到最優(yōu)結(jié)果。這對使用者的分析水平和職業(yè)道德都是一個(gè)嚴(yán)峻的考驗(yàn)。
【參考文獻(xiàn)】