時間:2022-03-05 04:47:38
序論:在您撰寫決策樹下房地產(chǎn)市場的數(shù)據(jù)挖掘時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的1篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導您走向新的創(chuàng)作高度。
以某知名房地產(chǎn)企業(yè)某商品住宅項目2014~2015年的銷售成交記錄(801條)和訪問接待記錄(865條)為樣本,通過剔除“實質(zhì)貧數(shù)據(jù)”的客戶人口統(tǒng)計信息改進數(shù)據(jù)集,同時通過對已成交購房者按“消費狀態(tài)”(即“剛需”“首改”“再改”和“升級”)進行決策樹分類,得到“利益相關(guān)者”和“以投資為導向”兩個穩(wěn)定的關(guān)鍵變量。以此指導對訪談數(shù)據(jù)集的分類,發(fā)現(xiàn)購房者在與銷售人員接觸時,首先關(guān)注的是房源的面積大小,而非如價格、戶型等其他信息,在兼顧精度的同時,發(fā)現(xiàn)可以直接指導人工銷售的知識規(guī)則。
一、引言
近年來,我國住房消費市場不斷發(fā)育成熟,房地產(chǎn)行業(yè)也逐漸積累了大量的客戶信息數(shù)據(jù)。這些房地產(chǎn)交易數(shù)據(jù)與客戶數(shù)據(jù),與宏觀經(jīng)濟數(shù)據(jù)、房地產(chǎn)供給數(shù)據(jù)以及交易后服務(wù)數(shù)據(jù)一道構(gòu)成了房地產(chǎn)市場的數(shù)據(jù)體系。這些數(shù)據(jù)對房地產(chǎn)企業(yè)經(jīng)營的各個環(huán)節(jié),尤其是后端銷售環(huán)節(jié)具有重要意義(李海洋,2017)。但由于房地產(chǎn)交易不同于簡單的網(wǎng)上購物,消費者必須借助專業(yè)銷售人員的幫助才能完成交易,而消費者與銷售人員之間的信息不對稱,許多“大數(shù)據(jù)”在交易完成前都無法獲得,因此針對歷史數(shù)據(jù)的預測方法就無法使用。如何從這種名義上是大數(shù)據(jù),實質(zhì)上卻是“貧數(shù)據(jù)”的房地產(chǎn)客戶數(shù)據(jù)中獲得有價值的信息,使數(shù)據(jù)真正可以應用與指導實踐就成了一個重要的問題。本文在現(xiàn)有研究和決策樹的成熟模型基礎(chǔ)上,試圖改善這兩個問題,讓機器學習不僅獲得數(shù)據(jù)分析結(jié)果同時也獲得知識,并可以將知識直接服務(wù)于人工房地產(chǎn)銷售業(yè)務(wù)。
二、基于決策樹的市場數(shù)據(jù)挖掘模型構(gòu)建思路
決策樹是一種重要的預測型數(shù)據(jù)挖掘技術(shù),這種算法主要通過貪婪算法遞歸實現(xiàn)分類與預測功能。其系列算法起源于Hunt、Marin和Stone在1966年提出的單概念學習系統(tǒng)。Quinlan(1987)提出的ID3算法正式建立了決策樹的算法框架。決策樹分類預測的實現(xiàn)流程大致如下:(1)在理解問題的基礎(chǔ)上,對數(shù)據(jù)進行清洗、賦值、標準化等預處理;(2)進一步使用具體決策樹分類方法,利用訓練樣本構(gòu)建決策樹,并通過測試集樣本檢驗決策樹的效果;(3)根據(jù)結(jié)果調(diào)試相關(guān)參數(shù)與方法改進模型。決策樹在標準選擇、改進思路和效果評價上有著多種不同規(guī)則。目前在許多理論與應用研究上,對模型效果的評價主要聚焦于預測精度。通過設(shè)置代價系統(tǒng)、改變抽樣機制等方式,追求相關(guān)問題預測精度的最大化。但本文參考決策樹在多個領(lǐng)域的應用研究(Liang等,2015;Kretser等,2015;Dhurandhar等,2015)認為,除此之外,研究方向還應包括:分析樣本數(shù)據(jù)集與生成的數(shù)規(guī)則的關(guān)系、規(guī)則復雜度與預測準確性的折衷等方面。前一個問題是聯(lián)系決策樹算法與現(xiàn)實中具體應用的橋梁,而后一個問題則是將單純的分類算法提升到系統(tǒng)科學的角度進行多目標的決策體系構(gòu)建。本文即從這兩個問題出發(fā),首先從研究房地產(chǎn)銷售數(shù)據(jù)的特性,站在從房地產(chǎn)交易的具體情境上分析數(shù)據(jù)的可得性及穩(wěn)定性,以建立適當?shù)臄?shù)據(jù)集。此外,鑒于房地產(chǎn)交易的復雜性,消費者必然會借助專業(yè)銷售人員的幫助完成交易,因此,房地產(chǎn)數(shù)據(jù)挖掘更應該對房地產(chǎn)銷售人員的服務(wù)過程形成協(xié)助。房地產(chǎn)銷售人員在服務(wù)過程中,對單個客戶的精準把握自然是一方面,但在同樣的時間里用盡可能少的交流,掌握切中購房需求的要害問題,對更多客戶形成基本正確的判斷,也是其拓展渠道提升業(yè)績的方式。因此本文希望通過數(shù)據(jù)挖掘,得到分類標準穩(wěn)定并易于解釋的決策樹規(guī)則。
三、數(shù)據(jù)分析
(一)數(shù)據(jù)說明與預處理
本文采用的數(shù)據(jù)包含兩部分,均源自某綜合性知名房地產(chǎn)企業(yè)的數(shù)據(jù)庫,一部分是該企業(yè)在環(huán)渤海地區(qū)某城市一處住宅小區(qū)銷售中心2014年成立以來的商品房住宅銷售成交記錄共801條;另一部分為該銷售中心自成立以來的訪問接待記錄共865條。對這些一手數(shù)據(jù)做進一步清洗,在成交數(shù)據(jù)中剔除值缺失、明顯輸入錯誤記錄24條,剩余有效記錄777條;以同樣的標準剔除訪問接待記錄中的無效記錄43條,剩余有效記錄823條。成為本文用于挖掘的數(shù)據(jù)集。其中成交數(shù)據(jù)中包括50個字段,剔除沒有信息含量的“序號”“組別”“職業(yè)顧問”“樓號”等字段后。所謂數(shù)據(jù)穩(wěn)定性強,是指這類數(shù)據(jù)反映的信息是客觀事實,一般不具有隨意性。如購房人的身份信息家庭信息無法根據(jù)消費者的意愿改變,但購房需求的細節(jié)如戶型、周邊配套設(shè)施等,屬于消費者的主觀意愿,本身沒有客觀事實與之對應,也就無穩(wěn)定性可言。數(shù)據(jù)的隱瞞成本,是指消費者不披露該信息對于購房交易而言,是否影響交易的完成與完成質(zhì)量。房地產(chǎn)的銷售人員相對于消費者始終處于信息不對稱的劣勢地位。消費者具有選擇是否披露自身相關(guān)信息的主動權(quán)。消費者在交易完成前,出于各種原因(家庭安全、隱私保護等)選擇不披露與房產(chǎn)交易無直接關(guān)聯(lián)的信息,就不會造成交易上的損失,因而隱瞞成本低。但如果一個消費者在與銷售人員交流時隱瞞其對于價格、戶型或周邊設(shè)施等消費需求,這樣的隱瞞將會對交易造成直接的影響。基于這一分析,容易發(fā)現(xiàn):盡管房屋成交后的數(shù)據(jù)集由于產(chǎn)權(quán)登記這一流程,擁有上表中所有字段的信息,但在房地產(chǎn)交易完成之前,銷售人員難以獲得與消費者本次購房無直接關(guān)聯(lián)的人口統(tǒng)計數(shù)據(jù)和其他消費習慣數(shù)據(jù)。因此,在數(shù)據(jù)集中應將兩個門類的數(shù)據(jù)剔除,只保留后兩個類型做進一步分析。在成交數(shù)據(jù)集中,各個字段均隱瞞成本較高,或如消費者信息來源這類信息由于導流渠道的確定性而無法隱瞞,因此均可以作為數(shù)據(jù)挖掘的數(shù)據(jù)集適用。
(二)實驗結(jié)果及分析
基于上述數(shù)據(jù)處理后,在SPSS16.0平臺上進行決策樹分析?;谇罢鹿?jié)的論述,本文以二項分枝,能生成較為簡明的樹規(guī)則CRT分類方法為主要方法,以CHAID為參考方法進行分析。針對所研究的問題,不同于類似銀行信用、航班延誤等預測,房地產(chǎn)的不同類型客戶各有其價值與風險,剛需消費者潛在價值可能偏低,但需求迫切成交的幾率也大,高端升級型消費者潛在價值更高,但需求更多元,完成交易的幾率較小。很難說哪類誤判有更大的代價。因此,本文的分析中不設(shè)置成本偏好的不對稱性。
1.對訪談客戶記錄的分析
通過觀察訪談數(shù)據(jù)集可以發(fā)現(xiàn),這一數(shù)據(jù)集建立決策樹模型并分類的問題在于:缺少一個核心指標或組合規(guī)則將消費者加以區(qū)分,并以此為“類”對數(shù)據(jù)集進行分類,這與訪談數(shù)據(jù)沒有結(jié)構(gòu)化的設(shè)計、信息獲得也比較零散有關(guān)。因此,本文首先對成交數(shù)據(jù)進行分析,試圖解決對客戶需求進行分類的“類”以何種規(guī)則確定的問題。
2.對成交記錄分析
通過對交易數(shù)據(jù)的觀察發(fā)現(xiàn),消費者的住宅消費狀態(tài)這一信息具有優(yōu)良特性:首先由于全國建立產(chǎn)權(quán)信息登記制度,消費者這一信息基本上屬于確定信息;其次,根據(jù)現(xiàn)行法規(guī),處于不同住宅消費狀態(tài)的消費者在所適用的稅收、貸款等交易內(nèi)容會有很大不同,在這一信息上選擇保留,將使自己在交易中蒙受損失。此外,房地產(chǎn)交易是大宗交易,客戶的消費次數(shù)不可以直接反映出其財富水平、交易經(jīng)驗等相關(guān)信息,可以作為客戶細分的變量。因此本文擬對消費狀態(tài)(即剛需、首改、再改、升級)作為客戶細分的標準,進行決策樹分類。這一分類規(guī)則有一定的經(jīng)濟含義,首先婚房與給父母買房,屬于有利益相關(guān)者,這一類需求往往迫切缺乏考慮的余地,因此往往是剛需用戶。而其他客戶中,又以“關(guān)注住宅質(zhì)量”還是“單純?yōu)橥顿Y而購房”加以區(qū)分。已有一套住房的客戶,首次購買改善性住房時往往更注重房屋升值空間,愿意升值犧牲居住質(zhì)量;而已有多次購房經(jīng)歷的消費者,再次購房往往更關(guān)注生活質(zhì)量;而已經(jīng)購買過改善性住房,但其購買住房還沒有達到升級標準的再改客戶在分類中并不明顯,是因為其兼具了首改客戶與升級客戶的特征。此外通過觀察在CRT規(guī)則的右枝第二層可以發(fā)現(xiàn),剛需客戶關(guān)注設(shè)施環(huán)境等問題的比例遠大于關(guān)注價格與升值空間,這一點與剛需客戶往往購房自住或給家人居住,同時該筆交易對其家庭財富影響巨大有關(guān)?;谝陨戏治隹芍嫦嚓P(guān)人與投資導向是對房地產(chǎn)客戶細分的關(guān)鍵規(guī)則,其他的規(guī)則并不重要,這一點對房地產(chǎn)的銷售人員如何進行溝通有一定指導意義。
3.投資深度重分類與訪談記錄再驗證
以消費狀態(tài)對客戶細分的主要規(guī)則是,是否有利益相關(guān)者和是否以投資為導向?;谶@一認識,進一步對訪談數(shù)據(jù)集進行分析。兩種方法的相互驗證表明這樣一個觀點:無論是通過“利益相關(guān)人”還是“質(zhì)量敏感”來分類,對客戶區(qū)分度最大的因素都是住房面積。這一點不難解釋:當客戶主動聯(lián)系具體銷售中心接受訪談時,可以斷定其對于自身經(jīng)濟條件和諸如學區(qū)等關(guān)鍵因素均已形成判斷,而所聯(lián)系的樓盤,則恰好是其通過對自身信息判斷后找出的選項,這一點可以啟發(fā)銷售人員,在同客戶溝通時,首先根據(jù)上述判斷,溝通房源本身的戶型面積等問題,可以提高溝通效率。同時應注意,分枝的葉子集形式也有一定的信息含量,應注意到:傾向于購買大戶型住宅的客戶主要是“中間層”,“剛需”客戶與“升級”客戶則有購買小戶型的傾向。
四、結(jié)論與政策建議
由于房地產(chǎn)消費者與銷售人員間的信息不對稱,許多在交易完成前都無法獲得的“大數(shù)據(jù)”被用于數(shù)據(jù)挖掘和預測,造成“實質(zhì)的貧數(shù)據(jù)”。本文通過對房地產(chǎn)銷售數(shù)據(jù)穩(wěn)定性與隱瞞成本的判斷,剔除客戶人口統(tǒng)計信息,改進了數(shù)據(jù)集。同時通過對已成交購房者按“消費狀態(tài)”進行決策樹分類,得到“利益相關(guān)者”和“以投資為導向”兩個穩(wěn)定的關(guān)鍵變量。以此指導對訪談數(shù)據(jù)集的分類,發(fā)現(xiàn)購房者在與銷售人員接觸時,首先關(guān)注的是房源的面積大小,而非如價格、戶型等其他信息。本文在兼顧預測精度的同時,發(fā)現(xiàn)了可以直接用于指導人工銷售業(yè)務(wù)的知識規(guī)則,房地產(chǎn)銷售人員可借助以上規(guī)則,提高溝通效率、改善銷售業(yè)績。根據(jù)以上結(jié)論,地方在制定住房政策時,也應充分利用數(shù)據(jù)挖掘的技術(shù)及其發(fā)現(xiàn)的知識:一方面,地方政府應與房地產(chǎn)企業(yè)建立更加系統(tǒng)的信息共享機制,建立認識住房需求的信息抓手,以便對已經(jīng)存在的住宅交易進行市場調(diào)節(jié);另一方面,地方政府可進一步善用擁有的戶籍等信息,加強對居民房產(chǎn)需求的理解,進而改善區(qū)域內(nèi)房地產(chǎn)開發(fā)的事前規(guī)劃,使市場更加平穩(wěn)有序地發(fā)展。