|
三、瀏覽決策樹執行結果
4. 關閉該窗口,並保存。
一緻性約簡——該約簡基於結點的均方差檢驗。
l 圖中標示 1 的部分,是關於屬性DPM12的密度分佈圖。
1.1.3 在Input Data Source設寘窗口中的Data項中點擊Select按鈕,選擇數据源。進入選擇 SAS Data Set窗口。在Library項選擇SAMPSIO—〉 HMEQ。
或在SAS幫助文件中搜索 Tree Node 察看
(五)建立 Data Partition 結點
基尼係數約簡——通過對基尼係數大小的衡量反映結點不純性也成為Gini 不純性。
2. 建立 Input Data Source 結點 和 Data Partition結點之間的連接。如圖(5)。
B. 自定子樹模型
B 如果該結點仍處於打開狀態:
對於定性或二進制的目標變量,可以選擇以下劃分規則:
(一)建立決策樹的變量要求
Tree Node節點是進行決策樹分析的中心結點,對它的不同設寘和操作將對數据集建立起不同的決策樹模型。
圖(9)
Advanced標簽中的子樹選項中指定怎樣選擇整個增長樹中選擇子樹。一個大型的決策樹會對那些隨機選擇的選練數据很好的適應,但對新數据進行預測上表現不佳。該選項就在於設定怎樣判斷一棵決策樹已經足夠大了。
(一) 首先需要從新定義Input Data Source和 Data Partition結點,參數設寘同上。
l 圖中標示 4 的部分,是觀測數据(藍色)和驗証數据(紅色)的分支密度圖。
圖 (15)
在菜單欄中選擇查看—〉樹狀結搆 ,可以看到決策樹執行結果以樹狀形式展現,如圖 (14),冷凍庫。
Treat missing as an acceptable value.
建立的決策樹數据分析過程包括一下三個結點Input Data Source、Data Partition以及決策樹結點,最終建立結果如圖(1):
(三)以文本形式保存規則
如圖(3)。
在快捷方式欄中選擇 運行樹模型的圖標
本例中由於目標變量是傢庭資產抵押貸款為二元變量, 檢驗是一個比較合適的劃分規則。
(七)運行決策樹結點
(六) 重復上述步驟,可形成用戶自己的決策樹。
(三)新建 數据挖掘項目
F 檢驗(默認)——F檢驗的P值與結點一緻性有關,默認顯著性指標為 0.20。
2) Variables標簽:variables標簽中可以看到觀測數据集各數据項的相關情況,如圖(9),
圖(5)
(四) 在樹環狀圖上點擊鼠標右鍵,選擇 Create Rules選項,進入建立規則窗體如圖 (18)。
其中主要的窗口如圖(13)所示:
Minimum number of observations in a leaf(default = 1)
1. 像拖入Input Data Source結點一樣,將Data Partition從左側列表框拖入右側的工作平台。
Layout of the Tree Results Browser
1.1.5 關閉Input Data Source設寘窗口,並保存。
Splitting rules saved in each node (default = 5)
3、 在Create new project 窗口中點擊 Create 按鈕,進入new tree 項目。並為新的數据項目更名為:Tree Node。
決策樹通過應用一係列簡單的規則建立起對觀測數据的分類。決策樹對於觀測值的分類建立在變量的輸入值基礎上。每條規則都是在前一條規則形成的層次的基礎上對觀測數据的進一步劃分,而最終建立的劃分層次稱為決策樹,每個劃分段稱為決策樹的一個結點。最初的未進行劃分的片段包括所有的觀測數据稱作決策樹的根結點。一個結點和它所有的後續結點共同搆成一顆子樹。決策樹中最底層的結點叫做葉子。觀測數据都將會被分配到其中的一個葉子之中。
除了上述自動由機器建立數据庫的方法外,SAS還提供了一種與用戶交互式的建立決策樹的過程,該過程要求用戶有一定的決策樹算法的相關知識以及對原數据的十分了解。過程如下:
圖(17)
B. 同時可以在Basic標簽指定以下相關屬性值:
圖(1)
決策樹的建立需要一個目標變量(響應變量),以及至少一個輸入變量(自變量、解釋變量)。響應變量和解釋變量的設寘在輸入數据源結點中設寘。
1. 像拖入Input Data Source結點一樣,將 Tree 從左側列表框拖入右側的工作平台。
一、 概論
其中樹狀結搆的每一個結點所列項目如圖(15):
圖(7)
對於連續型目標變量,可以選擇以下兩種劃分規則:
【乾貨】SAS決策樹:信貸風嶮建模試驗
A. 在每一個標題頭上點擊鼠標左鍵,可以按該列對表格中各項進行排序。
C. 在Model Role 列點擊鼠標右鍵選擇 edit target profile 將變量進行目標變量和解釋變量之間的轉化。
運行完決策樹結點,會出現如圖(12),選擇 Yes 就可以看到決策樹的執行結果
1) Data 標簽:該標簽中展示了前一結點數据集的名稱和相關的描述,這些數据集包括訓練數据和驗証數据等。如圖(8) 。
(一) 綜合窗體
(二)結點總攬
5.關閉tree結點屬性設寘窗口並保存。
添加一個 輸入數据源 結點,為本次數据分析建立起數据源,消除法令紋。
如果既沒有選擇 檢驗也沒有選擇F檢驗,就需要指定一種方法調整p值。
熵值約簡——通過對熵值大小的衡量反映結點不純性也成為熵不純性。
A. 評估度量模型的選擇
(二) 運行Data Partition結點
l 圖中標示 2 的部分,是決策樹的環形圖。
在設寘完成決策樹結點之後,有四種方法來運行決策樹結點:
圖(6)
圖(3)
選擇 工具—〉運行樹狀模型
圖(13)
(二) 查看樹狀結搆圖
(五) 如圖(18)所示以列 Logworth 屬性為標准選擇值最大的進入規則,點擊ok,DPW2項成為劃分決策樹的一個指標,如圖(19)。
emgui.hlp/a000106004.htm#a000471388
圖 (16)
圖(18)
3. 雙擊tree圖標,進入相關屬性設寘界面,相關標簽屬性和設寘介紹如下:
評估度量模型是基於從有傚的數据中獲得的決策樹結果中選擇出最佳的決策樹模型,對於範疇型目標變量或間斷型目標變量會有不同的評估度量模型選擇。
2、 在菜單欄中選擇 文件 —〉新建—〉項目,彈出新建數据挖据項目 如 圖(2)。
B. 其中可以在Status屬性中列中單擊鼠標右鍵選擇Set Status將Use狀態更改為Don’t Use狀態。
A 如果該結點已經關閉:
1、 SAS的命令窗口輸入命令 miner,進入數据挖掘窗口。
二、 建立決策樹實例
l 圖中標示 3 的部分,是根据決策樹規則對觀測數据進行劃分過程的錯分率分佈圖。
Surrogate rules saved in each node (default = 0)
圖 (2)
本文將引用SAS軟件自帶數据(SAMPSIO.HMEQ)建立決策樹,用來分析是否應該同意客戶的傢庭資產抵押貸款。該數据集包含5,960個觀測數据並存放在抽樣數据庫中。BAD目標變量是一個二進制變量用於指明貸款申請者是有可能拖欠貸款者還是可信的。這種不利情況可能在1189個案例中發生的可能性19.95%。該數据集中有12解釋變量用於建立決策樹。
檢驗(默認)——Pearson 檢驗用於衡量對目標變量建立分支結點,其默認顯著性指標為 0.20 。
圖(10)
圖 (19)中面板分為五部分,各部分內容反映如下:
Data Partition結點主要將元數据分為訓練數据、驗証數据和測試數据。其中訓練數据用於生成決策樹輪廓,驗証數据用於比較響應變量的觀測值和預測值,而測試數据使用不多。
l 圖中標示 5 的部分,是關於屬性的密度分佈圖的總體瀏覽。
A. 其中劃分規則(splitting criteria)可以根据目標變量的度量方面進行選擇。
(六)建立 Tree Node 結點
下面是Advanced標簽各項的一個展示,如圖(11)
Maximum depth of tree (default = 6)
2. 建立 Data Partition 結點 和 Tree 結點之間的連接。如圖(7)。
圖(8)
在SAS中在查看決策樹運行結果是可以將決策樹的結果以base語言的形式保存為文本文件,選擇菜單欄中的 文件 項—〉保存規則項。最終存儲結果如圖(16)。可以將該段程序復制到SAS的編輯窗口直接運行而不需要打開企業數据挖掘模塊。
四、互動式建立決策樹過程
C. 選擇p值調整方法的選擇
在菜單欄中選擇 操作—〉運行。
4)Advanced標簽,其中可以進行以下設寘:
1.1.1 增加一個 Input Data Source 結點,選擇項目列表下方的Tools 選項。在列表中選擇 Input Data Source結點,點擊鼠標左鍵將Input Data Source拖入右側的工作空間。
圖 (14)描述了典型的模型分析輸出結果,分析是通過分裂的方式進行的。在圖的上部是決策樹模型的根結點,包含了所有的可能的觀測數据,根結點中處於中間列出了訓練數据為總共為4172個,19.9%可信任(不能貸款),大安抽水肥,而80.1%不可信任(可以貸款),處於右側的數据是驗証數据結果,共有 1788個驗証數据,其中20.1%可信任(不能貸款),而79.9%不可信任(可以貸款)。
圖 (12)
圖(11)
(三) 添加tree結點,連接tree結點和Data Partition結點, 在tree結點的圖標上右擊鼠標選擇 Interactive屬性,進入 Interactive Training:Tree窗體 ,如圖(17)。
Observations required for a split search. 該選項保証劃分的結點都有觀測數据,並且對於比該項指定的觀測值還要少的結點不進行繼續劃分
在tree結點上右擊鼠標並選擇Run選項。
對於圖的解釋可以參看SAS提供的幫助文件,眼袋,地址為:
在過程的進一步,新莊當舖,客戶被分成了兩組,根据變量 DEBTING的級別值,這個變量是最能區分的變量。組的左側觀測數据3225條記錄中有93.0%的客戶記錄是可信的(DEBTING<45.1848),右側947條觀測記錄中36.3%的客戶記錄是可信的(DEBTING>=45.1848)。接著對於選用變量VALUE,以各條記錄的 VALUE屬性值與662969.5進行比較進行下一步劃分,右側以DELINQ變量進行下一步劃分。左側經過VALUE屬性的劃分後,第三層第二個結點在這一步停止。第一個結點則繼續根据DELINQ屬性值繼續劃分,最終到達葉子結點。
3. 雙擊Data Partition 圖標,進入屬性設寘界面,設寘屬性如圖(6)
(四)建立輸入數据源結點
1.1.2 雙擊工作空間Input Data Source 結點,進入Input Data Source的設寘窗口。
圖(4)
3) Basic標簽:在Basic 標簽中,可以指定劃分規則以及與決策樹大小相關的各種參數值。下面是一個有關Basic標簽各項的一個展示如圖(10)。
圖 (19)
Maximum number of branches from a node(default= 2)
D. 在決策樹建立過程中合並收益或損失表
圖 (14)
1.1.4 點擊ok,回到Input Data Source設寘窗口,選擇Variables項,在variables項中找到BAD數据項,在BAD行 Model Role 項上點擊鼠標右鍵選擇Set Model Role選項—〉Target項,如圖(4),試管嬰兒。 |
|