功能描述:
分析流程如下所示,根據(jù)本課題的數(shù)據(jù)以及所需要的結(jié)果形式,其結(jié)果符合要求的為1,不符合的為空,這里我們將不符合數(shù)據(jù)的定義為0,那么整個系統(tǒng)其實可以等效為一個分類算法,即通過數(shù)據(jù)挖掘進(jìn)行分類,即符合需求類1和不符合需求類0,基于這個思路進(jìn)行設(shè)計。
一般數(shù)據(jù)挖掘算法流程如下所示:
第一步,建立模型,確定數(shù)據(jù)表中哪些列是要用于輸入,哪些是用于預(yù)測,選擇用何種算法。這時建立的模型內(nèi)容是空的,在模型沒有經(jīng)過訓(xùn)練之前,計算機(jī)是無法知道如何分類數(shù)據(jù)的。
第二步,準(zhǔn)備模型數(shù)據(jù)集,例子中的模型數(shù)據(jù)集就是1000個會員數(shù)據(jù)。通常的做法是將模型集分成訓(xùn)練集和檢驗集,比如從1000個會員數(shù)據(jù)中隨機(jī)抽取700個作為訓(xùn)練集,剩下300個作為檢驗集。
第三步,用訓(xùn)練數(shù)據(jù)集填充模型,這個過程是對模型進(jìn)行訓(xùn)練,模型訓(xùn)練后就有分類的內(nèi)容了,像例子圖中的樹狀結(jié)構(gòu)那樣,然后模型就可以對新加入的會員事例進(jìn)行分類了。比如前兩年的數(shù)據(jù)訓(xùn)練之后預(yù)測第三年的,當(dāng)進(jìn)入第四年的時候,使用第二年和第三年的數(shù)據(jù)進(jìn)行訓(xùn)練,從而不斷的更新模型。
第四步,使用模型對預(yù)測集進(jìn)行預(yù)測。
整個算法的理論如下所示:
首先,我們需要建立的是一個函數(shù)f,該函數(shù)滿足如下的需求:
其中f可以是一個數(shù)學(xué)公式,也可以是一個抽象的網(wǎng)絡(luò)。這里,根據(jù)各種實戰(zhàn)經(jīng)驗,一般對于復(fù)雜的情況,一般最后得到的函數(shù)f為一個抽象的網(wǎng)絡(luò)。
決策樹是一樹狀結(jié)構(gòu),它從根節(jié)點開始,對數(shù)據(jù)樣本進(jìn)行測試,根據(jù)不同的結(jié)果將數(shù)據(jù)樣本劃分成不同的數(shù)據(jù)樣本子集,每個數(shù)據(jù)樣本子集構(gòu)成一子節(jié)點。生成的決策樹每個葉節(jié)點對應(yīng)一個分類。構(gòu)造決策樹的目的是找出屬性和類別間的關(guān)系,用它來預(yù)測將來未知類別的記錄的類別。
根據(jù)決策樹分為分類樹和回歸樹兩種,分類樹對離散變量做決策樹,回歸樹對連續(xù)變量做決策樹。
決策樹方法中分類的目的是分析輸入數(shù)據(jù),通過在訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來的特性,為每一個類找到一種準(zhǔn)確的描述或者模型。由此生成的類描述用來對未來的測試數(shù)據(jù)進(jìn)行分類。盡管這些未來的測試數(shù)據(jù)的類標(biāo)簽是未知的,我們?nèi)钥梢杂纱祟A(yù)測這些新數(shù)據(jù)所屬的類。我們也可以由此對數(shù)據(jù)中的每一個類有更好的理解。或者說我們獲得了對這個類的知識。
構(gòu)造一個決策樹通常分為兩步:樹的生成和剪枝。
決策樹的生成是一個從上至下,是一個遞歸的過程。設(shè)數(shù)據(jù)樣本集S,算法框為如果數(shù)據(jù)樣本集S中所有樣本都屬于同一類或者滿足其它終止準(zhǔn)則, 則S不再劃分,形成葉節(jié)點;否則,根據(jù)某種策略選擇一個屬性,按照屬性的各個取值對S進(jìn)行劃分,得到n個子樣本集,記為Si。再對每個Si迭代執(zhí)行步驟1。經(jīng)過n 次遞歸, 最后生成決策樹。從根到葉結(jié)點的一條路徑就對應(yīng)著一條規(guī)則, 整棵決策樹就對應(yīng)著一組析取表達(dá)式規(guī)則。樹構(gòu)成步驟中, 主要就是找出節(jié)點的屬性和如何對屬性值進(jìn)行劃分。
決策樹生成后面臨的問題是樹的過度細(xì)化,特別是存在噪聲數(shù)據(jù)或不規(guī)范屬性時更為突出,決策樹的修剪就是對過度細(xì)化的模型進(jìn)行調(diào)整。修剪算法分為前剪枝算法和后剪枝算法兩種。前剪枝算法是在樹的生長過程完成前就進(jìn)行剪枝。這類算法的優(yōu)點是在樹的生長同時就進(jìn)行了剪枝,因而效率高,但是它可能剪去了某些有用但還沒有生成的節(jié)點。后剪枝算法是當(dāng)決策樹的生長過程完成后再進(jìn)行剪枝。它分為需要單獨(dú)剪枝集和不需要單獨(dú)剪枝集兩種情況。后剪枝有一些優(yōu)點,例如,當(dāng)單個的兩個屬性似乎沒什么用處,但當(dāng)結(jié)合在一起時卻有強(qiáng)大的預(yù)測能力,即一種結(jié)合效果,在兩個屬性值正確結(jié)合時是非常有用的,而單個屬性則沒有用。
聯(lián)系:highspeedlogic
QQ :1224848052
微信:HuangL1121
郵箱:1224848052@qq.com
網(wǎng)站:http://www.mat7lab.com/
網(wǎng)站:http://www.hslogic.com/
|