數據分組處理方法(Group Method of Data Handling,GMDH),它實現數據挖掘過程的自組織控制,是一個簡單高效的推導最優模型的原始輸入變量表達式的算法,并以客觀的方式建立一個最優復雜度模型。Ivakhnenko于1967年提出GMDH方法,也稱多項式網絡,它是前饋神經網絡中常用的一種用于預測的神經網絡。GMDH方法的基本思想是以生物有機體演化的方法構造數學模型。由系統各輸入單元交叉組合產生一系列的活動神經元,其中每一神經元都具有選擇最優傳遞函數的功能,再從已產生的一代神經元選擇若干與目標變量最為接近的神經元,被選出的神經元強強結合再次產生新的神經元,重復這樣一個優勢遺傳,競爭生存和進化的過程,直至新產生的一代神經元都不比上一代更加優秀,于是最優模型被選出。它的特點是網絡結構不固定,而是在訓練的過程中不斷地改變。作為一個歸納方法,它有效的解決了諸如通常神經網絡運行時間長學習速度慢,小數據樣本中噪聲比較大時的多重共線性等問題。
1.3 基于GMDH網絡的預測
用GMDH網絡進行預測前,不需要了解時間序列的一些特征,僅僅根據已知樣本,通過網絡自組織的形式建立網絡模型。GMDH網絡的構建過程主要是一個不斷產生活動神經元,由外部準則對神經元進行篩選,篩選得到的神經元再結合產生下一層神經元,直至具有最佳復雜性的模型被選出的這樣一個過程。GMDH模型的建立需要以下幾個步驟:
(1) 數據預處理。包括數據規范化和除去數據中的靜止直流成分。
(2) 決定網絡輸入信號。對于預測需要用到n個過去輸出值。
(3) 將實驗數據分為訓練樣本和測試樣本。
(4) 建立輸入神經元層。神經元數與輸入信號數i有關。對于每個輸入信號,都有一個神經元與之對應,因此相應的神經元數為。
(5) 將神經元權值的初始值設為0.
(6) 將訓練數據組作用于輸入層的每一個神經元。在k時刻取(k=1,2,…)作為輸入信號,
為期望輸出,計算每一神經元的輸出誤差,并修正其權值和均方誤差和,當均方誤差和大于上一循環計算值時,訓練停止。
(7) 輸入選擇數據,計算每一神經元的輸出均方差。根據差值確定一個閾值,選擇方差小于閾值的神經元作為下一層神經元。
(8) 當本層最小均方差大于前一層神經元的最小均方差或本層僅有一個神經元時,停止訓練過程。如果訓練是由于最小均方差偏大而停止的,則將前一層神經元作為輸出層,并重新整理網絡;若訓練是因本層僅有一個神經元而停止的,且本次方差小于前一層時,則以本層神經元作為輸出層并重新整理網絡,即舍棄那些與輸出神經元沒有聯系的神經元。
(9) 利用評價數據組檢查訓練好的網絡性能。評價數據組可以是上述樣本數據和測試數據的結合,也可以是一組全新的數據,從而實現預測功能。
1.4 GMDH在地下水位預測中的應用
以B55的地下水位數據為例,先將原始數據做歸一化處理,然后將其作為輸入信號,再將數據的前132作為訓練樣本,建立網絡,后100數據作為測試樣本,檢驗網絡性能。中間的計算過程在MATLAB7.1平臺上實現。
聯系:highspeedlogic
QQ :1224848052
微信:HuangL1121
郵箱:1224848052@qq.com
微信掃一掃: