1.問題描述:
首先“K均值算法”和“基于局部和全局一致性算法”的整合,并不是兩個算法的簡單拼湊,這里,實際上結合了“K均值算法”和“基于局部和全局一致性算法”兩者算法的思想。根據你提供的算法思想,算法的基本步驟是:
-----------------------------------------------------------------------------------------------------
輸入:數據集(其中訓練樣本和測試樣本分別占一定的比例)和圖像其中有少量樣本已被標記類別,而且每一類至少標記一個訓練樣本。
-----------------------------------------------------------------------------------------------------
Step1:計算少量有標記樣本的均值,得到c(類別數目)個初始聚類中心點;
Step2:使用歐式距離計算未標記數據到c個初始中心點的距離,將未標記樣本分配到距離中心點最近的那類中,劃分出c個簇;
Step3:使用測地距離的相似性度量方法,選擇各個簇中相似度大于等于0.9的()個(各個簇中的數目不一樣)樣本,求它們的均值,作為c個新中心點以及得到c個平均半徑;
Step4:循環(2)(3),直到c個中心點固定;
Step5:對()個樣本以及距離各個中心點半徑內的樣本進行標記;
Step6:用基于局部和全局一致性算法對剩下的未標記的樣本進行標記,其中已標記數據只使用c個中心點;
Step7:在全部樣本標記完后,再計算出各個類的c個中心點。
Step8:對于新的測試數據,通過計算測試數據與各個中心點的相似度,選擇可信度最高的進行標記。
-----------------------------------------------------------------------------------------------------
輸出:分別將數據集分成已標記和未標記以及測試數據集三部分,其中測試數據集占30%的比例,已標記和未標記的共占70%。用10折交叉驗證法進行測試,輸出F1-measure各個指標的結果,輸出分類后的圖像及指標結果。以已標記數據作為訓練集,保證每個類別有一個已標記的訓練集,然后按照不同的比例擴展訓練集,一個數據集的precision和recall測試結果都是未標記數據和測試數據結果的均值。對數據集按已標記數據占得不同比例進行測試。
————————————————
聯系:highspeedlogic
QQ :1224848052
微信:HuangL1121
郵箱:1224848052@qq.com
網站:http://www.mat7lab.com/
網站:http://www.hslogic.com/
微信掃一掃: