1.問題描述:
首先“K均值算法”和“基于局部和全局一致性算法”的整合,并不是兩個(gè)算法的簡單拼湊,這里,實(shí)際上結(jié)合了“K均值算法”和“基于局部和全局一致性算法”兩者算法的思想。根據(jù)你提供的算法思想,算法的基本步驟是:
-----------------------------------------------------------------------------------------------------
輸入:數(shù)據(jù)集(其中訓(xùn)練樣本和測試樣本分別占一定的比例)和圖像其中有少量樣本已被標(biāo)記類別,而且每一類至少標(biāo)記一個(gè)訓(xùn)練樣本。
-----------------------------------------------------------------------------------------------------
Step1:計(jì)算少量有標(biāo)記樣本的均值,得到c(類別數(shù)目)個(gè)初始聚類中心點(diǎn);
Step2:使用歐式距離計(jì)算未標(biāo)記數(shù)據(jù)到c個(gè)初始中心點(diǎn)的距離,將未標(biāo)記樣本分配到距離中心點(diǎn)最近的那類中,劃分出c個(gè)簇;
Step3:使用測地距離的相似性度量方法,選擇各個(gè)簇中相似度大于等于0.9的()個(gè)(各個(gè)簇中的數(shù)目不一樣)樣本,求它們的均值,作為c個(gè)新中心點(diǎn)以及得到c個(gè)平均半徑;
Step4:循環(huán)(2)(3),直到c個(gè)中心點(diǎn)固定;
Step5:對()個(gè)樣本以及距離各個(gè)中心點(diǎn)半徑內(nèi)的樣本進(jìn)行標(biāo)記;
Step6:用基于局部和全局一致性算法對剩下的未標(biāo)記的樣本進(jìn)行標(biāo)記,其中已標(biāo)記數(shù)據(jù)只使用c個(gè)中心點(diǎn);
Step7:在全部樣本標(biāo)記完后,再計(jì)算出各個(gè)類的c個(gè)中心點(diǎn)。
Step8:對于新的測試數(shù)據(jù),通過計(jì)算測試數(shù)據(jù)與各個(gè)中心點(diǎn)的相似度,選擇可信度最高的進(jìn)行標(biāo)記。
-----------------------------------------------------------------------------------------------------
輸出:分別將數(shù)據(jù)集分成已標(biāo)記和未標(biāo)記以及測試數(shù)據(jù)集三部分,其中測試數(shù)據(jù)集占30%的比例,已標(biāo)記和未標(biāo)記的共占70%。用10折交叉驗(yàn)證法進(jìn)行測試,輸出F1-measure各個(gè)指標(biāo)的結(jié)果,輸出分類后的圖像及指標(biāo)結(jié)果。以已標(biāo)記數(shù)據(jù)作為訓(xùn)練集,保證每個(gè)類別有一個(gè)已標(biāo)記的訓(xùn)練集,然后按照不同的比例擴(kuò)展訓(xùn)練集,一個(gè)數(shù)據(jù)集的precision和recall測試結(jié)果都是未標(biāo)記數(shù)據(jù)和測試數(shù)據(jù)結(jié)果的均值。對數(shù)據(jù)集按已標(biāo)記數(shù)據(jù)占得不同比例進(jìn)行測試。
————————————————
聯(lián)系:highspeedlogic
QQ :1224848052
微信:HuangL1121
郵箱:1224848052@qq.com
網(wǎng)站:http://www.mat7lab.com/
網(wǎng)站:http://www.hslogic.com/
微信掃一掃: