本發(fā)明公開(kāi)了一種基于函數(shù)依賴的數(shù)據(jù)清洗方法,其特征在于,包括:對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,以將其不同類(lèi)型的屬性全部轉(zhuǎn)換為數(shù)值型屬性;對(duì)于數(shù)據(jù)轉(zhuǎn)換后的原始數(shù)據(jù),提取其屬性的自依賴函數(shù)特征;對(duì)于數(shù)據(jù)轉(zhuǎn)換后的原始數(shù)據(jù),提取其屬性之間的互依賴函數(shù);根據(jù)自依賴函數(shù)特征和互依賴函數(shù)確定需要進(jìn)行清洗及待清洗的屬性及樣本,并根據(jù)該屬性及樣本形成相關(guān)清洗決策依據(jù),判斷待清洗的屬性對(duì)象是采用自依賴函數(shù)清洗還是采用互依賴函數(shù)進(jìn)行清洗,若采用自依賴函數(shù)清洗,則將不符合條件的樣本根據(jù)自依賴函數(shù)確定的多項(xiàng)式進(jìn)行校準(zhǔn)修復(fù),并加上白噪聲作為隨機(jī)擾動(dòng)。本發(fā)明能夠解決大數(shù)據(jù)中“臟數(shù)據(jù)”問(wèn)題,為后續(xù)的大數(shù)據(jù)分析挖掘提供高質(zhì)量的數(shù)據(jù)。
未應(yīng)用
掃碼關(guān)注,查看更多科技成果