Fuzzy K-znamená zhlukovanie v Mahout



Tento blog predstavuje úvod do klastrovania Fuzzy K-Means v Apache Mahout.

Fuzzy K-Means je úplne rovnaký algoritmus ako K-means, čo je populárna jednoduchá klastrová technika. Jediným rozdielom je, že namiesto toho, aby sa bod prideľoval výlučne iba jednému zhluku, môže mať určitý druh nejasnosti alebo prekrývania medzi dvoma alebo viacerými zhlukmi. Nasledujú kľúčové body popisujúce Fuzzy K-prostriedky:





  • Na rozdiel od K-Means, ktoré hľadajú tvrdý zhluk, kde každý z bodov patrí k jednému zhluku, Fuzzy K-Means hľadá mäkšie zhluky na prekrývanie.
  • Jeden bod v mäkkom zhluku môže patriť k viac ako jednému zhluku s určitou hodnotou afinity ku každému z bodov.
  • Afinita je úmerná vzdialenosti tohto bodu od ťažiska klastra.
  • Podobne ako K-Means funguje Fuzzy K-Means na objektoch, ktoré majú definovanú mieru vzdialenosti a môžu byť zastúpené v n- dimenzionálny vektorový priestor.

Fuzzy K-znamená MapReduce Flow

Nie je veľa rozdielov medzi tokom MapReduce K-Means a Fuzzy K-Means. Implementácia oboch opatrení v rozsudku Mahout je podobná.

java ako používať iterátor

Nasledujú základné parametre pre implementáciu Fuzzy K-Means:



  • Pre vstup potrebujete vektorovú dátovú sadu.
  • Musí existovať RandomSeedGenerator na nasadenie počiatočných k zhlukov.
  • Pre meranie vzdialenosti sa vyžaduje SquaredEuclideanDistanceMeasure.
  • Veľká hodnota prahu konvergencie, napríklad –cd 1,0, ak bola použitá druhá mocnina miery
  • Hodnota pre maxIterácie je predvolená hodnota -x 10.
  • Koeficient normalizácie alebo faktor fuzziness s hodnotou väčšou ako -m 1,0

Máte na nás otázku? Uveďte ich v sekcii komentárov a my sa vám ozveme.

plán monitorovania a kontroly projektu

Súvisiace príspevky



java previesť dvojité na celé číslo

Učenie pod dohľadom v Apache Mahout