Skip to main content

Hvad er sammenhængende klynger?

Korrelationsklynger udføres på databaser og andre store datakilder til at gruppere lignende datasæt, samtidig med at brugeren advarer brugeren om forskellige datasæt.Dette kan gøres perfekt i nogle grafer, mens andre vil opleve fejl, fordi det vil være vanskeligt at differentiere lignende fra forskellige data.I tilfælde af sidstnævnte vil korrelationsklyngering hjælpe med at reducere fejl automatisk.Dette bruges ofte til datamining eller til at søge uhåndterlige data efter ligheder.Forlængede data slettes ofte eller placeres i en separat klynge.

Når en sammenhængende klyngefunktion bruges, søger den efter data baseret på brugerens instruktioner.Brugeren fortæller programmet, hvad han skal søge efter, og når det findes, hvor man skal placere dataene.Dette anvendes normalt på meget store datakilder, når det ville være umuligt mdash;eller tag for mange timer mdash;At søge gennem dataene manuelt.Der kan enten være perfekt klynge eller ufuldkommen klynge.

Perfekt klynge er det ideelle scenarie.Dette betyder, at der kun er to typer data, og den ene er, hvad brugeren leder efter, mens den anden er unødvendig.Alle de positive eller nødvendige data placeres i den ene klynge, mens de andre data slettes eller flyttes.I dette scenarie er der ingen forvirring, og alt fungerer perfekt.

De fleste komplekse grafer tillader ikke perfekt klynge og er i stedet ufuldkommen.For eksempel har en graf tre variabler: X, Y og Z. X, Y er ens, X, Z er ens, men Y, Z er forskellig.De tre variable klynger er imidlertid så ens, at det er umuligt at have perfekt sammenhængende sammenklynge.Programmet vil arbejde for at maksimere antallet af positive korrelationer, men dette vil stadig kræve en vis manuel søgning fra brugeren.

I datamining, især når man beskæftiger sig med store datasæt, bruges korrelationsklynger til at gruppere lignende data med lignende data.For eksempel, hvis en virksomhed udvindede data til et stort websted eller en database og kun ønsker at vide om et specifikt aspekt, ville det tage evigt at søge gennem alle data for dette aspekt.Ved at bruge en klyngeformel vil dataene blive afsat til korrekt analyse.

Forskellige oplysninger behandles udelukkende baseret på brugerinstruktioner.Brugeren kan vælge at sende forskellige data til forskellige klynger, fordi oplysningerne kan være nyttige til andre projekter.Hvis dataene er unødvendige og bare spilder hukommelse, smides de forskellige oplysninger ud.Ved ufuldkommen klynge er det muligt, at nogle forskellige oplysninger ikke bliver smidt ud, fordi det ligner så de data, som brugeren ser ud til.