Teknologi

Hvad er histogramfordeling?

Histogramfordeling i statistik henviser til mønstre, former og placeringer af univariate databarer på et histogram.Hvordan og hvor søjlerne distribueres, kan bruges til at analysere og drage konklusioner om dataene.Histogramfordelingsanalyse er vigtig for at identificere træk såsom datalormalitet, multimodale distributioner og skæve data.

Et histogram er et univariat datagisplay, der bruger rektangler, der er proportional i område til klasse- eller binfrekvenser til visuelt at vise funktioner af data.Datapunkterne i histogrammet er organiseret i skraldespande, og selve histogramfordelingen er en visuel tilnærmelse af datasfrekvensfordeling eller sandsynlighedsdensitetsfunktion.Formen på fordelingen kan ændres baseret på antallet af skraldespande.

Histogramfordelingsanalyse bruges ofte som en kvalitativ kontrol for datalormalitet.Selvom der findes analytiske metoder til bestemmelse af normalitet, kan histogrammer bruges til at give en hurtig, sund fornuftskontrol for at spare tid.Hvis histogramdataene vises nogenlunde jævnt og centreret om gennemsnittet, antages dataene at være normale.Data -skævhed defineres som udtalt asymmetri i dataene.Negativt skæv eller skæv til venstre ses i datasæt med meget få lave værdier.Positiv skæv, eller skæv til højre, forekommer i datasæt med få høje værdier.Iagttagelse af histogramfordelingen kan afsløre outliers og skæve data.

Ud over at afsløre egenskaberne ved data med en enkelt tilstand kan formen af et histogram også afsløre egenskaber ved multimodale data.Multimodale datasæt indeholder mere end en tilstand og er kendetegnet ved frekvensfordelinger, der har mere end en top eller maksima.Politiske tilknytninger i en by, godkendelsesudtalelsesmålinger og kropsstørrelser af bier er eksempler på datasæt, der kan være multimodale.Iagttagelse af formen på histogrammet og at bemærke de forskellige toppe i multimodale data kan ofte give en forsker mere indsigt end enkle univariate statistiske beregninger.I praksis kan antallet af skraldespande estimeres ved at tage kvadratroten af antallet af observationer, selvom andre skraldestørrelser kan bruges.For eksempel kan en lærer vælge at analysere testkarakterer ved at vælge skraldestørrelser, der afspejler bogstavkarakterer.