Централна тенденция срещу дисперсия
  

В описателната и инфекциозната статистика се използват няколко индекса за описване на набор от данни, съответстващи на неговата централна тенденция, дисперсия и косост: трите най-важни свойства, които определят относителната форма на разпределение на набор от данни.

Какво е централната тенденция?

Централната тенденция се отнася до и локализира центъра на разпределението на стойностите. Средно, режим и медиана са най-често използваните индекси при описване на централната тенденция на набор от данни. Ако наборът от данни е симетричен, тогава и средната, и средната стойност от набора от данни съвпадат помежду си.

Като се има предвид набор от данни, средната стойност се изчислява, като се вземе сумата от всички стойности на данните и след това се раздели на броя на данните. Например теглото на 10 души (в килограми) се измерва на 70, 62, 65, 72, 80, 70, 63, 72, 77 и 79. Тогава средното тегло на десетте души (в килограми) може да бъде изчислява се както следва. Сумата на тежестите е 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Средно = (сума) / (брой данни) = 710/10 = 71 (в килограми). Разбира се, че остатъците (точките от данни, които се отклоняват от нормалната тенденция) са склонни да влияят на средната стойност. По този начин, в присъствието на външни хора означава, че няма да даде правилна картина за центъра на набора от данни.

Медианата е точката от данни, намерена в точната среда на набора от данни. Един от начините за изчисляване на медианата е да се подредят точките с данни във възходящ ред и след това да се намери точката с данни в средата. Например, ако веднъж поръчате предишният набор от данни изглежда така, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Следователно (70 + 72) / 2 = 71 е в средата. От това се вижда, че медианата не трябва да бъде в набора от данни. Медианата не се влияе от присъствието на аутрите. Следователно медианата ще служи като по-добра мярка за централната тенденция в присъствието на външни хора.

Режимът е най-често срещаната стойност в набора от данни. В предишния пример стойностите 70 и 72 се появяват два пъти и по този начин и двете са режими. Това показва, че в някои дистрибуции има повече от една модална стойност. Ако има само един режим, наборът от данни се казва, че е unimodal, в този случай наборът от данни е бимодален.

Какво е дисперсията?

Дисперсията е количеството разпространение на данни за центъра на разпространението. Обхватът и стандартното отклонение са най-често използваните мерки за дисперсия.

Диапазонът е просто най-високата стойност минус най-ниската стойност. В предишния пример най-високата стойност е 80, а най-ниската - 62, така че диапазонът е 80-62 = 18. Но диапазонът не дава достатъчна картина за дисперсията.

За да се изчисли стандартното отклонение, първо се изчисляват отклоненията на стойностите на данните от средната стойност. Средната стойност на отклоненията на коренния квадрат се нарича стандартно отклонение. В предишния пример съответните отклонения от средната стойност са (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 и (79 - 71) = 8. Сумата от квадрати на отклонение е (-1) 2 + (-9) 2 + (-6) 2 + 12 + 92 + (-1) 2 + (-8) 2 + 12 + 62 + 82 = 366. Стандартното отклонение е √ (366/10) = 6,05 (в килограми). Освен ако наборът от данни не е силно изкривен, от това може да се заключи, че по-голямата част от данните е в интервала 71 ± 6.05 и наистина е така в този конкретен пример.