Módusz és medián gyakorisági soroknál

#statisztika #matematika #modusz

Gyakorisági sorok esetében a módusz, valamint a medián számolása kissé trükkös, de meg lehet érteni a képlet mögötti logikát. Ha esetleg nem lennél tisztában a két fogalommal, a módusz a leggyakoribb (legtöbbször előforduló) érték, a medián pedig a helyzeti középérték. Nézzünk egy adatsort:
1,2,2,3,4,7,10,12
A módusz itt a kettő, hiszen az fordul elő a legtöbbször. A medián a középső érték lenne, tehát az, amelyik fizikailag középen van, viszont az elemszámunk páros, tehát két középső is létezik. Ezek a három és a négy.
Ha átlagoljuk őket, akkor megkapjuk a mediánt, ami jelen esetben 3,5.
Létezik erre két képlet is, az egyik a páros, a másik a páratlan elemszám esetében használható. A képlettel az elem/elemek sorszáma adható meg!

Páratlan elemszámnál:

i = \frac{n+1}{2}

Páros elemszámnál:

i_1 = \frac{n}{2} \newline i_2 = \frac{n}{2} + 1

Páratlan számoknál egyszerűen csak kiválasztjuk a megfelelő i. sorszámú elemet. Páros elemszám esetében két sorszámot kapunk, ezt a két elemet átlagoljuk.
Ha Python-ban számolod ki ezen értékeket, akkor eltérő végeredményre jutsz. Ennek az oka az, hogy sok statisztikai könyvtár interpolációs megoldást alkalmaz, de erről majd egy másik bejegyzésben fogok értekezni. Most jöjjenek a számok!

A gyakorisági sor

Érték	Gyakoriság	Kumulált gyakoriság
10 - 19	3	3
20 - 29	5	8
30 - 39	8	16
40 - 49	4	20
50 - 59	2	22

Módusz

Mo = mo + \frac{k_1}{k_1 + k_2} \cdot h_{mo}

m_o = a módusz osztályközének alsó határa
k₁ = módusz osztályköz gyakorisága - módusz előtti osztályköz gyakorisága
k₂ = módusz osztályköz gyakorisága - módusz utáni osztályköz gyakorisága
h_mo = módusz osztályköz hossza

Semmi más nem történik a képletben csak egy arányt számolunk, amivel megszorozzuk az osztályköz hosszát. Jelen esetben k₁ és k₂ aránya számít. Ahogy növekszik k₁, tehát a tört számlálója, úgy nő a módusz osztályköz és az előtte lévő osztályköz gyakorisága közötti differencia. Logikus, hogy ilyenkor pont a másik irányba, tehát a következő osztályköz felé tolódik az érték. Ilyenkor a szorzó nagyobb lesz. Ha k₂ értékét növeljük, akkor egyre kisebb és kisebb lesz a szorzó. (Ne zavarjon meg, hogy k₁ a számlálóban és a nevezőben is megtalálható, mivel a számláló nagyobb arányban fog növekedni, mint a nevező.)
A gyakoriság a harmadik osztályközben a legnagyobb, egészen pontosan nyolc. Ilyenkor a következőképpen alakul a számítás:

{k_1} = 8 - 5 = 3 \newline {k_2} = 8 - 4 = 4 \newline Mo = 30 + \frac{3}{3+ 4} \cdot 10 \approx 34,286

Medián

A medián, mint már említettem a helyzeti középérték. Itt is hasonló logikával arányt számolunk, viszont itt nem a gyakoriságból, hanem a kumulált gyakoriságból indulunk ki. A kumulált gyakoriság annyit tesz, hogy a gyakoriság értékeit az adott sorig összeadogatjuk. Az első marad az, mint a gyakoriság, a második már két sor összege, a harmadik három sor összege, stb... A medián képlete a következő:

Me = me + \frac{\frac{N}{2}-f' \tiny \text{me-1}}{f_{me}} \cdot h_{me}\newline

N = elemszám
me = medián osztályköz alsó határa
f'_me-1 = medián előtti osztályköz kumulált gyakorisága
f_me = medián osztályköz gyakorisága

Az első kérdés az, hogy honnan tudjuk meg, melyik a medián osztályköz. Itt az elemszám 22, annak a fele 11, tehát azt az osztályközt keressük, amelyikben a 11. elem található. Ez a középső osztályköz. (Arról az osztályközről van szó, amelyik kumulált gyakoriságba beleesik a 11-es érték.)

Próbáljuk megfejteni ezt a képletet! Az N/2 nyilván az adatok számának fele, ez a medián esetében egyértelmű, hogy miért így alakul. A kumulált gyakoriság az előző osztályközig (f'_me-1) azért fontos, mert szükségünk van arra, hogy mennyi a különbsége az adatok tényleges felének, és az előző osztályközig felhalmozódott értéknek. Ezt a különbséget osztjuk le a medián osztályköz gyakoriságával. Úgy lehet ezt elképzelni, mint egy csúszkát, amely azt mutatja meg a fent megadott arányosság alapján, hogy a medián osztályköz alsó és felső határa között pontosan hol legyen a medián.
A képletbe behelyettesítve a következő értéket kapjuk:

Me = 30 + \frac{\frac{22}{2}-8}{8} \cdot 10 = 33,75

Tetszőleges kvantilisek (egy kis extra)

Ez a rész rendkívül hasonlít a mediánra, gyakorlatilag ugyanazt a logikát követjük. A különbség annyi, hogy míg a mediánnál a felezőpontot kerestük, itt azt határozzuk meg, hogy az adatsor hányad részénél lévő értéket szeretnénk megkapni.

A képletben a következő jelöléseket használjuk:

k: megadja, hogy hanyadik egységet keressük (pl. a 3. decilist).
m: megadja, hogy hány részre osztjuk az adatsort (kvartilisnél 4, kvintilisnél 5, decilisnél 10, percentilisnél 100).
N: továbbra is az összes elem száma.

A módosított képlet pedig így néz ki:

Q_{k/m} = m_q + \frac{\frac{k \cdot N}{m}-f'\tiny \footnotesize{m_q-} \tiny{1}}{f_{m_q}} \cdot h_{m_q}

A logika itt is a "csúszka" elv. A k/m arány megmutatja, mekkora részt kell "kihasítanunk" az adatokból, mi pedig megkeressük, hogy ez a pont az adott osztályköz alsó és felső határa között pontosan hol helyezkedik el.

DEV Community

Módusz és medián gyakorisági soroknál

A gyakorisági sor

Módusz

Medián

Tetszőleges kvantilisek (egy kis extra)

Top comments (0)