DEV Community

Cover image for Módusz és medián gyakorisági soroknál

Módusz és medián gyakorisági soroknál

Gyakorisági sorok esetében a módusz, valamint a medián számolása kissé trükkös, de meg lehet érteni a képlet mögötti logikát. Ha esetleg nem lennél tisztában a két fogalommal, a módusz a leggyakoribb (legtöbbször előforduló) érték, a medián pedig a helyzeti középérték. Nézzünk egy adatsort:
1,2,2,3,4,7,10,12
A módusz itt a kettő, hiszen az fordul elő a legtöbbször. A medián a középső érték lenne, tehát az, amelyik fizikailag középen van, viszont az elemszámunk páros, tehát két középső is létezik. Ezek a három és a négy.
Ha átlagoljuk őket, akkor megkapjuk a mediánt, ami jelen esetben 3,5.
Létezik erre két képlet is, az egyik a páros, a másik a páratlan elemszám esetében használható. A képlettel az elem/elemek sorszáma adható meg!

Páratlan elemszámnál:

i=n+12 i = \frac{n+1}{2}

Páros elemszámnál:
i1=n2i2=n2+1 i_1 = \frac{n}{2} \newline i_2 = \frac{n}{2} + 1

Páratlan számoknál egyszerűen csak kiválasztjuk a megfelelő i. sorszámú elemet. Páros elemszám esetében két sorszámot kapunk, ezt a két elemet átlagoljuk.
Ha Python-ban számolod ki ezen értékeket, akkor eltérő végeredményre jutsz. Ennek az oka az, hogy sok statisztikai könyvtár interpolációs megoldást alkalmaz, de erről majd egy másik bejegyzésben fogok értekezni. Most jöjjenek a számok!

A gyakorisági sor

Érték Gyakoriság Kumulált gyakoriság
10 - 19 3 3
20 - 29 5 8
30 - 39 8 16
40 - 49 4 20
50 - 59 2 22

Módusz

Mo=mo+k1k1+k2hmo Mo = mo + \frac{k_1}{k_1 + k_2} \cdot h_{mo}
  • mo = a módusz osztályközének alsó határa
  • k1 = módusz osztályköz gyakorisága - módusz előtti osztályköz gyakorisága
  • k2 = módusz osztályköz gyakorisága - módusz utáni osztályköz gyakorisága
  • hmo = módusz osztályköz hossza

Semmi más nem történik a képletben csak egy arányt számolunk, amivel megszorozzuk az osztályköz hosszát. Jelen esetben k1 és k2 aránya számít. Ahogy növekszik k1, tehát a tört számlálója, úgy nő a módusz osztályköz és az előtte lévő osztályköz gyakorisága közötti differencia. Logikus, hogy ilyenkor pont a másik irányba, tehát a következő osztályköz felé tolódik az érték. Ilyenkor a szorzó nagyobb lesz. Ha k2 értékét növeljük, akkor egyre kisebb és kisebb lesz a szorzó. (Ne zavarjon meg, hogy k1 a számlálóban és a nevezőben is megtalálható, mivel a számláló nagyobb arányban fog növekedni, mint a nevező.)
A gyakoriság a harmadik osztályközben a legnagyobb, egészen pontosan nyolc. Ilyenkor a következőképpen alakul a számítás:

k1=85=3k2=84=4Mo=30+33+41034,286 {k_1} = 8 - 5 = 3 \newline {k_2} = 8 - 4 = 4 \newline Mo = 30 + \frac{3}{3+ 4} \cdot 10 \approx 34,286

Medián

A medián, mint már említettem a helyzeti középérték. Itt is hasonló logikával arányt számolunk, viszont itt nem a gyakoriságból, hanem a kumulált gyakoriságból indulunk ki. A kumulált gyakoriság annyit tesz, hogy a gyakoriság értékeit az adott sorig összeadogatjuk. Az első marad az, mint a gyakoriság, a második már két sor összege, a harmadik három sor összege, stb... A medián képlete a következő:

Me=me+N2fme-1fmehme Me = me + \frac{\frac{N}{2}-f' \tiny \text{me-1}}{f_{me}} \cdot h_{me}\newline
  • N = elemszám
  • me = medián osztályköz alsó határa
  • f'me-1 = medián előtti osztályköz kumulált gyakorisága
  • fme = medián osztályköz gyakorisága

Az első kérdés az, hogy honnan tudjuk meg, melyik a medián osztályköz. Itt az elemszám 22, annak a fele 11, tehát azt az osztályközt keressük, amelyikben a 11. elem található. Ez a középső osztályköz. (Arról az osztályközről van szó, amelyik kumulált gyakoriságba beleesik a 11-es érték.)

Próbáljuk megfejteni ezt a képletet! Az N/2 nyilván az adatok számának fele, ez a medián esetében egyértelmű, hogy miért így alakul. A kumulált gyakoriság az előző osztályközig (f'me-1) azért fontos, mert szükségünk van arra, hogy mennyi a különbsége az adatok tényleges felének, és az előző osztályközig felhalmozódott értéknek. Ezt a különbséget osztjuk le a medián osztályköz gyakoriságával. Úgy lehet ezt elképzelni, mint egy csúszkát, amely azt mutatja meg a fent megadott arányosság alapján, hogy a medián osztályköz alsó és felső határa között pontosan hol legyen a medián.
A képletbe behelyettesítve a következő értéket kapjuk:

Me=30+2228810=33,75 Me = 30 + \frac{\frac{22}{2}-8}{8} \cdot 10 = 33,75

Tetszőleges kvantilisek (egy kis extra)

Ez a rész rendkívül hasonlít a mediánra, gyakorlatilag ugyanazt a logikát követjük. A különbség annyi, hogy míg a mediánnál a felezőpontot kerestük, itt azt határozzuk meg, hogy az adatsor hányad részénél lévő értéket szeretnénk megkapni.

A képletben a következő jelöléseket használjuk:

  • k: megadja, hogy hanyadik egységet keressük (pl. a 3. decilist).
  • m: megadja, hogy hány részre osztjuk az adatsort (kvartilisnél 4, kvintilisnél 5, decilisnél 10, percentilisnél 100).
  • N: továbbra is az összes elem száma.

A módosított képlet pedig így néz ki:

Qk/m=mq+kNmfmq1fmqhmq Q_{k/m} = m_q + \frac{\frac{k \cdot N}{m}-f'\tiny \footnotesize{m_q-} \tiny{1}}{f_{m_q}} \cdot h_{m_q}

A logika itt is a "csúszka" elv. A k/m arány megmutatja, mekkora részt kell "kihasítanunk" az adatokból, mi pedig megkeressük, hogy ez a pont az adott osztályköz alsó és felső határa között pontosan hol helyezkedik el.

Top comments (0)