Gyakorisági sorok esetében a módusz, valamint a medián számolása kissé trükkös, de meg lehet érteni a képlet mögötti logikát. Ha esetleg nem lennél tisztában a két fogalommal, a módusz a leggyakoribb (legtöbbször előforduló) érték, a medián pedig a helyzeti középérték. Nézzünk egy adatsort:
1,2,2,3,4,7,10,12
A módusz itt a kettő, hiszen az fordul elő a legtöbbször. A medián a középső érték lenne, tehát az, amelyik fizikailag középen van, viszont az elemszámunk páros, tehát két középső is létezik. Ezek a három és a négy.
Ha átlagoljuk őket, akkor megkapjuk a mediánt, ami jelen esetben 3,5.
Létezik erre két képlet is, az egyik a páros, a másik a páratlan elemszám esetében használható. A képlettel az elem/elemek sorszáma adható meg!
Páratlan elemszámnál:
Páros elemszámnál:
Páratlan számoknál egyszerűen csak kiválasztjuk a megfelelő i. sorszámú elemet. Páros elemszám esetében két sorszámot kapunk, ezt a két elemet átlagoljuk.
Ha Python-ban számolod ki ezen értékeket, akkor eltérő végeredményre jutsz. Ennek az oka az, hogy sok statisztikai könyvtár interpolációs megoldást alkalmaz, de erről majd egy másik bejegyzésben fogok értekezni. Most jöjjenek a számok!
A gyakorisági sor
| Érték | Gyakoriság | Kumulált gyakoriság |
|---|---|---|
| 10 - 19 | 3 | 3 |
| 20 - 29 | 5 | 8 |
| 30 - 39 | 8 | 16 |
| 40 - 49 | 4 | 20 |
| 50 - 59 | 2 | 22 |
Módusz
- mo = a módusz osztályközének alsó határa
- k1 = módusz osztályköz gyakorisága - módusz előtti osztályköz gyakorisága
- k2 = módusz osztályköz gyakorisága - módusz utáni osztályköz gyakorisága
- hmo = módusz osztályköz hossza
Semmi más nem történik a képletben csak egy arányt számolunk, amivel megszorozzuk az osztályköz hosszát. Jelen esetben k1 és k2 aránya számít. Ahogy növekszik k1, tehát a tört számlálója, úgy nő a módusz osztályköz és az előtte lévő osztályköz gyakorisága közötti differencia. Logikus, hogy ilyenkor pont a másik irányba, tehát a következő osztályköz felé tolódik az érték. Ilyenkor a szorzó nagyobb lesz. Ha k2 értékét növeljük, akkor egyre kisebb és kisebb lesz a szorzó. (Ne zavarjon meg, hogy k1 a számlálóban és a nevezőben is megtalálható, mivel a számláló nagyobb arányban fog növekedni, mint a nevező.)
A gyakoriság a harmadik osztályközben a legnagyobb, egészen pontosan nyolc. Ilyenkor a következőképpen alakul a számítás:
Medián
A medián, mint már említettem a helyzeti középérték. Itt is hasonló logikával arányt számolunk, viszont itt nem a gyakoriságból, hanem a kumulált gyakoriságból indulunk ki. A kumulált gyakoriság annyit tesz, hogy a gyakoriság értékeit az adott sorig összeadogatjuk. Az első marad az, mint a gyakoriság, a második már két sor összege, a harmadik három sor összege, stb... A medián képlete a következő:
- N = elemszám
- me = medián osztályköz alsó határa
- f'me-1 = medián előtti osztályköz kumulált gyakorisága
- fme = medián osztályköz gyakorisága
Az első kérdés az, hogy honnan tudjuk meg, melyik a medián osztályköz. Itt az elemszám 22, annak a fele 11, tehát azt az osztályközt keressük, amelyikben a 11. elem található. Ez a középső osztályköz. (Arról az osztályközről van szó, amelyik kumulált gyakoriságba beleesik a 11-es érték.)
Próbáljuk megfejteni ezt a képletet! Az N/2 nyilván az adatok számának fele, ez a medián esetében egyértelmű, hogy miért így alakul. A kumulált gyakoriság az előző osztályközig (f'me-1) azért fontos, mert szükségünk van arra, hogy mennyi a különbsége az adatok tényleges felének, és az előző osztályközig felhalmozódott értéknek. Ezt a különbséget osztjuk le a medián osztályköz gyakoriságával. Úgy lehet ezt elképzelni, mint egy csúszkát, amely azt mutatja meg a fent megadott arányosság alapján, hogy a medián osztályköz alsó és felső határa között pontosan hol legyen a medián.
A képletbe behelyettesítve a következő értéket kapjuk:
Tetszőleges kvantilisek (egy kis extra)
Ez a rész rendkívül hasonlít a mediánra, gyakorlatilag ugyanazt a logikát követjük. A különbség annyi, hogy míg a mediánnál a felezőpontot kerestük, itt azt határozzuk meg, hogy az adatsor hányad részénél lévő értéket szeretnénk megkapni.
A képletben a következő jelöléseket használjuk:
- k: megadja, hogy hanyadik egységet keressük (pl. a 3. decilist).
- m: megadja, hogy hány részre osztjuk az adatsort (kvartilisnél 4, kvintilisnél 5, decilisnél 10, percentilisnél 100).
- N: továbbra is az összes elem száma.
A módosított képlet pedig így néz ki:
A logika itt is a "csúszka" elv. A k/m arány megmutatja, mekkora részt kell "kihasítanunk" az adatokból, mi pedig megkeressük, hogy ez a pont az adott osztályköz alsó és felső határa között pontosan hol helyezkedik el.
Top comments (0)