DEV Community

Cover image for Amikor nem működik a korreláció I.

Amikor nem működik a korreláció I.

Vannak esetek, amikor két ismérv között nem számolhatunk Pearson-féle lineáris korrelációt. A kapcsolat szorossága kiszámításának módját az határozza meg, hogy az ismérveink minőségi, vagy mennyiségi ismérvek. Ha az ismérveink kvalitatívak, akkor asszociációs kapcsolatról beszélünk, és Cramer-féle asszociációs együtthatót számolunk. (Tehát, ha két minőségi ismérv szerinti kapcsolat szorosságát mérnénk.) De előtte nézzünk meg egy alapvető statisztikai fogalmat, a mérési skálát!

Mérési skála

  • Nominális skála: Az sokaság elemei között nincs sorrendiség, az adatok csak kategóriákat jelölnek (pl. hajszín, nem, postai irányítószám).
  • Ordinális skála: A sokaság elemei csoportokba vannak sorolva, és a csoportok között létezik sorrendiség, de a különbségek nem számszerűsíthetőek (pl. hotelek csillagjai, iskolai végzettség).
  • Intervallum skála: Az elemek valamilyen mérés szerint sorba rendezettek, és választ tud adni a "mennyivel több" kérdésre, de a "hányszor annyira" nem. Ennek oka, hogy nincs abszolút nulla pontja, a nulla csak egy kijelölt pont és nem a tulajdonság hiányát jelenti (pl. Celsius-fok, naptári év). Ha nulla pénzem van, akkor nincs pénzem. Ha nulla Celsius fok van, attól még a hőmérséklet létező dolog.
  • Arány skála: Rendelkezik az intervallum skála tulajdonságaival, de van egy természetes nulla pontja, így a "hányszor több" kérdésre is választ ad (pl. magasság, súly, jövedelem).

A nominális és ordinális skálák minőségi, az intervallum és arány skálák mennyiségi ismérveket feltételeznek.

Cramer-féle asszociációs együttható

Példánkban azt fogjuk elemezni, hogy mennyire erős a kapcsolat szorossága a nem és betöltött munkakör között. A számítás maga nagyon egyszerű és intuitív. A könnyebb érthetőség kedvéért nem feltétlenül fogom minden esetben követni a tankönyvi terminológiát.
A Pearson-féle korrelációhoz először is átlagot kellene kalkulálnunk. Amint ránézünk a táblára láthatjuk is, hogy miért nem lehet egyik ismérv szerint sem például átlagot számolni. Mit mondana el például az oszlopok átlaga? Olyan értékekből logikus átlagot számítani, amelyeknél van értelme az értékek különbségének, például árak, eladási mennyiségek vagy magasságok. A "HR specialist" nem kevesebb, vagy több, mint a "Sales manager".

Foglalkozás Férfiak Nők Összesen
HR Specialist 6 4 10
Product Manager 6 4 10
Sales Manager 7 5 12
Software Engineer 35 32 67
Összesen 54 45 99

Számoljunk!
Az alábbi táblázatban most még számodra értelmezhetetlen számok találhatók. Ne aggódj, ez nem marad sokáig is! Nézzük meg, hogy jött ki a férfiak ideális oszlop, első sorának értéke! 54 férfi van összesen, az ő arányuk a teljes populációban:
54/99 ≈ 0.545
Ha ezt megszorozzuk a HR specialisták számával (10), egy olyan értéket kapunk, ahol a férfiak teljes populáción belüli arányához igazodik a férfi HR specialisták száma. Így jön ki az 5.45-ös érték. A következő sor értéke ugyanez lesz, hiszen a product manager-ek száma is 10. Az azt követő szám így jön ki:
54/99 * 12 ≈ 6.55
Pontosan ugyanezzel a logikával számoljuk ki a nők ideális oszlop számait is.

Foglalkozás Férfiak ideális Nők ideális Férfiak eltérés Nők eltérés
HR Specialist 5.45 4.55 0.06 0.07
Product Manager 5.45 4.55 0.06 0.07
Sales Manager 6.55 5.45 0.03 0.04
Software Engineer 36.55 30.45 0.07 0.08
Összesen 0.22 0.26

A nők eltérés és férfiak eltérés oszlopokban a valós érték (első táblázat) és az "ideális" érték közötti differenciák négyzetét osztottam le az "ideális" értékkel. Az ideális szó itt egyértelműen nem statisztikai kifejezés, csak szemléltetni akartam a számítás logikai hátterét.

(teˊnylegesideaˊlis)2ideaˊlis \frac{(tényleges - ideális)^2}{ideális}

Példa:
(65.45)25.450.06 \frac{(6 - 5.45)^2}{5.45} \approx 0.06

Az így keletkezett oszlopok értékeit mind a férfiaknál (férfiak eltérés), mind a nőknél (nők eltérés) összesítettem. Ha valakit érdekel a képlet, akkor az így néz ki:
χ2=Σ(fijfij)2fij \chi^2 = \Sigma \frac{(f_{ij} - {f^\ast}_{ij})^2}{f^\ast \footnotesize{ij}}

ahol:
  • i=sor
  • j=oszlop
  • fij=tényleges érték
  • f*ij="ideális érték"

Cramer-féle asszociációs együttható

A Cramer-féle képlet a következő:

C=χ2Nmin(r1,c1) C = \sqrt{\frac{\chi^2}{N \cdot \min(r-1, c-1)}}

ahol:
N=elemek száma
r=sorok száma (rows)
c=oszlopok száma (cols)
min=legkisebb érték

Tehát a χ2 értékét osztjuk le az elemszám, és a sorok száma -1, valamint az oszlopok száma -1 közül a kisebbel, és az egészből négyzetgyököt vonunk.
Az eredmény a következő:

C=0.489910.069 C = \sqrt{\frac{0.48}{99 \cdot 1}} \approx 0.069

Az eredmény értelmezése

A Cramer-féle együttható értéke nulla és egy között alakulhat, tehát ez egy standardizált mutató. Az "1" jelenti a függvényszerű kapcsolatot, a "0" a függetlenséget tehát, hogy nincs összefüggés az ismérvek között. A 0.069 rendkívül gyenge, elhanyagolható érték, amely azt sugallja, hogy nincs érdemi kapcsolat a nem és a munkakör között.

Top comments (0)