Miért működik a korreláció?

#statisztika #adatelemzes #tutorial #matematika

Ebben a rövid cikkben egy egyszerűnek tűnő, ámbár a színfalak mögött mélyebb gondolkodást igénylő fogalomról fogok beszélni, ami rendkívül alapvető a statisztikában, az adatelemzésben, de akár a programozás világában is. Ez a fogalom nem más, mint a korreláció.

A korreláció egy standardizált statisztikai mutató, amely megadja két úgynevezett mennyiségi ismérv közötti kapcsolat szorosságot. Mindjárt egy példával is rávilágítanék a problémára. Van két adatsorunk, a termékek ára, és az eladási számok. Szeretnénk tudni, hogy termékek ára befolyásolja-e az eladási volument. Ebben a kontextusban a termékek ára a független, az eladási volumen pedig a függő változó. Az elnevezések logikusak, hiszen a független változó értékétől függ a függő változó értéke.

Három mutatót kell először kiszámolnunk ahhoz, hogy megkapjuk a korrelációt:

a függő változó szórását
a független változó szórását
és a kovarianciát a két változó között

Ha esetleg nem ismernéd a szórás fogalmát, a szórás megmondja, hogy az egyes értékek átlagosan mennyire térnek el a sokasági átlagtól. (Egészen pontosan az átlagtól való eltérések négyzetes átlaga.) A kovariancia a változók együttmozgását méri tehát azt, hogy a két adatsor értékei mennyire változnak együtt.

A két adatsor legyen a következő:

Termék ára (független változó) (Ft): 1, 2, 3, 4, 5

Eladási volumen (függő változó) (db): 2, 4, 6, 8, 10

Átlagár: 3 Ft

Átlag eladási volumen: 6 db

A szórás képlete a következő:

\sigma = \sqrt{\frac{\sum\limits_{i=1}^{n} (x_i - \bar{x})^2}{n}}

A kovariancia pedig:

\text{cov}(x,y) = \frac{\sum\limits_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{n}

Szórások kiszámítása

Termék árának szórása

\sigma = \sqrt{\frac{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2}{5}} \approx 1.414

Termék eladási volumenének szórása

\sigma = \sqrt{\frac{(2-6)^2 + (4-6)^2 + (6-6)^2 + (8-6)^2 + (10-6)^2}{5}} \approx 2.828

Kovariancia kiszámítása

\frac{(1-3)(2-6) + (2-3)(4-6) + (3-3)(6-6) + (4-3)(8-6) + (5-3)(10-6)}{5}

= \frac{(-2)(-4) + (-1)(-2) + (0)(0) + (1)(2) + (2)(4)}{5} = 4

Intuitív megfigyelés

Az adatok nyilván ebben a speciális esetben függvényszerűen követik egymást. Az látható, hogy a kovariancia kiszámításánál lényegében keresztbe szorozzuk az átlagtól való eltéréseket. Mivel az értékek számszorosai egymásnak, ezért a mondhatjuk, hogy az átlagtól való eltérést, és az átlagtól való eltérés számszorosát szorozzuk össze. Így tehát a variancia számszorosát fogjuk megkapni.

Ha a függő és független változók értékei számszorosai egymásnak, akkor ugyanez lesz igaz szórásokra is. Az alább képletekkel is levezettem ezt az összefüggést. Így tehát, ha függvényszerű a kapcsolat a független és függő változó között, akkor a korrelációnak mindenképpen egynek, vagy mínusz egynek kell lennie, hiszen az a kovariancia és a szórások szorzatának hányadosa. (Azt ne felejtsük el, hogy a szóban forgó Peason-féle korrelációs együttható alapvetően lineáris kapcsolatot mér. Nem lineáris kapcsolat esetében másképpen szükséges számolni.)

\sum\frac{(x-\bar{x})(y-\bar{y})}{n} = \sum\frac{(x-\bar{x}) \cdot k \cdot (x-\bar{x})}{n} = \newline \newline k \cdot \sum\frac{(x-\bar{x})(x-\bar{x})}{n} = k \cdot \sum\frac{(x-\bar{x})^2}{n} = k \cdot \sigma^2

\sigma_x \cdot \sigma_y = \sigma_x \cdot (k \cdot \sigma_x) = k \cdot \sigma_x^2

A korrelációs együttható kiszámítása

A korrelációs együttható képlete a következő:

r = \frac{\text{cov}(x,y)}{\sigma_x \cdot \sigma_y}

Amint látod, egyszerűen csak le kell osztani a kovarianciát, a szórások szorzatával. Az így kalkulált érték egy és mínusz egy között alakulhat.

Végkövetkeztetés

Kimondhatjuk, hogyha függő változó értékei függvényszerű kapcsolatban állnak a független változó értékeivel, akkor a korreláció csak egy és mínusz egy lehet. Minden más esetben a kettő érték közötti számot fogunk kapni. Ezért működik jól ez az egyszerűnek tűnő, ámbár rendkívül hatékony mutató.