Ebben a rövid cikkben egy egyszerűnek tűnő, ámbár a színfalak mögött mélyebb gondolkodást igénylő fogalomról fogok beszélni, ami rendkívül alapvető a statisztikában, az adatelemzésben, de akár a programozás világában is. Ez a fogalom nem más, mint a korreláció.
A korreláció egy standardizált statisztikai mutató, amely megadja két úgynevezett mennyiségi ismérv közötti kapcsolat szorosságot. Mindjárt egy példával is rávilágítanék a problémára. Van két adatsorunk, a termékek ára, és az eladási számok. Szeretnénk tudni, hogy termékek ára befolyásolja-e az eladási volument. Ebben a kontextusban a termékek ára a független, az eladási volumen pedig a függő változó. Az elnevezések logikusak, hiszen a független változó értékétől függ a függő változó értéke.
Három mutatót kell először kiszámolnunk ahhoz, hogy megkapjuk a korrelációt:
- a függő változó szórását
- a független változó szórását
- és a kovarianciát a két változó között
Ha esetleg nem ismernéd a szórás fogalmát, a szórás megmondja, hogy az egyes értékek átlagosan mennyire térnek el a sokasági átlagtól. (Egészen pontosan az átlagtól való eltérések négyzetes átlaga.) A kovariancia a változók együttmozgását méri tehát azt, hogy a két adatsor értékei mennyire változnak együtt.
A két adatsor legyen a következő:
Termék ára (független változó) (Ft): 1, 2, 3, 4, 5
Eladási volumen (függő változó) (db): 2, 4, 6, 8, 10
Átlagár: 3 Ft
Átlag eladási volumen: 6 db
A szórás képlete a következő:
A kovariancia pedig:
Szórások kiszámítása
Termék árának szórása
Termék eladási volumenének szórása
Kovariancia kiszámítása
Intuitív megfigyelés
Az adatok nyilván ebben a speciális esetben függvényszerűen követik egymást. Az látható, hogy a kovariancia kiszámításánál lényegében keresztbe szorozzuk az átlagtól való eltéréseket. Mivel az értékek számszorosai egymásnak, ezért a mondhatjuk, hogy az átlagtól való eltérést, és az átlagtól való eltérés számszorosát szorozzuk össze. Így tehát a variancia számszorosát fogjuk megkapni.
Ha a függő és független változók értékei számszorosai egymásnak, akkor ugyanez lesz igaz szórásokra is. Az alább képletekkel is levezettem ezt az összefüggést. Így tehát, ha függvényszerű a kapcsolat a független és függő változó között, akkor a korrelációnak mindenképpen egynek, vagy mínusz egynek kell lennie, hiszen az a kovariancia és a szórások szorzatának hányadosa. (Azt ne felejtsük el, hogy a szóban forgó Peason-féle korrelációs együttható alapvetően lineáris kapcsolatot mér. Nem lineáris kapcsolat esetében másképpen szükséges számolni.)
A korrelációs együttható kiszámítása
A korrelációs együttható képlete a következő:
Amint látod, egyszerűen csak le kell osztani a kovarianciát, a szórások szorzatával. Az így kalkulált érték egy és mínusz egy között alakulhat.
Végkövetkeztetés
Kimondhatjuk, hogyha függő változó értékei függvényszerű kapcsolatban állnak a független változó értékeivel, akkor a korreláció csak egy és mínusz egy lehet. Minden más esetben a kettő érték közötti számot fogunk kapni. Ezért működik jól ez az egyszerűnek tűnő, ámbár rendkívül hatékony mutató.
Top comments (0)