Dummy variable trap

#python #machinelearning

Kukla değişken tuzağı (dummy variable trap), bir istatistiksel modelde çoklu doğrusallık problemi oluşturan bir durumdur. Bu, genellikle kategorik değişkenlerin analiz edilmesi sırasında ortaya çıkar.

Kukla değişkenler, kategorik değişkenleri sayısal değerlere dönüştürmek için kullanılır. Örneğin, cinsiyet değişkeni iki kategoriye ayrılabilir: erkek ve kadın. Bu durumda, bir kukla değişken oluşturabiliriz: "1" erkekleri ve "0" kadınları temsil eder.

Kukla değişken tuzağı, bir kategorinin referans kategorisi olarak alınmaması durumunda ortaya çıkar. Eğer her bir kategori için ayrı bir kukla değişken oluşturursak ve bu değişkenleri modelimize dahil edersek, bu durum çoklu doğrusallığa yol açar. Çünkü bir kategorinin değeri, diğer kategorilerin değerlerine bağlıdır (örneğin, eğer bir kişi kadın değilse, o zaman erkektir).

Bu tuzaktan kaçınmanın en yaygın yolu, her kategorik değişken için n-1 kukla değişken oluşturmaktır. Yani eğer bir değişkenin 3 kategorisi varsa, sadece 2 kukla değişken oluştururuz. Bu şekilde, her bir kukla değişken, referans kategoriye göre belirli bir kategoriyi temsil eder ve çoklu doğrusallık sorunu ortadan kalkar.

şu görselden daha iyi anlayacaksınız

Çoklu Doğrusallık Sorunu

Çoklu doğrusallık (multicollinearity), bağımsız değişkenler arasında yüksek korelasyon olması durumunu ifade eder. Yani, bir değişkenin diğer bir veya daha fazla değişkenle yüksek derecede ilişkili olmasıdır.

Çoklu doğrusallık, özellikle regresyon analizlerinde önemli bir sorundur çünkü:

Bağımsız değişkenler arasındaki yüksek korelasyon, bu değişkenlerin modeldeki etkisini belirlemeyi zorlaştırır. Yani, hangi değişkenin bağımlı değişkendeki değişikliğe ne kadar katkıda bulunduğunu belirlemek zordur.

Çoklu doğrusallık, regresyon katsayılarının standart hatalarını büyüterek, katsayıların istatistiksel anlamlılığını azaltabilir. Bu da modelin tahmin gücünü zayıflatabilir.

Çoklu doğrusallık, modelin aşırı uyum (overfitting) yapmasına yol açabilir. Yani, model eğitim veri setine çok iyi uyar ancak yeni verilere iyi genelleme yapamaz.

Çoklu doğrusallığı tespit etmek için VIF (Variance Inflation Factor), Tolerance değeri veya Korelasyon Matrisi gibi teknikler kullanılabilir. Çoklu doğrusallığın çözümü genellikle ilgili değişkenlerden birinin veya birkaçının modelden çıkarılması, değişkenlerin birleştirilmesi veya düzenlileştirme (regularization) tekniklerinin kullanılmasıdır.

Diyelim ki, bir evin fiyatını tahmin etmek için bir regresyon modeli oluşturuyorsunuz ve bağımsız değişkenler olarak evin büyüklüğü (metrekare) ve oda sayısı kullanıyorsunuz. Ancak genellikle oda sayısı ile evin büyüklüğü arasında yüksek bir korelasyon vardır. Yani, oda sayısı arttıkça genellikle evin büyüklüğü de artar. Bu durum, çoklu doğrusallık sorununa bir örnektir.

Bu durumda, evin büyüklüğünün fiyat üzerindeki etkisi ile oda sayısının fiyat üzerindeki etkisini ayırt etmek zor olabilir. Çünkü her iki değişken de birbiriyle yüksek derecede ilişkilidir ve bu da modelin katsayılarını belirsizleştirir.

Böyle bir durumla karşılaşıldığında, genellikle biri modelden çıkarılır veya iki değişken birleştirilerek yeni bir değişken oluşturulur. Örneğin, "oda başına düşen metrekare" gibi yeni bir değişken oluşturulabilir. Bu şekilde hem çoklu doğrusallık sorunu çözülür hem de her iki değişkenin bilgisi modelde kullanılmış olur.

Bir örnek daha bir adamın mutluluğuna televizyon izlemesi ve pizza yemesi üzerinden analiz yapılacak ama bu adam pizza yerken hep televizyon izliyor şimdi biz nerden anlicaz bu adamı mutlu eden pizza mı televizyon mu ? Olay bundan ibaret.

çoklu doğrusallık sorunu için video =>
https://www.youtube.com/watch?v=4KrZD18RAHo&t=70s&pp=ygUbw6dva2x1IGRvxJ9ydXNhbGzEsWsgc29ydW51

DEV Community

Dummy variable trap

Çoklu Doğrusallık Sorunu

Top comments (0)

Read next

Ruff: The Extensible Python Linter

JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models