Pandas DataFrame, 2 boyutlu bir veri yapısıdır ve farklı türdeki verileri (sayısal, string vb.) saklayabilir. Her sütun ayrı bir veri türüne sahip olabilir.
Öncelikle pandas kütüphanesini import edelim:
import pandas as pd
Bir DataFrame oluşturalım:
data = {
'İsim': ['Ahmet', 'Mehmet', 'Ayşe', 'Fatma'],
'Yaş': [25, 30, 35, 40],
'Şehir': ['İstanbul', 'Ankara', 'İzmir', 'Bursa']
}
df = pd.DataFrame(data)
Bu kod, aşağıdaki gibi bir DataFrame oluşturur:
İsim Yaş Şehir
0 Ahmet 25 İstanbul
1 Mehmet 30 Ankara
2 Ayşe 35 İzmir
3 Fatma 40 Bursa
DataFrame'deki verilere erişmek için:
'İsim' sütununa erişim:
print(df['İsim'])
0 Ahmet
1 Mehmet
2 Ayşe
3 Fatma
Name: İsim, dtype: object
İlk iki satıra erişim:
print(df[:2])
İsim Yaş Şehir
0 Ahmet 25 İstanbul
1 Mehmet 30 Ankara
Belirli bir satır ve sütuna erişim:
print(df.loc[1, 'Yaş'])
1 numaralı indeksteki kişinin yaşını döndürür.(30)
DataFrame üzerinde çeşitli işlemler yapabiliriz, örneğin:
Yaş ortalamasını hesaplama:
print(df['Yaş'].mean())
=>32.5
'Şehir' sütunundaki benzersiz değerler:
print(df['Şehir'].unique())
['İstanbul' 'Ankara' 'İzmir' 'Bursa']
Bu örnekler, pandas DataFrame'inin temel kullanımını gösterir. Pandas, veri analizi ve manipülasyonu için çok daha fazla
işlevsellik sunar.
Ek olarak iloc ve loc farkı
Pandas kütüphanesinde, DataFrame'ler üzerinde belirli satır ve sütunlara erişmek için iloc ve loc kullanılır. Ancak, bu iki fonksiyon arasında önemli bir fark vardır:
iloc: iloc, tamamen tamsayı tabanlı bir indeksleme yöntemidir. Yani, iloc ile DataFrame'deki satır ve sütunlara onların tamsayı indekslerine göre erişebiliriz. İndeksleme 0'dan başlar ve son indeks dahil olmamak üzere çalışır. Yani, iloc[0:5] ifadesi 0'dan 4'e kadar olan indeksleri alır.
Örneğin:
df.iloc[0:5, 1:3]
Bu kod, DataFrame'deki ilk 5 satırı ve 2. ve 3. sütunları seçer.
loc: loc ise etiket tabanlı bir indeksleme yöntemidir. Yani, loc ile DataFrame'deki satır ve sütunlara onların etiketlerine (veya isimlerine) göre erişebiliriz. loc'da son indeks dahildir. Yani, loc[0:5] ifadesi 0'dan 5'e kadar olan indeksleri alır.
Örneğin:
df.loc[0:5, 'column_name']
Bu kod, DataFrame'deki ilk 6 satırı ve 'column_name' adlı sütunu seçer.
Özetle, iloc tamsayı tabanlı indeksleme yaparken, loc etiket tabanlı indeksleme yapar. Bu nedenle, hangi yöntemin kullanılacağı, veri setindeki satır ve sütunlara nasıl erişmek istediğinize bağlıdır.
Top comments (0)