DEV Community

Cover image for Yapay Zekâyı Anlamak: Veri Seti (Dataset) Nedir?
Tolga Gündüz
Tolga Gündüz

Posted on

Yapay Zekâyı Anlamak: Veri Seti (Dataset) Nedir?

Bir önceki yazımda Yapay Zekâ, Makine Öğrenmesi ve Derin Öğrenme arasındaki farklardan bahsetmiştim. Bu konuları daha iyi anlayabilmek için, şimdi yapay zekânın nasıl öğrendiğine, yani onun öğretmeni olan veri setlerine bakacağız.

Peki veri nedir?
Veri, yapay zekâya gösterdiğimiz her türlü bilgidir: fotoğraflar, yazılar, ses kayıtları, tablolar… Bu veriler gruplandığında ve bir amaca göre düzenlendiğinde, artık buna veri seti diyoruz.

Veri Setlerinin Temel Parçaları
Bir veri seti, sadece verilerin bir araya getirildiği bir dosya değildir; aynı zamanda verilerin düzenli ve anlaşılır bir şekilde organize edildiği bir yapıdır.

Özellikler (Değişkenler / Variables): Veri setindeki her bir bilgi parçası bir özelliktir. Örneğin bir satış veri setinde “ürün adı”, “fiyat” veya “satın alma tarihi” gibi bilgiler her biri bir değişkendir.
Yapı (Şema / Schema): Veri setinin nasıl düzenlendiğini gösterir. Hangi sütunların olduğu, verilerin türü gibi bilgiler şema içinde yer alır.
Açıklayıcı Bilgiler (Meta Veriler / Metadata): Veri setinin nereden geldiğini, hangi amaçla toplandığını veya nasıl kullanılacağını anlatan bilgiler.
Bu parçalar bir araya geldiğinde, veri seti analiz ve yapay zekâ çalışmaları için anlamlı hâle gelir. Günümüzde şirketler, müşterilerden gelen bilgilerden finansal işlemlere, sensörlerden sosyal medyaya kadar pek çok kaynaktan veri topluyor. Bu veriler doğru bir şekilde düzenlendiğinde, yapay zekâ modelleri daha doğru ve etkili bir şekilde öğrenebilir.

Veri Kalitesi: Ne Gösterirsen, Onu Öğrenir
Yapay zekâya bir şeyi öğretmek istiyorsak, ona önce örnekler sunmamız gerekir. Ama bu örneklerin sadece sayısı değil, niteliği de çok önemlidir.
Eğer yapay zekâya eksik, yanlış ya da tek taraflı veriler verirsek, o da doğal olarak eksik ya da yanlış şekilde öğrenir.

Saçını ıslakken nasıl şekillendirirsen, kuruyunca da o şekli alır…

“Mesela, yapay zekâdan bir ‘futbolcu resmi’ oluşturmasını istediğimizde, çoğu zaman erkek çizer. Çünkü eğitildiği görsellerin çoğu erkek futbolculardır. Bu da verinin farkında olmadan ‘yanlı/tek taraflı’ olduğunu gösterir.

Mesela, sadece kırmızı elmalar gösterdiğimiz bir modele yeşil elma gösterdiğimizde şaşırabilir. Ya da sadece erkek sesiyle eğitilen bir sesli asistan, kadın seslerini tanımakta zorlanabilir.
Veri ne kadar çeşitli, doğru ve dengeliyse, yapay zekâ o kadar sağlam öğrenir. Bu yüzden veriyi sadece “çok” değil, aynı zamanda “iyi” hâle getirmek gerekir.

Veri Türleri: Metin mi, Görsel mi, Ses mi?
Verinin kalitesinin önemli olduğunu artık biliyoruz. Ama işin bir diğer boyutu da veri türü.
Yapay zekâya konuşmayı öğretmek istiyorsak yazı değil, ses kaydı veririz. Görüntü tanıması gerekiyorsa ona resimler göstermeliyiz.

Yani her görev için farklı veri türleri gerekir.

Ses Verisi: Konuşmayı Anlama
Bir sesli asistanın seni doğru anlaması için çok sayıda ses kaydıyla eğitilmesi gerekir. Bu ses kayıtlarında farklı insanlar, farklı aksanlar, farklı kelimeler bulunur. Böylece yapay zekâ, senin ne söylediğini daha iyi anlayabilir.

Görüntü Verisi: Nesne Tanıma
Telefonundaki yüz tanıma sistemi, milyonlarca farklı yüz fotoğrafıyla eğitilir. Bu sayede yüzündeki küçük farklılıkları tanıyabilir ve doğru kişiyi bulur. Aynı şekilde, otonom araçlar da etraflarındaki nesneleri görmek için fotoğraflar ve videolar üzerinde çalışır.

Yazılı Metin: Dil Anlama
Yapay zekâ metinleri anlamak için büyük kitaplar, makaleler ve internetteki yazılı içeriklerle eğitilir. Böylece sana metin önerileri sunabilir, çeviri yapabilir veya sorularına yanıt verebilir.

Veri Seti ve Veri Tabanı Arasındaki Fark
Veri seti, belirli bir amaç için düzenlenmiş veri koleksiyonudur. Veri tabanı ise verileri depolayan, yöneten ve erişimi kontrol eden daha büyük bir sistemdir. Yani bir veri tabanı, birden fazla veri setini içerebilir, ama veri seti tek başına bir veri tabanı değildir.

Veri Setleri Nasıl Oluşturulur ve Temizlenir?
Veri setleri, yapay zekâ modellerinin öğrenmesi için temel hammaddedir. Ancak, her veri seti kaliteli ve kullanıma hazır değildir. Veriler genellikle ham halde toplanır ve içinde hatalar, eksiklikler ya da gereksiz bilgiler bulunabilir. Bu nedenle veri setlerini oluşturmadan önce onları temizlemek ve düzenlemek gerekir.

Temiz veri, modelin doğru ve güvenilir sonuçlar vermesini sağlar.

Veri Temizleme Süreci Nedir?
Hatalı Verilerin Çıkarılması: Örneğin, bir fotoğraf veri setinde bulanık ya da yanlış etiketlenmiş resimler varsa, bunlar çıkarılır.
Eksik Verilerin Doldurulması: Bazı veriler eksik olabilir, örneğin bir metin cümlesi yarım kalmış olabilir. Bu durumlar ya tamamlanır ya da o veri çıkarılır.
Gereksiz Verilerin Atılması: Veri setinde model için önemsiz bilgiler varsa, bunlar temizlenir.

Veri Setlerinin Boyutu ve Çeşitliliği Neden Önemli?
Bir yapay zekâ modeli ne kadar çok ve çeşitli veriye maruz kalırsa, o kadar iyi öğrenir. Çünkü gerçek dünya oldukça çeşitli ve karmaşıktır. Eğer model sadece birkaç örnek görürse, yeni karşılaştığı durumlarda doğru tahmin yapamayabilir.

Yani, büyük ve çeşitli veri setleri, modelin daha genel geçer, doğru ve esnek sonuçlar vermesini sağlar.

Veri Etiketleme (Labeling) Nedir ve Neden Gereklidir?
Veri setlerindeki ham veriler, yapay zekânın anlayabilmesi için çoğunlukla etiketlenir. Etiketleme, veriye “bu budur” diye açıklama eklemektir. Böylece model, hangi verinin ne anlama geldiğini öğrenir.

Diyelim ki elinde bir kutu içinde farklı meyveler var ve bunların adlarını öğrenmek istiyorsun. Her meyvenin üzerine isim etiketi yapıştırırsan, ileride yeni meyveleri de doğru tanımak kolaylaşır.

Yapay zekâda da aynı şey geçerli: Eğer bir resim “kedi” olarak işaretlendiyse, model bu resmi gördüğünde “bu bir kedi” olduğunu öğrenir. Ne kadar çok doğru etiketli veri varsa, model o kadar iyi öğrenir.

Yapay zekânın öğrenme süreci, doğru ve kaliteli veri setleriyle başlar. Bu temel bilgileri öğrendikten sonra, sırada yapay zekânın dilini oluşturan en temel parçayı, yani token’ı anlamak var. Bir sonraki bölümde görüşmek üzere!

Top comments (1)

Collapse
 
mertbayir profile image
Mert Bayır

Harika bir özet olmuş! Özellikle veri temizleme kısmı çok kritik, çoğu yapay zeka projesinde en çok vakit alan kısım da aslında orası oluyor.