Bildiğimiz gibi Denetimli Makine Öğrenimi algoritması genel olarak Regresyon ve Sınıflandırma Algoritmaları olarak sınıflandırılabilir. Regresyon algoritmalarında sürekli değerler için çıktıyı tahmin ettik ancak kategorik değerleri tahmin etmek için Sınıflandırma algoritmalarına ihtiyacımız var.
Sınıflandırma Algoritması Nedir?
Sınıflandırma algoritması, eğitim verilerine dayanarak yeni gözlemlerin kategorisini tanımlamak için kullanılan bir Denetimli Öğrenme tekniğidir. Sınıflandırmada, bir program verilen veri kümesinden veya gözlemlerden öğrenir ve ardından yeni gözlemleri birkaç sınıfa veya gruba sınıflandırır. Örneğin, Evet veya Hayır, 0 veya 1, Spam veya Spam Değil, kedi veya köpek, vb. Sınıflar hedef/etiket veya kategori olarak adlandırılabilir.
daktiloda harita
Regresyondan farklı olarak, Sınıflandırmanın çıktı değişkeni, 'Yeşil veya Mavi', 'meyve veya hayvan' vb. gibi bir değer değil, bir kategoridir. Sınıflandırma algoritması Denetimli bir öğrenme tekniği olduğundan, bu nedenle etiketli giriş verilerini alır. karşılık gelen çıktıya sahip girişi içerdiği anlamına gelir.
Sınıflandırma algoritmasında, ayrı bir çıkış fonksiyonu (y), giriş değişkenine (x) eşlenir.
y=f(x), where y = categorical output
ML sınıflandırma algoritmasının en iyi örneği E-posta Spam Dedektörü .
Sınıflandırma algoritmasının temel amacı, belirli bir veri kümesinin kategorisini tanımlamaktır ve bu algoritmalar esas olarak kategorik verilerin çıktısını tahmin etmek için kullanılır.
Aşağıdaki diyagram kullanılarak sınıflandırma algoritmaları daha iyi anlaşılabilir. Aşağıdaki şemada A sınıfı ve B sınıfı olmak üzere iki sınıf bulunmaktadır. Bu sınıfların birbirine benzer ve diğer sınıflardan farklı özellikleri bulunmaktadır.
Bir veri kümesi üzerinde sınıflandırmayı uygulayan algoritmaya sınıflandırıcı denir. İki tür Sınıflandırma vardır:
Örnekler: EVET veya HAYIR, ERKEK veya KADIN, SPAM veya SPAM DEĞİL, KEDİ veya KÖPEK vb.
Örnek: Bitki türlerinin sınıflandırılması, Müzik türlerinin sınıflandırılması.
Sınıflandırma Problemlerinde Öğrenciler:
Sınıflandırma problemlerinde iki tür öğrenen vardır:
Örnek: K-NN algoritması, Vakaya dayalı akıl yürütme
ML Sınıflandırma Algoritmalarının Türleri:
Sınıflandırma Algoritmaları ayrıca Temel olarak iki kategoriye ayrılabilir:
- Lojistik regresyon
- Vektör makineleri desteklemek
- K-En Yakın Komşular
- Çekirdek SVM'si
- Naif Bayes
- Karar Ağacı Sınıflandırması
- Rastgele Orman Sınıflandırması
Not: Yukarıdaki algoritmaları ilerleyen bölümlerde öğreneceğiz.
Bir Sınıflandırma modelinin değerlendirilmesi:
Modelimiz tamamlandıktan sonra performansını değerlendirmek gerekir; ya bir Sınıflandırma ya da Regresyon modelidir. Dolayısıyla bir Sınıflandırma modelini değerlendirmek için aşağıdaki yollara sahibiz:
1. Günlük Kaybı veya Çapraz Entropi Kaybı:
- Çıkışı 0 ile 1 arasında bir olasılık değeri olan bir sınıflandırıcının performansını değerlendirmek için kullanılır.
- İyi bir ikili Sınıflandırma modeli için log kaybının değeri 0'a yakın olmalıdır.
- Tahmin edilen değerin gerçek değerden sapması durumunda log kaybının değeri artar.
- Daha düşük log kaybı, modelin daha yüksek doğruluğunu temsil eder.
- İkili sınıflandırma için çapraz entropi şu şekilde hesaplanabilir:
?(ylog(p)+(1?y)log(1?p))
Burada y= Gerçek çıktı, p= öngörülen çıktı.
'mason' formülü'
2. Karışıklık Matrisi:
- Karışıklık matrisi bize çıktı olarak bir matris/tablo sağlar ve modelin performansını açıklar.
- Hata matrisi olarak da bilinir.
- Matris, toplam sayıda doğru tahmin ve yanlış tahmin içeren özetlenmiş bir formdaki tahmin sonuçlarından oluşur. Matris aşağıdaki tabloya benzer:
Gerçek Olumlu | Gerçek Negatif | |
---|---|---|
Olumlu Tahmin Edildi | Gerçek Pozitif | Yanlış pozitif |
Negatif Tahmin Edildi | Yanlış Negatif | Gerçek Negatif |
3. AUC-ROC eğrisi:
- ROC eğrisi şu anlama gelir: Alıcı Çalışma Özellikleri Eğrisi ve AUC şu anlama gelir: Eğrinin Altındaki Alan .
- Sınıflandırma modelinin farklı eşiklerdeki performansını gösteren bir grafiktir.
- Çok sınıflı sınıflandırma modelinin performansını görselleştirmek için AUC-ROC Eğrisi'ni kullanıyoruz.
- ROC eğrisi TPR ve FPR ile çizilir; burada TPR (Gerçek Pozitif Oran) Y ekseninde ve FPR (Yanlış Pozitif Oranı) X eksenindedir.
Sınıflandırma Algoritmalarının kullanım durumları
Sınıflandırma algoritmaları farklı yerlerde kullanılabilir. Aşağıda Sınıflandırma Algoritmalarının bazı popüler kullanım durumları verilmiştir:
- E-posta Spam Tespiti
- Konuşma tanıma
- Kanser tümör hücrelerinin tanımlanması.
- İlaç Sınıflandırması
- Biyometrik Tanımlama vb.