logo

Makine Öğreniminde Sınıflandırma Algoritması

Bildiğimiz gibi Denetimli Makine Öğrenimi algoritması genel olarak Regresyon ve Sınıflandırma Algoritmaları olarak sınıflandırılabilir. Regresyon algoritmalarında sürekli değerler için çıktıyı tahmin ettik ancak kategorik değerleri tahmin etmek için Sınıflandırma algoritmalarına ihtiyacımız var.

Sınıflandırma Algoritması Nedir?

Sınıflandırma algoritması, eğitim verilerine dayanarak yeni gözlemlerin kategorisini tanımlamak için kullanılan bir Denetimli Öğrenme tekniğidir. Sınıflandırmada, bir program verilen veri kümesinden veya gözlemlerden öğrenir ve ardından yeni gözlemleri birkaç sınıfa veya gruba sınıflandırır. Örneğin, Evet veya Hayır, 0 veya 1, Spam veya Spam Değil, kedi veya köpek, vb. Sınıflar hedef/etiket veya kategori olarak adlandırılabilir.

daktiloda harita

Regresyondan farklı olarak, Sınıflandırmanın çıktı değişkeni, 'Yeşil veya Mavi', 'meyve veya hayvan' vb. gibi bir değer değil, bir kategoridir. Sınıflandırma algoritması Denetimli bir öğrenme tekniği olduğundan, bu nedenle etiketli giriş verilerini alır. karşılık gelen çıktıya sahip girişi içerdiği anlamına gelir.

Sınıflandırma algoritmasında, ayrı bir çıkış fonksiyonu (y), giriş değişkenine (x) eşlenir.

 y=f(x), where y = categorical output 

ML sınıflandırma algoritmasının en iyi örneği E-posta Spam Dedektörü .

Sınıflandırma algoritmasının temel amacı, belirli bir veri kümesinin kategorisini tanımlamaktır ve bu algoritmalar esas olarak kategorik verilerin çıktısını tahmin etmek için kullanılır.

Aşağıdaki diyagram kullanılarak sınıflandırma algoritmaları daha iyi anlaşılabilir. Aşağıdaki şemada A sınıfı ve B sınıfı olmak üzere iki sınıf bulunmaktadır. Bu sınıfların birbirine benzer ve diğer sınıflardan farklı özellikleri bulunmaktadır.

Makine Öğreniminde Sınıflandırma Algoritması

Bir veri kümesi üzerinde sınıflandırmayı uygulayan algoritmaya sınıflandırıcı denir. İki tür Sınıflandırma vardır:

    İkili Sınıflandırıcı:Sınıflandırma probleminin yalnızca iki olası sonucu varsa buna İkili Sınıflandırıcı denir.
    Örnekler: EVET veya HAYIR, ERKEK veya KADIN, SPAM veya SPAM DEĞİL, KEDİ veya KÖPEK vb.Çok Sınıflı Sınıflandırıcı:Bir sınıflandırma probleminin ikiden fazla sonucu varsa buna Çok Sınıflı Sınıflandırıcı denir.
    Örnek: Bitki türlerinin sınıflandırılması, Müzik türlerinin sınıflandırılması.

Sınıflandırma Problemlerinde Öğrenciler:

Sınıflandırma problemlerinde iki tür öğrenen vardır:

    Tembel Öğrenciler:Lazy Learner öncelikle eğitim veri setini saklar ve test veri setini alana kadar bekler. Tembel öğrenci durumunda sınıflandırma, eğitim veri setinde depolanan en ilgili verilere dayanarak yapılır. Eğitimde daha az zaman alır, ancak tahminler için daha fazla zaman gerekir.
    Örnek: K-NN algoritması, Vakaya dayalı akıl yürütmeHevesli Öğrenciler:Hevesli Öğrenciler, bir test veri seti almadan önce bir eğitim veri setini temel alan bir sınıflandırma modeli geliştirir. Tembel öğrenenlerin aksine, Hevesli Öğrenen öğrenmede daha fazla, tahminde bulunmada daha az zaman harcar. Örnek: Karar Ağaçları, Na�ve Bayes, ANN.

ML Sınıflandırma Algoritmalarının Türleri:

Sınıflandırma Algoritmaları ayrıca Temel olarak iki kategoriye ayrılabilir:

    Doğrusal Modeller
    • Lojistik regresyon
    • Vektör makineleri desteklemek
    Doğrusal Olmayan Modeller
    • K-En Yakın Komşular
    • Çekirdek SVM'si
    • Naif Bayes
    • Karar Ağacı Sınıflandırması
    • Rastgele Orman Sınıflandırması

Not: Yukarıdaki algoritmaları ilerleyen bölümlerde öğreneceğiz.

Bir Sınıflandırma modelinin değerlendirilmesi:

Modelimiz tamamlandıktan sonra performansını değerlendirmek gerekir; ya bir Sınıflandırma ya da Regresyon modelidir. Dolayısıyla bir Sınıflandırma modelini değerlendirmek için aşağıdaki yollara sahibiz:

1. Günlük Kaybı veya Çapraz Entropi Kaybı:

  • Çıkışı 0 ile 1 arasında bir olasılık değeri olan bir sınıflandırıcının performansını değerlendirmek için kullanılır.
  • İyi bir ikili Sınıflandırma modeli için log kaybının değeri 0'a yakın olmalıdır.
  • Tahmin edilen değerin gerçek değerden sapması durumunda log kaybının değeri artar.
  • Daha düşük log kaybı, modelin daha yüksek doğruluğunu temsil eder.
  • İkili sınıflandırma için çapraz entropi şu şekilde hesaplanabilir:
 ?(ylog(p)+(1?y)log(1?p)) 

Burada y= Gerçek çıktı, p= öngörülen çıktı.

'mason' formülü'

2. Karışıklık Matrisi:

  • Karışıklık matrisi bize çıktı olarak bir matris/tablo sağlar ve modelin performansını açıklar.
  • Hata matrisi olarak da bilinir.
  • Matris, toplam sayıda doğru tahmin ve yanlış tahmin içeren özetlenmiş bir formdaki tahmin sonuçlarından oluşur. Matris aşağıdaki tabloya benzer:
Gerçek Olumlu Gerçek Negatif
Olumlu Tahmin Edildi Gerçek Pozitif Yanlış pozitif
Negatif Tahmin Edildi Yanlış Negatif Gerçek Negatif
Makine Öğreniminde Sınıflandırma Algoritması

3. AUC-ROC eğrisi:

  • ROC eğrisi şu anlama gelir: Alıcı Çalışma Özellikleri Eğrisi ve AUC şu anlama gelir: Eğrinin Altındaki Alan .
  • Sınıflandırma modelinin farklı eşiklerdeki performansını gösteren bir grafiktir.
  • Çok sınıflı sınıflandırma modelinin performansını görselleştirmek için AUC-ROC Eğrisi'ni kullanıyoruz.
  • ROC eğrisi TPR ve FPR ile çizilir; burada TPR (Gerçek Pozitif Oran) Y ekseninde ve FPR (Yanlış Pozitif Oranı) X eksenindedir.

Sınıflandırma Algoritmalarının kullanım durumları

Sınıflandırma algoritmaları farklı yerlerde kullanılabilir. Aşağıda Sınıflandırma Algoritmalarının bazı popüler kullanım durumları verilmiştir:

  • E-posta Spam Tespiti
  • Konuşma tanıma
  • Kanser tümör hücrelerinin tanımlanması.
  • İlaç Sınıflandırması
  • Biyometrik Tanımlama vb.