giriiş
Makine öğrenimi, verileri işleme ve inceleme şeklimizde reform yaptı ve karar ağacı algoritmaları, sınıflandırma ve regresyon görevleri için bilinen bir karardır. Gini Safsızlığı veya Gini Katsayısı olarak da adlandırılan Gini Endeksi, karar ağacı algoritmalarında kullanılan önemli bir safsızlık ölçüsüdür. Bu yazıda Gini Endeksi fikrini, sayısal formülünü ve makine öğrenimindeki uygulamalarını kapsamlı bir şekilde inceleyeceğiz. Aynı şekilde Gini Endeksini ve diğer kirlilik ölçümlerini karşılaştıracağız, sınırlamaları ve avantajları hakkında konuşacağız ve gerçek dünyadaki uygulamalarının bağlamsal analizlerini inceleyeceğiz. Sonunda, buradaki araştırmalar için gelecekteki yönlere yer vereceğiz.
Gini Endeksi Nedir?
Gini Endeksi istatistiksel ve parasal ortamlardaki safsızlığın veya eşitsizliğin bir oranıdır. Makine öğreniminde, sınıflandırma görevleri için karar ağacı algoritmalarında bir safsızlık ölçüsü olarak kullanılır. Gini Endeksi, gelişigüzel seçilen bir testin karar ağacı algoritması tarafından yanlış sınıflandırılma olasılığını ölçer ve değeri 0'dan (tamamen saf) 1'e (tamamen saf olmayan) kadar değişir.
Gini Endeksi Formülü
Gini Endeksi, bir dolaşımın safsızlık veya eşitsizliğinin bir oranıdır ve karar ağacı algoritmalarında düzenli olarak bir safsızlık ölçüsü olarak kullanılır. Karar ağaçlarıyla ilgili olarak, verileri ağacın her düğümüne bölmek için en iyi özelliği belirlemek üzere Gini Endeksi kullanılır.
Gini Endeksi formülü aşağıdaki gibidir:
burada pi, bir şeyin belirli bir sınıfa sahip olma olasılığıdır.
Örneğin, An ve B sınıfına sahip ikili bir sınıflandırma konusunu düşünmeliyiz. An sınıfının olasılığı p ve B sınıfının olasılığı (1-p) ise Gini Endeksi şu şekilde hesaplanabilir: :
Gini İndeksinin değeri, ikili sınıflandırma problemleri için 0,0'dan 0,5'e kadar değişir; burada 0,0, tamamen saf bir düğümü gösterir (tüm örneklerde benzer sınıfa sahip bir yer vardır) ve 0,5, tamamen saf olmayan bir düğümü gösterir (testler iki sınıfa eşit olarak dağıtılır) ).
Sınıflandırma Problemlerinde Gini İndeksinin Kullanımı
Gini İndeksi genellikle sınıflandırma problemlerine yönelik karar ağacı algoritmalarında bir safsızlık ölçüsü olarak kullanılır. Karar ağaçlarında her düğüm bir öğeyi ele alır ve amaç, verileri esasen beklenebileceği kadar saf olan alt kümelere bölmektir. Safsızlık ölçüsü (Gini Endeksi gibi) her düğümdeki en iyi bölünmeye karar vermek için kullanılır.
Bunu açıklamak için ikili sınıflandırma sorununa yönelik bir karar ağacı örneğini düşünmeliyiz. Ağacın iki unsuru vardır: yaş ve gelir. Amaç, bireyin bir ürünü satın alıp almayacağını tahmin etmektir. Ağaç, safsızlık ölçüsü olarak Gini Endeksi kullanılarak oluşturulmuştur.
Kök düğümde örneklerin sınıf 0 veya sınıf 1'de yer alma olasılıklarına göre Gini Endeksi hesaplanır. Gini Endeksi'nde en yüksek düşüşe neden olan bileşene göre düğüm bölünür. Bu döngü, bir durdurma ölçüsü karşılanana kadar her alt küme için yinelemeli olarak yeniden düzenlenir.
Karar ağaçları
Karar ağacı, hem sınıflandırma hem de regresyon görevleri için kullanılan, iyi bilinen bir makine öğrenme algoritmasıdır. Bir model, sonraki alt kümelerin safsızlığını sınırlamak için belirlenen bilgi vurgularının değerlerinin ışığında veri kümesini daha mütevazı alt kümelere yinelemeli olarak bölerek çalışır.
Ağacın her düğümünde, bilgi vurgularından birinin değerleri göz önüne alınarak bir karar verilir ve nihai amaç, sonraki alt kümelerin temelde gerçekten beklenebileceği kadar saf olmasıdır. Bir alt kümenin saflığı, örneğin Gini Endeksi veya entropi gibi bir safsızlık ölçüsüyle düzenli olarak tahmin edilir.
Karar ağacı algoritması hem ikili hem de çok sınıflı sınıflandırma görevlerinin yanı sıra regresyon görevleri için de kullanılabilir. İkili sınıflandırma görevlerinde karar ağacı, evet veya hayır gibi ikili bir özelliğin değeri ışığında veri kümesini iki alt kümeye ayırır. Çok sınıflı sınıflandırma görevlerinde karar ağacı, veri kümesini kırmızı, yeşil veya mavi gibi doğrudan bir özelliğin değerlerinin ışığında çok sayıda alt kümeye böler.
Gini Endeksi ve Diğer Safsızlık Önlemleri
Gini İndeksinin dışında, karar ağacı algoritmalarında normalde kullanılan entropi ve bilgi kazancı gibi başka kirlilik ölçümleri de vardır.
Entropi:
Makine öğreniminde entropi, bir grup verideki düzensizliğin veya güvenlik açığının bir oranıdır. Genellikle karar ağacı algoritmalarında Gini İndeksinin yanı sıra bir safsızlık ölçüsü olarak kullanılır.
Karar ağacı algoritmalarında, ağacın her düğümünde verileri bölecek en iyi bileşene karar vermek için entropi kullanılır. Amaç, sınıflandırma konusuyla ilgili en fazla bilgiyi veren bileşenle ilgili entropide en büyük düşüşe neden olan öğeyi bulmaktır.
Entropi ve Gini İndeksinin her ikisi de normalde karar ağacı algoritmalarında safsızlık ölçüleri olarak kullanılsa da, çeşitli özelliklere sahiptirler. Entropi, sınıf adlarının dolaşımı konusunda daha hassastır ve genel olarak daha fazla düzeltilmiş ağaç sağlarken, Gini Endeksi sınıf işaretlerinin tahsis edilmesi konusunda daha az hassastır ve genel olarak daha az bölünmeyle daha sınırlı ağaçlar yaratacaktır. Safsızlık ölçüsünün kararı, belirli konuya ve verilerin niteliklerine bağlıdır.
Bilgi kazancı:
Bilgi kazanımı, bir karar ağacı oluştururken bölünmenin doğasını değerlendirmek için kullanılan bir eylemdir. Karar ağacının amacı, verileri amaç değişkeni için mümkün olduğu kadar homojen olan alt kümelere bölmektir, böylece sonraki ağaç yeni veriler hakkında kesin beklentiler oluşturmak için kullanılabilir. Bilgi kazancı, bir bölünmeyle gerçekleştirilen entropi veya safsızlıktaki azalmayı ölçer. En dikkate değer bilgi kazanımına sahip özellik, karar ağacının her düğümünde bölünecek en iyi özellik olarak seçilir.
Bilgi kazanımı, normalde karar ağaçlarındaki bölünmelerin doğasını değerlendirmek için kullanılan bir ölçüdür, ancak üzerinde odaklanılacak olan bu değildir. Gini endeksi veya yanlış sınıflandırma oranı gibi farklı ölçümlerden de aynı şekilde yararlanılabilir. Temelin bölünmesi kararı, ana konuya ve kullanılan veri setinin özelliklerine bağlıdır.
Gini endeksi örneği
'Pozitif' ve 'Negatif' olmak üzere iki sınıfa sahip 10 örnekten oluşan bir veri setimizin olduğu ikili sınıflandırma sorununu düşünmeliyiz. 10 örnekten 6'sı 'Pozitif' sınıfında, 4'ü ise 'Negatif' sınıfında yer almaktadır.
Veri kümesinin Gini İndeksini hesaplamak için öncelikle her sınıfın olasılığını hesaplıyoruz:
p_1 = 6/10 = 0,6 (Pozitif)
p_2 = 4/10 = 0,4 (Negatif)
Daha sonra bu noktada veri kümesinin safsızlığını hesaplamak için Gini Endeksi formülünü kullanırız:
Gini(S) = 1 - (p_1^2 + p_2^2)
= 1 - (0,6^2 + 0,4^2)
= 0,48
Yani veri setinin Gini İndeksi 0,48'dir.
Şimdi veri kümesini iki potansiyel değeri olan bir 'X' öğesine bölmemiz gerektiğini varsayalım: 'A' ve 'B'. Veri kümesini bileşen görünümünde iki alt kümeye ayırdık:
Alt küme 1 (X = A): 4 Pozitif, 1 Negatif
Alt küme 2 (X = B): 2 Pozitif, 3 Negatif
Bu bölünme için Gini Endeksi'ndeki düşüşü hesaplamak için öncelikle her alt kümenin Gini Endeksi'ni hesaplıyoruz:
Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32
Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48
Daha sonra Gini Endeksi'ndeki düşüşü hesaplamak için bilgi kazancı formülünü kullanıyoruz:
IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))
= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))
= 0,08
Dolayısıyla, veri kümesini 'X' vurgusuna bölmek için bilgi kazancı (yani Gini Dizinindeki azalma) 0,08'dir.
Bu durumda, tüm elemanların bilgi kazancını hesaplayıp en dikkat çekici bilgi kazancına sahip olanı seçersek, o bileşen karar ağacının kök düğümünde bölünecek en iyi bileşen olarak seçilmiş olacaktır.
Avantajları:
Gini endeksi, karar ağaçlarındaki bölünmelerin doğasını değerlendirmek için geniş kapsamlı bir ölçümdür ve entropi veya yanlış sınıflandırma oranı gibi farklı ölçümler üzerinde birkaç avantaja sahiptir. Gini endeksini kullanmanın temel avantajlarından bazıları şunlardır:
dizeyi json java'ya dönüştür
Hesaplama açısından verimli: Gini endeksi, logaritmaların hesaplanmasını içeren entropi gibi farklı ölçümlerle karşılaştırıldığında daha az karmaşık ve hesaplama açısından daha hızlı bir ölçümdür.
Sezgisel yorumlama: Gini endeksi basittir ve yorumlanır. Bir kümeden gelişigüzel seçilen bir örneğin, kümedeki sınıf aktarımına göre gelişigüzel işaretlenmesi durumunda yanlış sınıflandırılma olasılığını ölçer.
İkili sınıflandırma için iyi: Gini indeksi, amaç değişkeninin yalnızca iki sınıfa sahip olduğu ikili sınıflandırma problemleri için özellikle güçlüdür. Bu gibi durumlarda Gini endeksinin farklı ölçümlere göre daha istikrarlı olduğu bilinmektedir.
Sınıf dengesizliğine karşı dayanıklı: Gini endeksi, kesinlik veya yanlış sınıflandırma oranı gibi farklı ölçümlerle karşılaştırıldığında sınıf dengesizliğine karşı daha az hassastır. Bunun nedeni, Gini endeksinin kesin sayıların aksine her sınıftaki örneklerin genel kapsamlarına bağlı olmasıdır.
Fazla takılmaya daha az eğilimli: Gini endeksi genel olarak farklı ölçümlerle karşılaştırıldığında daha mütevazı karar ağaçları oluşturacak ve bu da onu fazla uyum sağlamaya daha az eğilimli hale getirecek. Bunun nedeni, Gini endeksinin genel olarak veriyi daha mütevazi parseller haline getiren ve aşırı uyum olasılığını azaltan özellikleri tercih etmesidir.
Dezavantajları:
Gini endeksi, karar ağaçları için bir bölme ölçüsü olarak bazı avantajlara sahip olsa da, aynı zamanda birkaç dezavantaja da sahiptir. Gini endeksini kullanmanın ana dezavantajlarından bazıları şunlardır:
Birçok kategoriye sahip özelliklere yönelik önyargı: Gini endeksi genel olarak birçok kategoriye veya değere sahip özelliklere yönelecektir çünkü veriler daha fazla bölünebilir ve parsellenebilir. Bu, fazla uyum sağlamaya ve daha karmaşık bir karar ağacına yol açabilir.
Sürekli değişkenler için iyi değil: Gini endeksi sürekli değişkenler için uygun değildir çünkü değişkenin kategorilere veya kutulara ayrıştırılmasını gerektirir, bu da bilgi kaybına ve kesinliğin azalmasına neden olabilir.
Özellik etkileşimlerini yok sayar: Gini endeksi sadece her bir özelliğin bireysel ileri görüşlü gücünü düşünür ve özellikler arasındaki etkileşimleri göz ardı eder. Bu, zayıf bölünmelere ve daha az kesin tahminlere yol açabilir.
Bazı veri kümeleri için ideal değildir: Bazen Gini endeksi bir karar ağacındaki bölünmelerin doğasını değerlendirmek için ideal ölçü olmayabilir. Örneğin, amaç değişkeninin istisnai derecede eğimli veya dengesiz olması durumunda, bilgi kazancı veya kazanç oranı gibi farklı ölçümler daha uygun olabilir.
Eksik değerlerin varlığında önyargıya eğilimli: Gini endeksi, eksik değerlerin varlığında önyargılı olabilir; çünkü en bilgilendirici olmasalar da, genel olarak daha az eksik değere sahip özelliklere yönelecektir.
Gini Endeksi'nin Gerçek Dünya Uygulamaları
Gini Endeksi, şantaj konumu, kredi puanlama ve müşteri bölümü gibi makine öğrenimindeki farklı uygulamalarda kullanılmıştır. Örneğin, gasp keşfinde Gini Endeksi, veri alışverişindeki tasarımları ayırt etmek ve tuhaf davranış biçimlerini tanımak için kullanılabilir. Kredi puanlamada Gini Endeksi, gelir, ödenmemiş borcun ev ücretiyle ilişkisi ve kredi geri ödeme kayıtları gibi değişkenler dikkate alınarak temerrüt olasılığını öngörmek için kullanılabilir. Müşteri bölümünde Gini Endeksi, müşterileri davranış biçimlerine ve eğilimlerine göre gruplandırmak için kullanılabilir.
Gelecek Araştırma
Karar ağacı algoritmalarındaki sınırsız kullanımına rağmen, Gini Endeksi üzerinde hâlâ araştırma yapılabilecek alan vardır. Araştırma alanlarından biri, Gini Endeksi'nin birçok düzeydeki faktörlere olan eğilimi gibi sınırlamalarını giderebilecek yeni safsızlık önlemlerinin geliştirilmesidir. Bir başka araştırma alanı da Gini İndeksini kullanan karar ağacı algoritmalarının düzenlenmesidir; örneğin, karar ağaçlarının kesinliği üzerinde çalışmak için kıyafet tekniklerinin kullanılması.
Çözüm
Gini Endeksi, sınıflandırma görevleri için karar ağacı algoritmalarında kullanılan önemli bir safsızlık ölçüsüdür. Rastgele seçilen bir testin bir karar ağacı algoritması tarafından yanlış sınıflandırılma olasılığını ölçer ve değeri 0'dan (tamamen saf) 1'e (tamamen saf olmayan) kadar değişir. Gini Endeksi basit ve uygulanabilir, hesaplama açısından üretken ve istisnalara karşı güçlüdür. Yanlış beyan keşfi, kredi puanlama ve müşteri bölümü gibi makine öğrenimindeki farklı uygulamalarda kullanılmıştır. Gini Endeksi'nin birkaç sınırlaması olsa da, iyileştirilmesi ve yeni safsızlık önlemlerinin iyileştirilmesi konusunda hala araştırma yapılması gerekiyor.