logo

Veri madenciliğinde hiyerarşik kümeleme

Hiyerarşik kümeleme, önceden tanımlanmış kümelere dayalı olarak ardışık kümeleri belirleyen denetimsiz bir öğrenme prosedürünü ifade eder. Verileri bir küme ağacı halinde gruplayarak çalışır. Her veri noktasını ayrı bir küme olarak ele alarak hiyerarşik kümeleme istatistikleri. Uç nokta, her kümenin diğer kümeden farklı olduğu ve her küme içindeki nesnelerin birbiriyle aynı olduğu farklı bir küme kümesini ifade eder.

İki tür hiyerarşik kümeleme vardır

  • Aglomeratif Hiyerarşik Kümeleme
  • Bölücü Kümeleme

Aglomeratif hiyerarşik kümeleme

Aglomeratif kümeleme, benzer nesneleri kümeler halinde gruplamak için kullanılan en yaygın hiyerarşik kümeleme türlerinden biridir. Aglomeratif kümeleme aynı zamanda AGNES (Aglomeratif Yuvalama) olarak da bilinir. Aglomeratif kümelemede, her veri noktası ayrı bir küme gibi davranır ve her adımda veri nesneleri aşağıdan yukarıya bir yöntemle gruplandırılır. Başlangıçta her veri nesnesi kendi kümesindedir. Her yinelemede kümeler, bir küme oluşana kadar farklı kümelerle birleştirilir.

Toplayıcı hiyerarşik kümeleme algoritması

  1. Bireyler ve diğer tüm kümeler arasındaki benzerliği belirleyin. (Yakınlık matrisini bulun).
  2. Her veri noktasını ayrı bir küme olarak düşünün.
  3. Benzer kümeleri birleştirin.
  4. Her küme için yakınlık matrisini yeniden hesaplayın.
  5. Tek bir küme elde edene kadar 3. ve 4. adımları tekrarlayın.

Bu kavramı bir dendrogram kullanarak grafiksel gösterim yardımıyla anlayalım.

Verilen gösterinin yardımıyla gerçek algoritmanın nasıl çalıştığını anlayabiliriz. Burada kümeler arasındaki yakınlığın varsayıldığı varsayımının altında herhangi bir hesaplama yapılmamıştır.

Diyelim ki altı farklı veri noktamız var: P, Q, R, S, T, V.

Veri madenciliğinde hiyerarşik kümeleme

Aşama 1:

Her alfabeyi (P, Q, R, S, T, V) ayrı bir küme olarak düşünün ve bireysel kümenin diğer tüm kümelerden arasındaki mesafeyi bulun.

Adım 2:

Şimdi karşılaştırılabilir kümeleri tek bir kümede birleştirin. Diyelim ki Q kümesi ve R kümesi birbirine benziyor ki ikinci adımda bunları birleştirebiliriz. Son olarak [ (P), (QR), (ST), (V)] kümelerini elde ederiz.

Aşama 3:

Burada algoritmaya göre yakınlığı yeniden hesaplıyoruz ve en yakın iki kümeyi [(ST), (V)] bir araya getirerek [(P), (QR), (STV)] şeklinde yeni kümeler oluşturuyoruz.

Adım 4:

Aynı işlemi tekrarlayın. STV ve PQ kümeleri karşılaştırılabilir ve yeni bir küme oluşturmak üzere bir araya getirilir. Artık elimizde [(P), (QQRSTV)] var.

Adım 5:

Son olarak, kalan iki küme tek bir küme oluşturacak şekilde birleştirilir [(PQRSTV)]

Bölücü Hiyerarşik Kümeleme

Bölücü hiyerarşik kümeleme, Toplayıcı Hiyerarşik kümelemenin tam tersidir. Bölücü Hiyerarşik kümelemede tüm veri noktaları ayrı bir küme olarak kabul edilir ve her yinelemede benzer olmayan veri noktaları kümeden ayrılır. Ayrılan veri noktaları ayrı bir küme olarak ele alınır. Sonunda elimizde N küme kaldı.

Veri madenciliğinde hiyerarşik kümeleme

Hiyerarşik kümelemenin avantajları

  • Uygulaması basittir ve bazı durumlarda en iyi çıktıyı verir.
  • Kolaydır ve daha fazla bilgi içeren bir yapı olan hiyerarşiyle sonuçlanır.
  • Küme sayısını önceden belirtmemize gerek yoktur.

Hiyerarşik kümelemenin dezavantajları

  • Büyük kümeleri kırar.
  • Farklı büyüklükteki kümeleri ve dışbükey şekilleri işlemek zordur.
  • Gürültüye ve aykırı değerlere karşı duyarlıdır.
  • Algoritma daha önce yapıldıktan sonra asla değiştirilemez veya silinemez.