CRISP-DM, veri madenciliği için endüstriler arası standart süreci temsil eder. CRISP-DM metodolojisi, bir veri madenciliği projesinin planlanmasına yönelik yapılandırılmış bir yaklaşım sağlar. Sağlam ve kanıtlanmış bir metodolojidir. Üzerinde herhangi bir mülkiyet iddiasında değiliz. Onu biz icat etmedik. İş sorunlarını çözmek için analitiği kullanırken güçlü pratiklik, esneklik ve kullanışlılığın dönüştürücüsüyüz. Neredeyse her müşteri toplantısında geçen altın konu budur.
Bu model idealize edilmiş bir olaylar dizisidir. Uygulamada birçok görev farklı bir sırayla gerçekleştirilebilir ve çoğu zaman önceki görevlere geri dönüp belirli eylemleri tekrarlamak gerekli olacaktır. Model, veri madenciliği süreci boyunca olası tüm rotaları yakalamaya çalışmaz.
CRISP nasıl yardımcı olur?
CRISP DM bir yol haritası sağlar, size en iyi uygulamaları sunar ve veri madenciliği kullanımında daha iyi ve daha hızlı sonuçlar elde etmek için yapılar sağlar; böylece işletmenin bir veri madenciliği projesini planlarken ve yürütürken takip etmesine bu şekilde yardımcı olur.
CRISP-DM'nin Aşamaları
CRISP-DM, bir süreç modeli olarak veri madenciliği yaşam döngüsüne genel bir bakış sağlar. Yaşam döngüsü modeli altı aşamadan oluşur; oklar, aşamalar arasındaki en önemli ve sık görülen bağımlılıkları gösterir. Aşamaların sırası kesin değildir. Ve çoğu proje gerektiğinde fazlar arasında ileri geri hareket eder. CRISP-DM modeli esnektir ve kolayca özelleştirilebilir.
Örneğin, kuruluşunuz kara para aklamayı tespit etmeyi hedefliyorsa, büyük olasılıkla belirli bir modelleme hedefi olmadan büyük miktarda veriyi eleyeceksiniz. Çalışmanız, modelleme yerine finansal verilerdeki şüpheli kalıpları ortaya çıkarmak için veri keşfetmeye ve görselleştirmeye odaklanacaktır. CRISP-DM ihtiyaçlarınıza uygun bir veri madenciliği modeli oluşturmanıza olanak tanır.
Bir projenin tipik aşamalarının tanımlarını, her aşamada yer alan görevleri ve bu görevler arasındaki ilişkilerin açıklamasını içerir.
Aşama 1: İş Anlayışı
CRISP-DM sürecinin ilk aşaması, iş perspektifinden neyi başarmak istediğinizi anlamaktır. Kuruluşunuzun uygun şekilde dengelenmesi gereken birbiriyle rekabet eden hedefleri ve kısıtlamaları olabilir. Bu süreç aşaması, projenin sonucunu etkileyen önemli faktörleri ortaya çıkarmayı amaçlamaktadır. Bu adımı ihmal etmek, yanlış sorulara doğru yanıtlar üretmek için çok fazla çaba sarf edilmesi anlamına gelebilir.
Projenin arzu edilen çıktıları nelerdir?
Mevcut durumu değerlendirin
akşam yemeği vs akşam yemeği
Bu, veri analizi hedefinizi ve proje planınızı belirlerken dikkate almanız gereken kaynaklar, kısıtlamalar, varsayımlar ve diğer faktörler hakkında daha ayrıntılı bilgi toplamayı içerir.
- Personel (iş uzmanları, veri uzmanları, teknik destek, veri madenciliği uzmanları)
- Veriler (sabit alıntılar, canlı, depolanmış veya operasyonel verilere erişim)
- Bilgi işlem kaynakları (donanım platformları)
- Yazılım (veri madenciliği araçları, diğer ilgili yazılımlar)
- İlgili iş terminolojisi sözlüğü, projede mevcut olan iş anlayışının bir parçasını oluşturur. Bu sözlüğün oluşturulması yararlı bir 'bilginin ortaya çıkarılması' ve eğitim uygulamasıdır.
- Veri madenciliği terminolojisi sözlüğü iş problemiyle ilgili örneklerle gösterilmiştir.
Veri madenciliği hedeflerini belirleyin
Bir iş hedefi, iş terminolojisindeki hedefleri belirtir. Bir veri madenciliği hedefi, proje hedeflerini teknik terimlerle belirtir. Örneğin iş hedefi, mevcut müşterilere katalog satışlarını artırmak olabilir. Bir veri madenciliği hedefi, bir müşterinin son üç yıldaki satın alma işlemleri, demografik bilgiler (yaş, maaş, şehir vb.) ve ürünün fiyatı göz önüne alındığında kaç adet widget satın alacağını tahmin etmek olabilir.
Proje planı üretin
Veri madenciliği hedeflerine ve iş hedeflerine ulaşmak için amaçlanan planı açıklayın. Planınız, araçların ve tekniklerin ilk seçimi de dahil olmak üzere, projenin geri kalanında gerçekleştirilecek adımları belirtmelidir.
1. Proje planı: Projede yürütülecek aşamaları süreleri, gerekli kaynakları, girdileri, çıktıları ve bağımlılıklarıyla birlikte listeleyin. Mümkün olduğunda, veri madenciliği sürecindeki büyük ölçekli yinelemeleri, örneğin modelleme ve değerlendirme aşamalarının tekrarlarını açık bir şekilde yapmaya çalışın.
Proje planının bir parçası olarak zaman çizelgeleri ve riskler arasındaki bağımlılığı analiz etmek önemlidir. Bu analizlerin sonuçlarını, risklerin ortaya çıkması durumunda ideal olarak eylem ve önerilerle birlikte proje planında açıkça işaretleyin. Değerlendirme aşamasında hangi değerlendirme stratejisinin kullanılacağına karar verin.
javafx öğreticisi
Proje planınız dinamik bir belge olacaktır. Her aşamanın sonunda ilerlemeyi ve başarıları gözden geçirecek ve proje planını buna göre güncelleyeceksiniz. Bu güncellemeler için özel inceleme noktaları proje planının bir parçası olmalıdır.
2. Araç ve tekniklerin ilk değerlendirmesi: İlk aşamanın sonunda, araç ve tekniklerin ilk değerlendirmesini yapmalısınız. Örneğin, sürecin farklı aşamaları için çeşitli yöntemleri destekleyen bir veri madenciliği aracı seçersiniz. Araç ve tekniklerin seçimi tüm projeyi etkileyebileceğinden, araçların ve tekniklerin sürecin başında değerlendirilmesi önemlidir.
Aşama 2: Veri Anlama
CRISP-DM sürecinin ikinci aşaması, proje kaynaklarında listelenen verileri almanızı gerektirir. Bu ilk toplama, verilerin anlaşılması için gerekli olması durumunda veri yüklemeyi içerir. Örneğin, verileri anlamak için belirli bir araç kullanıyorsanız verilerinizi bu araca yüklemeniz son derece mantıklıdır. Birden fazla veri kaynağı edinirseniz bunları nasıl ve ne zaman entegre edeceğinizi düşünmeniz gerekir.
Verileri açıklayın
Elde edilen verilerin 'brüt' veya 'yüzey' özelliklerini inceleyin ve sonuçları rapor edin.
Verileri keşfedin
Bu aşamada sorgulama, veri görselleştirme ve raporlama tekniklerini kullanarak veri madenciliği sorularını ele alacaksınız. Bunlar şunları içerebilir:
- Temel niteliklerin dağılımı
- Çiftler veya az sayıda nitelik arasındaki ilişkiler
- Basit toplamaların sonuçları
- Önemli alt popülasyonların özellikleri
- Basit istatistiksel analizler
Bu analizler doğrudan veri madenciliği hedeflerinize hitap edebilir. Veri tanımına ve kalite raporlarına katkıda bulunabilir veya bunları iyileştirebilir ve daha ileri analiz için gereken dönüşüm ve diğer veri hazırlama adımlarına katkıda bulunabilirler.
Veri kalitesini doğrulayın
Aşağıdaki gibi soruları yanıtlayarak verilerin kalitesini inceleyin:
gri kod
- Veriler tam mı, yoksa gerekli tüm durumları kapsıyor mu?
- Doğru mu, hatalar içeriyor mu ve hatalar varsa bunlar ne kadar yaygın?
- Verilerde eksik değerler var mı? Eğer öyleyse, nasıl temsil ediliyorlar, nerede ortaya çıkıyorlar ve ne kadar yaygınlar?
Veri kalitesi raporu
Veri kalitesi doğrulamasının sonuçlarını listeleyin. Kalite sorunları varsa olası çözümleri önerin. Veri kalitesi sorunlarının çözümleri genellikle büyük ölçüde verilere ve iş bilgisine bağlıdır.
Aşama 3: Veri Hazırlama
Bu proje aşamasında analiz için kullanacağınız verilere karar verirsiniz. Bu kararı vermek için kullanabileceğiniz kriterler arasında verilerin veri madenciliği hedeflerinizle ilgisi, verilerin kalitesi ve veri hacmi veya veri türleri üzerindeki sınırlamalar gibi teknik kısıtlamalar yer alır.
Verilerinizi temizleyin
Bu görev, veri kalitesinin seçtiğiniz analiz tekniklerinin gerektirdiği düzeye çıkarılmasını içerir. Bu, verilerin temiz alt kümelerinin seçilmesini, uygun varsayılanların eklenmesini veya eksik verilerin modelleme yoluyla tahmin edilmesi gibi daha iddialı teknikleri içerebilir.
Gerekli verileri oluşturun
Bu görev, türetilmiş öznitelikler, tamamen yeni kayıtlar veya mevcut öznitelikler için dönüştürülmüş değerler üretmek gibi yapıcı veri hazırlama işlemlerini içerir.
Verileri entegre edin
Bu yöntemler, yeni kayıtlar veya değerler oluşturmak için birden fazla veritabanından, tablodan veya kayıttan gelen bilgileri birleştirir.
Aşama 4: Modelleme
Modelleme tekniğini seçin: İlk adım olarak kullanacağınız temel modelleme tekniğini seçeceksiniz. İşi anlama aşamasında zaten bir araç seçmiş olsanız da, bu aşamada belirli modelleme tekniğini seçeceksiniz; C5.0 ile karar ağacı oluşturma veya geri yayılımlı sinir ağı oluşturma. Birden fazla teknik uygulanıyorsa bu görevi her teknik için ayrı ayrı gerçekleştirin.
Test tasarımı oluştur
Bir model oluşturmadan önce modelin kalitesini ve geçerliliğini test edecek bir prosedür veya mekanizma oluşturmanız gerekir. Örneğin, sınıflandırma gibi denetimli veri madenciliği görevlerinde, veri madenciliği modelleri için kalite ölçütü olarak hata oranlarının kullanılması yaygındır. Bu nedenle, genellikle veri kümesini eğitim ve test kümelerine ayırırsınız, modeli eğitim kümesinde oluşturursunuz ve ayrı test kümesinde kalitesini tahmin edersiniz.
Model oluştur
Bir veya daha fazla model oluşturmak için modelleme aracını hazırlanan veri kümesi üzerinde çalıştırın.
satır ve sütun
Modeli değerlendir
Modelleri alan bilginize, veri madenciliği başarı kriterlerine ve istediğiniz test tasarımına göre yorumlayın. Modelleme ve keşif tekniklerinin uygulanmasının başarısını değerlendirin ve daha sonra iş bağlamında veri madenciliği sonuçlarını tartışmak için iş analistleri ve alan uzmanlarıyla iletişime geçin. Bu görev yalnızca modelleri dikkate alırken, değerlendirme aşamasında proje sırasında üretilen diğer tüm sonuçlar da dikkate alınır.
Bu aşamada modelleri sıralamalı ve değerlendirme kriterlerine göre değerlendirmelisiniz. Burada elinizden geldiğince iş hedeflerini ve başarı kriterlerini göz önünde bulundurmalısınız. Çoğu veri madenciliği projesinde tek bir teknik birden fazla uygulanmakta ve veri madenciliği sonuçları birkaç farklı teknikle üretilmektedir.
Aşama 5: Değerlendirme
Sonuçlarınızı değerlendirin: Önceki değerlendirme adımlarında modelin doğruluğu ve genelliği gibi faktörler ele alınıyordu. Bu adım sırasında, modelin iş hedeflerinizi ne ölçüde karşıladığını değerlendirecek ve bu modelin yetersiz olmasının ticari bir nedeni olup olmadığını belirlemeye çalışacaksınız. Diğer bir seçenek de, zaman ve bütçe kısıtlamaları izin veriyorsa, modeli gerçek uygulamadaki test uygulamaları üzerinde test etmektir. Değerlendirme aşaması aynı zamanda oluşturduğunuz diğer veri madenciliği sonuçlarının değerlendirilmesini de içerir. Veri madenciliği sonuçları, orijinal iş hedefleriyle mutlaka ilgili olan modelleri ve orijinal iş hedefleriyle mutlaka ilgili olmayan ancak aynı zamanda gelecekteki yönler için ek zorlukları, bilgileri veya ipuçlarını da ortaya çıkarabilecek tüm diğer bulguları içerir.
İnceleme süreci
Bu noktada ortaya çıkan modellerin tatmin edici olduğu ve iş ihtiyaçlarını karşıladığı görülmektedir. Artık, bir şekilde gözden kaçırılan önemli bir faktör veya görevin olup olmadığını belirlemek için veri madenciliği katılımını daha kapsamlı bir şekilde incelemeniz uygun olacaktır. Bu inceleme aynı zamanda kalite güvencesi konularını da kapsamaktadır. Örneğin: modeli doğru bir şekilde oluşturduk mu? Yalnızca kullanmamıza izin verilen ve gelecekteki analizler için mevcut olan nitelikleri mi kullandık?
Sonraki adımları belirleyin
Artık değerlendirme sonuçlarına ve süreç incelemesine bağlı olarak nasıl ilerleyeceğinize karar verirsiniz. Bu projeyi bitirip dağıtıma mı geçeceksiniz, daha fazla yineleme başlatacak mısınız veya yeni veri madenciliği projeleri mi kuracaksınız? Kararlarınızı etkileyebilecek kalan kaynaklarınızı ve bütçenizi de değerlendirmelisiniz.
Aşama 6: Dağıtım
Dağıtımı planlayın: Dağıtım aşamasında, değerlendirme sonuçlarınızı alacak ve bunların dağıtımı için bir strateji belirleyeceksiniz. İlgili modeli/modelleri oluşturmak için genel bir prosedür tanımlanmışsa, bu prosedür daha sonra devreye alınmak üzere burada belgelenir. Dağıtımın projenin başarısı için çok önemli olması nedeniyle, işi anlama aşamasında dağıtım yollarını ve araçlarını dikkate almak mantıklıdır. Tahmine dayalı analizlerin işletmenizin operasyonel yönünü iyileştirmeye yardımcı olduğu yer burasıdır.
İzleme ve bakımı planlayın
Veri madenciliği sonucu günlük işin ve ortamın bir parçası haline gelirse izleme ve bakım önemli konulardır. Bir bakım stratejisinin dikkatli bir şekilde hazırlanması, veri madenciliği sonuçlarının gereksiz derecede uzun süreli yanlış kullanımını önlemeye yardımcı olur. Projenin, veri madenciliği sonuçlarının dağıtımını izlemek için ayrıntılı bir izleme süreci planına ihtiyacı var. Bu plan, belirli dağıtım türünü dikkate alır.
Nihai raporu üretin
Projenin sonunda bir final raporu yazacaksınız. Dağıtım planına bağlı olarak bu rapor, projenin ve deneyimlerinin yalnızca bir özeti olabilir (eğer halihazırda devam eden bir faaliyet olarak belgelenmemişse) veya veri madenciliği sonucunun nihai ve kapsamlı bir sunumu olabilir.
Projeyi incele
anaconda vs piton yılanı
Neyin doğru, neyin yanlış gittiğini, nelerin iyi yapıldığını ve nelerin iyileştirilmesi gerektiğini değerlendirin.