SEMMA (Sample, Explore, Modify, Model, Assess)
SEMMA (Sample, Explore, Modify, Model, Assess)
Sample (Örneklem): Bu aşamada, analiz edilecek veri kümesinden temsili bir örneklem seçilir. Veri kümesi genellikle çok büyük olabilir, bu nedenle analiz için bir alt küme seçmek veri işleme sürecini kolaylaştırır. Örneklem seçimi, analiz hedeflerine ve sınıflandırma/hedefleme değişkenlerine bağlı olarak yapılır.
Explore (Keşfetme): Bu aşamada, verilerin yapısını, özelliklerini ve ilişkilerini anlamak için keşifsel analiz yapılır. İstatistiksel özetlemeler, veri görselleştirmeleri ve grafikler kullanılarak veri seti hakkında bir anlayış geliştirilir. Veri eksiklikleri, aykırı değerler veya veri hataları gibi veri kalitesi sorunları da bu aşamada tespit edilir ve giderilir.
Modify (Değiştirme): Bu aşamada, veri setindeki gereksiz veya tekrarlayan özelliklerin temizlenmesi veya dönüştürülmesi gibi veri hazırlığı işlemleri yapılır. Veri seti üzerinde özellik seçimi, özellik mühendisliği, dönüşüm veya normalize etme gibi işlemler gerçekleştirilir. Ayrıca, eksik verilerin doldurulması veya aykırı değerlerin işlenmesi gibi veri düzeltme adımları da uygulanır.
Model (Modelleme): Bu aşamada, veri seti üzerinde makine öğrenimi veya istatistiksel modelleme teknikleri kullanılarak analiz yapılır. Sınıflandırma, regresyon, kümeleme veya ilişki keşfi gibi çeşitli modelleme teknikleri uygulanır. Model kurma adımında, veri seti eğitim ve test kümelerine ayrılır ve seçilen model üzerinde eğitim ve doğrulama gerçekleştirilir.
Assess (Değerlendirme): Bu aşamada, oluşturulan modelin performansı değerlendirilir. Modelin doğruluğu, hassasiyeti, özgüllüğü, hatırlama oranı gibi metrikler kullanılarak değerlendirilir. Ayrıca, modelin genellemesi, aşırı uyuma (overfitting) ve başarısızlık nedenleri gibi konular da incelenir.
CRISP-DM (Cross-Industry Standard Process for Data Mining)
İş Anlayışı (Business Understanding): Bu aşama, veri madenciliği projesinin amacını ve hedeflerini belirlemek için iş gereksinimlerini anlamayı içerir. Proje ekibi, projenin iş amaçlarını ve analiz edilecek soruları belirlemek için iş paydaşlarıyla etkileşimde bulunur.
Veri Anlayışı (Data Understanding): Bu aşama, projede kullanılacak olan veri kaynaklarını anlamayı içerir. Bu aşamada, verilerin yapısal ve yapısal olmayan özellikleri, kalitesi, eksiklikleri ve ilişkileri hakkında bilgi edinmek için veri keşfi ve analizleri yapılır.
Veri Hazırlığı (Data Preparation): Bu aşama, analiz için kullanılacak verilerin hazırlanmasını içerir. Veri temizleme, veri entegrasyonu, veri dönüşümü ve öznitelik seçimi gibi işlemler gerçekleştirilir. Ayrıca, eksik verilerin doldurulması, aykırı değerlerin işlenmesi ve gereksiz özelliklerin kaldırılması gibi veri ön işleme adımları yapılır.
Modelleme (Modeling): Bu aşama, veri seti üzerinde çeşitli modelleme tekniklerinin uygulanmasını içerir. Bu adımda, seçilen bir veya daha fazla model oluşturulur, eğitilir ve doğrulanır. Model performansı ve etkinliği değerlendirilir ve gerektiğinde iyileştirme adımları yapılır.
Değerlendirme (Evaluation): Bu aşama, oluşturulan modellerin performansının ve kalitesinin değerlendirilmesini içerir. Modeller, tanımlanan iş gereksinimlerini ne ölçüde karşıladığına ve iş hedeflerine ne kadar uyduğuna göre değerlendirilir. Farklı değerlendirme metrikleri kullanılarak modeller karşılaştırılır ve en uygun model seçilir.
Dağıtım (Deployment): Bu aşama, modelin kullanıma sunulmasını ve iş süreçlerine entegrasyonunu içerir. Modelin gerçek dünya uygulamalarında kullanılması, sonuçlarının izlenmesi ve sürdürülebilirliğinin sağlanması için gerekli adımlar atılır.
Veri madenciliği sürecini daha geniş bir bağlamda ele alan ve veri keşfi aşamalarını içeren bir yöntemdir. KDD, veri madenciliği sürecini veri seçimi, veri ön işleme, veri madenciliği, sonuçların değerlendirilmesi ve sunum gibi aşamalara ayırır.
Geleneksel yazılım geliştirme yöntemlerinden Agile Development prensiplerini veri analitiği süreçlerine uyarlayan bir yaklaşımdır. Küçük adımlarla iteratif ve esnek bir şekilde ilerleyen bu yöntem, hızlı sonuçlar elde etmeyi ve müşteri geri bildirimlerine dayalı olarak proje hedeflerini ayarlamayı hedefler.
Veri analizi ve istatistiksel yöntemlerin kullanıldığı bir kalite yönetimi yöntemidir. Six Sigma, süreçlerdeki değişkenliği azaltmayı ve hataları en aza indirmeyi hedefler. DMAIC (Define, Measure, Analyze, Improve, Control) adı verilen bir döngüyü takip eder ve veri analizi süreçlerini sistematik bir şekilde iyileştirmeye odaklanır.