Veri Madenciliğinde İstatistiksel Uygulamalar


Devasa büyüklükte veriler ile çalışırırken elimizdeki anlamlı sonuçlar çıkartmak bu verilerden faydalanmanın en iyi yoludur. Elde ettiğimiz sonuçların anlamlı ve yararlı olması için uygulunan tekniklerin bilimsel yöntemlere dayanması şarttır. Aksi takdirde sezgisel olarak bulunan durumların tutarlı olması beklenemez ve bu gibi durumlarda elde edilen sonuçlara güvenilemez.   Veri yığınlarından anlamlı veriler çıkartmak için yapacağımız işlem veri madenciliğidir. Veri madenciliği işlemi, elimizdeki veri kaynaklarına dayanarak daha önce keşfedilmemiş bilgileri ortaya çıkartma, bunlara göre karar verme ve senaryo planlarını  oluşturmaktır. Bunun için ise  istatistiksel yöntemleri uygularız. Veri madenciliğinde en çok uygulanan istatistiksel yöntemler şunlardır;

1) BAĞLANTI : İki durum arasında anlamlı ilişkidir. İstatistik literatüründe korelasyonu yüksek iki yada ikiden fazla değişkenleri bulma işidir. Örneğin bir süper markette süt ürünlerinin yanına peynir ürünlerinin konması satışıları artıyorsa, bu iki değişken olan süt satışları ve peynir satışları arasında yüksek korelasyon olduğunu göstermektedir. Öncelikle süper marketinin satış verileri incelir. Satış verileri içinde korelasyonu yüksek değişkenler bulunur. Bu değişkenlerin ait olduğu ürünler süper markette aynı veya yakın reyonlara yerleştirilir ki herhangi birini alan bir müşteri diğer ürünü de satın alması sağlanır. Düzenleme sonrasında süper marketin satış verileri incelinir ve aradaki artışlar gözlemlenir.

2) SINIFLANDIRMA : Sınıflandırma ile ürünleri satın alan ideal müşterilere ulaşılabilir. Bunun için istatistik literatüründe kümeleme analizi, diskriminant analizi, faktör analizi, temel bileşen analizi,  ..vs gibi sınıflanma ve kümüleme yapan analizler kullanılabilir.  Örnek olarak gençlerin küçük araba aldıkları, orta ileri yaştaki bireylerin ise daha büyük ve lüks arabalar aldıklarını gözlemlemiş olalım. Böyle bir durumda bir banka yada otomobil satıcısı olarak müşterilerimizi yaş ve gelirlerine göre sınıflandırma yaparak müşterilerimizi sekmentasyon yaparız.  Elimizde olan müşteri segmantasyonları için  kampanyalar düzenlenerek araba satışlarını yada otomobil kredilerinin kullanımlarının artırırız.

3) REGRESYON : Elimizde veri kaynakları ile örüntü bir değer elde etmek için kullanılır. Örneğin banka müşterilerinin kredi skorlarını tahmin etme durumu verilibilir. Müşterilerin banka ile olan geçmiş dönem işlemleri göz önüne alınarak her bir müşteri için skorlama yada puanlama tablosu çıkartılabilir. Bu gibi durumda regresyon modellerini kullanmak uygun bir çözüm olacaktır.

4) ZAMAN SERİLERİ :  Elimizdeki verileri kullanarak gelecek öngöründe bulunma işlemidir. Bunun için elimizdeki verinin geçmiş zaman değerleri zaman serileri analiz yöntemleri kullanarak analiz edilir. Verinin karakteristik özellikleri çıkartılır. Gelecek dönemdeki değerleri tahmin edilir ve olası senaryolar simüle edilir. Böylece müşterinin gelecekte nasıl davranacağı veren sağlam bir ön bilgimiz olur.

07 Eylül 2011 tarihinde veri analizi, veri tabanları içinde yayınlandı ve , , , , , , , olarak etiketlendi. Kalıcı bağlantıyı yer imlerinize ekleyin. 3 Yorum.

  1. Tesekkurler, guzel olmus gayet yararli.

  2. cok güzel olmuş,başarılarının devamını diliyorum.

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Log Out / Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Log Out / Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Log Out / Değiştir )

Google+ fotoğrafı

Google+ hesabınızı kullanarak yorum yapıyorsunuz. Log Out / Değiştir )

Connecting to %s

%d blogcu bunu beğendi: