Blog Arşivleri

Veri Madenciliğinde İstatistiksel Uygulamalar


Devasa büyüklükte veriler ile çalışırırken elimizdeki anlamlı sonuçlar çıkartmak bu verilerden faydalanmanın en iyi yoludur. Elde ettiğimiz sonuçların anlamlı ve yararlı olması için uygulunan tekniklerin bilimsel yöntemlere dayanması şarttır. Aksi takdirde sezgisel olarak bulunan durumların tutarlı olması beklenemez ve bu gibi durumlarda elde edilen sonuçlara güvenilemez.   Veri yığınlarından anlamlı veriler çıkartmak için yapacağımız işlem veri madenciliğidir. Veri madenciliği işlemi, elimizdeki veri kaynaklarına dayanarak daha önce keşfedilmemiş bilgileri ortaya çıkartma, bunlara göre karar verme ve senaryo planlarını  oluşturmaktır. Bunun için ise  istatistiksel yöntemleri uygularız. Veri madenciliğinde en çok uygulanan istatistiksel yöntemler şunlardır;

1) BAĞLANTI : İki durum arasında anlamlı ilişkidir. İstatistik literatüründe korelasyonu yüksek iki yada ikiden fazla değişkenleri bulma işidir. Örneğin bir süper markette süt ürünlerinin yanına peynir ürünlerinin konması satışıları artıyorsa, bu iki değişken olan süt satışları ve peynir satışları arasında yüksek korelasyon olduğunu göstermektedir. Öncelikle süper marketinin satış verileri incelir. Satış verileri içinde korelasyonu yüksek değişkenler bulunur. Bu değişkenlerin ait olduğu ürünler süper markette aynı veya yakın reyonlara yerleştirilir ki herhangi birini alan bir müşteri diğer ürünü de satın alması sağlanır. Düzenleme sonrasında süper marketin satış verileri incelinir ve aradaki artışlar gözlemlenir.

2) SINIFLANDIRMA : Sınıflandırma ile ürünleri satın alan ideal müşterilere ulaşılabilir. Bunun için istatistik literatüründe kümeleme analizi, diskriminant analizi, faktör analizi, temel bileşen analizi,  ..vs gibi sınıflanma ve kümüleme yapan analizler kullanılabilir.  Örnek olarak gençlerin küçük araba aldıkları, orta ileri yaştaki bireylerin ise daha büyük ve lüks arabalar aldıklarını gözlemlemiş olalım. Böyle bir durumda bir banka yada otomobil satıcısı olarak müşterilerimizi yaş ve gelirlerine göre sınıflandırma yaparak müşterilerimizi sekmentasyon yaparız.  Elimizde olan müşteri segmantasyonları için  kampanyalar düzenlenerek araba satışlarını yada otomobil kredilerinin kullanımlarının artırırız.

3) REGRESYON : Elimizde veri kaynakları ile örüntü bir değer elde etmek için kullanılır. Örneğin banka müşterilerinin kredi skorlarını tahmin etme durumu verilibilir. Müşterilerin banka ile olan geçmiş dönem işlemleri göz önüne alınarak her bir müşteri için skorlama yada puanlama tablosu çıkartılabilir. Bu gibi durumda regresyon modellerini kullanmak uygun bir çözüm olacaktır.

4) ZAMAN SERİLERİ :  Elimizdeki verileri kullanarak gelecek öngöründe bulunma işlemidir. Bunun için elimizdeki verinin geçmiş zaman değerleri zaman serileri analiz yöntemleri kullanarak analiz edilir. Verinin karakteristik özellikleri çıkartılır. Gelecek dönemdeki değerleri tahmin edilir ve olası senaryolar simüle edilir. Böylece müşterinin gelecekte nasıl davranacağı veren sağlam bir ön bilgimiz olur.

Reklamlar

Lojistik Regresyon


Diskriminant analizi ve çapraz tablolara alternatif olarak en çok kullanılan yöntemlerden birisi olan lojistik regresyon, normal dağılım ve ortak kovaryans varsayımları karşılanmadığı zamanlarda kullanılmaktadır. Lojistik regresyonun bu varsayımları karşılamamasında ki neden analizin yapılacağı veri setindendir. Yani bağımlı değişken sıralayıcı ve sınıflayıcı ölçekte olduğundan dolayıdır, yalnız bağımsız değişkenler sürekli yada kategorik ölçekte de olabilirler. Lojistik regresyon modeline sınırlayıcı yada kategorik ölçekte bir değişken eklenmek istendiğinde değişkenlerin üzerinde bir takım dönüşümler yapılmalıdır. Bu dönüşümler bağımlı değişken ile bağımsız değişken arasında doğrusal bir ilişkiyi verecek bir şekilde link fonksiyon, lojit veya probit dönüşümlerinden birisi olabilir. Örneğin bağımsız değişkenlerde 1 birimlik artışın bu dönüşümler sonucunda elde edilin sonuç ile modeldeki katsayısı çarpımı kadar bağımsız değişkende bir değişliğe neden olduğunu söyleyebiliriz. Şunu da belirtmek gerekir ki; modelde değişkenler üzerinde dönüşümler olduğundan dolayı değişkenlerin katsayılarının tahmininde en çok olabilirlik yöntemi kullanılır.

Elde edilen modelin bir anlam ifade etmesi için modeldeki bağımsız değişkenlerin katsayılarının anlamlılıklarının sınanması gerekmektedir. Sınamalar, en iyi modelin kurulmasını en az değişken ile yapılmasında yön göstericidirler.     Lojistik regresyon modeli, klasik regresyon modeli gibi olmadığı için katsayıların sınanmasında olabilirlik oran testi (likelihood ratio test), Score testi ve Wald testleri kullanılır. Burada asıl sorun; modelin bağımlı değişken hakkında incelenecek değişkenin, incelenen değişken olmayan modelden daha fazla bilgi içerip içermediğidir.

Lojistik regresyon modelindeki katsayılar yorumlanır iken odds (farklılıklardan) ve odds oranı (farklılıklar oranı) dan yararlanılır. Odds lar lojit dönüşümünün doğal logaritmalarının alınmış halidir. Odds oranı ise x=1 için hesaplanan odds un x=0 için hesaplanan odd a oranıdır. Farklılıklar oranının doğal logaritması ise log odds oranını verir. Modele dahil edilecek değişkenlere ise olabilirlik oranlarına ve Wald istatistikleri yorumlanarak karar verilir.

Lojistik regresyona getirilen eleştirilerden birisi de değişken sayısı artıkça model kurmanın zorlaşmasıdır. Yani değişken sayısı artıkça yapılacak işlem artmaktadır. Bu tür işlemleri yapmak ise zannedildiği kadar kolay değildir. Ayrıca değişken sayılarının artması tahmin edilen standart hataların da yüksek çıkmasına neden olmaktadır. Bu da veri setinin ana kütlesine bağımlılığı artırmaktadır.