Kategori arşivi: İstatistik

istatistik ile ilgili her şey burda

ORACLE ve R


Bu yazımda, açık kaynak kodlu olarak geliştirilen istatistiksel hesaplama dili R ile oracle’a bağlanıp R’ın RODM paketini kullanıp neler yapabildiklerimi kısaca anlatacağım. Öncelikle R açıp RODM paketini yükleyelim.

> library(RODM)

 Yukarıdaki komut R’da RODBC paketi gibi veritabanı ile R bağlantısını (R ile veritabanı konuşturmak için)  yapmak için gerekli olan komutları hafızaya yükler. Paketi yükledikten sonra şimdi R’da veritabanı bağlantısı yapalım.

DB <- RODM_open_dbms_connection(dsn="orcl", uid="ahmet", pwd="sdf")

 Yukarıda DB isimli bir nesne oluşturduk. Bu nesne “ahmet” kullanıcısı bağlantı yaptığımız veritabanı bağlantısını tutmaktadır. Bu paketi kullanmak bize, R’da yaptığımız analizler sonucu elde ettiğimiz R verilerini ( ki burada R verileri nesne,data frame, liste, vektör, ..vs olarak tutmaktadır.) Oracle’nın anlayacağı bir şekilde çevirim yapılmasını sağlamaktadır. Şuana kadar R’da Oracle bağlantısı yaptık, şimdi birkaç küçük analizle veri madenciliğine giriş yapalım. Test verileri üzerinden gidelim. Elimde hangi verilerin olduğu görmek için R konsolunda aşağıdaki komutu girelim.

> data()

Ekranda küçük bir pencere açılacak ve bize hali hazırda olan verileri ve tanımlamalarını verecektir. Örnek verimiz Orange olsun. R Konsoluna şu komutu girelim

> head(Orange)

Yukarıdaki komut veri setinin 5-6 satır verisini getirecektir. Böylece veriseti hakkında bilgimiz olacaktır.

> orange_data=Orange

 Yukarıda komut ile orange nesnesinin verilerini oracle_data adında yeni bir nesneye atadık. Şimdi bu verimizi oracle’ın içerisine alalım. Yani veritabanımızda bir tabloya alalım. Bunun için;

> RODM_create_dbms_table(DB, "orange_data")

Yukarıdaki komut arka planda ODM algoritmalarını ve işlemleri yaparak orange_data nesnesindeki verileri Oracle’da ahmet şemasının altında orange_data isimli bir tabloya aktarır. Burada dikkat edilmesi gereken şey şudur; bir çok R kullanıcı analizlerini yaparken nesnelerinde . kullanarak isimlendirme yapmayı tercih eder. Eğer . içeren bir nesnedeki veriyi Oracle’a aktarmak istersek bize hata verir. Nedeni ise nesne isimindeki noktadan önce gelen kısmı şema ismi olarak algılar ve kullanıcı bulunamadı hatası verir. Böyle bir hata almamak için nesne isimlerine dikkat edilmelidir. Ayrıca R’da kolon isimleri verirken 30 karakteri geçmemeye ve (.) nokta kullanılmaktan kaçınılmalıdır.

Şimdi kolon isimlerini alalım

> sqlColumns(DB, 'orange_data')$COLUMN_NAME

 Yukarıdaki komut ile orange_data tablosundaki kolonları isimlerini aldık. Bazı algoritmalar Case ID bilgisine ihtiyaç duymaktadır. Şimdi bunu nasıl yapacağımızı görelim.

> numrows <- length(orange_data[,1])
> orange_data.rows <- length(orange_data[,1])
> orange_data.id <- matrix(seq(1, orange_data.rows)
,nrow=orange_data.rows, ncol=1, dimnames= list(NULL, c("CASE_ID")))
> orange_data <- cbind(orange_data.id, orange_data)

Yukarıda işlemler aynı zamanda veritabanındaki veri kaynağımız ile eş zamanlı olarak yapılması için veritabanına tekrar yazılmalıdır.. R’da işlemleri bittikten sonra verinin nihai halini veritabanına gönderelim

> RODM_create_dbms_table(DB, "orange_data")

Yukardaki işlemler yapılmış mı kontrol edelim.

> sqlColumns(DB, 'orange_data')$COLUMN_NAME

İşlemlerimizi veritabanında son hali ile tutulmaktadır.

Aşağıdaki listede RODM paketinin, veri madenciliğinde kullanılan algoritmalara karşılık gelen fonksiyonlarını verdim.

  • RODM_create_ai_model
  • RODM_create_assoc_model
  • RODM_create_dt_model
  • RODM_create_glm_model
  • RODM_create_kmeans_model
  • RODM_create_nb_model
  • RODM_create_nmf_model
  • RODM_create_oc_model
  • RODM_create_svm_model

Bu fonksiyonların anlatımlarını uygulamlı olarak bir sonraki yazımda anlatacağım.

Reklamlar

Lojistik Regresyon


Diskriminant analizi ve çapraz tablolara alternatif olarak en çok kullanılan yöntemlerden birisi olan lojistik regresyon, normal dağılım ve ortak kovaryans varsayımları karşılanmadığı zamanlarda kullanılmaktadır. Lojistik regresyonun bu varsayımları karşılamamasında ki neden analizin yapılacağı veri setindendir. Yani bağımlı değişken sıralayıcı ve sınıflayıcı ölçekte olduğundan dolayıdır, yalnız bağımsız değişkenler sürekli yada kategorik ölçekte de olabilirler. Lojistik regresyon modeline sınırlayıcı yada kategorik ölçekte bir değişken eklenmek istendiğinde değişkenlerin üzerinde bir takım dönüşümler yapılmalıdır. Bu dönüşümler bağımlı değişken ile bağımsız değişken arasında doğrusal bir ilişkiyi verecek bir şekilde link fonksiyon, lojit veya probit dönüşümlerinden birisi olabilir. Örneğin bağımsız değişkenlerde 1 birimlik artışın bu dönüşümler sonucunda elde edilin sonuç ile modeldeki katsayısı çarpımı kadar bağımsız değişkende bir değişliğe neden olduğunu söyleyebiliriz. Şunu da belirtmek gerekir ki; modelde değişkenler üzerinde dönüşümler olduğundan dolayı değişkenlerin katsayılarının tahmininde en çok olabilirlik yöntemi kullanılır.

Elde edilen modelin bir anlam ifade etmesi için modeldeki bağımsız değişkenlerin katsayılarının anlamlılıklarının sınanması gerekmektedir. Sınamalar, en iyi modelin kurulmasını en az değişken ile yapılmasında yön göstericidirler.     Lojistik regresyon modeli, klasik regresyon modeli gibi olmadığı için katsayıların sınanmasında olabilirlik oran testi (likelihood ratio test), Score testi ve Wald testleri kullanılır. Burada asıl sorun; modelin bağımlı değişken hakkında incelenecek değişkenin, incelenen değişken olmayan modelden daha fazla bilgi içerip içermediğidir.

Lojistik regresyon modelindeki katsayılar yorumlanır iken odds (farklılıklardan) ve odds oranı (farklılıklar oranı) dan yararlanılır. Odds lar lojit dönüşümünün doğal logaritmalarının alınmış halidir. Odds oranı ise x=1 için hesaplanan odds un x=0 için hesaplanan odd a oranıdır. Farklılıklar oranının doğal logaritması ise log odds oranını verir. Modele dahil edilecek değişkenlere ise olabilirlik oranlarına ve Wald istatistikleri yorumlanarak karar verilir.

Lojistik regresyona getirilen eleştirilerden birisi de değişken sayısı artıkça model kurmanın zorlaşmasıdır. Yani değişken sayısı artıkça yapılacak işlem artmaktadır. Bu tür işlemleri yapmak ise zannedildiği kadar kolay değildir. Ayrıca değişken sayılarının artması tahmin edilen standart hataların da yüksek çıkmasına neden olmaktadır. Bu da veri setinin ana kütlesine bağımlılığı artırmaktadır.

Faktör Analizi


Faktör analizi, birçok bilim alanında ve araştırmalarda sıklıkla kullanılan çok değişkenli istatistik yöntemlerden birisidir. Diğer kullanılacak çok değişkenli istatistiksel yöntemler arasında kanonik korelasyon, kümeleme analizi ve çok boyutlu ölçekleme analizleri de söylenebilir. Ancak sosyoekonomik gelişme gibi bir çok boyutu ele alan bir araştırmada faktör analizinden başka diğer analizlerin kullanılması, araştırma sonuçlarının sönük kalmasına neden olacaktır. Böyle bir durumda şu yaklaşımı benimsemek en akıllıcısıdır; araştırmanın temel analizi faktör analizi olarak yapmak ve kanonik korelasyon, kümeleme analizi ve çok boyutlu ölçekleme analizleri gibi diğer analizleri ise yardımcı ve doğrulayıcı analizler olarak sunmak en iyi çözüm yoludur.

Faktör analizi bir veri matrisi yapısının temel boyutlarını belirlemeye yönelik belirli bir bilimsel yöntem olmaktan çok bir yöntemler dizisine verilen genel bir addır. Matematiksel ve istatistiksel bir yöntem olarak uygulamalı matematiğin gelişim parçası olmakla beraber, daha çok psikoloji alanında kullanılmak amacıyla geliştirilmiştir. Özellikle bireylerin davranışlarını, zekasını ve yeteneklerini matematiksel modeller ile istatistiksel olarak açıklama gereksinimi araştırmacıları bu bilimsel yöntemi geliştirmeyi zorunlu kılmıştır.

Faktör analizinin gelişimi Karl  Pearson ile 1930 yıllarda başlamış, 1950 yıllarda hız kazanarak devam etmiştir. 1950 yıllarda çeşitli faktör analizi yaklaşımları geliştirilmiş ve 1950’lerden sonra bilgisayar teknolojisinin gelişmesi paralelinde faktör analizi ve geliştirilen yaklaşımlar çok hızlı ve önemli gelişmeler yol almıştır. Faktör analizi, her ne kadar psikologlar tarafından geliştirilip ve ilk kullanımı bu alanda olsa da siyaset biliminde, işletmecilikte,  ekonomi, sosyoloji, uluslar arası ilişkiler, kimya, fizik, biyoloji, meteoroloji,  jeoloji, tıp, doğa bilimleri alanlarında da kullanılmaktadır.

Faktör analizi bize iki temel sorunun cevabını vermektedir. Bu sorular;

  • Analizler orijinal değişken seti yerine daha az sayıda değişken ile yapılabilir mi?
  • Orijinal değişken setinin temel boyutları (özellikleri) nelerdir?

Bu sorulardan birincisi faktör analizinin amaçlarından birisi olan boyut indirme ile alakalıdır. Faktör analizinde orijinal değişken setini en iyi temsil edecek alt küme veri seti yada dönüştürülmüş veri seti elde edilir. Böylelikle orijinal veri setindeki çoklu bağlantı azaltılmış yada önlemiş , ve değişkenlerin temsil ettikleri ifadeler ise daha da basitleşmiş olmaktadır.

İkinci sorunun cevabı ise faktör analizi, orijinal veri seti (ki burada 20 yada daha fazla değişken içeren veri) değişkenler arasındaki ilişkiye göre değişkenlerin özet bir şekilde yorumlanması sağlayan temel özelliklerin çıkarılmasıdır.

Kointegrasyon Analizi


Zaman serilerinde karşılaşılan en önemli sorun, serilerin zamanın etkisini üzerinde taşımaları ve zamanla birlikte artma eğiliminde olmalarıdır. Bu durum, değişkenler arasında ilişkilerde sahte regresyonlara sebep olmaktadır.  Bu durumda ise t, F vb. ters sonuçlarını gerçekte anlamlı olmadığı halde anlamlı olarak gözükmektedir. Seriler arasında zamanın etkisinden arındırılmış gerçek ilişkileri ortaya koymak için, öncelikle serilerin durağan hale getirilmesi gerekir. Genellikle zaman serilerinin birinci yada ikinci farkı alınarak seri durağan hale gelmektedir. Yine serinin durağanlaşması için serinin logaritması, logaritmasının farkının alınması, DF, ADF gibi istatistiklerde kullanılır.

 

Durağan olmama, değişkenin zaman içerisindeki seyrinin beklenen değer etrafında toplanmamasına yol açar. Bu nedenle değişkene ilişkin sağlıklı tahminler yapılabilmesi için serinin durağanlaştırılması gerekmektedir. Eğer stokastik bir süreç mevcut ise, değişken için fark alma işlemi uygulanması gerekir. Fark alma, değişkene ilişkin uzun dönem bilgisinin kaybolmasına yol açar. Çünkü fark alma uzun dönem çözümüne izin vermez. İki değişkenin yer aldığı modelde, değişkenlerin doğrusal bileşimi durağansa, farklarını almak spesifikasyon hatasına yol açar.

 

Bu noktadan hareketle, makro ekonomik çalışmalarda zaman serilerinin birçoğunun durağan olmadığı gerçeği, dikkatleri kointerasyon analizine yöneltmiştir. Gerçekte tek başlarına durağan olmayan zaman serilerinin, belirli bir integre seviyesinde doğrusal bileşimlerinin durağan  bir süreç oluşturduğu kointerasyon analizi ile değişkenler arasında uzun dönem ilişkiler ortaya konulabilmektedir. Bu durumu basit bir modelle açıklayalım;

 

Yt= β0+β1 Xt

 

Yukarıdaki modelde yer alan iki değişkeni farkları alınmak suretiyle durağan iki seri olduğunu varsayalım. Bu iki serinin düzey değerleri ile yapılan analizlerde, elde edilen test sonuçları sahte regresyon olduğu gösterecektir. Gerçekte anlamlı olmayan t ve F istatistikleri anlamlı gözükecek ve yanıltıcı sonuçlar elde edilecektir. Farkı alınarak yapılan analizlerde ise uzun dönem bilgisi yok olacaktır. Seriler arasında kointegrasyon ilişkisi araştırıldığında, uzun dönemde birlikte hareket eden bir yapı söz konusu ise, modele ilişkin hata terimi durağan yapıya sahip olacaktır.

 

ut=Yt – β0 – β1 Xt

ut~N(O;σ2)

(Not: σ2 varyansı ifade etmektedir.)

 

Burada hata terimi, hata düzeltme modelinde yer alarak, dengesizlik hatası adını alacaktır. Bu şekilde kısa ve uzun dönem bilgileri arasında bir ilişki kurulmuş olacaktır. Böylece serilerin farklarını almak yerine düzey değerleri ile kurulan ilişki, uzun dönem bilgisini yansıtmayacaktır. Düzey değerleri ile elde edilen regresyon artık sahte değil, anlamlıdır. Seviyesinde durağan seriler arasında kointegrasyon ilişkisinin araştırılmasına gerek yoktur.

 

Durağan olmayan serilerin farklının alınması nedeniyle, değişkenler arasında kısa dönemler arasında gözlemlenecek ilişkiler, bu yöntemin kullanılması ile uzun döneme yayılmaktadır. Değişkenler kısa dönemde kendilerine özgü şoklarla değil, uzun dönemde değişkenleri ortak olarak ifade edilecek stokastik trendlere sahip olacaklardır. Böylece uzun dönemde değişkenler arasında gözlenen ilişki ve elde edilen uzun dönem katsayıları hata düzeltme modellerinde yerine koyularak, dinamik denge durumuna ulaşılacaktır.

Faktör Analizinin Uygunluğunun Değerlendirilmesi


Faktör analizi yapmadan önce verisetinin korelasyon matrisinde korelasyonları %30’dan küçğk olan değişkenler verisetinden çıkarılmalıdır. Böylece veriseti faktör analizine daha uygun hale gelecektir. bundan sonraki aşamada ise kısmı korelasyon katsayılarına bakılmalıdır. Eğer kısmı korelasyon katsayıları yüksekse, veriseti iyi temsil edilemeyecektir. bu durumda da faktör analizi uygulanmaması gerekmektedir.

Faktör analizinin uygunun araştırması için bir test yaklaşımıda literatürde vardır. bu yaklaşımda korelasyon matrisinin birim matrise eşit olup olmadığı sınanır. Bu yaklaşım, Bartlett küresellik testidir.bu test, verilerin çok değişkenli normal dağılan anakütleden geldiği ve örneklem büyüklüğünün 150’den büyük olduğu örneklerde geçerlidir. Test sonucunda anlamlılık % 5’den (ki % 5 araştırmacının kendi kararına bağlıdır.) büyük çıkarsa faktör analizi uygulanmamalıdır.

Faktör analizinin uygunu değerlendirmek için bir başka test de KMO (Kaiser-Meyer-Olkin) testidir. Aslında KMO bir test değildir. Bir ölçüttür. Hesaplamalar sonucunda KMO değeri 0 ile 1 arasında değişen değerler almaktadır. Bu oran bire ne kadar yaklaşırsa veriseti faktör analizine o kadar uygundur. KMO ölçüsü istatistiksel bir test olmadığından bu oran için bir takım kısıtlamalar getirilmiştir. KMO değeri, örnek birim sayısı, ortalama korelasyonlar, değişeken sayısı artıkça ve faktör sayısı azaldıkça KMO değeri bire yaklaşır. Genelde KMO değeri için 0.80’den büyük veya bazı cevrelerce (yazılımcılar) de 0.60’dan büyük olması yeterli görülmüştür.

Faktör Analizi & Kümeleme Analizi


Bir çok değişkene dayalı kümeleme analizini görselleştirmek ve yorumlamak zordur. Bunun için işlemi kolaylaştırmak adına faktör analizine dayalı bir methot sunulabilir. Faktör analizi bize orjinal değişkenlerdeki bilginin büyük bir kısmı çevirilmiş olan küçük değişkenler kümesi verecektir. Böylelikle, bu yöntem sadece görselleştirmeyi basitleştirmek ve orjinal değişkenlerden elde edilen kümeleride anlaşır hale getirmekle kalmayacak aynı zamanda bu kümelerden bir sonraki analizler için değişkenleri seçmeye de yardımcı olacaktır.

Box- Jenkins İstatistiği


Pratikte, AR ve Ma sürecinideki p ve q ların kaç olduğunu bilmemekteyiz. Box- Jenkings istatistiği bize AR ve MA süreçlerindeki p ve q sayılarını belirlememizi sağlar. Daha sonra AR(p) ve Ma(q) süreçlerinden oluşan modelimizde parametreleri tahmin  ederiz ve modelin atıklarının white noise ( beyaz gürültü) sağlayıp sağlamadığını kontrol ederiz.

Temel Bileşen Analizi ve Faktor Analizi


temel bileşen analizi (TBA), az sayısıda ağırlıklandırılmış verisetlerinden birkaç değişken elde edilerek özet bilgi almak için kullanılan bir tekniktir. TBA, genellikle faktor analizinin bir çeşiti olarak yanlış bir şekilde kullanılmaktadır ve bir çok akademik çalışma TBA sonuçları ise  faktor analizinin bir çeşidi olarak yanlış bir şekilde sunmaktadır. Sorunların daha da kötüsü ise, ticari olarak kullanılan istatistiksel paket yazılımları bazen faktor analizi işlemlerinde TBA varsayılan bir yöntem olarak kullanmaktadırlar. Faktor analizi ve TBA, aynı analitik yaklaşımın parçaları değildir. Her ikisininde  farklı bilimsel amaçları vardır ve cebirsel işlemleri de farklıdır.

Lojistik Regresyon Analizi


Lojistik regresyon; cevap değişkeninin kategorik ve ikili, üçlü ve çoklu kategorilerde gözlendiği durumlarda açıklayıcı değişkenlerle neden sonuç ilişkisini belirlemede yararlanılan bir yöntemdir. Açıklayıcı değişkenlere göre cevap değişkeninin beklenen değerlerinin olasılık olarak elde edildiği bir regresyon yöntemidir.

Basit ve çoklu regresyon analizleri bağımlı değişken ile açıklayıcı değişken  ya da değişkenler arasındaki matematiksel bağıntıyı analiz etmekte kullanılmaktadır. Bu  yöntemlerin uygulanabileceği veri setlerinde bağımlı değişkenin normal dağılım göstermesi, bağımsız değişkenlerinde normal dağılım gösteren toplum ya da toplumlardan çekilmiş olması ve hata varyansının  parametreli normal dağılım göstermesi gerekmektedir. Bu ve benzeri koşulların yerine getirilmediği veri setlerinde basit yada çoklu regresyon analizleri uygulanamaz.

Lojistik regresyon analizi, sınıflama ve atama işlemi yapmaya yardımcı olan bir regresyon yöntemidir. Normal dağılım varsayımı, süreklilik varsayımı ön koşulu yoktur.

Bağımlı değişken üzerinde açıklayıcı değişkenlerin etkileri olasılık olarak elde edilerek risk faktörlerinin olasılık olarak belirlenmesi sağlanır

Ayırma (diskriminant) analizi, verilerin sınıflandırılması ve belirli olasılıklara göre belirli sınıflara atanmasını sağlayan bir yöntemdir. Veri setindeki değişkenlerin sınıflamaya etkilerini ayırma analizi ile belirlemek mümkündür. Fakat ayırma analizi çok değişkenli normal dağılım varsayımını ön koşul kabul etmektedir.

Lojistik regresyon, oluşturulan lojistik modellere göre parametre tahminleri yapmayı amaçlar. Lojistik regresyonda modellere ortak değişkenler de katmak mümkündür. Böylece ortak değişkenlere göre düzeltilmiş Y değerlerinin tahminleri yapılabilir.

Lojistik regresyon, bağımlı değişkenin tahmini değerlerini olasılık olarak hesaplayarak, olasılık kurallarına uygun sınıflama yapma imkanı veren bir istatistiksel yöntemdir. Lojistik regresyon tablolaştırılmış ya da ham veri setlerini analiz eden bir yöntemdir.

Lojistik regresyon analizinde üç temel yöntem vardır.

  • İkili lojistik regresyon  (BLOGREG,binary logistik regresyon).
  • Ordinal lojistik regresyon (OLOGREG,ordinal logistik regresyon).
  • İsimsel lojistik regresyon (NLOGREG, nominal logistik regresyon).

Mann Whitney U Testi


Eğer örneklem veri seti parametrik test varsayımları için uygun değil ise iki ortalama arasındaki farkın anlamlı olup almadığını Mann-Whitney U Testi ile bulunur. Mann Whitney U testi parametrik olmayan bir testtir ve t testinin bilinen en iyi alternatifidir. Bu test için verinin dağılımı konusunda bir koşul öne sürülmez.

Mann-Whitney U Testi, örneğin iki ilişkisiz örneklemden elde edilen puanların birbirlerinden anlamlı bir şekilde farklılık gösterip göstermediğini tespit eder. Başka bir anlatımla, bu test iki ilişkisiz grubun, ilgilenilen değişken bakımından evrende benzer dağılımlara sahip olup olmadığını test eder.

Mann-Whitney U testinde;

  • Bağımsız değişkene ait veriler sayısal karakterler ile ifade edilmeli,
  • Örneklem birbirinden bağımsız olarak rastgele seçilmeli ve
  • Bağımlı değişkene iliksin ölçümler, sıralama, aralık veya oran ölçeğinde olmalıdır.

İstatistik Neden Önemli


Günümüzde İstatistik; yeni araştırmalarla, yeni yöntemlerle sürekli gelişen ve her bilimsel alana uygulanabilen disiplinler arası bir bilim dalıdır. İstatistikçiler, araştırmacı kimlikleriyle ülkenin finans, sağlık, ekonomi, tarım, eğitim gibi pek çok alanına  sağlıklı
açılımlar getirmekte, aynı zamanda sosyal sorunların çözümüne de çok önemli katkılarda bulunmaktadır.  Özellikle  ülkemizde  Avrupa  Birliği  çalışmaları  kapsamında  istatistik  biliminin  ve  istatistikçinin önemi giderek artmaktadır.

Günümüzde hükümetler politikalarını formüle etmek ve aldıkları kararları desteklemek, politikacılarda halkı ikna etmek için istatistikleri temel almaktadır. Tıbbı araştırmalarda hastaların teşhisinde ve yeni ilaçların yan etkilerinin ortaya konulmasında istatistiksel teknikler kullanılmaktadır. Ekonomi, işletme ve kamu yönetiminde istatistiğin kullanılması son yarım yüzyıl içinde olağan üstü bir gelişme göstermiştir. İstatistiksel yöntem sosyal bilimlerin bütün dallarında hemen hemen tek pratik çalışma aracı durumundadır.

Çağımızda sayısal bilgi toplanabilen her araştırma alanında istatistik yöntemler kullanılır: Toplumsal olayların gelişimi, davranış psikolojisi, otomatik üretim süreçleri, bilgisayarlar gibi büyük  teknik sistemlerinin yönetimi, jeolojik süreçler, gazlardaki karmaşık olgular, sinir sisteminin işlevleri, beynin yansıtıcı ve yönlendirici çalışmaları istatistik yöntemlere başvurulmadan incelenemezler. Biyoloji,antropoloji, sosyoloji, psikoloji, iktisat, işletme, tıp, kuantum fiziği, biyolojik vb…. özetle tüm bilim dalları, yöntem kuruluşları, teknoloji, iş ve piyasa araştırmalarında istatistikten yararlanılır.

Örnek vermek gerekirse;

  • Kamu Hizmetlerinin Görülmesinde İstatistiğin Rolü

Mesela; Milli Eğitim politikasının gerektirdiği şekilde planlanıp en yararlı bir şekilde uygulanabilmesi için gelecek yıllarda ilk, orta ve yüksek tahsil çağında bulunan kimselerin sayılarının bilinmesinin, bunlara tahsil imkanı sağlanabilmesi için ne kadar öğretmene, okula ve eğitim-öğretim araçlarına ihtiyaç olduğunun belirlenmesinde kullanılır. Bu aşamadan sonra uygulanacak eğitim hizmetleri deneysel olarak sınanabilir ve eldeki imkanlara göre en uygun olan eğitim hizmetleri belirlenir.

  • Bilimsel Araştırmalarda İstatistiğin Rolü

Bilimsel araştırmalarda istatistik önemli bir rol oynamaktadır. Özellikle, deneysel araştırmalarda, bir hipotezin kabule değer olup olmadığının belirtilmesi ve araştırma sonuçlarının objektif olarak yorumu ancak modern istatistik metotlarına dayanmak suretiyle mümkündür.  İstatistiksel metotlara dayanmayan araştırmalar ve bunlarla ulaşılan sonuçlar bilimsel sayılmamaktadır.

  • Pazar Araştırmaları

Pazarın ihtiyaçlarına mal ve hizmet üretmesi işletmenin hayati faaliyetleridir. Mal ve hizmet sunulan pazarın ihtiyaçlarının iyi analiz edilmesi, ürünlerin ve hizmetlerin ihtiyaçlar ve trendler doğrultusunda hazırlanıp müşterilere sunulmalıdır. Aksi halde mal ve hizmet satışları pazarın ihtiyaçlarını karşılamakta yetersiz kalarak işletmenin kar marjını düşürecektir. Bu ise istenmeyen bir durumdur. Bu gibi olumsuz durumları önceden görüp, gerekli tedbirleri almak, ürünleri sadece pazarın ihtiyaçları doğrultusunda değil rakip ürünlerden de daha iyi bir şekilde sunulması için pazar araştırmaları son derece önemlidir. Pazar araştırmalarının tüm aşamalarında ise istatistiksel metotlar ve çözümler kullanılmaktadır. İstatistiksel metotların kullanılmadığı bir pazar araştırması yapmak imkânsızdır.

  • Finans & Ekonometri

Finansal ve ekonometri verilerinin incelenmesi ve detaylı bir şekilde analiz edilip mevcut durum ve bir sonraki dönemler için tahminler yapılmasında istatistiksel yöntemler kullanılmaktadır. İncelenen değişenler arasında ilişkilerin türü ve yapısı, modellerin kurulması ve anlamlı sonuçların çıkartılması çok iyi istatistik bilgisinin yanında çok iyi literatür bilgisine çok iyi hakim olunmasını gerektirmektedir.

“Denizdeki  dalgaları  önlemek  ya  da  kendi  isteğine göre düzenlemek bir sörfçü için imkansızdır. İyi bir sörfçü dalgalar ile eş zamanlı hareket edebilen, düşmeyen ve en önemlisi dalgaları kendi lehine kullanmayı bilen sörfçüdür”. İyi bir istatistikçi ise çalıştığı kuruma, nüfus trendleri nereye kayarsa kaysın, ekonomik durum ne kadar çalkantılı olursa olsun, rakipler ne kadar çoğalırsa çoğalsın, tıpkı bir sörfçü gibi koşullara eş zamanlı uyum sağlama ve sörf tahtasını kullanabilme yeteneği kazandırmaktadır.

Ve son olarak istatistikçi olarak yaptığımız işi ve bunun altındaki varsayımları,hangi durumlarda nelerle karşılaşacağımızı ve bunları nasıl düzelteceğimizi iyi bilirsek, bizlere olan ihtiyacın şimdikinden çok daha fazla olduğunu herkese ispat etmiş oluruz…

Tek Yönlü Varyans Analizi


Etkisi incelenecek faktör sayısının ikiden fazla olması durumunda hipotez testleri varyans analizi metodu kullanılarak, F dağılışına göre yapılır. Örneğin gözleme ya da deneye dayanan bir çalışmada üç ya da daha fazla ortalamanın eşitliğini varyans analizi ile test edebiliriz.

Genel Varsayımlar:

Yukarıdaki tipte hipotezlerinin testinde varyans analizi tekniği kullanılabilmesi için aşağıdaki varsayımların kabul edilmesi gerekmektedir.

  • Her popülasyonda bağımlı değişken normal dağılım gösterir.
  • Bağımlı değişkenin varyansı her topluluk için aşağı yukarı aynıdır.
  • Örnek verileri birbirinden tamamen bağımsızdır.

Varyans Analizinin Temel Mantığı

Ho hipotezi doğru ise, bu topluluklardan bağımsız olarak alınan  örneklerin ortalamaları da birbirine yakın olmalıdır. Ya da Ho hipotezi yalnış ise, örnek ortalamalarının birbirinden farklı olması beklenir.

Not: Hemen belirtelim ki, her iki durumda da yanılma payları vardır. Hatırlayınız:

  • Ho doğru iken, örnekleme hatasına bağlı olarak  örneklerin ortalamaları birbirinden farklı çıkar ve sonuçta Ho reddedilirse, bu tip hatalara 1.Tip Hata denir. Bu tip bir hata yapma olasılığı testin belirginlik derecesi olan alfa (genellikle 5% alınır) eşittir. Daha açık söylemek gerekirse, bir fabrikadaki toplam kalite bilgi seviyesi, o fabrikanın yerine göre farklılık göstermediği halde, 1. tip hata sonucu fabrika yerinin o fabrikadaki toplam kalite bilgi seviyesini etkileyen belirgin bir değişken olduğuna karar verilir.
  • Ya da Ho yanlış olsun ve yine örnekleme hatası sonucu  örneklerin ortalamaları birbirinine çok yakın çıksın. Bu durumda Ho reddedilemez (çünkü elimizde yeterli delil yok!) ve 2. Tip Hata yapılarak yine yanlış karar verilir. Bu tip bir hata yapma olasılığı 0<beta<1 ile gösterilir ve beta değeri verilen belli mi, i=1,2,3 değerleri için ayrıca koşullu olasılık (conditional probability) kavramları kullanılarak hesaplanır.

Örnek ortalamalarının birbirine ne kadar yakın (ya da farklı) olduğunu ölçmek için 2 ayrı yöntemle ana kütle varyansı, s2 tahmin edilir.

Ana kütle Varyansının Tahmini Değeri

Bu yöntemlerin birinde Ho doğru kabul edilir, diğerinde ise yanlış kabul edilir. Eğer Ho gerçekten doğru ise, bu iki şekilde bulunan tahmini değerler birbirine çok yakın olacaktır ve sonuçta Ho reddedilemeyecektir. Aksi taktirde bu tahmini değerler birbirinden uzak olacak ve Ho reddedilecektir.

1. Yöntem:

Ho’ın doğru kabul edildiği durumda  Popülasyon varyansının tahmini değeri (Between Treatments Estimate of Population Variance)

Eğer Ho doğruysa, tüm örneklerin aynı popülasyondan alındığını düşünebiliriz, yani  için sadece bir dağılım fonksiyonu vardır.

burdan sonrası wordpress’in sınırlı  karakter desteğinden dolayı resim olarak devam ediyorum.

2. Yöntem:

Ho’ın yanlış kabul edildiği durumda  popülasyon varyansının tahmini değeri (Within Treatments Estimate of Population Variance)

Ho yanlış ise örneklerin en az ikisinin ortalamaları farklı olacağından, bunların farklı topluluklardan geldiği varsayılır. Diyelim ki hepsi farklı topluluk olsun. Yani her topluluk kendi içinde farklı ortalamalar, ancak aynı varyans s2 ile normal dağılım gösteriyor.

yazının devamını daha sonra ekleyeceğim :))

Kruskal Wallis H Testi


Parametrik olmayan, tek yönlü varyans değerlendirmesi. Puanlar, skorlar, vs gibi sürekli olmayan yapay nicel değişkenlerin ikiden fazla bağımsız kıyaslanması için kullanılır. Tek yönlü varyans analizinin parametrik olmayan karşılığıdır.

Kruskal-Wallis H testi, bir değişkene ilişkin iki ya da daha fazla grubun karsılaştırılması amacı ile kullanılır. Kruskal-Wallis H testi, birbirinden bağımsız iki yada daha fazla grubun (örneklemin) bağımlı bir değişkene iliksin ölçümlerinin karsılaştırılarak iki dağilim arasında anlamlı bir fark olup olmadığını test etmek amacı ile kullanılır. Bu testte ve parametrik olmayan diğer testlerde, gruplara ait ölçümlerin karsılaştırılmasında aritmetik ortalama yerine ortanca (medyan) değer esas alınır. Ortanca (medyan),büyükten küçüğe yada küçükten büyüğe doğru sıralanan bir serinin orta değeridir. Kruskal-Wallis H testi, parametrik testlerin kullanımına ilişkin şartların sağlanmaması durumunda bağımsız örneklemler için tek yönlü vanyans analizi yerine kullanılır.

Kruskal-Wallis H testinde, bağımsız değişkene ait veriler;

• Sayısal karakterler ile ifade edilmelidir.

• Birbirinden bağımsız rastgele örneklem üzerinden elde edilmelidir.

• Bağımlı değişkene ilişkin ölçümler aralık veya oran ölçeğindedir.

Kruskal Wallis Testi parametrik olmayan tek yönlü varyans analizi yöntemidir. “Varyans Analizi ” parametrik test varsayımları yerine getirildiğinde ölçümle belirtilen sürekli bir değişken yönünden ikiden çok bağımsız grup arasında farklılık olup olmadığını incelemek için kullanılır. Parametrik varsayımlar sağlanmadan varyans analizinin uygulanması verilecek kararın hatalı olmasına neden olabilir. Bu nedenle veri sayısal olarak belirtilen kesikli bir değişkense (doğan, ölen, hastalanan, yasayan sayısı gibi), ölçümle belirtildiği halde denek sayısı yeterli değilse ya da denek sayısı yeterli olduğu halde veri parametrik varsayımları yerine getiremiyorsa “Tek Yönlü Varyans Analizi ” yerine Kruskal Wallis Varyans Analizi kullanılmalıdır.

Panel Veri Modellerinin Seçiminde Kullanılan Testler


Panel veri modellerinin seçiminde en belirgin olarak Hausman testi ile Breusch-Pagan Lagrange Çarpanları Testi kullanılmaktadır.

Belirtildiği üzere Hausman Testi, Sabit Etkili ve Rassal Etkili Modeller arasında bir seçim yapılması gerektiği zaman, hangi modelin tercih edilmesi gerektiğine karar verilmesinde kullanılan bir testtir(Green, 2003, s:301). [1] Bu testte, Sabit Etkili Tahmincinin tutarlı ve yansız olduğu varsayımından hareket edilmektedir. Bu testte kullanılan hipotezler(Baltagi, 2005, s:66);[2]

H0 : Rassal Etkili Model [  E(αi ⁄ xi )= 0  ]

Hı : Sabit Etkili Model [  E(αi ⁄ xi ) <> 0 ]

şeklindedir. Hausman test istatistiğinde gerçekte, Sabit Etkili Modelin parametre tahmincileri (̂β cv ) ile Rassal Etkili Modelin parametre tahmincileri ( βGKKK ) arasındaki farkın istatistik olarak anlamlı olup olmadığı incelenmektedir(Cameron ve Trivedi, 2005, s:717). [3] Sabit ya da Rassal Etkili Modeller arasındaki belirgin fark, sabit–zaman etkisinin açıklayıcı

değiskenlerle iliskili ya da ilişkisiz olup olmadığıdır. Rassal Etkili Model geçerli olduğunda, Sabit Etkili Tahminci, tutarlı olan parametre tahminlerini vermeye devam etmektedir. Sabit Etkili Tahminci, diğer açıklayıcı değişkenlerle ilişkili sabit-zaman faktörlerinin hepsinin

ölçülebildiğinden emin olmadıkça Rassal Etkili Tahminciye tercih edilmemelidir. Gerçekte ne Sabit Etkili Tahminci ne de Rassal Etkili Tahmincinin mükemmel olduğu söylenemez. Bunun en önemli nedenini; Rassal Etkili Tahmincinin gerçek etkinin üzerinde sapmalı tahminler vermesi, buna karsılık Sabit Etkili Tahmincinin ise gerçek etkinin altında sapmalı tahminler vermesi olusturmaktadır (Johnston ve DiNardo,1997, s:403[4] ).

Hausman test istatistiği “Rassal etkiler tahmincisi doğrudur.” sıfır hipotezi altında k serbestlik dereceli ki-kare dağılımı göstermektedir. Gerçekleşmesi durumunda tesadüfi etkili modelin hata terimleri bileşenlerinin bağımsız değişkenler ile ilişkili olmadığı kararı verilebilecektir. Bu durumda sabit etkili modeli tercih edilecektir.


[1]GREEN, W.H.,2003, Econometric Analysis, Fifth Edition, Prentice Hall, New Jersey.

[2]BALTAGİ, B. H.,2005, Econometric Analysis of Panel Data, Third Edition, John Wiley&Sons Inc, England.

[3]CAMERON, A.C. ve TRİVEDİ, P.K., 2005, Microeconometrics : Methods and Applications, Cambridge University Press, New York.

[4]JOHNSTON, J. ve DİNARDO, J.,1997, Econometric Methods, Fourth Edition, McGraw-Hill Inc, New York.

Panel Veri Analizinin Avantajları ve Dezavantajları


Panel Veri Analizinin Avantajları

Zaman serisi analizinin oluşturacağı dezavantajları yatay-kesit analizi yöntemi ile birleştirerek azaltan panel veri analizinin belli başlı avantajları aşağıdaki gibi sıralanabilmektedir;

  • Panel veri ile yapılan analizler neticesinde elde edilen tahminlerin daha fazla bilgi sağlaması ve daha etkin olması,
  • Panel veri analizlerinin yatay-kesit ve zaman serisi gözlemlerini birleştirerek daha fazla gözlem sayısına sahip olması ve bu şekilde daha güvenilir tahminlerin yapılmasına olanak sağlaması,
  • Gözlem sayısının artmasına bağlı olarak serbestlik derecesini büyütmesi(Hsiao, 2003, s:3),[1]
  • Zaman serisine ait veri ile yapılan uygulamalarda Çoklu Doğrusal Bağlantı(Multicollinearity) sorunu ile karşılaşılmasma karşın, panel veri kullanımı ile değişkenlerin aldığı değerlerin iki boyuta  bağlı olarak değişmesi nedeniyle, açıklayıcı değişkenler arasında daha az Çoklu Doğrusal Bağlantı problemine neden olması(Baltagi, 2005, s:5),[2]
  • Sadece yatay-kesit ya da zaman serisi analizleri ile ortaya konamayacak etkilerin elde edilmesini sağlaması,
  • Heterojenliğin kontrol edilebilmesine ve modele katılabilmesine olanak sağlaması,
  • Kısa zaman serisi ve/veya yetersiz yatay-kesit gözleminin var olduğu durumlarda da ekonometrik analizlerin yapılmasına imkan vermesi, Panel verinin zaman boyutu da olduğundan dinamik bir modelin kurulmasına olanak sağlaması(Matyas ve Sevestre, 1996, s:17)[3] ,
  • İhmal edilmiş değişkenlerden kaynaklanan problemlerin ve tahmin sapmalarının azaltılmasına imkan tanıması(Pindyck ve Rubinfeld, 1998, s:250-251),[4]
  • Sadece yatay-kesit verisi ya da sadece zaman serisi verisinden daha karmaşık davranışsal modellerin oluşturulmasına ve test edilmesine olanak sağlaması(Baltagi, 2005, s:6),[5]
  • Birimlere ilişkin davranışların daha iyi tahminine imkan vermesidir.

Panel Veri Analizinin Dezavantajları

Panel veri analizlerinin sayılan birçok üstünlüklerinin yanı sıra bazı dezavantajları da bulunmaktadır. Bu dezavantajlar ise (Hsiao,2003, s:5-11[6] ) ve (Baltagi, 2005, s: 7-9[7] );

  • Belirli dönemlerde ankete katılan birimlere ulaşılamaması ve/veya ulaşılan birimlerden yanıt alınamaması; eksik cevap alınması, cevapların hatırlanamaması vb. nedenlerle panel veri analizlerinde verilerin elde edilmesi ve düzenlenmesi aşamasında bazı sorunlarla karşılaşılması,
  • Her birim için zaman serisi boyutunun kısa olabilmesi,
    Veri seti geniş olduğu için panel verilerde ölçüm hatalarının oldukça fazla olması,
  • Yatay-kesit ve zaman serisi gözlemleri arasında meydana gelen parametre farklılıklarının(heterogeneity) göz önüne alınmadığı durumlarda birtakım sapmaların ortaya çıkması ve bu durumun parametrelerin tutarsız ve anlamlı olmayan tahminlerine sebep olması,
  • Seçicilik sapması problemlerinin oluşması

olarak sıralanmaktadır.


[1]HSİAO, C., 2003, Analysis of Panel Data, Cambridge üniversity Press,ünited Kingdom.

[2]BALTAGİ, B. H.,2005, Econometric Analysis of Panel Data, Third Edition, John Wiley&Sons Inc, England.

[3]MATYAS, L., ve SEVESTRE, P., 1996, The Econometrics of Panel Data:A Handbook of the Theory with Applications, Second Revised Edition, Kluwer Academic Publishers, Netherlands.

[4]PİNDYCK, R.S., ve RUBİNFELD, D.L.,1998, Econometric Models and Economic Forecasts, Fourth Edition, McGraw-Hill , New York.

[5]BALTAGİ, B. H.,2005, Econometric Analysis of Panel Data, Third Edition, John Wiley&Sons Inc, England.

[6]HSİAO, C., 2003, Analysis of Panel Data, Cambridge üniversity Press,ünited Kingdom.

[7]BALTAGİ, B. H.,2005, Econometric Analysis of Panel Data, Third Edition, John Wiley&Sons Inc, England.

Panel Veri Analizi


Panel veri analizi, en genel anlamda zaman boyutuna sahip yatay kesit serilerini kullanarak ekonomik ilişkilerin tahmin edilmesine ilişkin yöntem olarak tanımlanabilmektedir. Bu analizde zaman serileri ile yatay kesit serileri bir araya getirilerek hem zaman hem de kesit boyutuna sahip veri seti oluşturulmaktadır(Green, 2003, s:283). [1] Bu veri türü “Longitudinal(boylamsal) veri” olarak da adlandırılmaktadır(Frees, 2004, s:2).[2]

Yalnızca zaman serisi ya da yalnızca yatay kesit verileriyle çalışmanın yeterli olmadığı durumlarda, panel veri her iki veri türü ile beraber çalışma olanağını vermektedir. Panel veri ile tahmin edilen modellerde kullanılan “birim” sözcüğü kişi, firma, hane halkı, sektör, bölge veya ülkeyi temsil edebilmektedir. Bu açıdan panel veri kavramı, belirli bir zaman periyodu boyunca yatay kesit gözlemlerinin        birleştirilmesini anlamına gelmektedir (Baltagi, 2005, s:1).[3]

Panel veri için, hem yatay kesit hem de zamana göre değişim gösteren ve bu nedenle çok fazla sayıda birimi ve birden çok gözlem dönemini aynı anda içeren veri türü de denebilmektedir.


[1]GREEN, W.H.,2003, Econometric Analysis, Fifth Edition, Prentice Hall, New Jersey.

HSİAO, C., 2003, Analysis of Panel

[2]FREES, E. W., 2004, Longitudinal and Panel Data : Analysis and Applications in the Social Sciences, Cambridge üniversity Press, United Kingdom.

[3]BALTAGİ, B. H.,2005, Econometric Analysis of Panel Data, Third Edition, John Wiley&Sons Inc, England.