Active and Passive Transformations In Informatica PowerCenter


In this article, i tell something about acitve and passive transformation of informatica powercenter.

Reading, manupulating and loading data is called transformation in informatica. Each transformations perform specific functions. There are two type of transformations, passive and active transformations.

Passive Transformations  that do not change rows’ count. What gives passive transformation as input, it gives as output.

  • Expression Transformation
  • Sequence Generator Transformation
  • Lookup Transformation
  • Stored Procedure Transformation
  • XML Source Qualifier Transformation
  • External Procedure Transformation
  • Input Transformation(Mapplet)
  • Output Transformation(Mapplet)

Active Transformations that change the rows’ count.   The number of input rows in source is not equal to output rows in target.

  • Source Qualifier Transformation
  • Sorter Transformation  (When Selected Distinct Option)
  • Aggregator Transformation
  • Filter Transformation
  • Union Transformation
  • Joiner Transformation
  • Normalizer Transformation
  • Rank Transformation
  • Router Transformation
  • Update Strategy Transformation
  • Advanced External Procedure Transformation

Java’da Değişken Türleri


BOOLEAN: 1 byte’lık, mantıksal ifadeyi doğru(TRUE) yada yanlış(FALSE) şeklinde tutan veri tipidir.

boolean  v_deger;                                             //ilk değer verilmeden

boolean  v_deger = TRUE;                             //ilk değer verilerek.

BYTE: 1 byte’lık, tam sayı tutan veri tipidir.

byte v_deger;                                                     //ilk değer verilmeden.

byte v_deger = 67;                                           //ilk değer verilerek.

CHAR: 2 byte’lık, karakter sabitlerini tutan veri tipidir.

char v_harf;                                                      //ilk değer verilmeden.

char v_harf = ‘A’;                                            //ilk değer verilerek.

SHORT: 2 byte’lık, tam sayı tutan veri tipidir.

short v_uzunluk;                                               //ilk değer verilmeden.

short v_uzunluk = 6641254;                          //ilk değer verilerek.

INT: 4 byte’lık, tam sayı tutan veri tipidir.

int v_say;                                                            //ilk değer verilmeden.

int v_say = 52;                                                   //ilk değer verilerek.

FLOAT: 4 byte’lık, tam sayı tutan veri tipidir.

float v_sonuc;                                                    //ilk değer verilmeden

float v_sonuc =26.5f;                                       //ilk değer verilerek

LONG: 8 byte’lık, tam sayı tutan veri tipidir.

long v_APN;                                                       //ilk değer verilmeden

long v_APN = 1234567890;                           //ilk değer verilerek

DOUBLE: 8 byte’lık, ondalıklı sayıları tutan veri tipidir.

double v_a;                                                         //ilk değer verilmeden

double v_a = 0.125488;                                   //ilk değer verilerek

STRING: alfnumerik değerleri tutan veri tipidir.

String v_Mus_Ad;                                            //ilk değer verilmeden

String v_Mus_Ad = “Ahmet”;                       //ilk değer verilerek.

NLS_UPPER & NLS_LOWER


Oracleda büyük ve küçük harf çevirimlerinde her zaman UPPER ve LOWER fonksiyonlarını kullanarak istediğimiz sonuç alamayabiliriz. Özellikle ulusal dillerde olan özel karakterlerde UPPER ve LOWER fonksiyonları istenen sonuçları vermez. Örneğin;

SELECT UPPER (‘i’)   FROM DUAL;

U

I
1 row selected.

SELECT LOWER(‘I’)   FROM DUAL;

L

i
1 row selected.

ilk sorguyu çalıştırdığımızda dönen sonucun İ olmasını bekler bize I olarak döner.  İkinci sorguda yine benzer şekilde ı dönmesini beklerken oracle bize i olarak geri dönüş verir. Bu gibi durumlarda dönüşümleri oracle yerel karaktersetine göre yapmaktadır. Yerel karaktersete özgü büyük ve küçük harf dönüşümleri için NLS_UPPER ve NLS_LOWER fonksiyonlarını kullanmalıyız.  NLS_UPPER ve NLS_LOWER kullanımında ise dönüşüm yapılacak dili NLS_SORT ile belirtiriz.

SELECT NLS_UPPER (‘i’, ‘NLS_SORT =xturkish’) FROM DUAL;
N

I
1 row selected.

SELECT NLS_LOWER (‘I’, ‘NLS_SORT =xturkish’) FROM DUAL;

N

ı
1 row selected.

DDL, DML, DCL ve TCL


Data Definition Language ( DDL ) : Tablolara veri girme, var olan veriyi güncelleme ve veri silme işlemleri için kullanılan komutları içerir.
  • CREATE : Veritabanında yeni nesnelerinin oluşturulması için kullanılır.
  • ALTER : Varolan veritabanında nesnelerinin değiştirilmesi için kullanılır.
  • DROP :  Varolan veritabanı nesnelerinin veritabanından kaldırılması için kullanılır.
  • TRUNCATE : Veritabanında bir tablonun içerisindeki tüm kayıtların silinmesi için kullanılır.
  • RENAME :  Veritabanında bir nesnenin isminin değiştirilmesi için kullanılır.
Data Manipulation Language ( DML ) : Tablo, Kullanıcı gibi nesneleri yaratmak için kullanılan komutları içerir.
  • SELECT :  Veritabanından veri çekmek, listelemek, göstermek için kullanılır.
  • INSERT : Tablo içerisine veri eklemek için kullanılır.
  • UPDATE : Tablo içerisindeki veriyi güncellemek için kullanılır.
  • DELETE : Tablodaki verilerin silinmesi için kullanılır.
  • MERGE – UPSERT : Operasyonunun yapılması için kullanılır (insert etmek, eğer insert hata alırsa update etmek işlemi).
  • CALL : Bir PL/SQL veya Java programının çalıştırılması için kullanılır.
  • LOCK TABLE : Kontrol altında tutma işlemleri için kullanılır.
Data Control Language ( DCL ) : Kullanıcılara çeşitli yetkiler verme, yetkileri geri alma gibi işlemleri gerçekleştirmek için kullanılan komutları içerir.
  • GRANT : Kullanıcıya veritabanı üzerinde yetki tanımlama için kullanılır.
  • DENY: Kullanıcı, grup veya rolü bir eylem için engellemek için kullanılır (Oracle için geçerli değildir. MS SQL Server de geçerlidir).
  • REVOKE : Kullancıya verilen yetkilerin iptal edilmesi için kullanılır.

Transactional Control Language ( TCL ) : Transaction yapılan işlemlerin belirli kontroller içinde sürdürülmesini sağlayan komutlardır. Böylece veri kaybına ve işlem karışıklığına karşı önlem alınır.

  • COMMIT : işlem bittiğinde yapılan değişikliklerin veritabanında geçerli olması için kullanılır.
  • SAVEPOINT : daha sonra rollbak yapılmak üzere bir nokta belirlenmesinde kullanılır.
  • ROLLBACK : veritabanını en son commit edilen hale getirmek için yapılan işlemlerin iptal edilmesi için kullanılır.
  • SET TRANSACTION : Transaction ayarlarının değiştirilmesi, rollback segmentlerinin belirlenmesi gibi işlemlerde kullanılır.

Rowtype kullanımı


Merhabalar, bu yazımda oracle rowtype kullanımı üzerine bilgilerimizi tazelemek istedim. Rowtype bize fonksiyon ve prosedürlerle çok esneklik sağlayan bir referans tip alma yöntemidir. Her hangi bir fonkisyon yada prosedür bir tablo üzerinde kolon veri tipini tekrar tanımlamak yerine o tablonun kolonunun veri tipini referans göstererek de yapabiliriz. Örneğin herhangi bir fonksiyon yada prosedürde muşteri nosu isimli bir değişken tanımlaması yapmak istiyorsak,

mus_no musteri.musteri_no%rowtype;

Yukarıdaki şekilde tanımlayarak kullanacağımız tablodaki tipi referans alırız. Bu durumda referans tablo olan musteri tablosunda musteri_no kolonun tipi değişkene atanacaktır.  Bu şekilde kullanıma gitmemizin nedeni ise üzerinde çalışılacak tablonun kolonun güncellenmesi sonrasında, güncelenen kolonu kullanan fonksiyon ve prosedürler de güncellemeden kurtulmaktadır. Referans verilen fonksiyon ve prosedürlerin içinde declare ile tanımlanmış değişkenler tipi referansından alacağı için sorun olmayacaktır.

ORACLE ve R


Bu yazımda, açık kaynak kodlu olarak geliştirilen istatistiksel hesaplama dili R ile oracle’a bağlanıp R’ın RODM paketini kullanıp neler yapabildiklerimi kısaca anlatacağım. Öncelikle R açıp RODM paketini yükleyelim.

> library(RODM)

 Yukarıdaki komut R’da RODBC paketi gibi veritabanı ile R bağlantısını (R ile veritabanı konuşturmak için)  yapmak için gerekli olan komutları hafızaya yükler. Paketi yükledikten sonra şimdi R’da veritabanı bağlantısı yapalım.

DB <- RODM_open_dbms_connection(dsn="orcl", uid="ahmet", pwd="sdf")

 Yukarıda DB isimli bir nesne oluşturduk. Bu nesne “ahmet” kullanıcısı bağlantı yaptığımız veritabanı bağlantısını tutmaktadır. Bu paketi kullanmak bize, R’da yaptığımız analizler sonucu elde ettiğimiz R verilerini ( ki burada R verileri nesne,data frame, liste, vektör, ..vs olarak tutmaktadır.) Oracle’nın anlayacağı bir şekilde çevirim yapılmasını sağlamaktadır. Şuana kadar R’da Oracle bağlantısı yaptık, şimdi birkaç küçük analizle veri madenciliğine giriş yapalım. Test verileri üzerinden gidelim. Elimde hangi verilerin olduğu görmek için R konsolunda aşağıdaki komutu girelim.

> data()

Ekranda küçük bir pencere açılacak ve bize hali hazırda olan verileri ve tanımlamalarını verecektir. Örnek verimiz Orange olsun. R Konsoluna şu komutu girelim

> head(Orange)

Yukarıdaki komut veri setinin 5-6 satır verisini getirecektir. Böylece veriseti hakkında bilgimiz olacaktır.

> orange_data=Orange

 Yukarıda komut ile orange nesnesinin verilerini oracle_data adında yeni bir nesneye atadık. Şimdi bu verimizi oracle’ın içerisine alalım. Yani veritabanımızda bir tabloya alalım. Bunun için;

> RODM_create_dbms_table(DB, "orange_data")

Yukarıdaki komut arka planda ODM algoritmalarını ve işlemleri yaparak orange_data nesnesindeki verileri Oracle’da ahmet şemasının altında orange_data isimli bir tabloya aktarır. Burada dikkat edilmesi gereken şey şudur; bir çok R kullanıcı analizlerini yaparken nesnelerinde . kullanarak isimlendirme yapmayı tercih eder. Eğer . içeren bir nesnedeki veriyi Oracle’a aktarmak istersek bize hata verir. Nedeni ise nesne isimindeki noktadan önce gelen kısmı şema ismi olarak algılar ve kullanıcı bulunamadı hatası verir. Böyle bir hata almamak için nesne isimlerine dikkat edilmelidir. Ayrıca R’da kolon isimleri verirken 30 karakteri geçmemeye ve (.) nokta kullanılmaktan kaçınılmalıdır.

Şimdi kolon isimlerini alalım

> sqlColumns(DB, 'orange_data')$COLUMN_NAME

 Yukarıdaki komut ile orange_data tablosundaki kolonları isimlerini aldık. Bazı algoritmalar Case ID bilgisine ihtiyaç duymaktadır. Şimdi bunu nasıl yapacağımızı görelim.

> numrows <- length(orange_data[,1])
> orange_data.rows <- length(orange_data[,1])
> orange_data.id <- matrix(seq(1, orange_data.rows)
,nrow=orange_data.rows, ncol=1, dimnames= list(NULL, c("CASE_ID")))
> orange_data <- cbind(orange_data.id, orange_data)

Yukarıda işlemler aynı zamanda veritabanındaki veri kaynağımız ile eş zamanlı olarak yapılması için veritabanına tekrar yazılmalıdır.. R’da işlemleri bittikten sonra verinin nihai halini veritabanına gönderelim

> RODM_create_dbms_table(DB, "orange_data")

Yukardaki işlemler yapılmış mı kontrol edelim.

> sqlColumns(DB, 'orange_data')$COLUMN_NAME

İşlemlerimizi veritabanında son hali ile tutulmaktadır.

Aşağıdaki listede RODM paketinin, veri madenciliğinde kullanılan algoritmalara karşılık gelen fonksiyonlarını verdim.

  • RODM_create_ai_model
  • RODM_create_assoc_model
  • RODM_create_dt_model
  • RODM_create_glm_model
  • RODM_create_kmeans_model
  • RODM_create_nb_model
  • RODM_create_nmf_model
  • RODM_create_oc_model
  • RODM_create_svm_model

Bu fonksiyonların anlatımlarını uygulamlı olarak bir sonraki yazımda anlatacağım.

Veri Madenciliğinde İstatistiksel Uygulamalar


Devasa büyüklükte veriler ile çalışırırken elimizdeki anlamlı sonuçlar çıkartmak bu verilerden faydalanmanın en iyi yoludur. Elde ettiğimiz sonuçların anlamlı ve yararlı olması için uygulunan tekniklerin bilimsel yöntemlere dayanması şarttır. Aksi takdirde sezgisel olarak bulunan durumların tutarlı olması beklenemez ve bu gibi durumlarda elde edilen sonuçlara güvenilemez.   Veri yığınlarından anlamlı veriler çıkartmak için yapacağımız işlem veri madenciliğidir. Veri madenciliği işlemi, elimizdeki veri kaynaklarına dayanarak daha önce keşfedilmemiş bilgileri ortaya çıkartma, bunlara göre karar verme ve senaryo planlarını  oluşturmaktır. Bunun için ise  istatistiksel yöntemleri uygularız. Veri madenciliğinde en çok uygulanan istatistiksel yöntemler şunlardır;

1) BAĞLANTI : İki durum arasında anlamlı ilişkidir. İstatistik literatüründe korelasyonu yüksek iki yada ikiden fazla değişkenleri bulma işidir. Örneğin bir süper markette süt ürünlerinin yanına peynir ürünlerinin konması satışıları artıyorsa, bu iki değişken olan süt satışları ve peynir satışları arasında yüksek korelasyon olduğunu göstermektedir. Öncelikle süper marketinin satış verileri incelir. Satış verileri içinde korelasyonu yüksek değişkenler bulunur. Bu değişkenlerin ait olduğu ürünler süper markette aynı veya yakın reyonlara yerleştirilir ki herhangi birini alan bir müşteri diğer ürünü de satın alması sağlanır. Düzenleme sonrasında süper marketin satış verileri incelinir ve aradaki artışlar gözlemlenir.

2) SINIFLANDIRMA : Sınıflandırma ile ürünleri satın alan ideal müşterilere ulaşılabilir. Bunun için istatistik literatüründe kümeleme analizi, diskriminant analizi, faktör analizi, temel bileşen analizi,  ..vs gibi sınıflanma ve kümüleme yapan analizler kullanılabilir.  Örnek olarak gençlerin küçük araba aldıkları, orta ileri yaştaki bireylerin ise daha büyük ve lüks arabalar aldıklarını gözlemlemiş olalım. Böyle bir durumda bir banka yada otomobil satıcısı olarak müşterilerimizi yaş ve gelirlerine göre sınıflandırma yaparak müşterilerimizi sekmentasyon yaparız.  Elimizde olan müşteri segmantasyonları için  kampanyalar düzenlenerek araba satışlarını yada otomobil kredilerinin kullanımlarının artırırız.

3) REGRESYON : Elimizde veri kaynakları ile örüntü bir değer elde etmek için kullanılır. Örneğin banka müşterilerinin kredi skorlarını tahmin etme durumu verilibilir. Müşterilerin banka ile olan geçmiş dönem işlemleri göz önüne alınarak her bir müşteri için skorlama yada puanlama tablosu çıkartılabilir. Bu gibi durumda regresyon modellerini kullanmak uygun bir çözüm olacaktır.

4) ZAMAN SERİLERİ :  Elimizdeki verileri kullanarak gelecek öngöründe bulunma işlemidir. Bunun için elimizdeki verinin geçmiş zaman değerleri zaman serileri analiz yöntemleri kullanarak analiz edilir. Verinin karakteristik özellikleri çıkartılır. Gelecek dönemdeki değerleri tahmin edilir ve olası senaryolar simüle edilir. Böylece müşterinin gelecekte nasıl davranacağı veren sağlam bir ön bilgimiz olur.

Lojistik Regresyon


Diskriminant analizi ve çapraz tablolara alternatif olarak en çok kullanılan yöntemlerden birisi olan lojistik regresyon, normal dağılım ve ortak kovaryans varsayımları karşılanmadığı zamanlarda kullanılmaktadır. Lojistik regresyonun bu varsayımları karşılamamasında ki neden analizin yapılacağı veri setindendir. Yani bağımlı değişken sıralayıcı ve sınıflayıcı ölçekte olduğundan dolayıdır, yalnız bağımsız değişkenler sürekli yada kategorik ölçekte de olabilirler. Lojistik regresyon modeline sınırlayıcı yada kategorik ölçekte bir değişken eklenmek istendiğinde değişkenlerin üzerinde bir takım dönüşümler yapılmalıdır. Bu dönüşümler bağımlı değişken ile bağımsız değişken arasında doğrusal bir ilişkiyi verecek bir şekilde link fonksiyon, lojit veya probit dönüşümlerinden birisi olabilir. Örneğin bağımsız değişkenlerde 1 birimlik artışın bu dönüşümler sonucunda elde edilin sonuç ile modeldeki katsayısı çarpımı kadar bağımsız değişkende bir değişliğe neden olduğunu söyleyebiliriz. Şunu da belirtmek gerekir ki; modelde değişkenler üzerinde dönüşümler olduğundan dolayı değişkenlerin katsayılarının tahmininde en çok olabilirlik yöntemi kullanılır.

Elde edilen modelin bir anlam ifade etmesi için modeldeki bağımsız değişkenlerin katsayılarının anlamlılıklarının sınanması gerekmektedir. Sınamalar, en iyi modelin kurulmasını en az değişken ile yapılmasında yön göstericidirler.     Lojistik regresyon modeli, klasik regresyon modeli gibi olmadığı için katsayıların sınanmasında olabilirlik oran testi (likelihood ratio test), Score testi ve Wald testleri kullanılır. Burada asıl sorun; modelin bağımlı değişken hakkında incelenecek değişkenin, incelenen değişken olmayan modelden daha fazla bilgi içerip içermediğidir.

Lojistik regresyon modelindeki katsayılar yorumlanır iken odds (farklılıklardan) ve odds oranı (farklılıklar oranı) dan yararlanılır. Odds lar lojit dönüşümünün doğal logaritmalarının alınmış halidir. Odds oranı ise x=1 için hesaplanan odds un x=0 için hesaplanan odd a oranıdır. Farklılıklar oranının doğal logaritması ise log odds oranını verir. Modele dahil edilecek değişkenlere ise olabilirlik oranlarına ve Wald istatistikleri yorumlanarak karar verilir.

Lojistik regresyona getirilen eleştirilerden birisi de değişken sayısı artıkça model kurmanın zorlaşmasıdır. Yani değişken sayısı artıkça yapılacak işlem artmaktadır. Bu tür işlemleri yapmak ise zannedildiği kadar kolay değildir. Ayrıca değişken sayılarının artması tahmin edilen standart hataların da yüksek çıkmasına neden olmaktadır. Bu da veri setinin ana kütlesine bağımlılığı artırmaktadır.

Faktör Analizi


Faktör analizi, birçok bilim alanında ve araştırmalarda sıklıkla kullanılan çok değişkenli istatistik yöntemlerden birisidir. Diğer kullanılacak çok değişkenli istatistiksel yöntemler arasında kanonik korelasyon, kümeleme analizi ve çok boyutlu ölçekleme analizleri de söylenebilir. Ancak sosyoekonomik gelişme gibi bir çok boyutu ele alan bir araştırmada faktör analizinden başka diğer analizlerin kullanılması, araştırma sonuçlarının sönük kalmasına neden olacaktır. Böyle bir durumda şu yaklaşımı benimsemek en akıllıcısıdır; araştırmanın temel analizi faktör analizi olarak yapmak ve kanonik korelasyon, kümeleme analizi ve çok boyutlu ölçekleme analizleri gibi diğer analizleri ise yardımcı ve doğrulayıcı analizler olarak sunmak en iyi çözüm yoludur.

Faktör analizi bir veri matrisi yapısının temel boyutlarını belirlemeye yönelik belirli bir bilimsel yöntem olmaktan çok bir yöntemler dizisine verilen genel bir addır. Matematiksel ve istatistiksel bir yöntem olarak uygulamalı matematiğin gelişim parçası olmakla beraber, daha çok psikoloji alanında kullanılmak amacıyla geliştirilmiştir. Özellikle bireylerin davranışlarını, zekasını ve yeteneklerini matematiksel modeller ile istatistiksel olarak açıklama gereksinimi araştırmacıları bu bilimsel yöntemi geliştirmeyi zorunlu kılmıştır.

Faktör analizinin gelişimi Karl  Pearson ile 1930 yıllarda başlamış, 1950 yıllarda hız kazanarak devam etmiştir. 1950 yıllarda çeşitli faktör analizi yaklaşımları geliştirilmiş ve 1950’lerden sonra bilgisayar teknolojisinin gelişmesi paralelinde faktör analizi ve geliştirilen yaklaşımlar çok hızlı ve önemli gelişmeler yol almıştır. Faktör analizi, her ne kadar psikologlar tarafından geliştirilip ve ilk kullanımı bu alanda olsa da siyaset biliminde, işletmecilikte,  ekonomi, sosyoloji, uluslar arası ilişkiler, kimya, fizik, biyoloji, meteoroloji,  jeoloji, tıp, doğa bilimleri alanlarında da kullanılmaktadır.

Faktör analizi bize iki temel sorunun cevabını vermektedir. Bu sorular;

  • Analizler orijinal değişken seti yerine daha az sayıda değişken ile yapılabilir mi?
  • Orijinal değişken setinin temel boyutları (özellikleri) nelerdir?

Bu sorulardan birincisi faktör analizinin amaçlarından birisi olan boyut indirme ile alakalıdır. Faktör analizinde orijinal değişken setini en iyi temsil edecek alt küme veri seti yada dönüştürülmüş veri seti elde edilir. Böylelikle orijinal veri setindeki çoklu bağlantı azaltılmış yada önlemiş , ve değişkenlerin temsil ettikleri ifadeler ise daha da basitleşmiş olmaktadır.

İkinci sorunun cevabı ise faktör analizi, orijinal veri seti (ki burada 20 yada daha fazla değişken içeren veri) değişkenler arasındaki ilişkiye göre değişkenlerin özet bir şekilde yorumlanması sağlayan temel özelliklerin çıkarılmasıdır.

OLTP ve OLAP veri tabanı sistemleri


Bilgisayarla iş yapılan yerlerde yoğun olarak kullanılan veritabanları; iki amaçla kullanılır.  Kullanım amaçlarından birisi, optimize edilmiş sistemler için OLTP ( Online Transaction Processing)dir. İkincisi ise, üretilen verilerin anlık olarak saklanması ( Online Analiytical Processing)’dir. Veriler üzerinde sürekli olarak değişiklikler, eklemeler ve silinmeler oluyorsa OLTP sistemlerinin kullanılması daha iyi bir tercihtir. Veriler daha çok raporlama ve karar destek amacı ile kullanılacaksa OLAP sistemlerinin kullanılması mantıklı bir seçim olacaktır. OLAP sistemler aracılığı ile veri ambarları ve datamark gibi yapılar kullanılarak yoğun bir şekilde üretilmiş verilerin analizleri ve raporları oluşturulur. Böylece tüketici, satış eğilimleri, üretim maliyetleri, müşteri profili … vs konularda kullanılacak veriler elde edilir. Eğer veriler OLTP ve OLAP sistemlerinin ikisine de uygunluk gösteriyorsa, bu iki sistemi bir arada barından bir veritabanı sistemi kullanılabilir.

SQL nedir, ne değildir


SQL, açılımı “Structured Query Language” yani Türkçe karşılığı ile “Yapısal Sorgulama Dili” olan veritabanı işlemleri ve komutlarından oluşan bir dildir. SQL, kullanıcıların isteklerini veritabanı sistemine anladığı dilden anlatan bir söz dizimidir, yani bir dildir. Bu dil sayesinde veritabanında var olan kayıtlar görüntülenebilir, değiştirilebilir ve yeni kayıtlar eklenebilir. SQL bir dildir ,ancak bir programlama dili değildir. Yani, program geliştirme işlemlerinde kullanılır ama tek başına yeterli değildir. Program geliştir iken SQL bilmek programcıya esneklik ve üretkenlik sağlar. SQL her ne kadar iyi bilinirse bilinsin, aynı zamanda iyi bir yapısal programlama dilini de bilmek iyi bir program yazmak için gereklidir.

SQL, 1983 yılında IBM laboratuarlarında çalışmalarla tamamlanmış ve 1987 yılında ISO ve ardında da ANSI tarafından standart olarak kabul edilmiştir. Daha sonra bu standartları kullanarak veritabanı yönetim sistemleri geliştirilmiştir. Bu veritabanı yönetim sistemlerinden en çok bilenen ve kullanılanları ise; Oracle, MS SQL Server, Sysbase, Informix, Progcess ve MySQL (MySQL’in üretirici ve geliştiricisi olan Sun, Oracle tarafından geçtiğimiz yıllarda satın alınmıştır. MySQL’in artık geliştirme çalışmaları Oracle çatısı altında devam edilmektedir. Durumun ne olacağını sonraki makalelerimde tahmin etmeye çalışacağım.) ‘dir. Bütün bu veritabanı yönetim sistemlerinde, temel SQL kodları çalışır. Aynı tablolarda aynı sonuçları verir. Veritabanı yönetim sisteminlerinde kullanılan SQL ifadelerinin farklılaşması ise veritabanı yönetim sistemlerinin SQL’e yapısal sorgulama dillerinden bazı özellikleri eklemelerinden kaynaklanmaktadır. Örneğin temel olarak SQL’den if, case, next, do gibi şartlı ifadeler, döngüler ve karşılaştırmalar bulunmaz. SQL’de bulunmayan bu prosedür, fonksiyon, şartlı ifadeler ve karşılaştırmaların yokluğunu gidermek için; Oracle PL/SQL ( Programming Language /SQL), Microsoft firması SQL Server de T-SQL, Sysbase yine T-SQL dilini geliştirmiştir.

SQL dilinin; karar yapıları, döngüler ve benzeri yapısal programlama dillerindeki özelliklerden yoksul olduğunu yukarda belirttik. Veritabanı yönetim sistemi bu eksikleri PL/SQL yada T-SQL gibi dil tanımlamalarını kullanarak giderir. Ancak veritabanında verilerin hacmi artıkça daha gelişmiş bir veritabanı yönetim sistemine ihtiyaç ise kaçınılmazdır.

Kullanıcı herhangi bir veritabanına bağlandığında SQL (PL/SQL yada T-SQL) komutlarını kullanarak veritabanı yönetim sistemine istekte bulunur. Bu isteklerde kullanılan komutlar 5 kategoride toplanabilir;

a) Veri sorgulama komutları

b) Tabloya veri ekleme, değiştirme ve silme komutları

c) Veritabanı nesnelerini oluşturma, değiştirme ve silme komutları

d) Veritabanına ve nesnelerine erişimi kontrol etme komutları

e) Veritabanın tutarlığını ve bütünlülüğünü kontrol etme komutları

SQL, bir programlama dili olmadığına göre; sadece SQL kullanılarak bir kullanıcı arayüzü tanımlanamaz ya da bir dosya yönetimi yapılamaz. SQL, temelde 3 ifade grubundan oluşur.

1. Veri Tanımlama Dili: (Data Defination Language = DLL) Tablo, trigger, view gibi veri tabanı nesnelerini tanımlayan komutlar bu grupta yer alır. Nesne CREATE komutu ile oluşturulur, ALTER komutu ile değiştirilir ve DROP komutu ile silinir.

2. Veri İşleme Dili: (Data Manuplation Language = DML ) Veri seçme, ekleme, silme ve sorgu sonuçlarında sıralama veya filtreleme gibi komutlar bu grupta yer alır.  INSERT ile veri eklenir, DELETE ile veri silinir, UPDATE ile veri güncellenir, SELECT ile veri seçilir, WHERE ile filtrelenir, ORDER ile sıralama yapılır. Ayrıca INTO, FROM, LIKE, GROUP BY, HAVING… gibi yan söz deyimleri de bu grupta yer alır.

3. Veri Kontrol Dili: Veritabanı yönetim sisteminde roller ve kullanıcılar için ifade ve nesne kullanım izinlerini tanımlar. Erişim ve erişim kaldırma ifadeleri ile bu haklar ayarlanır. Ayrıca, erişim engelleme de kullanılan veritabanı yönetim sistemine (Oracle, MS SQL Server) göre bu grupta yer alabilir.

İlişkisel Veritabanı Yönetim Sistemleri


Günümüzde kullanımı en yaygın veritabanı ilişkisel veritabanı ve en yaygın veri tabanı yönetim sistemleri de ilişkisel veritabanı yönetim sistemleridir. İlişkisel veritabanının en önemli yanı, oluşturulan tabloların birbiri ile ilişkilerinin olmasıdır. Bu nedenle veritabanı yönetim sistemlerine “ilişkisel” denilmektedir.

En basit anlamda bir veritabanından bahsetmek için bir veritabanında en az iki tablo olmalıdır. Ve oluşturulan veritabanı ilişkisel bir veritabanı ise, bu iki tablo birbiri ile bir şekilde ilişkilendirilebilir olması gerektedir. Eğer veritabanımız ilişkisel veri ilişkisel veritabanı mantığı üzerine bina edilecekse, temel olarak tablolar aşağıdaki 3 temel işlevi yerine getirmek zorundadır.

  1. Seçme: Herhangi bir tabloda yer alan bilgilerin tümü yada istenen kriterlere göre sıralı bir şekilde gösterilebilmelidir.
  2. İzdüşürme: Herhangi bir tabloda yer alan bilgilerin belli kolonları görüntülenebilmelidir.
  3. Birleştirme: İki yada fazla tabloda yer alan bilgiler tek bir tablo gibi sunulabilmelidir.

Bir veritabanı yönetim sistemi yukarıdaki 3 temel işlevi yerine getirmek zorundadır. Bu 3 kriterlerden her biri tek tek kullanılabildiği gibi, 3 bir arada kullanılabilir veya ikili kombinasyonlar halinde de kullanılabilir. Burada önemli olan veritabanın bir veritabanı yönetim sistemi tarafından SQL ile yönetilebilir olmasıdır. Böylece kullanıcı veritabanın bilgisayar ortamında fiziksel olarak dosyalama işlemleri bilme zorunluluğundan kurtulmuş olacaktır. Tüm bu süreç SQL ile izole edilmiş olur.

Veri Tabanı Normalizasyonu


Normalizasyon; veritabanı tasarım aşamasında çok önemli bir işlemdir. İlişkisel veritabanının tanımı ile birlikte ortaya atılmış ve kabul görmüş 5 normalizasyon kuralı vardır.

  1. Normalizasyon Kuralı: bir satırdaki alan yalnızca tek bir bilgi içerir.
  2. Normalizasyon Kuralı: bir tabloda anahtar olmayan her alan, birincil anahtar olarak tanımlı tüm alanlara bağlı olmak zorundadır. Ya da anahtar alanın birden fazla olduğu tablolarda, anahtar alanlardan sadece birine bağlı veriler tabloda yer almalı, ayrı bir tabloya taşınmalıdır. Bunun tersi de geçerlidir.
  3. Normalizasyon Kuralı: Bir tablo için anahtar olmayan bir alan, anahtarı olmayan başka hiç bir alana bağlı olamaz.
  4. Normalizasyon Kuralı: Birincil anahtar alanlar ile anahtarı olmayan alanlar arasında, birden fazla bağımsız bire-çok ilişkisine izin verilmez.
  5. Normalizasyon Kuralı: tekrarlamaları ortadan kaldırmak için her tablonun mümkün olduğunca küçük parçalara bölünmesi gerekir.

Veri tabanı normalizasyon kuralları, bir ilişkisel veritabanının tasarlanma aşamaları değil de ilişkisel veri tabanında yer alacak kayıtların ilişkisel veri tabanı ile uyumlu olup olmadığını denetlemeye yöneliktir. İlişkisel veritabanı tasarımında aşağıdaki dört özellik yerine getirilmelidir.

a) Veri tekrarı yapılmamalıdır.

b) Boş yer mümkün olduğunca az olmadır.

c) Veri bütünlüğü sağlanmadır.

d) Veriler, aralarında bir ilişki tanımlanmaya müsait olmalıdır.

Kointegrasyon Analizi


Zaman serilerinde karşılaşılan en önemli sorun, serilerin zamanın etkisini üzerinde taşımaları ve zamanla birlikte artma eğiliminde olmalarıdır. Bu durum, değişkenler arasında ilişkilerde sahte regresyonlara sebep olmaktadır.  Bu durumda ise t, F vb. ters sonuçlarını gerçekte anlamlı olmadığı halde anlamlı olarak gözükmektedir. Seriler arasında zamanın etkisinden arındırılmış gerçek ilişkileri ortaya koymak için, öncelikle serilerin durağan hale getirilmesi gerekir. Genellikle zaman serilerinin birinci yada ikinci farkı alınarak seri durağan hale gelmektedir. Yine serinin durağanlaşması için serinin logaritması, logaritmasının farkının alınması, DF, ADF gibi istatistiklerde kullanılır.

 

Durağan olmama, değişkenin zaman içerisindeki seyrinin beklenen değer etrafında toplanmamasına yol açar. Bu nedenle değişkene ilişkin sağlıklı tahminler yapılabilmesi için serinin durağanlaştırılması gerekmektedir. Eğer stokastik bir süreç mevcut ise, değişken için fark alma işlemi uygulanması gerekir. Fark alma, değişkene ilişkin uzun dönem bilgisinin kaybolmasına yol açar. Çünkü fark alma uzun dönem çözümüne izin vermez. İki değişkenin yer aldığı modelde, değişkenlerin doğrusal bileşimi durağansa, farklarını almak spesifikasyon hatasına yol açar.

 

Bu noktadan hareketle, makro ekonomik çalışmalarda zaman serilerinin birçoğunun durağan olmadığı gerçeği, dikkatleri kointerasyon analizine yöneltmiştir. Gerçekte tek başlarına durağan olmayan zaman serilerinin, belirli bir integre seviyesinde doğrusal bileşimlerinin durağan  bir süreç oluşturduğu kointerasyon analizi ile değişkenler arasında uzun dönem ilişkiler ortaya konulabilmektedir. Bu durumu basit bir modelle açıklayalım;

 

Yt= β0+β1 Xt

 

Yukarıdaki modelde yer alan iki değişkeni farkları alınmak suretiyle durağan iki seri olduğunu varsayalım. Bu iki serinin düzey değerleri ile yapılan analizlerde, elde edilen test sonuçları sahte regresyon olduğu gösterecektir. Gerçekte anlamlı olmayan t ve F istatistikleri anlamlı gözükecek ve yanıltıcı sonuçlar elde edilecektir. Farkı alınarak yapılan analizlerde ise uzun dönem bilgisi yok olacaktır. Seriler arasında kointegrasyon ilişkisi araştırıldığında, uzun dönemde birlikte hareket eden bir yapı söz konusu ise, modele ilişkin hata terimi durağan yapıya sahip olacaktır.

 

ut=Yt – β0 – β1 Xt

ut~N(O;σ2)

(Not: σ2 varyansı ifade etmektedir.)

 

Burada hata terimi, hata düzeltme modelinde yer alarak, dengesizlik hatası adını alacaktır. Bu şekilde kısa ve uzun dönem bilgileri arasında bir ilişki kurulmuş olacaktır. Böylece serilerin farklarını almak yerine düzey değerleri ile kurulan ilişki, uzun dönem bilgisini yansıtmayacaktır. Düzey değerleri ile elde edilen regresyon artık sahte değil, anlamlıdır. Seviyesinde durağan seriler arasında kointegrasyon ilişkisinin araştırılmasına gerek yoktur.

 

Durağan olmayan serilerin farklının alınması nedeniyle, değişkenler arasında kısa dönemler arasında gözlemlenecek ilişkiler, bu yöntemin kullanılması ile uzun döneme yayılmaktadır. Değişkenler kısa dönemde kendilerine özgü şoklarla değil, uzun dönemde değişkenleri ortak olarak ifade edilecek stokastik trendlere sahip olacaklardır. Böylece uzun dönemde değişkenler arasında gözlenen ilişki ve elde edilen uzun dönem katsayıları hata düzeltme modellerinde yerine koyularak, dinamik denge durumuna ulaşılacaktır.

Faktör Analizinin Uygunluğunun Değerlendirilmesi


Faktör analizi yapmadan önce verisetinin korelasyon matrisinde korelasyonları %30’dan küçğk olan değişkenler verisetinden çıkarılmalıdır. Böylece veriseti faktör analizine daha uygun hale gelecektir. bundan sonraki aşamada ise kısmı korelasyon katsayılarına bakılmalıdır. Eğer kısmı korelasyon katsayıları yüksekse, veriseti iyi temsil edilemeyecektir. bu durumda da faktör analizi uygulanmaması gerekmektedir.

Faktör analizinin uygunun araştırması için bir test yaklaşımıda literatürde vardır. bu yaklaşımda korelasyon matrisinin birim matrise eşit olup olmadığı sınanır. Bu yaklaşım, Bartlett küresellik testidir.bu test, verilerin çok değişkenli normal dağılan anakütleden geldiği ve örneklem büyüklüğünün 150’den büyük olduğu örneklerde geçerlidir. Test sonucunda anlamlılık % 5’den (ki % 5 araştırmacının kendi kararına bağlıdır.) büyük çıkarsa faktör analizi uygulanmamalıdır.

Faktör analizinin uygunu değerlendirmek için bir başka test de KMO (Kaiser-Meyer-Olkin) testidir. Aslında KMO bir test değildir. Bir ölçüttür. Hesaplamalar sonucunda KMO değeri 0 ile 1 arasında değişen değerler almaktadır. Bu oran bire ne kadar yaklaşırsa veriseti faktör analizine o kadar uygundur. KMO ölçüsü istatistiksel bir test olmadığından bu oran için bir takım kısıtlamalar getirilmiştir. KMO değeri, örnek birim sayısı, ortalama korelasyonlar, değişeken sayısı artıkça ve faktör sayısı azaldıkça KMO değeri bire yaklaşır. Genelde KMO değeri için 0.80’den büyük veya bazı cevrelerce (yazılımcılar) de 0.60’dan büyük olması yeterli görülmüştür.

Faktör Analizi & Kümeleme Analizi


Bir çok değişkene dayalı kümeleme analizini görselleştirmek ve yorumlamak zordur. Bunun için işlemi kolaylaştırmak adına faktör analizine dayalı bir methot sunulabilir. Faktör analizi bize orjinal değişkenlerdeki bilginin büyük bir kısmı çevirilmiş olan küçük değişkenler kümesi verecektir. Böylelikle, bu yöntem sadece görselleştirmeyi basitleştirmek ve orjinal değişkenlerden elde edilen kümeleride anlaşır hale getirmekle kalmayacak aynı zamanda bu kümelerden bir sonraki analizler için değişkenleri seçmeye de yardımcı olacaktır.

Pazar Araştırması Yapmanın Gerekliliği


Ekonomik gelişme ile birlikte kişilerin refah düzeyinde de yükselmektedir. Bu durum tüketicilerin istek ve gereksinmelerinin nicelik ve nitelik yönünden artmasına ve çeşitlenmesine neden olmaktadır. Günümüzün firmaları bu istek ve gereksinmeleri tatmin edebildiği ölçüde yaşayabilmekte ve gelişebilmektedirler. Böylece firmalar, tüketicilerin istek ve gereksinmelerinin talep olarak ortaya çıktığı mal ve hizmetler piyasasına bu talebi nicelik ve nitelik yönünden karşılayabilecek bir arzla çıkmak zorunluluğundadır. İşte firmaların;

  • Tüketicilerin istek ve gereksinmelerinin saptanması,
  • Saptanan bu bilgilerin başta üretim bölümü olmak üzere diğer teknik bölümlere aktarılması,
  • Üretilen mal ve hizmetlerin yine bu istek ve gereksinmelere uygun olarak tüketicilere ulaştırılması,
  • Tüketicilerin satın alma sonrası tutum ve davranışlarının belirlenmesi

 

amacıyla yaptığı tüm eylemler pazarlama fonksiyonunun kapsamına girmektedir. Daha biçimsel bir tanıma göre “pazarlama, mal ve hizmetlerin üreticiden tüketiciye akışı ile doğrudan doğruya ilgili işletme faaliyetlerinin yerine getirilmesidir.”

 

Yukarıda çok özet olarak değinilen gelişmeler, pazarlama kararlarına diğer işletme kararlarına oranla daha karmaşık bir nitelik kazandırmaktadır. Pazarlama kararlarının sonuçlarının bu karmaşıklık belirsizliğini, başka bir deyişle alınacak ve uygulanacak kararların riskini arttırmıştır. Ve riski en aza indirmek içinde de pazarlama konusunda yapılan harcama miktarı da her geçen gün artmak gerekmektedir. Riskin artmasında; alınacak pazarlama kararlarının daha karmaşıklaşmış olması ve kararların sonuçlarının daha büyük tutarları içermesi büyük bir rol oynaktadır. Bunun doğal bir sonucu olarak; pazarlama yöneticileri, alacakları kararların riskini azaltacak her türlü bilgiye önceki dönemlere oranla çok daha fazla gereksinme duymuşlardır. Daha teknik bir deyişle, pazarlama yöneticileri karar alacakları konularda belirsizliği azaltacak her türlü ek bilgiye eskiye oranla daha fazla ödemeye razıdırlar.

 

Pazarlama araştırmalarının önemini ve niteliğini genel olarak belirtikten sonra bu araştırmaların nasıl yapılacağı ile ilgili çok kısa bazı açıklamalar yapmak daha aydınlatıcı olur. Nasıl araştırma sorusunu ele almak için önce pazarlama araştırmalarının tanımı ile işe başlamak gerekir. Pazarlama araştırmaları ile ilgili bir tanım şöyledir “Pazarlama Araştırması, pazarlama konusunda herhangi bir problemin belirlenmesi ve belirlenen bu problemin çözülmesi amacına yönelik bilgilerin toplanması, analiz edilmesi, yorumlanması ve gerekli önerilerde bulunulmasıdır”. Bu tanıma uygun pazarlama araştırması yapabilmek için belli bir sürecin izlenmesi gerekir ki ilgili sürecin ana aşamaları yukarıdaki tanımdan da anlaşılabileceği gibi; araştırılması istenen pazarlama probleminin açık ve kesin olarak saptanması, probleme uygun araştırma modelinin belirlenmesi, problemle ilgili bilgilerin geçerli ve güvenilir bir biçimde toplanması, toplanan bu bilgilerin analiz edilmesi ve sonuçların çıkartılması, sonuçların yorumlanması ve önerilerin saptanması ile ilgili çalışmaları kapsamaktadır. Şimdi bu aşamaları çok özet olarak inceleyelim.

 

Araştırılmak istenen pazarlama probleminin açık ve kesin olarak saptanması bilimsel araştırma yapmanın ilk adımıdır. Bu aşamada incelenmesi düşünülen pazarlama probleminin önce temel pazarlama fonksiyonları olan mal, fiyat, dağıtım ve satışa özendirme fonksiyonlarından hangisinin kapsamına girdiğinin belirlenmesi gerekir. Bu yapıldıktan sonra konu ile ilgili gerekli literatür çalışması yapılmalıdır. Literatür çalışmasında ilgili teorik kaynaklar yanında araştırma sonuçları ve konu ile ilgili kişilerin bilgilerine de başvurulmalıdır.

 

Bu çalışmalar yapıldıktan sonra saptanan problemin niteliğine uygun olarak ne tür bir araştırma modelinin uygulanması gerektiği aşamasına geçilmelidir. Araştırmadan amaç problemle ilgili konularda bilgi edinmek veya keşfetmek ise “keşfedici araştırma modelinin” kullanılması gerekir. Amaç, problemle ilgili olarak bir durum saptanması ve bu saptanan sonuçlara göre bir tahmin yapmak ise “tanımlayıcı araştırma modelinin” seçilmesi gerekir. Son olarak araştırmanın amacı, problemle ilgili sebep – sonuç ilişkilerine dayanan açıklamalar yapabilmek ise “sebep – sonuç ilişkisini açıklamayı amaçlayan araştırma modelini” kullanmak gerekir.

 

Araştırmada kullanılacak araştırma modeli saptandıktan sonra problemle ilgili bilgi ve verilerin toplanmasına yönelik çalışmaların yapılması gerekir. Bu aşamada örnek seçimi, araştırma hipotezlerinin saptanması, bilgi ve veri toplama yöntem ve araçlarının belirlenmesi gibi konular incelenmelidir. Bu aşamada özellikle bilgi ve veri toplama yöntemi ve aracının seçilmesi oldukça önemlidir. Araştırmacı gözlem, anket, simülasyon gibi yöntemlerden birini seçecektir. Bu seçimde yöntemlerin geçerlilik, güvenirlilik ve maliyetleri göz önünde tutulmalıdır. Veri toplama aracı olarak ise kişisel görüşme, posta ile anket telefonla görüşme araçlarından biri nispi yarar ve maliyeti dikkate alınarak seçilmelidir. Seçilen yönteme uygun olarak veri toplama aracı kullanılmalı ve böylece gerekli bilgi ve veriler toplanmalıdır.

 

Problemin çözümü için gerekli bilgi ve veriler toplandıktan sonra önce kontrol için gözden geçirilmeli sonra tabüle edilmeli ve analiz edilmelidir. Burada en önemli sorun toplanmış bilgi ve verilerin nasıl analiz edileceği veya hangi analiz tekniklerinin kullanılacağıdır. Bu sorunun çözümünde en önemli yol gösterici araştırma hipotezleridir. Araştırmacı saptamış olduğu araştırma hipotezlerini istatistiksel olarak test edebileceği istatistiksel analiz tekniklerini kullanacaktır. Bu analiz tekniklerinin kullanılmasını mümkün kılacak biçimde bilgi ve verilerin tabüle edilmesi gerekir. Hazırlanan tablolara yerleştirilen bilgi ve veriler en güçlü ve anlamlı istatistik teknikler kullanılarak analiz edilmeli ve bu analizlerin sonuçları saptanmalıdır.

 

Toplanmış bilgi ve veriler analiz edilip analiz sonuçları saptandıktan sonra bu sonuçların yorumlanması ve uygun önerilerin yapılması gerekir. Yorumlama ve öneriler aşamasında öncelikle araştırmanın geçerlilik ve güvenilirliğini tartışmak gerekir. Araştırmacı bu tartışmanın objektif sonuçlarına göre uygun yorumlamalar yapmalı ve gerekli önerilerde bulunmalıdır. Bu aşamadaki çalışmalar bilgi yanında büyük ölçüde araştırmacının tecrübesine de bağlı olacaktır.

 

Pazarlama araştırması yapılırken izlenmesi gereken süreci çok özet olarak açıklamış bulunuyoruz. Araştırmacı zamanının büyük bir bölümünü problemin saptanması ve toplanan bilgilerin analiz edilmesi, yorumlanması, önerilerde bulunulması aşamalarına harcamalıdır. Bu aşamalara harcanacak zaman araştırmacının tüm zamanının % 90’ını kapsayabilir.

 

Sonuç olarak, pazarlama yöneticilerinin almak zorunluluğunda oldukları pazarlama kararlarının riskini azaltmak için araştırma bulgularından, yararlanmaları gerektiği ve bu gereğin bilimsel bir araştırma sürecinin izlenilmesi ile yerine getirilebileceği sonuçlarını çıkartabiliriz. Bir tavsiye olarak; pazarlama araştırmacılarının yapacakları pazarlama araştırmalarında araştırmaya başlamadan önce bir araştırma plânını yapmaları çalışmalarının daha disiplinli olmasını sağlar. Araştırma plânının daha ayrıntılı olması araştırma çalışmalarının daha kısa sürede, daha koordineli ve etkin bir biçimde yapılması olanağını sağlayacaktır.

(Not: Severek okuduğum bir makaleden alıntıdır.)

Box- Jenkins İstatistiği


Pratikte, AR ve Ma sürecinideki p ve q ların kaç olduğunu bilmemekteyiz. Box- Jenkings istatistiği bize AR ve MA süreçlerindeki p ve q sayılarını belirlememizi sağlar. Daha sonra AR(p) ve Ma(q) süreçlerinden oluşan modelimizde parametreleri tahmin  ederiz ve modelin atıklarının white noise ( beyaz gürültü) sağlayıp sağlamadığını kontrol ederiz.

Temel Bileşen Analizi ve Faktor Analizi


temel bileşen analizi (TBA), az sayısıda ağırlıklandırılmış verisetlerinden birkaç değişken elde edilerek özet bilgi almak için kullanılan bir tekniktir. TBA, genellikle faktor analizinin bir çeşiti olarak yanlış bir şekilde kullanılmaktadır ve bir çok akademik çalışma TBA sonuçları ise  faktor analizinin bir çeşidi olarak yanlış bir şekilde sunmaktadır. Sorunların daha da kötüsü ise, ticari olarak kullanılan istatistiksel paket yazılımları bazen faktor analizi işlemlerinde TBA varsayılan bir yöntem olarak kullanmaktadırlar. Faktor analizi ve TBA, aynı analitik yaklaşımın parçaları değildir. Her ikisininde  farklı bilimsel amaçları vardır ve cebirsel işlemleri de farklıdır.

Lojistik Regresyon Analizi


Lojistik regresyon; cevap değişkeninin kategorik ve ikili, üçlü ve çoklu kategorilerde gözlendiği durumlarda açıklayıcı değişkenlerle neden sonuç ilişkisini belirlemede yararlanılan bir yöntemdir. Açıklayıcı değişkenlere göre cevap değişkeninin beklenen değerlerinin olasılık olarak elde edildiği bir regresyon yöntemidir.

Basit ve çoklu regresyon analizleri bağımlı değişken ile açıklayıcı değişken  ya da değişkenler arasındaki matematiksel bağıntıyı analiz etmekte kullanılmaktadır. Bu  yöntemlerin uygulanabileceği veri setlerinde bağımlı değişkenin normal dağılım göstermesi, bağımsız değişkenlerinde normal dağılım gösteren toplum ya da toplumlardan çekilmiş olması ve hata varyansının  parametreli normal dağılım göstermesi gerekmektedir. Bu ve benzeri koşulların yerine getirilmediği veri setlerinde basit yada çoklu regresyon analizleri uygulanamaz.

Lojistik regresyon analizi, sınıflama ve atama işlemi yapmaya yardımcı olan bir regresyon yöntemidir. Normal dağılım varsayımı, süreklilik varsayımı ön koşulu yoktur.

Bağımlı değişken üzerinde açıklayıcı değişkenlerin etkileri olasılık olarak elde edilerek risk faktörlerinin olasılık olarak belirlenmesi sağlanır

Ayırma (diskriminant) analizi, verilerin sınıflandırılması ve belirli olasılıklara göre belirli sınıflara atanmasını sağlayan bir yöntemdir. Veri setindeki değişkenlerin sınıflamaya etkilerini ayırma analizi ile belirlemek mümkündür. Fakat ayırma analizi çok değişkenli normal dağılım varsayımını ön koşul kabul etmektedir.

Lojistik regresyon, oluşturulan lojistik modellere göre parametre tahminleri yapmayı amaçlar. Lojistik regresyonda modellere ortak değişkenler de katmak mümkündür. Böylece ortak değişkenlere göre düzeltilmiş Y değerlerinin tahminleri yapılabilir.

Lojistik regresyon, bağımlı değişkenin tahmini değerlerini olasılık olarak hesaplayarak, olasılık kurallarına uygun sınıflama yapma imkanı veren bir istatistiksel yöntemdir. Lojistik regresyon tablolaştırılmış ya da ham veri setlerini analiz eden bir yöntemdir.

Lojistik regresyon analizinde üç temel yöntem vardır.

  • İkili lojistik regresyon  (BLOGREG,binary logistik regresyon).
  • Ordinal lojistik regresyon (OLOGREG,ordinal logistik regresyon).
  • İsimsel lojistik regresyon (NLOGREG, nominal logistik regresyon).

Mann Whitney U Testi


Eğer örneklem veri seti parametrik test varsayımları için uygun değil ise iki ortalama arasındaki farkın anlamlı olup almadığını Mann-Whitney U Testi ile bulunur. Mann Whitney U testi parametrik olmayan bir testtir ve t testinin bilinen en iyi alternatifidir. Bu test için verinin dağılımı konusunda bir koşul öne sürülmez.

Mann-Whitney U Testi, örneğin iki ilişkisiz örneklemden elde edilen puanların birbirlerinden anlamlı bir şekilde farklılık gösterip göstermediğini tespit eder. Başka bir anlatımla, bu test iki ilişkisiz grubun, ilgilenilen değişken bakımından evrende benzer dağılımlara sahip olup olmadığını test eder.

Mann-Whitney U testinde;

  • Bağımsız değişkene ait veriler sayısal karakterler ile ifade edilmeli,
  • Örneklem birbirinden bağımsız olarak rastgele seçilmeli ve
  • Bağımlı değişkene iliksin ölçümler, sıralama, aralık veya oran ölçeğinde olmalıdır.

İstatistik Neden Önemli


Günümüzde İstatistik; yeni araştırmalarla, yeni yöntemlerle sürekli gelişen ve her bilimsel alana uygulanabilen disiplinler arası bir bilim dalıdır. İstatistikçiler, araştırmacı kimlikleriyle ülkenin finans, sağlık, ekonomi, tarım, eğitim gibi pek çok alanına  sağlıklı
açılımlar getirmekte, aynı zamanda sosyal sorunların çözümüne de çok önemli katkılarda bulunmaktadır.  Özellikle  ülkemizde  Avrupa  Birliği  çalışmaları  kapsamında  istatistik  biliminin  ve  istatistikçinin önemi giderek artmaktadır.

Günümüzde hükümetler politikalarını formüle etmek ve aldıkları kararları desteklemek, politikacılarda halkı ikna etmek için istatistikleri temel almaktadır. Tıbbı araştırmalarda hastaların teşhisinde ve yeni ilaçların yan etkilerinin ortaya konulmasında istatistiksel teknikler kullanılmaktadır. Ekonomi, işletme ve kamu yönetiminde istatistiğin kullanılması son yarım yüzyıl içinde olağan üstü bir gelişme göstermiştir. İstatistiksel yöntem sosyal bilimlerin bütün dallarında hemen hemen tek pratik çalışma aracı durumundadır.

Çağımızda sayısal bilgi toplanabilen her araştırma alanında istatistik yöntemler kullanılır: Toplumsal olayların gelişimi, davranış psikolojisi, otomatik üretim süreçleri, bilgisayarlar gibi büyük  teknik sistemlerinin yönetimi, jeolojik süreçler, gazlardaki karmaşık olgular, sinir sisteminin işlevleri, beynin yansıtıcı ve yönlendirici çalışmaları istatistik yöntemlere başvurulmadan incelenemezler. Biyoloji,antropoloji, sosyoloji, psikoloji, iktisat, işletme, tıp, kuantum fiziği, biyolojik vb…. özetle tüm bilim dalları, yöntem kuruluşları, teknoloji, iş ve piyasa araştırmalarında istatistikten yararlanılır.

Örnek vermek gerekirse;

  • Kamu Hizmetlerinin Görülmesinde İstatistiğin Rolü

Mesela; Milli Eğitim politikasının gerektirdiği şekilde planlanıp en yararlı bir şekilde uygulanabilmesi için gelecek yıllarda ilk, orta ve yüksek tahsil çağında bulunan kimselerin sayılarının bilinmesinin, bunlara tahsil imkanı sağlanabilmesi için ne kadar öğretmene, okula ve eğitim-öğretim araçlarına ihtiyaç olduğunun belirlenmesinde kullanılır. Bu aşamadan sonra uygulanacak eğitim hizmetleri deneysel olarak sınanabilir ve eldeki imkanlara göre en uygun olan eğitim hizmetleri belirlenir.

  • Bilimsel Araştırmalarda İstatistiğin Rolü

Bilimsel araştırmalarda istatistik önemli bir rol oynamaktadır. Özellikle, deneysel araştırmalarda, bir hipotezin kabule değer olup olmadığının belirtilmesi ve araştırma sonuçlarının objektif olarak yorumu ancak modern istatistik metotlarına dayanmak suretiyle mümkündür.  İstatistiksel metotlara dayanmayan araştırmalar ve bunlarla ulaşılan sonuçlar bilimsel sayılmamaktadır.

  • Pazar Araştırmaları

Pazarın ihtiyaçlarına mal ve hizmet üretmesi işletmenin hayati faaliyetleridir. Mal ve hizmet sunulan pazarın ihtiyaçlarının iyi analiz edilmesi, ürünlerin ve hizmetlerin ihtiyaçlar ve trendler doğrultusunda hazırlanıp müşterilere sunulmalıdır. Aksi halde mal ve hizmet satışları pazarın ihtiyaçlarını karşılamakta yetersiz kalarak işletmenin kar marjını düşürecektir. Bu ise istenmeyen bir durumdur. Bu gibi olumsuz durumları önceden görüp, gerekli tedbirleri almak, ürünleri sadece pazarın ihtiyaçları doğrultusunda değil rakip ürünlerden de daha iyi bir şekilde sunulması için pazar araştırmaları son derece önemlidir. Pazar araştırmalarının tüm aşamalarında ise istatistiksel metotlar ve çözümler kullanılmaktadır. İstatistiksel metotların kullanılmadığı bir pazar araştırması yapmak imkânsızdır.

  • Finans & Ekonometri

Finansal ve ekonometri verilerinin incelenmesi ve detaylı bir şekilde analiz edilip mevcut durum ve bir sonraki dönemler için tahminler yapılmasında istatistiksel yöntemler kullanılmaktadır. İncelenen değişenler arasında ilişkilerin türü ve yapısı, modellerin kurulması ve anlamlı sonuçların çıkartılması çok iyi istatistik bilgisinin yanında çok iyi literatür bilgisine çok iyi hakim olunmasını gerektirmektedir.

“Denizdeki  dalgaları  önlemek  ya  da  kendi  isteğine göre düzenlemek bir sörfçü için imkansızdır. İyi bir sörfçü dalgalar ile eş zamanlı hareket edebilen, düşmeyen ve en önemlisi dalgaları kendi lehine kullanmayı bilen sörfçüdür”. İyi bir istatistikçi ise çalıştığı kuruma, nüfus trendleri nereye kayarsa kaysın, ekonomik durum ne kadar çalkantılı olursa olsun, rakipler ne kadar çoğalırsa çoğalsın, tıpkı bir sörfçü gibi koşullara eş zamanlı uyum sağlama ve sörf tahtasını kullanabilme yeteneği kazandırmaktadır.

Ve son olarak istatistikçi olarak yaptığımız işi ve bunun altındaki varsayımları,hangi durumlarda nelerle karşılaşacağımızı ve bunları nasıl düzelteceğimizi iyi bilirsek, bizlere olan ihtiyacın şimdikinden çok daha fazla olduğunu herkese ispat etmiş oluruz…

Tek Yönlü Varyans Analizi


Etkisi incelenecek faktör sayısının ikiden fazla olması durumunda hipotez testleri varyans analizi metodu kullanılarak, F dağılışına göre yapılır. Örneğin gözleme ya da deneye dayanan bir çalışmada üç ya da daha fazla ortalamanın eşitliğini varyans analizi ile test edebiliriz.

Genel Varsayımlar:

Yukarıdaki tipte hipotezlerinin testinde varyans analizi tekniği kullanılabilmesi için aşağıdaki varsayımların kabul edilmesi gerekmektedir.

  • Her popülasyonda bağımlı değişken normal dağılım gösterir.
  • Bağımlı değişkenin varyansı her topluluk için aşağı yukarı aynıdır.
  • Örnek verileri birbirinden tamamen bağımsızdır.

Varyans Analizinin Temel Mantığı

Ho hipotezi doğru ise, bu topluluklardan bağımsız olarak alınan  örneklerin ortalamaları da birbirine yakın olmalıdır. Ya da Ho hipotezi yalnış ise, örnek ortalamalarının birbirinden farklı olması beklenir.

Not: Hemen belirtelim ki, her iki durumda da yanılma payları vardır. Hatırlayınız:

  • Ho doğru iken, örnekleme hatasına bağlı olarak  örneklerin ortalamaları birbirinden farklı çıkar ve sonuçta Ho reddedilirse, bu tip hatalara 1.Tip Hata denir. Bu tip bir hata yapma olasılığı testin belirginlik derecesi olan alfa (genellikle 5% alınır) eşittir. Daha açık söylemek gerekirse, bir fabrikadaki toplam kalite bilgi seviyesi, o fabrikanın yerine göre farklılık göstermediği halde, 1. tip hata sonucu fabrika yerinin o fabrikadaki toplam kalite bilgi seviyesini etkileyen belirgin bir değişken olduğuna karar verilir.
  • Ya da Ho yanlış olsun ve yine örnekleme hatası sonucu  örneklerin ortalamaları birbirinine çok yakın çıksın. Bu durumda Ho reddedilemez (çünkü elimizde yeterli delil yok!) ve 2. Tip Hata yapılarak yine yanlış karar verilir. Bu tip bir hata yapma olasılığı 0<beta<1 ile gösterilir ve beta değeri verilen belli mi, i=1,2,3 değerleri için ayrıca koşullu olasılık (conditional probability) kavramları kullanılarak hesaplanır.

Örnek ortalamalarının birbirine ne kadar yakın (ya da farklı) olduğunu ölçmek için 2 ayrı yöntemle ana kütle varyansı, s2 tahmin edilir.

Ana kütle Varyansının Tahmini Değeri

Bu yöntemlerin birinde Ho doğru kabul edilir, diğerinde ise yanlış kabul edilir. Eğer Ho gerçekten doğru ise, bu iki şekilde bulunan tahmini değerler birbirine çok yakın olacaktır ve sonuçta Ho reddedilemeyecektir. Aksi taktirde bu tahmini değerler birbirinden uzak olacak ve Ho reddedilecektir.

1. Yöntem:

Ho’ın doğru kabul edildiği durumda  Popülasyon varyansının tahmini değeri (Between Treatments Estimate of Population Variance)

Eğer Ho doğruysa, tüm örneklerin aynı popülasyondan alındığını düşünebiliriz, yani  için sadece bir dağılım fonksiyonu vardır.

burdan sonrası wordpress’in sınırlı  karakter desteğinden dolayı resim olarak devam ediyorum.

2. Yöntem:

Ho’ın yanlış kabul edildiği durumda  popülasyon varyansının tahmini değeri (Within Treatments Estimate of Population Variance)

Ho yanlış ise örneklerin en az ikisinin ortalamaları farklı olacağından, bunların farklı topluluklardan geldiği varsayılır. Diyelim ki hepsi farklı topluluk olsun. Yani her topluluk kendi içinde farklı ortalamalar, ancak aynı varyans s2 ile normal dağılım gösteriyor.

yazının devamını daha sonra ekleyeceğim :))

Kruskal Wallis H Testi


Parametrik olmayan, tek yönlü varyans değerlendirmesi. Puanlar, skorlar, vs gibi sürekli olmayan yapay nicel değişkenlerin ikiden fazla bağımsız kıyaslanması için kullanılır. Tek yönlü varyans analizinin parametrik olmayan karşılığıdır.

Kruskal-Wallis H testi, bir değişkene ilişkin iki ya da daha fazla grubun karsılaştırılması amacı ile kullanılır. Kruskal-Wallis H testi, birbirinden bağımsız iki yada daha fazla grubun (örneklemin) bağımlı bir değişkene iliksin ölçümlerinin karsılaştırılarak iki dağilim arasında anlamlı bir fark olup olmadığını test etmek amacı ile kullanılır. Bu testte ve parametrik olmayan diğer testlerde, gruplara ait ölçümlerin karsılaştırılmasında aritmetik ortalama yerine ortanca (medyan) değer esas alınır. Ortanca (medyan),büyükten küçüğe yada küçükten büyüğe doğru sıralanan bir serinin orta değeridir. Kruskal-Wallis H testi, parametrik testlerin kullanımına ilişkin şartların sağlanmaması durumunda bağımsız örneklemler için tek yönlü vanyans analizi yerine kullanılır.

Kruskal-Wallis H testinde, bağımsız değişkene ait veriler;

• Sayısal karakterler ile ifade edilmelidir.

• Birbirinden bağımsız rastgele örneklem üzerinden elde edilmelidir.

• Bağımlı değişkene ilişkin ölçümler aralık veya oran ölçeğindedir.

Kruskal Wallis Testi parametrik olmayan tek yönlü varyans analizi yöntemidir. “Varyans Analizi ” parametrik test varsayımları yerine getirildiğinde ölçümle belirtilen sürekli bir değişken yönünden ikiden çok bağımsız grup arasında farklılık olup olmadığını incelemek için kullanılır. Parametrik varsayımlar sağlanmadan varyans analizinin uygulanması verilecek kararın hatalı olmasına neden olabilir. Bu nedenle veri sayısal olarak belirtilen kesikli bir değişkense (doğan, ölen, hastalanan, yasayan sayısı gibi), ölçümle belirtildiği halde denek sayısı yeterli değilse ya da denek sayısı yeterli olduğu halde veri parametrik varsayımları yerine getiremiyorsa “Tek Yönlü Varyans Analizi ” yerine Kruskal Wallis Varyans Analizi kullanılmalıdır.

Panel Veri Modellerinin Seçiminde Kullanılan Testler


Panel veri modellerinin seçiminde en belirgin olarak Hausman testi ile Breusch-Pagan Lagrange Çarpanları Testi kullanılmaktadır.

Belirtildiği üzere Hausman Testi, Sabit Etkili ve Rassal Etkili Modeller arasında bir seçim yapılması gerektiği zaman, hangi modelin tercih edilmesi gerektiğine karar verilmesinde kullanılan bir testtir(Green, 2003, s:301). [1] Bu testte, Sabit Etkili Tahmincinin tutarlı ve yansız olduğu varsayımından hareket edilmektedir. Bu testte kullanılan hipotezler(Baltagi, 2005, s:66);[2]

H0 : Rassal Etkili Model [  E(αi ⁄ xi )= 0  ]

Hı : Sabit Etkili Model [  E(αi ⁄ xi ) <> 0 ]

şeklindedir. Hausman test istatistiğinde gerçekte, Sabit Etkili Modelin parametre tahmincileri (̂β cv ) ile Rassal Etkili Modelin parametre tahmincileri ( βGKKK ) arasındaki farkın istatistik olarak anlamlı olup olmadığı incelenmektedir(Cameron ve Trivedi, 2005, s:717). [3] Sabit ya da Rassal Etkili Modeller arasındaki belirgin fark, sabit–zaman etkisinin açıklayıcı

değiskenlerle iliskili ya da ilişkisiz olup olmadığıdır. Rassal Etkili Model geçerli olduğunda, Sabit Etkili Tahminci, tutarlı olan parametre tahminlerini vermeye devam etmektedir. Sabit Etkili Tahminci, diğer açıklayıcı değişkenlerle ilişkili sabit-zaman faktörlerinin hepsinin

ölçülebildiğinden emin olmadıkça Rassal Etkili Tahminciye tercih edilmemelidir. Gerçekte ne Sabit Etkili Tahminci ne de Rassal Etkili Tahmincinin mükemmel olduğu söylenemez. Bunun en önemli nedenini; Rassal Etkili Tahmincinin gerçek etkinin üzerinde sapmalı tahminler vermesi, buna karsılık Sabit Etkili Tahmincinin ise gerçek etkinin altında sapmalı tahminler vermesi olusturmaktadır (Johnston ve DiNardo,1997, s:403[4] ).

Hausman test istatistiği “Rassal etkiler tahmincisi doğrudur.” sıfır hipotezi altında k serbestlik dereceli ki-kare dağılımı göstermektedir. Gerçekleşmesi durumunda tesadüfi etkili modelin hata terimleri bileşenlerinin bağımsız değişkenler ile ilişkili olmadığı kararı verilebilecektir. Bu durumda sabit etkili modeli tercih edilecektir.


[1]GREEN, W.H.,2003, Econometric Analysis, Fifth Edition, Prentice Hall, New Jersey.

[2]BALTAGİ, B. H.,2005, Econometric Analysis of Panel Data, Third Edition, John Wiley&Sons Inc, England.

[3]CAMERON, A.C. ve TRİVEDİ, P.K., 2005, Microeconometrics : Methods and Applications, Cambridge University Press, New York.

[4]JOHNSTON, J. ve DİNARDO, J.,1997, Econometric Methods, Fourth Edition, McGraw-Hill Inc, New York.