VERİ MADENCİLİĞİ

Veri madenciliği hayatımızın içindeki bir kavramdır aslında. 

Elinizde patates, biber, soğan, fasülye, patlıcan, yağ, su, salça..vb sebzeler veya maddeler var fakat

bunlardan türlü yemeğini yapamıyorsanız bu ürünlerin hiçbir anlamı yoktur. Zamanla dolabınızda

çürümeye doğru gider.İşte veri madenciliğide böyledir. Sizin devasa bir veri ambarınız veya verileri

topladığınız bir alan vardır.Eğer siz bu verileri doğru şekilde kullanıp bunlardan yapılacak bir ürün

çıkartamıyorsanız ,veri ambarınız aslında çokta işe yaramıyordur. Tabi şirketler sadece veri

madenciliği için veri ambarı oluşturmazlar. Bazen sadece Olap küplerini oluşturmak, tarihsel

derinliği olan verilerden raporlar almak..vb şirketler için yeterli olabilir.Eğer böyle bir şirket varsa

vede pazarda lider olmayı düşünüyorsa ,veri madenciliğini tekrar düşünmesi gerekmektedir.

 

Veri madenciliği için ; veriden bilgiye giden süreç olarak tanımlayabiliriz.

Tabi bu veri nasıl bir veri olmalı sorusuna cevap olarak ;

1-Şirketin ihtiyacına göre tasarlanmış olması gerekmektedir.

Siz eğer gelecek sene ne kadar araba satacağınızı görmek istiyorsanız , veri ambarınızda ki verilerin

araba ve satış istatistikleri hakkında bilgi toplayacak türden veriler olması gerekmektedir.Gereksiz

veri aslında sizin için bir yüktür.

 

2-Temiz ve kaliteli  veri olmalıdır.

Düşününki  araba satışınız için cinsiyete göre kampanya düzenleyeceksiniz. Ve geleceği

tahminlemek için analiz yapıyorsunuz.Burda  satış sisteminizdeki  raporlarda E/K olarak

var olan bir veri , müşteri sisteminizde Erkek/Kadın olarak geçiyor. Burdaki verilerin

bütünlük içerisinde olduğunda söz edilemez. Ayrıca kullanıcılardan kaynaklanan  E/K olarak

girilecek alana başka veriler veya veri tipleri gelmesi halinde bu verilerin de temizlenmesi

gerekmektedir.

 

3-Tarihsel derinliği olmalıdır.

Veri ambarı zaten bu yapıda kurulur.Ama önemli bir olay olduğu için belirtmekte fayda var.Eğer siz

gelecek 3 seneyi tahmin etmek istiyorsanız geçmiş 1 yıla bakarak bunu tahmin edemezsiniz.

Örneğin önümüzdeki sene barajların doluluk oranları ne olacak diye sorduğumuzda bu sorumuza

geçmiş 10 seneye bakarak çok daha net cevap verebiliriz.Nitekim geçmiş 10 senede

belirleyeceğiniz zaman dilimleri veya aylarda ne kadar yağış-kuraklık-sıcaklık-nem.. vb olmuş

istatistiklerini görmeniz gerekecektir.

Veri madenciliğinde kullanan birçok algoritma vardır.

Üniversitelerde genellikle bu algoritmalar hakkında bilgi veriliyor fakat iş hayatında algoritmadan

ziyada bu algoritmayı kullanan toollar tercih ediliyor.Kendi toolunu yazan ve ona göre mining

çalışması yapan şirket sayısı malesef çok az. Bende bu algoritmaları başka bir yazıya bırakıyorum.

Şimdi genel olarak veri madenciliğinde kullanılan tekniklerden bahsedeceğim;

 

1- Classification:

En popüler veri madenciliği çeşitlerinden birisidir.Temel olarak yaptığı şey yeni bir nesnenin

niteliklerini inceleme ve bu nesneyi önceden tanımlanmış bir sınıfa atamaktadır. Burada

önemli olan, bir sınıfın özelliklerinin önceden net bir şekilde belirtilmiş olması gerektiğidir.

Bir malın özellikleriyle müşteri özelliklerini eşleştirebiliriz.Böylece bir müşteri için ideal ürün

veya bir ürün için ideal müşteri profili çıkarılabilir.

2-Clustering

Belli bir grubun kümelenmesi şeklinde  düşünebiliriz.Belli bir yapı içindeki geçen terimlere-

verilere-özelliklere..vb göre gruplar oluşur. Bu gruplar da en çok geçen verilerden

yararlanılarak bir benzerlik ölçütü geliştirilir ve buna göre demetleme yapılır.

Örneğin genç, orta ve yaşlı erkeklerin aldığı kontör  miktarı ayrı ayrı cluster oluşturmaktadır.

3-Association

Popüler veri madenciliği görevlerinden biridir.Bir nesnenin varlığı ile diğer bir nesnenin varlığı

arasında tahmin yürütülerek ilişki kurulur. Örneğin bir markette,çocuk bezi alan birisinin

hemen hemen herzaman süt aldığı testpit edildikten sonra  market sahibi çocuk bezi ve süt

raflarının arasındaki mesafeyi kısaltabilir.Böylece müşteriye unutulan birşeyin hatırlatılması

dolayısıyla kazanç sağlanmış olur.Bunun örneklerini günlük hayatımızda bir hayli görüyoruz.

4-Regsession

Amaç bir ya da daha çok değişkenin başka değişkenler cinsinden tahmin edilmesini olanaklı

kılan ilişkileri bulmaktır. Örneğin bilgisayar mühendisi olan 40 yaşını aşmamış evi ve arabası

olan yakışıklı erkekler bir regsessiondur.

5-Forecasting

Adından da anlaşılacağı gibi bizlere tahminler sunan veri ambarı tekniğidir. Örneğin 5 sene

sonra barajlardaki doluluk oranları ne olacak? gençler en çok hangi meslekleri seçecek?

X şirketinin 2013 kar marjı ne olacak? Bu tip sorulara cevap bulan bir yapıdır. Burada ki en

büyük yardımcımız zaman ve datanın geçmiş yıllarda zamanın içindeki dağılımıdır.

 

*Veri Madenciliği Nedir, Erişim Tarihi: 12 Nisan 2016, http://datawarehouse.gen.tr/veri-madenciligi-nedir/