Posted by: bilimselkonular in Blogum on Eki 31, 2009
Karar Verme ve Veri Madenciliği
Bir karar verici için verilen kararın doğruluğu, onun yeteneklerine, deneyimine ve bilgi birikimine olduğu kadar sahip olduğu veri kümesinin yeterliliğine de bağlıdır. Diğer bir deyişle kararın başarısında, verilerin doğru depolanması, doğru sınıflanması, doğru ayıklanması, doğru işlenmesi ve doğru yorumlanması çok önemli bir rol oynar. Ancak karar süreçlerinin karmaşıklaşması, sayısal olarak daha fazla veriye gereksinimi ortaya çıkarmış, bu durum ise veri depolarının büyüklüğünü manuel olarak kontrol edilemeyecek boyutlara ulaştırmıştır.
Artık ekonomik sistemde veri ya da bilgi, mal ya da hizmet üretiminin faktörlerinden birisi olarak algılanmaktadır. Bu ise karar vericileri yanlış karar riskinden uzaklaşabilmek için, mümkün olduğunca fazla veriyi depolamaya zorlamaktadır. Ayrıca internetin küreselleşmeyi körüklemesi, rekabetin kırıcı seviyelere ulaşması, kar marjlarının düşmesi ve müşteri memnuniyetinin zorlaşması, bu endişeyi daha da körüklemektedir. Bu durum ise doğru veriyi toplama ya da doğru veriye ulaşma zorunluluğunu doğurmaktadır. Diğer bir deyişle artık, veriye erişmek en az verinin kendisi kadar önemli hale gelmiştir.
Veri Ambarları ve Veri Madenciliği
Veriyi genel olarak, enformasyonel veri ve operasyonel veri olarak ikiye ayırmak mümkündür. Enformasyonel veri, kişiye yönelik, bütünleşik, zaman içinde oluşan ve birleştirilmiş veriler olarak tanımlanabilir. Operasyonel veri ise, uygulamaya yönelik, dağınık, kısa zamanda oluşan ve tekrarlayabilen veriler olarak tanımlanmaktadır (Özmen, Ş. 2001).
Veri ambarları, tüm operasyonel işlemlerin, en alt düzeydeki verilerine kadar inebilen, etkili analiz yapılabilmesi için özel olarak modellenen ve
tarihsel derinliği olan veri depolama sistematiği olarak tanımlanabilir. Bu tanımdan da anlaşılacağı gibi bir veri ambarı enformasyonel veri üzerine kurulur. Bir veri ambarının oluşturulabilmesi için kullanılabilecek bir yazılım yoktur. Diğer bir deyişle veri ambarları, ilgili karar sürecine özeldir ve o karar süreci için modellenir.
Veri ambarları aynı zamanda bir veri tabanı olarak da yorumlanabilir ve temel olarak müşteri bilgilerini içerir. Veri ambarında, bir karar süreci için gerekli olacak kullanılabilir veri oluşturulur. Bir veri ambarının yapısı organizasyon içindeki bütün karar vericilere verileri ve işlem sonuçlarını sunan, en gelişmiş iletişimi sağlayan bir dizi birbiriyle bütünleşik alt bileşenlerden oluşur. Bu katmanlar aşağıda sıralanmıştır (www.bilgiyonetimi.org):
Operasyonel Veri Tabanı / Harici Veri Tabanı Katmanı,
Enformasyon Ulaşım Katmanı,
Data Ulaşım Katmanı,
Data Directory (Metadata) Katmanı,
İşlem (process) Yönetim Katmanı,
Uygulama Haberleşmesi Katmanı,
Veri Ambarı Katmanı,
Data Sunum Katmanı,
Bir veri ambarı kişisel bilgisayarlar, karar destek sistemi (DSS) yazılımı, iletişim ağları, sunucular, anaçatı bilgisayarlar, farklı veritabanı yönetim sistemi (DBMS) paketleri, farklı insan ve organizasyonel birimler gibi, çok geniş bir alana dağılmış bileşenler içeren karmaşık bir sistemdir. Bu yüzden de her karmaşık sistemde olduğu gibi bir mimari oluşturularak işe girişilmelidir. Bu sistemin tasarımlanabilmesi için birbirinden farklı disiplinlerden yararlanılması gerekmektedir.
Veri ambarından beklenilen, hem organizasyonu hem de çevresini anlatan tutarlı ve yararlı bir bilgi kaynağına ulaşabilmektir. Sistemin tasarımı oluşturulurken, aşağıdaki noktalara dikkat etmek yararlı olacaktır (www.bilisimrehber.com.tr):
- Sistemin çözmesi istenen problem ayrıntılı bir biçimde tanımlanmalıdır.
- Sistemle ilgili hedefler, kısıtlamalar ve kritik başarı etkenleri sıralanmalıdır.
- Başlıca sistem bileşenleri ve arayüzler, bileşenler arasındaki bağlantı veya iletişim yolları iyice ortaya koyulmalıdır.
- Gelecekte yapılması olası iyileştirmeler, değişiklikler ve başka sistemlere geçişler hakkında öngörüler yapılmalıdır.
- Bütünsel bir geliştirme ve bakım programı ve sisteme destek verecek personel kaynağı planlanmalıdır.
- Sistemi programa uygun bir şekilde geliştirebilmek ve uzun vadede bakımını yapıp yönetebilmek için gerekli bilgi, beceri ve diğer destek araçları belirlenmelidir.
Veri madenciliği, veri ambarlarındaki tutulan çok çeşitli verilere dayanarak daha önce keşfedilmemiş verileri ortaya çıkarmak, bunları karar vermek ve gerçekleştirmek için kullanma sürecidir (Swift, 2001). Bu tanımdan yararlanarak veri madenciliğinin aynı zamanda bir istatistiksel süreç olduğunu da söylemek mümkündür.
Veri madenciliğinin karar verici için olası yararları aşağıdaki gibi sıralanabilir:
- Mevcut müşterilerin karar verici tarafından daha iyi tanınmasını sağlayabilir.
- Özellikle finans sektöründe mevcut müşterileri bölümlere ayırıp, kredi risk davranış modelleri oluşturarak, yeni başvuruda bulunan müşterilere karşı riskin minimize edilmesini sağlayabilir
- Mevcut müşterilerin ödeme performansları incelenip kötü ödeme performansı gösteren müşterilerin ortak özellikleri belirlenerek, benzer özelliklere sahip tüm müşteriler için yeni risk yönetim politikaları oluşturulabilir.
- En iyi müşteriler veya müşteri bölümlerinin bulunmasında kullanılabilir. Bulunan bu iyi müşteri bölümlerine yönelik yeni pazarlama stratajileri oluşturulabilir.
- Kuruluşlar tarafından düzenlenecek çeşitli kampanyalarda mevcut müşteri kitlesinin seçimi ve bu müşterilerin davranış özelliklerine yönelik kampanya şartlarının oluşturulması sağlanabilir.
- Bankacılık faaliyetlerinde, küçük işletmelere yönelik olarak makine ve ekipman satışı yapan dağıtıcı firmalarla ortak hareket ederek oluşturulacak satış paketleri ile pazarlama stratejileri geliştirilebilir.
- Mevcut müşteriler üzerinde firma ürünlerinin çapraz satış kapasitesinin arttırılması sağlanabilir.
- Veri madenciliği ile mevcut müşteriyi tanıyarak kuruluşların müşteri ilişkileri yönetimlerinde düzenleme ve geliştirmeler yapılabilir. Bu sayede kuruluşun müşterilerini daha iyi tanıyarak müşteri gibi düşünme kapasitelerinin arttırılması sağlanabilir
- Günümüzde var olan yoğun rekabet ortamında kuruluşların hızlı ve kendisi için en doğru kararı almalarını sağlayabilir.
- Kuruluşlar veri analizi ile müşterilerini kişiselleştirilmiş ürün ve hizmetler hakkında bilgilendirebilirler.
- Veri madenciliği ile kuruluşların müşteriyle bütünleşmiş satış politikaları oluşturması sağlanabilir.
Veri madenciliği günümüzde karar verme sürecine ihtiyaç duyulan bir çok alanda uygulaması mümkün olmakla birlikte özellikle pazarlama, bankacılık ve sigortacılık sektörlerinde yaygın olarak kullanılmaktadır. Bunlar kullanım yerlerine göre aşağıda gösterilmiştir:
Pazarlama
- Müşterilerin satın alma örüntülerinin belirlenmesi,
- Müşterilerin demografik özellikleri arasındaki bağlantıların bulunması,
- Posta kampanyalarında cevap verme oranının artırılması,
- Mevcut müşterilerin elde tutulması, yeni müşterilerin kazanılması,
- Pazar sepeti analizi,
- Müşteri ilişkileri yönetimi,
- Müşteri değerlendirmesi,
- Satış tahmini,
Bankacılık
- Farklı finansal göstergeler arasında gizli korelasyonların bulunması,
- Kredi kartı dolandırıcılıklarının tespiti,
- Kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi,
- Kredi taleplerinin değerlendirilmesi.
Sigortacılık
- Yeni poliçe talep edecek müşterilerin tahmin edilmesi,
- Sigorta dolandırıcılıklarının tespiti,
- Riskli müşteri örüntülerinin belirlenmesi.
Veri Madenciliğinde Kullanılan Yöntemler
Veri madenciliği sürecinin çeşitli aşamalarında kullanılan teknikler, istatistiksel yöntemler, bellek tabanlı yöntemler, genetik algoritmalar, yapay sinir ağları ve karar ağaçları olarak sıralanabilir.
İstatistiksel Yöntemler
Veri madenciliği çalışması esas olarak bir istatistik uygulamasıdır. Verilen bir örnek kümesine bir kestirici oturtmayı amaçlar. İstatistik literatüründe son yıllarda bu amaç için değişik teknikler önerilmiştir. Bu teknikler istatistik literatüründe çok boyutlu analiz başlığı altında toplanır ve genelde verinin parametrik bir modelden (çoğunlukla çok boyutlu bir Gauss dağılımından) geldiğini varsayar. Bu varsayım altında;
- Sınıflandırma: Sınıflandırma, yeni bir nesnenin niteliklerini inceleme ve bu nesneyi önceden tanımlanmış bir sınıfa atamaktır. Burada önemli olan, her bir sınıfın özelliklerinin önceden net bir şekilde belirlenmiş olmasıdır. Sınıflandırmaya örnek olarak kredi kartı başvurularını düşük, orta ve yüksek risk grubu olarak ayırmak gösterilebilir.
- Ayırma Analizi: Ayırma analizi, iki veya daha fazla sayıdaki grubun ayırımı ile ilgilenen çok değişkenli ilgi analizidir. Amaçları arasında, analiz öncesi tanımlanmış iki veya daha fazla sayıda grubun ortalama nitelikleri arasında önemli farkların olup olmadığının test edilmesi, gruplar arasındaki farka her bir değişkenin katkısının saptanması ve grup içi değişime oranla gruplar arasındaki ayrımı maksimize eden tahmin değişkenleri kombinasyonunun belirlenmesi sayılabilir. Örneğin, bira içenleri, bira içmeyenlerden ayırt etmenin bir pazarlama sorunu olduğu kabul edilirse, büyük bir bira üreticisinin yaptığı araştırma ayırma analizine örnek olarak gösterilebilir. Bu nedenle, tesadüfi olarak seçilen 500 kişilik bir tüketici bölümünü örnek olarak alınmış ve bu kişilerin bira içip içmedikleri, cinsiyetleri ve sporla ilgilenme dereceleri saptanmıştır. Cinsiyet ve sporla ilgilenmenin tahmin değişkenleri olarak kullanılmalarının nedeni, daha önceki çalışmaların bu değişkenlerle bira içme arasında kuvvetli bir ilginin olduğunu göstermiş olmasıdır. Ayırma analizi sonuçlarının test edilme olanağının bulunması sonuçların geçerliliğini ve güvenilirliğini ve dolayısıyla analizin gücünü artıran önemli bir etmendir.
- Regresyon: Bir ya da daha çok değişkenin başka değişkenler cinsinden tahmin edilmesini olanaklı kılan ilişkiler bulmaktır. Örnek olarak, “ev sahibi olan, evli, aynı iş yerinde beş yıldan fazladır çalışan, geçmiş kredilerinde geç ödemesi bir ayı geçmemiş bir erkeğin kredi skoru 825’dir.” Sonucu bir regresyon ilişkisidir.
- Öbekleme (Kümeleme): Kümeleme modellerinde amaç, küme üyelerinin birbirlerine çok benzediği, ancak özellikleri birbirlerinden çok farklı olan kümelerin bulunması ve veri tabanındaki kayıtların bu farklı kümelere bölünmesidir. Başlangıç aşamasında veri tabanındaki kayıtların hangi kümelere ayrılacağı veya kümelemenin hangi değişken özelliklerine göre yapılacağı bilinmemekte, konunun uzmanı olan bir kişi tarafından kümelerin neler olacağı tahmin edilmektedir. Örnek olarak bir süpermarketin müşteri bilgileri ve satış kayıtları incelenecek olursa, müşterilerin büyük bir kısmının düzenli olarak Cuma akşamları kredi kartıyla alışveriş yaptıkları şeklinde bir sonuca ulaşılabilir.
- Hipotez Testi
- Varyans Analizi
- Lojistik regresyon: Doğrusal regresyonda
(açıklanan) iki değer alan (yani;
) gösterge değişkeni olarak tanımlandığında bunlara ilişkin hata terimlerinin (
) beklenen değeri sıfır,
ve varyanslarının sabit,
olduğu şeklinde tanımlanan varsayım gerçekleşmemektedir. Bunun bir sonucu olarak varsayımlardan sapma durumunda elde edilen tahminler en iyi doğrusal ve sapmasız tahmin ediciler olmayacaktır. Bu yetersizlik sınıflandırma analizlerinde doğrusal regresyonun kullanılmasını engellemektedir. Bu nedenle lojistik regresyon, sınıflandırma analizlerinde sık kullanılan yöntemlerden biridir. Lojistik regresyon, çok değişkenli normal dağılım varsayımına ihtiyaç göstermediğinden bu tür uygulamalarda üstünlük sağlamaktadır. Ayrıca sınıf üyeliğine ilişkin olasılıkları belirlemek özelliği de vardır. Lojistik regresyonun varsayımlarından biri doğrusal olasılık fonksiyonunun, hata terimlerinin dağılımının lojistik dağılıma uymasıdır.
- Χ2 analizi: Ki-kare ilgi analizi pazarlama araştırmalarında çok yaygın olarak kullanılan bir istatistiksel analiz türüdür. Bu yaygın kullanımın en önemli nedenleri, çok basit bir analiz türü olması, varsayımlarının azlığı ve çok güçsüz ölçeklerde ölçülmüş verilere uygulanabilmesidir. İki veya daha fazla nitelik esas alınarak sınıflandırılan veriler değerlenerek bu nitelikler arasındaki ilginin derecesinin belirlenmesi (bağımsızlık testi) amacıyla kullanılır.
Bellek Tabanlı Teknikler
Bellek tabanlı veya örnek tabanlı bu yöntemler istatistikte 1950’li yıllarda önerilmiş olmasına rağmen o yıllarda gerektirdiği hesaplama ve bellek yüzünden kullanılamamış ama günümüzde bilgisayarların ucuzlaması ve kapasitelerinin artmasıyla, özellikle de çok işlemcili sistemlerin yaygınlaşmasıyla, kullanılabilir olmuştur. Bu yönteme en iyi örnek en yakın k komşu algoritmasıdır (k-nearest neighbor)
Genetik Algoritmalar
Diğer veri madenciliği algoritmalarını geliştirmek için kullanılan optimizasyon teknikleridir. Sonuç model veriye uygulanarak gizli kalmış kalıpları ortaya çıkarılmakta ve bu sayede tahminler yapılabilmektedir. Doğrudan postalama, risk analizi ve perakende analizlerinde kullanılabilir.
Yapay Sinir Ağları
Bu yöntem, belirli bir profile uyuşması için kalıp düzenlerini kontrol etmektedir ve bu süreç içerisinde belli bir öğrenme faaliyeti gerçekleştirerek sistemi geliştirmektedir. Yapay sinir ağlarında kullanılan öğrenme algoritmaları, veriden üniteler arasındaki bağlantı ağırlıklarını hesaplar. Yapay Sinir Ağları istatistiksel yöntemler gibi veri hakkında parametrik bir model varsaymaz yani uygulama alanı daha geniştir ve bellek tabanlı yöntemler kadar yüksek işlem ve bellek gerektirmez.
Karar Ağaçları
İstatistiksel yöntemlerde veya yapay sinir ağlarında veriden bir fonksiyon öğrenildikten sonra bu fonksiyonun insanlar tarafından anlaşılabilecek bir kural olarak yorumlanması zordur. Karar ağaçları ise ağaç oluşturulduktan sonra, kökten yaprağa doğru inilerek kurallar yazılabilir. Bu şekilde kural çıkarma veri madenciliği çalışmasının sonucunun doğrulanmasını sağlar. Bu kurallar uygulama konusunda uzman bir karar vericiye gösterilerek sonucun anlamlı olup olmadığı denetlenebilir. Sonradan başka bir teknik kullanılacak bile olsa karar ağacı ile önce bir kısa çalışma yapmak, önemli değişkenler ve yaklaşık kurallar konusunda karar vericiye bilgi verir.
Veri Madenciliği Süreci
Sorunun Tanımlanması
Veri madenciliği çalışmalarında başarılı olmanın ilk şartı, uygulamanın hangi kuruluş amacı için yapılacağının açık bir şekilde tanımlanmasıdır. İlgili kuruluş amacı, sorun üzerine odaklanmış ve açık bir dille ifade edilmiş olmalı, elde edilecek sonuçların başarı düzeylerinin nasıl ölçüleceği tanımlanmalıdır. Sorun ile tam örtüşmeyen bir veri madenciliği çalışması, sorunu çözmeye yetmeyeceği gibi sonuçta başka problemlerin de ortaya çıkmasına neden olabilecektir. Ayrıca yanlış kararlarda katlanılacak olan maliyetlere ve doğru kararlarda kazanılacak faydalara ilişkin öngörülere de bu aşamada yer verilmelidir.
Verilerin Hazırlanması
Modelin kurulması aşamasında ortaya çıkacak sorunlar, bu aşamaya sık sık geri dönülmesine ve verilerin yeniden düzenlenmesine neden olacaktır. Bu durum verilerin hazırlanması ve modelin kurulması aşamaları için, bir karar vericinin veri keşfi sürecinin toplamı içerisindeki enerji ve zamanının % 50 - % 85’ ini harcamasına neden olmaktadır.
Verilerin hazırlanması aşaması kendi içerisinde toplama ve uyumlaştırma, birleştirme ve temizleme ve seçme adımlarından meydana gelmektedir.
Toplama ve Uyumlaştırma: Tanımlanan sorun için gerekli olduğu düşünülen verilerin ve bu verilerin toplanacağı veri kaynaklarının belirlenmesi adımıdır. Hangi veri kaynaklarından yararlanılacağı önemli bir karardır. Çünkü gereğinden az veri kaynağı veri madenciliği çalışmasını eksik bırakacağı gibi, gereğinden fazla veri kaynağı sürecin uzamasına neden olabilecek veri kirliliğine yol açabilecektir. Verilerin toplanmasında kuruluşun kendi veri kaynaklarının dışında, nüfus sayımı, hava durumu, merkez bankası kara listesi gibi çeşitli veri tabanlarından veya veri pazarlayan kuruluşların veri tabanlarından faydalanılabilir.
Veri madenciliğinde kullanılacak verilerin farklı kaynaklardan toplanması, doğal olarak veri uyumsuzluklarına neden olacaktır. Bu uyumsuzlukların başlıcaları farklı zamanlara ait olmaları, güncelleme hataları, veri formatlarının farklı olması, kodlama farklılıkları (örneğin bir veri tabanında cinsiyet özelliğinin e/k, diğer bir veri tabanında 0/1 olarak kodlanması), farklı ölçü birimleri ve varsayım farklılıklarıdır. Ayrıca verilerin nasıl, nerede ve hangi koşullar altında toplandığı da önem taşımaktadır. Güvenilir olmayan veri kaynaklarının kullanımı tüm veri madenciliği sürecinin de güvenilirliğini etkileyecektir.
Bu nedenlerle, iyi sonuç alınacak veri madenciliği çalışmaları ancak iyi verilerin üzerine kurulabileceği için, toplanan verilerin ne ölçüde uyumlu oldukları bu adımda incelenerek değerlendirilmelidir.
Birleştirme ve Temizleme : Bu adımda farklı kaynaklardan toplanan verilerde bulunan ve bir önceki adımda belirlenen sorun ve uyumsuzluklar mümkün olduğu ölçüde giderilerek, veriler tek bir veri tabanında toplanır. Ancak basit yöntemlerle ve baştan savma olarak yapılacak sorun giderme işlemlerinin, ileriki aşamalarda daha büyük sorunların kaynağı olacağı unutulmamalıdır.
Seçim : Bu adımda kurulacak modele bağlı olarak veri seçimi yapılır. Örneğin tahmin edici bir model için bu adım, bağımlı ve bağımsız değişkenlerin ve modelde kullanılacak veri kümesinin seçilmesi anlamını taşımaktadır.
Sıra numarası, kimlik numarası gibi anlamlı olmayan değişkenlerin modele girmemesi gerekmektedir. Çünkü bu tip değişkenler, diğer değişkenlerin modeldeki ağırlığının azalmasına ve veriye ulaşma zamanlarının uzamasına neden olabilmektedir. Bazı veri madenciliği algoritmaları konu ile ilgisi olmayan bu tip değişkenleri otomatik olarak elese de, pratikte bu işlemin kullanılan yazılıma bırakılmaması daha akılcı olacaktır.
Verilerin görselleştirilmesine olanak sağlayan grafik araçlar ve bunların sunduğu ilişkiler, bağımsız değişkenlerin seçilmesinde önemli yararlar sağlayabilir. Genellikle yanlış veri girişinden veya bir kereye özgü bir olayın gerçekleşmesinden kaynaklanan verilerin, veri kümesinden atılması tercih edilir.
Veri madenciliği çalışmasında geliştirilen modelde kullanılan veri tabanının çok büyük olması durumunda, rastgeleliği bozmayacak şekilde örnekleme yapılması uygun olabilir. Ayrıca burada seçilen örneklem kümesinin tüm popülasyonu temsil edip etmediği de kontrol edilmelidir. Halen kullanılan işletim sistemleri ve paket programlar ne kadar gelişmiş olursa olsun, çok büyük veri tabanları üzerinde çok sayıda modelin denenmesi zaman kısıtı nedeni ile mümkün olamamaktadır. Bu nedenle tüm veri tabanını kullanarak bir kaç model denemek yerine, rastgele örneklenmiş bir veri tabanı parçası üzerinde bir çok modelin denenmesi ve bunlar arasından en güvenilir ve güçlü modelin seçilmesi daha uygun olacaktır. Diğer bir deyişle modellerin performansları uygun bir karar yöntemi ile sınanmalıdır.
Modelin Kurulması ve Değerlendirilmesi
Tanımlanan problem için en uygun modelin bulunabilmesi, olabildiğince çok sayıda modelin kurularak denenmesi ile mümkündür. Bu nedenle veri hazırlama ve model kurma aşamaları, en iyi olduğu düşünülen modele varılıncaya kadar yinelenen bir süreçtir.
Model kuruluş süreci, denetimli ve denetimsiz öğrenmenin kullanıldığı modellere göre farklılık göstermektedir.
Örnekten öğrenme olarak da isimlendirilen denetimli öğrenmede, bir denetçi tarafından ilgili sınıflar önceden belirlenen bir kritere göre ayrılarak, her sınıf için çeşitli örnekler verilir. Sistemin amacı verilen örneklerden hareket ederek her bir sınıfa ilişkin özelliklerin bulunması ve bu özelliklerin kural cümleleri ile ifade edilmesidir.
Öğrenme süreci tamamlandığında, tanımlanan kural cümleleri verilen yeni örneklere uygulanır ve yeni örneklerin hangi sınıfa ait olduğu kurulan model tarafından belirlenir.
Denetimsiz öğrenmede, kümeleme analizinde olduğu gibi ilgili örneklerin gözlenmesi ve bu örneklerin özellikleri arasındaki benzerliklerden hareket ederek sınıfların tanımlanması amaçlanmaktadır.
Denetimli öğrenmede seçilen algoritmaya uygun olarak ilgili veriler hazırlandıktan sonra, ilk aşamada verinin bir kısmı modelin öğrenilmesi, diğer kısmı ise modelin geçerliliğinin test edilmesi için ayrılır. Modelin öğrenilmesi, öğrenim kümesi kullanılarak gerçekleştirildikten sonra, test kümesi ile modelin doğruluk derecesi belirlenir.
Bir modelin doğruluğunun test edilmesinde kullanılan en basit yöntem basit geçerlilik testidir. Bu yöntemde tipik olarak verilerin % 5 ile % 33 arasındaki bir kısmı test verileri olarak ayrılır ve kalan kısım üzerinde modelin öğrenimi gerçekleştirildikten sonra, bu veriler üzerinde test işlemi yapılır. Bir sınıflama modelinde yanlış olarak sınıflanan olay sayısının, tüm olay sayısına bölünmesi ile hata oranı, doğru olarak sınıflanan olay sayısının tüm olay sayısına bölünmesi ile ise doğruluk oranı hesaplanır. (Doğruluk Oranı = 1 - Hata Oranı)
Sınırlı miktarda veriye sahip olunması durumunda, kullanılabilecek diğer bir yöntem, çapraz geçerlilik testidir. Bu yöntemde veri kümesi rastgele iki eşit parçaya ayrılır. İlk aşamada bir parça üzerinde model eğitimi ve diğer parça üzerinde test işlemi; ikinci aşamada ise ikinci parça üzerinde model eğitimi ve birinci parça üzerinde test işlemi yapılarak elde edilen hata oranlarının ortalaması kullanılır.
Bir kaç bin veya daha az satırdan meydana gelen küçük veri tabanlarında, verilerin n gruba ayrıldığı n katlı çapraz geçerlilik testi tercih edilebilir. Verilerin örneğin 10 gruba ayrıldığı bu yöntemde, ilk aşamada birinci grup test, diğer gruplar öğrenim için kullanılır. Bu süreç her defasında bir grubun test, diğer grupların öğrenim amaçlı kullanılması ile sürdürülür. Sonuçta elde edilen on hata oranının ortalaması, kurulan modelin tahmini hata oranı olacaktır.
Bootstrapping küçük veri kümeleri için modelin hata düzeyinin tahmininde kullanılan bir başka tekniktir. Çapraz geçerlilikte olduğu gibi model bütün veri kümesi üzerine kurulur. Daha sonra en az 200, bazen binin üzerinde olmak üzere çok fazla sayıda öğrenim kümesi tekrarlı örneklemelerle veri kümesinden oluşturularak hata oranı hesaplanır.
Model kuruluşu çalışmalarının sonucuna bağlı olarak, aynı teknikle farklı parametrelerin kullanıldığı veya başka algoritma ve araçların denendiği değişik modeller kurulabilir. Model kuruluş çalışmalarına başlamadan önce, hangi tekniğin en uygun olduğuna karar verebilmek güçtür. Bu nedenle farklı modeller kurarak, doğruluk derecelerine göre en uygun modeli bulmak üzere sayısız deneme yapılmasında yarar bulunmaktadır.
Özellikle sınıflama problemleri için kurulan modellerin doğruluk derecelerinin değerlendirilmesinde basit ancak faydalı bir araç olan risk matrisi kullanılmaktadır. Aşağıda bir örneği görülen bu matriste sütunlarda fiili, satırlarda ise tahmini sınıflama değerleri yer almaktadır. Örneğin fiilen B sınıfına ait olması gereken 46 elemanın, kurulan model tarafından 2’sinin A, 38’inin B, 6’sının ise C olarak sınıflandırıldığı matrisde kolayca görülebilmektedir.
|
Fiili |
||
|
Tahmini |
A Sınıfı |
B Sınıfı |
C Sınıfı |
|
A Sınıfı |
45 |
2 |
3 |
|
B Sınıfı |
10 |
38 |
2 |
|
C Sınıfı |
4 |
6 |
40 |
Önemli diğer bir değerlendirme kriteri, modelin anlaşılabilirliğidir. Bazı uygulamalarda doğruluk oranlarındaki küçük artışlar çok önemli olsa da, bir çok kuruluş uygulamasında ilgili kararın niçin verildiğinin yorumlanabilmesi çok daha büyük önem taşıyabilir. Çok ender olarak yorumlanamayacak kadar karmaşıklaşsalar da, genel olarak karar ağacı ve kural temelli sistemler model tahmininin altında yatan nedenleri çok iyi ortaya koyabilmektedir.
Kaldıraç oranı ve grafiği, bir modelin sağladığı faydanın değerlendirilmesinde kullanılan önemli bir yardımcıdır. Örneğin kredi kartını muhtemelen iade edecek müşterilerin belirlenmesi amacını taşıyan bir uygulamada, kullanılan modelin belirlediği 100 kişinin 35’i gerçekten bir süre sonra kredi kartını iade ediyorsa ve tesadüfi olarak seçilen 100 müşterinin aynı zaman diliminde sadece 5’i kredi kartını iade ediyorsa kaldıraç oranı 7 olarak bulunacaktır.
Kurulan modelin değerinin belirlenmesinde kullanılan diğer bir ölçü, model tarafından önerilen uygulamadan elde edilecek kazancın bu uygulamanın gerçekleştirilmesi için katlanılacak maliyete bölünmesi ile edilecek olan yatırımın geri dönüş oranıdır.
Kurulan modelin doğruluk derecesi ne denli yüksek olursa olsun, gerçek dünyayı tam anlamı ile modellediğini garanti edebilmek mümkün değildir. Yapılan testler sonucunda geçerli bir modelin doğru olmamasındaki başlıca nedenler, model kuruluşunda kabul edilen varsayımlar ve modelde kullanılan verilerin doğru olmamasıdır. Örneğin modelin kurulması sırasında varsayılan enflasyon oranının zaman içerisinde değişmesi, bireyin satın alma davranışını belirgin olarak etkileyecektir.
Modelin Kullanılması
Kurulan ve geçerliliği kabul edilen model doğrudan bir uygulama olabileceği gibi, bir başka uygulamanın alt parçası olarak kullanılabilir. Kurulan modeller risk analizi, kredi değerlendirme, dolandırıcılık tespiti gibi işletme uygulamalarında doğrudan kullanılabileceği gibi, promosyon planlaması simülasyonuna entegre edilebilir veya tahmin edilen envanter düzeyleri yeniden sipariş noktasının altına düştüğünde, otomatik olarak sipariş verilmesini sağlayacak bir uygulamanın içine gömülebilir.
Modelin İzlenmesi
Zaman içerisinde bütün sistemlerin özelliklerinde ve dolayısıyla ürettikleri verilerde ortaya çıkan değişiklikler, kurulan modellerin sürekli olarak izlenmesini ve gerekiyorsa yeniden düzenlenmesini gerektirecektir. Tahmin edilen ve gözlenen değişkenler arasındaki farklılığı gösteren grafikler model sonuçlarının izlenmesinde kullanılan yararlı bir yöntemdir.