Kayıtlar

Adversarial Validator

Resim
     2019  yılında bir model eğittiniz, başarısı çok yüksekti ve gönül rahatlığıyla gerçek ortama taşıdınız. Ancak 2020 yılında pandemi bütün dünyayı etkisi altına aldı. Haliyle sizin çalıştığınız veriler de bir hayli değişti. 2019 yılında modelinizi eğittiğiniz veri setiyle bugünlerde tahminlemeye çalıştığınız veriler benzer mi diye merak ediyorsunuz. Bu durumla baş etmenin birkaç yolu var ve ben bir tanesine ufak da olsa bir katkıda bulundum. Bu yazıda size yeni Python paketimi tanıtmak istiyorum.     

MONTY HALL PROBLEMİ

Resim
    "Monty Hall Problemi", 1963 senesinde  ABD'de ilk defa yayınlanan Let's Make a Deal isimli yarışma programındaki katılımcıların karşısına çıkan olasılıkla ilişkili ünlü bir açmazdır.      Programın sonunda bir yarışmacı, sunucu Monty Hall ile birlikte 3 büyük kapının karşısında durur: 1 Numaralı Kapı, 2 Numaralı Kapı ve de 3 Numaralı Kapı. Kapılardan birinin ardında araba diğer ikisinde ise keçi vardır.      Yarışmacı Monty ile kapıların karşısında dururken arabayı kazandıracak kapıyı bulma şansı 3'te 1'dir.          Yarışmacı bir kapıyı seçtikten sonra Monty yarışmacının seçmemiş olduğu kapılardan birini açar ve her zaman keçilerden birini bize gösterir. Bu noktada Monty yarışmacıya seçimini değiştirmek isteyip istemediğini sorar: İlk olarak seçtiği kapalı kapıdan vazgeçip diğer kapalı kapıyı seçmeyi.  Kararını değiştirmeli midir?     E vet . Yarışmacının ilk seçimine sadık kalması durumunda 1/3, değiştirmesi durumunda ise 2/3 kazanma şansı bulunmaktadır.

Preprocessing için PCA( Principal Component Analysis) Kullanımı

Resim
      T ürkçesi “Temel Bileşenler Analizi” olan PCA tanıma, sınıflandırma, görüntü sıkıştırma alanlarında kullanılan yararlı bir istatistiksel tekniktir. Temel amacı yüksek boyutlu verilerde en yüksek varyans ile veri setini tutmak ancak bunu yaparken boyut indirgemeyi sağlamaktır. Fazla boyutlu verilerdeki genel özellikleri bularak boyut sayısının azaltılmasını, verinin sıkıştırılmasını sağlar. Boyut azalmasıyla bazı özelliklerin kaybedileceği kesindir; fakat amaçlanan, bu kaybolan özelliklerin popülasyon hakkında çok az bilgi içeriyor olmasıdır. Bu yöntem, yüksek korelasyonlu değişkenleri bir araya getirerek, verilerdeki en çok varyasyonu oluşturan “temel bileşenler” olarak adlandırılan daha az sayıda yapay değişken kümesi oluşturur.      PCA verid e ki gerekli bilgileri ortaya çıkarmada oldukça etkili bir yöntemdir.  PCA’in arkasında yatan temel mantık çok boyutlu bir veriyi, verideki temel özellikleri yakalayarak daha az sayıda değişkenle göstermektir. 

Makine Öğrenmesinde Değişken Seçimi

Resim
Bu çalışmamızda model seçimi önemini UCI dizinindeki  banka pazarlama veri kümesi  üzerinden inceleyelim. Amaç müşterilerin özelliklerine ve ekonomik göstergelere bakarak müşterilerin kampanya tekliflerine dönüş yapıp yapmayacağını tahmin etmek. Elimizdeki problem iki sınıftan oluşan bir sınıflandırma problemi, burada Random Forest Algoritmasını kullandım. Algoritmanın iç işleyişini anlama konusunda yetkin olmak önemli olmakla birlikte, bulguları makine öğrenimi hakkında teorik / pratik bilgisi olmayan bir kitleye iletebilmek çok daha önemlidir.  Sadece algoritmanın iyi tahmin ettiğini göstermek yeterli değildir.  Tahminleri, doğruluğunuza katkıda bulunan giriş verilerinin öğelerine atfetmelisiniz.  Neyse ki, sklearn  veri kümesindeki özelliklerin tahmin gücünü açıklamamıza yardımcı olan  “ değişken önemi(feature importances)  ” adı verilen bir çıktı vermektedir  .  Ancak, bu çıktının dezavantajlarını ve bunların üstesinden nasıl geleceğimizi açıklayacağım. Verideki değişkenlerin anlam

Veri Bilimi ile COVID-19 Vaka Tahmini

Resim
 COVID-19 vaka sayılarında görüldüğü üzere değerler arasında bir korelasyon vardır. Bugünün değeri, yarın ve ondan sonraki birkaç gün için bize bir tahmin üretme olanağı tanır. Bu değerleri sıralı bir şekilde grafiğe döktüğümüzde eğrinin ilk başlarda üssel bir artışa sahip olduğunu ancak zamanla bu artışın yavaşladığını görürüz.  Buradan hareketle ileriye yönelik tahminleri değerler arasındaki farka bakarak daha kolay tahmin edebiliriz. Örneğin vaka sayısı iki gün önce 800 , dün 780 olan bir ülkede, bugün 760 civarında yeni vaka çıkacağını tahmin edebiliriz.  O yüzden verileri farklılaştırarak şu şekilde dönüştürebiliriz :  değer(t) = gözlem(t) - gözlem(t - 1) Model Kurulumu

COVID-19 İçin Veri Görselleştirmesi: İtalya-Türkiye-İran Karşılaştırması

Resim
 COVID-19 salgını ilk başladığında Çin hariç hemen hemen tüm ülkeler bu durumu pek ciddiye almadı. Virüs kapıdan içeri girdiğinde bile alınan önlemler yetersizdi ve bu durum çok daha büyük felaketlere yol açtı. Virüs kimi ülkelerde çok hızlı yayıldı ve öldürücülük oranı normalin üstüne çıktı. Uzmanlar uzunca bir süredir bu konu hakkında düşünüp konuşuyorlar. Bu yazımızda biz de birbirlerine her açıdan çok benzeyen üç ülke ;İtalya,Türkiye ve İran'ın COVID-19 verilerine göz atacağız. Grafikler üzerinden farklılıkları anlamaya ve çıkarımlar yapmaya çalışacağız. İlk Bakış : Pandemi Öncesi Genel Bilgiler