Veri Analisti

Kayıtlar

MONTY HALL PROBLEMİ

Eylül 15, 2021

"Monty Hall Problemi", 1963 senesinde ABD'de ilk defa yayınlanan Let's Make a Deal isimli yarışma programındaki katılımcıların karşısına çıkan olasılıkla ilişkili ünlü bir açmazdır. Programın sonunda bir yarışmacı, sunucu Monty Hall ile birlikte 3 büyük kapının karşısında durur: 1 Numaralı Kapı, 2 Numaralı Kapı ve de 3 Numaralı Kapı. Kapılardan birinin ardında araba diğer ikisinde ise keçi vardır. Yarışmacı Monty ile kapıların karşısında dururken arabayı kazandıracak kapıyı bulma şansı 3'te 1'dir. Yarışmacı bir kapıyı seçtikten sonra Monty yarışmacının seçmemiş olduğu kapılardan birini açar ve her zaman keçilerden birini bize gösterir. Bu noktada Monty yarışmacıya seçimini değiştirmek isteyip istemediğini sorar: İlk olarak seçtiği kapalı kapıdan vazgeçip diğer kapalı kapıyı seçmeyi. Kararını değiştirmeli midir? E vet . Yarışmacının ilk seçimine sadık kalması durumunda 1...

Devamı

Preprocessing için PCA( Principal Component Analysis) Kullanımı

Eylül 03, 2021

T ürkçesi “Temel Bileşenler Analizi” olan PCA tanıma, sınıflandırma, görüntü sıkıştırma alanlarında kullanılan yararlı bir istatistiksel tekniktir. Temel amacı yüksek boyutlu verilerde en yüksek varyans ile veri setini tutmak ancak bunu yaparken boyut indirgemeyi sağlamaktır. Fazla boyutlu verilerdeki genel özellikleri bularak boyut sayısının azaltılmasını, verinin sıkıştırılmasını sağlar. Boyut azalmasıyla bazı özelliklerin kaybedileceği kesindir; fakat amaçlanan, bu kaybolan özelliklerin popülasyon hakkında çok az bilgi içeriyor olmasıdır. Bu yöntem, yüksek korelasyonlu değişkenleri bir araya getirerek, verilerdeki en çok varyasyonu oluşturan “temel bileşenler” olarak adlandırılan daha az sayıda yapay değişken kümesi oluşturur. PCA verid e ki gerekli bilgileri ortaya çıkarmada oldukça etkili bir yöntemdir. PCA’in arkasında yatan temel mantık çok boyutlu bir veriyi, verideki temel özellikleri yakalayarak daha az sayıda değişkenle göst...

Devamı

Makine Öğrenmesinde Değişken Seçimi

Temmuz 07, 2020

Bu çalışmamızda model seçimi önemini UCI dizinindeki banka pazarlama veri kümesi üzerinden inceleyelim. Amaç müşterilerin özelliklerine ve ekonomik göstergelere bakarak müşterilerin kampanya tekliflerine dönüş yapıp yapmayacağını tahmin etmek. Elimizdeki problem iki sınıftan oluşan bir sınıflandırma problemi, burada Random Forest Algoritmasını kullandım. Algoritmanın iç işleyişini anlama konusunda yetkin olmak önemli olmakla birlikte, bulguları makine öğrenimi hakkında teorik / pratik bilgisi olmayan bir kitleye iletebilmek çok daha önemlidir. Sadece algoritmanın iyi tahmin ettiğini göstermek yeterli değildir. Tahminleri, doğruluğunuza katkıda bulunan giriş verilerinin öğelerine atfetmelisiniz. Neyse ki, sklearn veri kümesindeki özelliklerin tahmin gücünü açıklamamıza yardımcı olan “ değişken önemi(feature importances) ” adı verilen bir çıktı vermektedir . Ancak, bu çıktının dezavantajlarını ve bunların üstesinden nasıl ge...

Devamı

Veri Bilimi ile COVID-19 Vaka Tahmini

Haziran 01, 2020

COVID-19 vaka sayılarında görüldüğü üzere değerler arasında bir korelasyon vardır. Bugünün değeri, yarın ve ondan sonraki birkaç gün için bize bir tahmin üretme olanağı tanır. Bu değerleri sıralı bir şekilde grafiğe döktüğümüzde eğrinin ilk başlarda üssel bir artışa sahip olduğunu ancak zamanla bu artışın yavaşladığını görürüz. Buradan hareketle ileriye yönelik tahminleri değerler arasındaki farka bakarak daha kolay tahmin edebiliriz. Örneğin vaka sayısı iki gün önce 800 , dün 780 olan bir ülkede, bugün 760 civarında yeni vaka çıkacağını tahmin edebiliriz. O yüzden verileri farklılaştırarak şu şekilde dönüştürebiliriz : değer(t) = gözlem(t) - gözlem(t - 1) Model Kurulumu

Devamı

COVID-19 İçin Veri Görselleştirmesi: İtalya-Türkiye-İran Karşılaştırması

Mayıs 10, 2020

COVID-19 salgını ilk başladığında Çin hariç hemen hemen tüm ülkeler bu durumu pek ciddiye almadı. Virüs kapıdan içeri girdiğinde bile alınan önlemler yetersizdi ve bu durum çok daha büyük felaketlere yol açtı. Virüs kimi ülkelerde çok hızlı yayıldı ve öldürücülük oranı normalin üstüne çıktı. Uzmanlar uzunca bir süredir bu konu hakkında düşünüp konuşuyorlar. Bu yazımızda biz de birbirlerine her açıdan çok benzeyen üç ülke ;İtalya,Türkiye ve İran'ın COVID-19 verilerine göz atacağız. Grafikler üzerinden farklılıkları anlamaya ve çıkarımlar yapmaya çalışacağız. İlk Bakış : Pandemi Öncesi Genel Bilgiler

Devamı

Bu Blogda Ara

Veri Analisti

Kayıtlar

Adversarial Validator

MONTY HALL PROBLEMİ

Preprocessing için PCA( Principal Component Analysis) Kullanımı

Makine Öğrenmesinde Değişken Seçimi

Veri Bilimi ile COVID-19 Vaka Tahmini

COVID-19 İçin Veri Görselleştirmesi: İtalya-Türkiye-İran Karşılaştırması