Veri Bilimi ile COVID-19 Vaka Tahmini

 COVID-19 vaka sayılarında görüldüğü üzere değerler arasında bir korelasyon vardır. Bugünün değeri, yarın ve ondan sonraki birkaç gün için bize bir tahmin üretme olanağı tanır. Bu değerleri sıralı bir şekilde grafiğe döktüğümüzde eğrinin ilk başlarda üssel bir artışa sahip olduğunu ancak zamanla bu artışın yavaşladığını görürüz.


 Buradan hareketle ileriye yönelik tahminleri değerler arasındaki farka bakarak daha kolay tahmin edebiliriz. Örneğin vaka sayısı iki gün önce 800 , dün 780 olan bir ülkede, bugün 760 civarında yeni vaka çıkacağını tahmin edebiliriz.
 O yüzden verileri farklılaştırarak şu şekilde dönüştürebiliriz :
 değer(t) = gözlem(t) - gözlem(t - 1)


Model Kurulumu


 Makine öğrenmesi model kurma sürecinde veriler train ve test verileri olmak üzere ikiye ayrılır. Bu veri setleri rastgele(Random walk)  bölünür ve train veri seti üzerinden test veri seti tahmin edilmeye çalışılır. Zaman serilerinde ise yukarıda anlatıldığı üzere ardışık veriler arasında yüksek bir bağlantı vardır. Verileri rastgele bir biçimde böldüğümüzde tahminlerimiz gerçekten oldukça uzak değerler alır. Bu yüzden verileri ilk %66'sı train ve geri kalanı test olacak şekilde ikiye ayırıyoruz. (Non-Random Walk Theory)
 
 Ardından model tarafından öğrenilen regresyon katsayıları çıkartılır ve test veri setinde tahminler yapmak için kullanılır. Türkiye için oluşturulan modele baktığımızda, test verilerinin bazen sıçramalar yaptığını ancak modelin değer değişimi konusunda daha temkinli davrandığını görüyoruz. 
           



Tahmin


Bir tahmin yapmak, kaydedilen modelin yüklenmesini ve bir sonraki seferde gözlemin tahmin edilmesini içerir.

Örneğimiz, bir sonraki zaman diliminin nasıl tahmin edilebileceğini gösterir.

Model, train veri seti ve son gözlem dosyadan yüklenir.

Modelin ürettiği değişim tahminine son günün vaka sayısı girilerek yarınki vaka sayısı tahmini yapılır. 

Örneğin 31 Mayıs 2020 tarihine kadar olan veriler kullanılarak bir tahmin yapıldı. Buna göre 1 Haziran 2020 olası yeni vaka sayısı model tarafından 762 olarak tahmin edilmiştir. 



Sonuç

Veri seti sürekli olarak güncelleneceğinden modelin tahminleri zaman içinde değişkenlik gösterecektir. 

26 Haziran 2020 Türkiye Yeni Vaka Tahmini : 1415


Bu makaledeki tüm analizler için yazdığım kodlara buradan erişilebilir


Yorumlar

Bu blogdaki popüler yayınlar

Preprocessing için PCA( Principal Component Analysis) Kullanımı

Adversarial Validator

Makine Öğrenmesinde Değişken Seçimi