PROJE GITHUB CLASSROOM ASSIGNMENT BAĞLANTISI
https://classroom.github.com/a/sIOGcsCv
Genel Bakış
Bu proje, YMT5270 - Yenilikçi Makine Öğrenme Ortamları dersi kapsamında verilen final projesidir. Bu projede, H2O.ai platformunu kullanarak açık erişimli bir veri seti üzerinden kapsamlı bir veri analizi ve makine öğrenmesi uygulaması geliştirmeniz beklenmektedir. Odak noktası, bir sınıflandırma veya regresyon problemi çözmek ve detaylı keşifsel veri analizi yapmaktır.
Proje Hedefleri
Bu projenin ana hedefleri:
- H2O.ai platformunu etkili bir şekilde kullanabilme becerisi kazanmak.
- Keşifsel Veri Analizi (EDA) tekniklerini uygulamak.
- Seçilen veri setine uygun sınıflandırma veya regresyon makine öğrenmesi modellerini uygulamak.
- Model performansını değerlendirme, sonuçları yorumlama ve elde edilen içgörüleri sunma becerilerini geliştirmek.
Gereksinimler
Projeyi tamamlamak için aşağıdaki gereksinimleri yerine getirmeniz gerekmektedir:
- Veri Seti Seçimi: Kaggle, UCI Machine Learning Repository, Google Dataset Search gibi açık erişimli kaynaklardan bir veri seti seçilmelidir. Veri seti tercihen en az 5 öznitelik ve 100 örnek içermelidir. Veri setinin kaynağı ve lisans bilgileri (.ipynb dosyasında) belirtilmelidir.
- Keşifsel Veri Analizi (EDA): H2O.ai'nin veri keşfi yetenekleri veya Python/R kütüphaneleri (Pandas, Matplotlib, Seaborn vb.) kullanılarak detaylı EDA yapılmalıdır. Veri seti içeriğinin tanımlanması. Temel istatistiklerin hesaplanması. Eksik verilerin tespiti ve işlenmesi (H2O'nun bu konudaki yetenekleri de incelenebilir). Aykırı değerlerin belirlenmesi. Öznitelikler arasındaki ilişkilerin incelenmesi. Uygun görselleştirmelerin yapılması (histogramlar, kutu grafikleri, dağılım grafikleri vb.). Makine Öğrenmesi Uygulaması:
- H2O.ai platformunda veri setinize uygun olarak aşağıdakilerden BİRİNİ seçip uygulayınız: Sınıflandırma: Hedef değişkeniniz kategorik ise. Regresyon: Hedef değişkeniniz sayısal ise. H2O.ai'nin otomatik makine öğrenmesi (AutoML) özelliğini kullanarak birden fazla model denenebilir ve en iyi performans gösteren model seçilebilir. Model eğitimi, doğrulama ve test süreçleri açıkça gösterilmelidir.
- Değerlendirme ve Yorumlama: Kullanılan modellerin performansının (metrikler: accuracy, precision, recall, F1-score, RMSE, MAE vb.) değerlendirilmesi ve karşılaştırılması. Elde edilen sonuçların yorumlanması, iş içgörülerinin sunulması ve gelecekteki çalışmalar için önerilerde bulunulması.
Teslim Edilecek Dosyalar
Projeyi tamamladıktan sonra, GitHub Classroom üzerinden oluşturulan bu depoya sadece bir adet Jupyter Notebook (.ipynb) dosyası yükleyiniz.
proje_final.ipynb (veya benzer bir isimde): Bu dosya, tüm veri keşfi, veri ön işleme, H2O.ai model eğitimi, değerlendirme ve yorumlama adımlarını içeren ana çalışmanız olacaktır. Notebook'un başında veri seti bilgileri, projenin amacı ve kullanılan kütüphaneler açıkça belirtilmelidir.