KASUS 1: COVID-19
Karena penyebaran COVID-19, pengembangan vaksin dituntut sesegera mungkin. Terlepas dari pentingnya analisis data dalam pengembangan vaksin, tidak banyak dataset sederhana yang dapat ditangani oleh pada analis data. Kumpulan data dan kode sampel telah dikumpulkan untuk prediksi epitop Bcell, salah satu topik penelitian utama dalam pengembangan vaksin, tersedia secara gratis. Dataset ini dikembangkan selama proses penelitian kami dan data yang terkandung di dalamnya diperoleh dari IEDB dan UniProt. Sel B yang menginduksi respon imun spesifik antigen in vivo menghasilkan sejumlah besar antibodi spesifik antigen dengan mengenali subregion (wilayah epitop) protein antigen. Sel B ini dapat menghambat fungsinya dengan mengikat antibodi ke protein antigen. Memprediksi daerah epitop bermanfaat untuk desain dan pengembangan vaksin yang bertujuan untuk menginduksi produksi antibodi spesifik antigen. Sel B inilah menjadi dataset utama yang dipakai pada proyek ini. Dataset ini memuat kolom: parentproteinid, proteinseq, startposition, endposition, peptideseq, choufasman, emini, kolaskartongaonkar, parker, hydrophobicity, isoelectric_point, aromacity, stability, dan target.
Selanjutnya, Anda akan belajar menggunakan Scikit-Learn, Keras, TensorFlow, NumPy, Pandas, Seaborn, dan sejumlah Pustaka lain untuk memprediksi COVID-19 Epitope menggunakan dataset COVID-19/SARS B-cell Epitope Prediction yang disediakan di Kaggle. Model-model machine learning yang digunakan adalah K-Nearest Neighbor, Random Forest, Naive Bayes, Logistic Regression, Decision Tree, Support Vector Machine, Adaboost, Gradient Boosting, XGB classifier, dan MLP classifier.
Kemudian, Anda akan mempelajari cara menerapkan model CNN sekuensial dan VGG16 untuk mendeteksi dan memprediksi Covid-19 X-RAY menggunakan COVID-19 Xray Dataset (Train & Test Sets) yang disediakan di Kaggle. Folder itu sendiri terdiri dari dua subfolder: test dan train.
Terakhir, Anda akan mengembangkan GUI menggunakan PyQt5 untuk menampilkan batas-batas keputusan tiap model, ROC, distribusi fitur, keutamaan fitur, skor validasi silang, nilai-nilai prediksi versus nilai-nilai sebenarnya, matriks confusion, rugi pelatihan, dan rugi akurasi.
KASUS 2: STROKE
Menurut Organisasi Kesehatan Dunia (WHO), stroke adalah penyebab kematian ke-2 secara global, yang bertanggung jawab atas sekitar 11% dari total kematian.
Dataset yang digunakan pada penelitian ini berguna untuk memprediksi kemungkinan seorang pasien terkena stroke berdasarkan parameter masukan seperti jenis kelamin, usia, berbagai penyakit, dan status merokok. Setiap baris dalam data memberikan informasi yang relevan tentang pasien. Informasi tiap kolom: id: Pengenal unik; gender: "Male", "Female" atau "Other"; age: Usia pasien; hypertension: 0 jika pasien tidak memiliki hipertensi, 1 jika pasien memiliki hipertensi; heartdisease: 0 jika pasien tidak memiliki penyakit jantung, 1 jika pasien memiliki penyakit jantung; evermarried: "No" atau "Yes"; worktype: "children", "Govtjov", "Neverworked", "Private" atau "Self-employed"; Residencetype: "Rural" atau "Urban"; avgglucoselevel: Rata-rata kadar glukosa dalam darah; bmi: body mass index; smoking_status: "formerly smoked", "never smoked", "smokes" atau "Unknown"*; stroke: 1 jika pasien mengalami stroke atau 0 jika tidak.
Selanjutnya, Anda akan belajar menggunakan Scikit-Learn, Keras, TensorFlow, NumPy, Pandas, Seaborn, dan sejumlah Pustaka lain untuk menganalisa dan memprediksi stroke menggunakan dataset yang disediakan di Kaggle. Model-model yang digunakan adalah K-Nearest Neighbor, Random Forest, Naive Bayes, Logistic Regression, Decision Tree, Support Vector Machine, Adaboost, Gradient Boosting, LGBM classifier, XGB classifier, MLP classifier, dan CNN 1D.
Terakhir, Anda akan mengembangkan GUI menggunakan Qt Designer dan PyQt5 untuk ROC, distribusi fitur, keutamaan fitur, menampilkan batas-batas keputusan tiap model, diagram nilai-nilai prediksi versus nilai-nilai sebenarnya, matriks confusion, rugi pelatihan, rugi akurasi, kurva pembelajaran model, skalabilitas model, dan kinerja model.