Aritmia merupakan gangguan irama jantung yang dapat berujung pada
komplikasi serius jika tidak terdeteksi sejak dini. Salah satu pendekatan yang
digunakan untuk mendeteksi aritmia secara otomatis adalah melalui analisis
sinyal elektrokardiogram (EKG) yang dikonversi menjadi citra. Penelitian ini
mengusulkan pemanfaatan arsitektur Vision Transformer (ViT) dan dua tu-
runannya, yaitu Pyramid Vision Transformer (PvT) dan Data-efficient Image
Transformer (DeiT), untuk mengklasifikasikan aritmia berdasarkan citra EKG
yang telah diproses melalui segmentasi beat dan ritme. Proses klasifikasi dila-
kukan melalui beberapa tahapan utama, yaitu segmentasi sinyal EKG menjadi
tujuh kelas (A, L, N, R, V, AFIB, AFL), konversi sinyal ke citra RGB berukur-
an 224×224 piksel, serta pelatihan model menggunakan skema 5-Fold Cross
Validation dalam dua skenario: tanpa dan dengan fine-tuning. Evaluasi model
dilakukan menggunakan metrik akurasi, sensitivitas, spesifisitas, dan F1-score.
Hasil eksperimen menunjukkan bahwa model PvT dengan fine-tuning membe-
rikan performa terbaik dengan akurasi 99,51%, sensitivitas 98,45%, spesifisitas
99,91%, dan F1-score 98,73%, mengungguli ViT dan DeiT. Peningkatan per-
forma ini menunjukkan bahwa kombinasi arsitektur transformer dan strategi
fine-tuning mampu menangkap representasi fitur yang lebih baik dari citra
EKG, termasuk untuk kelas minoritas seperti AFL dan A. Penelitian ini me-
negaskan bahwa pendekatan berbasis Vision Transformer, khususnya PvT,
merupakan solusi yang efektif dalam klasifikasi aritmia berbasis citra EKG,
dan memiliki potensi tinggi untuk diimplementasikan dalam sistem deteksi
aritmia real-time sebagai penunjang diagnosis klinis yang lebih akurat dan
cepat.
Kata Kunci: aritmia, Elektrokardiogram (EKG), vision transformer,
Fine-tuning, Klasifikasi Citra