Meme merupakan konten media internet yang populer dan menyebar dengan cepat di platform media sosial. Orang-orang dapat mengekspresikan ide, kritik, ketertarikan, atau ketidaksukaan mereka melalui meme. Namun dalam beberapa kasus, orang lain mungkin menginterpretasikan meme secara berbeda dan merasa tidak senang dengan hal tersebut. Variasi dalam interpretasi meme ini menjadi tantangan tersendiri dalam analisis sentimen, karena meme dapat dinilai negatif atau positif oleh individu yang berbeda. Oleh karena itu, dibutuhkan sebuah sistem otomatis yang dapat secara konsisten memprediksi polaritas sentimen meme. Meme adalah konten multimodal yang dapat terdiri dari komponen visual dan tekstual, yang cocok untuk studi analisis polaritas sentimen. Untuk memodelkan sebuah sistem yang secara efektif memanfaatkan fitur multimodal, model tersebut perlu memahami fitur yang ada pada meme. Penelitian ini mengusulkan model deep learning gabungan—BERT dan Densenet121—yang menggabungkan teks, gambar, dan fitur cluster berdasarkan face encoding yang diekstraksi. Untuk menilai konteks teks yang lebih baik, model BERT dilatih dengan deteksi teks sarkasme. Dataset SemEval 2020 Task 8: Memotion Analysis yang umum dijumpai dalam tugas analisis sentimen digunakan dalam penelitian ini karena memiliki anotasi yang komprehensif tentang sentimen dan sarkasme berbasis meme, yang selaras dengan pendekatan penelitian ini. Hasilnya menunjukkan bahwa model deep learning gabungan yang diterapkan deteksi teks sarkasme mencapai Macro-F1 0.3047 dan akurasi 0.3738, melampaui performa model baseline resmi (0.2176) untuk dataset Memotion sebesar 40%, dengan kemampuan yang lebih baik dalam mendeteksi sentimen positif dan netral serta mengurangi negatif palsu sarkasme dibandingkan model dasarnya. Hal ini menyoroti efektivitas integrasi deteksi sarkasme ke dalam kerangka kerja model untuk klasifikasi sentimen yang kuat dalam meme.