Media sosial kini berfungsi sebagai platform utama bagi orang untuk membagikan pengalaman dan pandangan, termasuk yang berkaitan dengan kesehatan mental. Namun, analisis data yang ada menghadapi beberapa tantangan, seperti perbedaan jenis seperti teks dan gambar dan pola ekspresi yang rumit. Penelitian ini bertujuan untuk merancang model analisis sentimen multimodal yang dapat mendeteksi masalah kesehatan mental di media sosial X dengan menggabungkan metode Convolutional Neural Network (CNN), Gated Recurrent Units(GRU), dan ekspansi fitur FastText. Metodologi yang diusulkan mencakup pengumpulan data secara real-time dari media sosial X, meliputi teks dan gambar. Data teks diolah dengan teknik praproses standar dan representasi fitur FastText, sedangkan data visual diambil menggunakan VGG-16 untuk mengenali pola visual yang relevan. 24.742 pasangan tweet gambar dikumpulkan dari platform Twitter dan dianotasi melalui sistem pemungutan suara mayoritas. Untuk membangun korpus kemiripan FastText, 63.512 data dari portal berita digital CNN dan Twitter digabungkan penggabungan modalitas dilakukan melalui lapisan integrasi untuk menghasilkan klasifikasi sentimen akhir (positif dan negatif). Hasil evaluasi pada dataset uji menunjukkan bahwa metode ini mampu meningkatkan akurasi deteksi sentimen hingga 0,12% dibandingkan metode yang hanya berbasis teks. Secara keseluruhan, akurasi yang diperoleh mencapai 87,89%. Dengan capaian ini, diharapkan penelitian ini dapat menjadi referensi dalam pemantauan isu kesehatan mental di media sosial X secara lebih efektif.