Pada penelitian sebelumnya, komponen emosi dalam klasifikasi musik sangatlah kuat dibandingkan komponen lainnya. Namun, setelah video menjadi salah satu fitur visual yang melengkapi musik, pengguna dapat memahami isi dari musik lebih baik dibandingkan hanya berdasarkan audio. Oleh karena itu, dilakukan penelitian membangun model pengenalan emosi musik secara audiovisual menggunakan sistem klasifikasi hirarkis. Penelitian ini menggunakan 120 data video musik dengan label emosi berdasarkan website AllMusic yang terbagi kedalam empat kelas yaitu "Happy", "Angry", "Sad", dan "Relax". Classifier yang digunakan pada pengujian sistem klasifikasi hirarkis adalah Support Vector Machine (SVM) dan k-Nearest Neighbors (KNN). Hasil rata-rata performansi f1-score tertinggi dari classifier yang diuji adalah 84% (Dataset Audio) dan 82.33% (Dataset Audiovisual) dengan struktur classifier SVM-KNN.