Guess the Image Game with Wav2Vec Model (https://www.kaggle.com/datasets/pavansanagapati/images-dataset)
Pada proyek ini dilakukan penerapan model CNN Wav2Vec dengan baseline 960H yang telah disediakan untuk menganalisis input suara user dalam bahasa inggris sebagai jawaban tebakan pada gambar yang disediakan pada dataset yang telah diintegrasikan ke permainan. Jawaban dari user kemudian dikonversi ke teks dan dicocokan ke kunci jawaban, jika tepat maka mendapat poin selama waktu belum habis.
In this project, the CNN Wav2Vec model with a 960H baseline is applied to analyze user-provided audio input in English as responses to guesses on images included in the integrated dataset for a game. The user's responses are then converted into text and matched against the answer key. If the response is correct, the user earns points as long as the time has not run out.