Bayangkan kamu terbangun sendirian di luar angkasa, dan tiba-tiba ada makhluk asing mengetuk dinding pesawatmu. Ia tidak punya mulut, tidak punya mata — tapi ia berbicara. Dalam bentuk nada musik. Bagaimana kamu mulai memahaminya?
Itulah tantangan yang dihadapi Ryland Grace dalam film Project Hail Mary (2026). Ia bertemu Rocky, makhluk dari planet Erid yang berkomunikasi menggunakan paduan nada musik — bukan kata-kata seperti manusia. Dalam artikel ini, kita akan membedah secara sederhana bagaimana Grace membangun sistem penerjemahan dari bahasa Rocky ke bahasa Inggris, dan mengapa sebuah teknik matematika bernama Short-Time Fourier Transform (STFT) ada di jantung sistem itu.
Pertama: Bahasa Rocky Itu Seperti Apa?
Rocky tidak berbicara dengan huruf vokal atau konsonan seperti manusia. Setiap "kata" dalam bahasa Eridian terdiri dari satu hingga lima nada yang dimainkan secara bersamaan — seperti kord di piano, bukan melodi satu nada.
Analogi Musik
Kalau manusia bicara seperti memainkan satu jari di piano (satu nada per waktu), Rocky bicara seperti memainkan beberapa jari sekaligus — menghasilkan kord. Kombinasi kord yang berbeda = kata yang berbeda.
Rocky juga menggunakan nada tinggi-rendah untuk mengekspresikan emosi (seperti intonasi dalam bahasa manusia), tapi kombinasi kord di dalam satu oktaf itulah yang membawa makna kata sebenarnya.
Langkah 1: Menyadari Rocky Berkomunikasi Lewat Suara
Sebelum Grace bisa membangun sistem apapun, ia harus memahami bagaimana Rocky merasakan dunia. Grace menyadari bahwa Rocky tidak punya mata — ia buta total. Sebagai gantinya, Rocky merasakan sekelilingnya lewat ekolokasi, seperti kelelawar atau lumba-lumba.
Ini berarti Rocky tidak bisa membaca tulisan, tidak bisa melihat gambar. Satu-satunya "jendela" komunikasi yang tersedia adalah suara. Maka Grace memutuskan: sistem terjemahan harus berbasis audio
Analogi Sehari-hari
Coba bayangkan kamu harus menjelaskan warna kepada seseorang yang lahir buta. Kamu tidak bisa menggunakan gambar. Kamu harus temukan cara lain — mungkin lewat suhu, tekstur, atau suara. Grace menghadapi situasi serupa.
Langkah 2: Masalah Inti — Suara Rocky Itu Rumit
Ketika Rocky berbicara, yang tertangkap oleh mikrofon Grace adalah sebuah gelombang suara tunggal yang kompleks. Gelombang ini sebenarnya adalah gabungan dari beberapa frekuensi (nada) yang terjadi bersamaan — persis seperti ketika kamu memukul beberapa tuts piano sekaligus dan hasilnya adalah satu bunyi yang kamu dengar.
Masalahnya: komputer tidak tahu mana nada mana. Yang ia terima hanyalah satu sinyal yang tampak seperti gelombang naik-turun yang rumit. Grace perlu "memisahkan" gelombang kompleks itu kembali menjadi nada-nada penyusunnya.
Analogi Kue
Bayangkan kamu melihat sebuah kue jadi. Kamu tidak bisa langsung tahu bahannya apa. Tapi dengan analisis kimia yang tepat, kamu bisa memisahkan tepung, gula, telur, dan mentega. Fourier Transform melakukan hal serupa — ia memisahkan "bahan-bahan" frekuensi dari suara gabungan Rocky.
Langkah 3: Fourier Transform — Kacamata Ajaib untuk Suara
Fourier Transform adalah teknik matematika yang mengubah sinyal suara dari representasi "waktu" (gelombang naik-turun) menjadi representasi "frekuensi" (daftar nada dan intensitasnya). Ini adalah alat standar dalam ilmu sinyal — dan Andy Weir secara eksplisit menyebutkan bahwa Grace menggunakannya dalam novel.
Tapi ada satu masalah dengan Fourier Transform biasa: ia menganalisis seluruh rekaman sekaligus. Ini sama seperti merekam seluruh percakapan satu jam, lalu baru menganalisisnya — kamu tidak tahu kata mana muncul di menit ke-5 versus menit ke-30.
Langkah 4: Short-Time Fourier Transform (STFT) — Solusi yang Lebih Cerdas
Di sinilah STFT masuk. Alih-alih menganalisis keseluruhan suara sekaligus, STFT memotong rekaman menjadi jendela-jendela waktu pendek, lalu menerapkan Fourier Transform pada setiap jendela.
Analogi Senter
Bayangkan kamu mencoba membaca buku dalam gelap menggunakan senter. Kamu tidak bisa menyinari seluruh halaman sekaligus (hasilnya kabur). Kamu gerakkan senter perlahan dari kiri ke kanan, menerangi bagian kecil demi bagian kecil. STFT melakukan hal yang sama — menyinari suara sedikit demi sedikit, dari awal hingga akhir.
Hasil dari STFT adalah sebuah spektrogram: gambar dua dimensi di mana:
- Sumbu horizontal = waktu (kapan suara terjadi)
- Sumbu vertikal = frekuensi (nada apa yang muncul)
- Kecerahan/warna = seberapa kuat nada tersebut
Dari spektrogram ini, Grace bisa melihat dengan jelas: "Kata pertama Rocky = kombinasi nada A rendah dan A tengah. Kata kedua = nada C tinggi dan C rendah. Kata ketiga = ..." dan seterusnya.
Langkah 5: Dari Nada ke Kata — MIDI dan Spreadsheet
Setelah STFT memisahkan frekuensi per jendela waktu, setiap kombinasi nada perlu dikodekan ke dalam format yang bisa dikelola oleh kamus. Di sinilah MIDI masuk.
MIDI (Musical Instrument Digital Interface) adalah standar komputer untuk merepresentasikan nada sebagai angka — misalnya, nada A4 = angka 69, C5 = 72, dan seterusnya. Dengan mengkonversi deteksi frekuensi STFT menjadi nomor MIDI, setiap "kata" Rocky menjadi sebuah kumpulan angka yang unik.
Grace kemudian membangun sebuah spreadsheet (Excel) sederhana:
Ketika Rocky berbicara, sistem bekerja secara otomatis: STFT deteksi nada → konversi ke MIDI → cek spreadsheet → text-to-speech membacakan terjemahan ke Grace. Semuanya terjadi hampir secara real-time.
Alur Lengkap Sistem Terjemahan
- Rocky berbicara : Menghasilkan kord nada via lima "pipa suara" internal yang mendorong gas amonia melewati membran getar.
- Mikrofon menangkap gelombang suara : Sinyal audio mentah — terlihat seperti satu gelombang kompleks yang bercampur aduk.
- STFT memotong & menganalisis per jendela waktu : Setiap potongan kecil dianalisis frekuensinya. Hasilnya: spektrogram yang menunjukkan nada apa yang aktif di setiap momen.
- Peak detection — deteksi nada dominan : Sistem mencari puncak-puncak frekuensi di setiap jendela, mengidentifikasi kombinasi nada yang aktif (satu "kord kata").
- Konversi ke nomor MIDI : Frekuensi yang terdeteksi dikonversi ke nomor MIDI standar — mengubah fisika gelombang menjadi data yang bisa disimpan di spreadsheet.
- Cek kamus (spreadsheet Excel) : Kombinasi MIDI dicari di tabel yang Grace bangun secara manual — awalnya hanya puluhan kata, lalu ratusan seiring waktu.
- Text-to-speech : Teks bahasa Inggris diucapkan keras oleh komputer — itulah suara yang kita dengar dari Rocky di film (diisi oleh James Ortiz).
Keterbatasan Sistem — Apa yang Tidak Dibahas Film?
Sistem ini terdengar elegan, tapi ada beberapa celah besar yang perlu kita akui:
- Masalah 1: Kebetulan yang Terlalu Sempurna : STFT dan MIDI bekerja karena Rocky secara kebetulan menggunakan sistem 12 nada per oktaf yang sama dengan manusia, dengan referensi nada yang hampir identik (A=440 Hz). Probabilitas dua spesies yang berevolusi secara terpisah di planet berbeda mencapai standar ini sangat kecil
- Masalah 2: Kamus Tidak Bisa Menangkap Abstraksi : Ketika Grace menjelaskan bahwa Rocky "berani" (brave), tidak ada cara logis bagi spreadsheet untuk menerjemahkan konsep abstrak itu ke dalam Eridian. Kamus berbasis lookup hanya bekerja untuk kata-kata konkret yang bisa ditunjuk atau didemonstrasikan.
- Masalah 3: Pergeseran Nada Emosional : Ketika Rocky marah atau gembira, nada suaranya bergeser naik atau turun. Jika STFT menangkap pergeseran ini sebagai bagian dari "kata", sistem lookup akan gagal — karena kord yang sama di frekuensi berbeda akan terdeteksi sebagai kata yang berbeda.
Solusi yang lebih modern dan realistis? Pakar machine learning menyarankan menggunakan model seperti HuBERT (model self-supervised audio) yang bisa belajar memisahkan nada emosional dari nada leksikal secara otomatis, tanpa perlu asumsi tentang standar MIDI manusia.
Bacaan Lanjutan (Kalau Kamu Penasaran)
Kalau artikel ini membuatmu ingin menggali lebih dalam, berikut beberapa topik yang bisa kamu eksplorasi:
- Short-Time Fourier Transform — cari tutorial di YouTube dengan kata kunci "STFT spectrogram explained simply"
- Xenolinguistik — cabang linguistik yang mempelajari bagaimana manusia mungkin berkomunikasi dengan entitas non-manusia
- CETI Project — proyek nyata yang mencoba menerjemahkan bahasa paus sperma menggunakan teknik audio serupa
- Film Arrival (2016) — pendekatan berbeda untuk masalah yang sama: bagaimana membangun komunikasi dengan alien dari nol
- Novel Project Hail Mary (Andy Weir, 2021) — detail teknis jauh lebih kaya dibanding filmnya


Top comments (0)