Oskar Riandi: Penemu Notula, Aplikasi Pengubah Suara Jadi Tulisan

Suara.com - Anda tidak perlu menggunakan jemari untuk mengetikan kata demi kata saat membuat sebuah tulisan. Cukup bicara atau membacakan kalimat yang ingin ditulis di hadapan laptop.

Maka tulisan atau teks muncul otomatis sesuai dengan apa yang Anda bacakan atau bicarakan. Jika Anda seorang jurnalis, maka tidak perlu mentranskripsi hasil wawancara Anda.

Cukup sodorkan ponsel ke narasumber, dan tulisan atau teks muncul otomatis persis seperti pernyataan yang dikeluarkan narasumber.

Teknologi seperti itu nyata adanya. Sang penciptanya bernama Oskar Riandi. Di sebuah rumah di Kompleks Lingga Indah, Bintara Jaya, Kota Bekasi, Oskar bersama 15 anak buahnya menciptakan aplikasi bernama Notula. Sebuah aplikasi yang mentranskripsi dari ucapan menjadi tulisan berdasarkan Pedoman Umum Ejaan Bahasa Indonesia yang disempurnakan secara otomatis dan saat itu juga (real time).

Ditemui suara.com di kantornya, Oskar memamerkan aplikasi tersebut. Sebuah telepon pintar layar sentuh dihubungkan ke komputer canggih melalui kabel data. Perbincangan suara.com dengan Oskar dicatat otomatis dalam layar komputer. Ponsel Oskar berfungsi sebagai ‘mic’ untuk menangkap suara.

Sampai saat ini aplikasi transkripsi otomatis Oscar sudah digunakan di beberapa lembaga negara untuk mencatat hasil rapat. Sementara aplikasi mobile sampai saat ini belum diluncurkan.

“Tapi ini sudah siap diluncurkan, hanya menunggu saja,” jelas Oskar.

Teknologi transkripsi dari suara ke teks bukan hal baru di dunia. Google dan Nuance Communications sudah lebih canggih kembangkan aplikasi itu. Namun, khusus untuk teknologi transkripsi bahasa Indonesia belum ada.

Oskar sudah mengembangkan teknologi ini sejak tahun 1992, banyak penghargaan sudah dia dapatkan. Usaha keras Oskar itu akan mengubah cara kerja seseorang di segala bidang. Namun yang lebih penting, akan banyak pengembangan teknologi baru di Indonesia dengan penemuan teknologi aplikasi transkripsi bahasa Indonesia ini.

Apa saja teknologi yang bisa dikembangkan? Sejauhmana teknologi suara dan bahasa penting untuk kehidupan manusia?

Berikut wawancara suara.com dengan Oskar:

Anda menemukan aplikasi transkipsi otomatis dengan mengubah suara menjadi teks. Bisa ceritakan soal aplikasi itu?

Betul, ini buatan anak bangsa, kami mengembangkan teknologi bahasa. Perusahaan kami akan fokus ke teknologi perubahan bahasa suara menjadi teks.

Kami menyadari betul, kalau bahasa Indonesia ini punya kita. Tapi justru yang memulai riset bahasa Indonesia dari pihak asing. Di Jepang ada 3 lembaga yang meriset bahasa Indonesia. Mereka adalah NARA Institute of Science and Technology, Advanced Telecommunications Research Institute International (perusahaan swasta di Jepang), dan National Institute of Information and Communications Technology (NICT).

Mereka melakukan riset bahasa dari teks menjadi suara. Bahkan NARA sudah bisa mentranlasi dari bahasa Indonesia ke empat bahasa daerah, Jawa, Sunda, Batak dan Bali. Mereka sudah maju sekali. Alasan mereka ingin melestarikan bahasa dunia. Sementara di Indonesia belum.

Perusahaan software asal Amerika Serikat, Nuance Communications juga melakukan riset yang sama. Bahkan sudah mengeluarkan produknya tahun 2012, namanya Dragon Dictation. Kemudian yang lebih mengerikan Google yang sudah sangat maju dan mengeluarkan produknya memerintahkan mesin cari dengan menggunakan suara.

Lalu buat orang Indonesia apakah masih perlu membuat aplikasi yang sama? Bisa saja orang Indonesia tinggal pakai dari produk itu. Saya bilang, Indonesia masih perlu untuk membuat. Karena bahasa Indonesia punya kita. Masa, untuk keperluan teknologi seperti ini, harus pakai punya Jepang. Alangkah naifnya, yang punya bahasa Indonesia tidak menguasai teknologinya. Ini masalah keualatan data suara.

Bagaimana awalnya Anda menciptakan aplikasi ini?

Saya meneliti soal suara ini sejak S1 di Jepang. Pertama-tama saya membuat aplikasi pengubah suara menjadi teks angka sampai belasan. Karena keterbatasan kemampuan komputer. Kami betul-betul tertolong dengan kemajuan komputer. Sekarang server kita rakit sendiri bisa melakukan simulasi. Apalagi saat ini ada teknologi menggunakan deep neural network, bagaimana manusia mempersepsikan sesuatu dari data-data yang pernah dia baca. Begitu juga memahami suara yang pernah saya dengar.

Untuk serius mengembangkan ini, Anda sampai mundur dari BPPT…

Saya mengundurkan diri tahun 2013.

Kenapa mundur?

Dari sisi mempercepat akselerasi dan skala agak berat jika menggunakan dana riset pemerintah. Ketika kita masuk ke industri, dananya akan lebih dari itu. Saya pertama kali lihat Nuance tahun 2012 saya shock. Karena kami merasa speed engine kami paling cepat. Ternyata tidak.

Kapan mulai serius menggarap aplikasi ini?

Tahun 2005 betul-betul saya membuatnya karena komputer sudah bagus. Awalnya saya buat untuk air ticket reservation, bagaimana memesan tiket pakai suara. Setelah itu jadi, saya mengajukan aplikasi untuk penyandang tuna rungu. Untuk penyiar TV kalau ngomong, suara di running teks. Tapi tidak bisa terlaksana, karena program pemerintah belum mengarah ke sana. Akhirnya saya membantu bagaimana penyandang cacat menggunakan computer dengan bersuara. Itu saya ajukan di 2007, tapi tidak bisa dibiayai oleh BPPT.

Tapi saya punya kenalan di salah satu swasta untuk membawa proposal saya ke Asia Pacific Telecommunity (APT). Di sana lolos dan dibuayai dengan waktu 6 bulan harus selesai. Menyelesaikan sistem komputer yang dioperasikan pakai suara. Itu dibuat dari nol. Akhirnya jadi dan disambut baik. Saat itu belum bisa untuk menulis. Baru mengoperasikan suara ke perintah. Seperti mengetik website.

Jika sampai di sana, utilisasi-nya masih rendah. Saya berpikir untuk membuat aplikasi fungsi detection untuk bahasa Indonesia. Ini saya kembangkan sendiri dengan teman-teman BPPT yang mau membantu tanpa dibayar. Maka jadilah saat itu nama aplikasinya LiSan (linux dengan lisan).

Itu yang menjadi cikal bakal aplikasi saat ini. Karena bisa dikembangkan ke berbagai fungsi. Sampai saat ini saya terus berusaha mengembangkan untuk masyarakat berkebutuhan khusus.

Teknologi seperti ini, Anda yang membuat pertama kali?

Sebenarnya ini teknologi umum. Tinggal mengganti komponen bahasanya. Lalu disesuaikan dengan kondisi lokal. Tantangannya harus ada treatment khusus. Aplikasi ini harus disesuaikan dengan kondisi lingkungan. Sehingga dalam suasana bising apapun, aplikasi ini bisa membaca suara. Tidak ada persoalan mengumpulkan suara, tapi bagaimana mesin membaca suara dalam keadaan bising. Aplikasi ini bisa belajar sendiri sehingga menyesuaikan perkembangan.

Jadi baru perusahaan Anda yang mengembangkan aplikasi ini?

Di Indonesia belum ada yang nemabang data suara ini, tapi secara de facto baru perusahaan saya yang melakukan. Tapi Google dan Nuance sudah. Tapi perusahaan Indonesia baru perusahaan saya.

Berapa aplikasi yang sudah Anda buat?

Sudah 5 aplikasi. Untuk rapat, voice biometric, speaker identification, pengganti keyboard, dan transkipsi khusus wartawan. Semua siap dipakai, tapi begitu ingin dijadikan produk massal kami tidak kuat dalam membiayai. Perlu infrastruktur sever sangat banyak dan besar. Karena mmasukan model suara tidak mudah, susunan bahasa percakapan tidak terstruktur sepeti tulisan, kata-kata spontan.

Jadi sebelum membuat aplikasi ini, Anda berburu suara?

Betul, dari karakter suara beragam. Karena bahasa Indonesia ini sangat kompleks. Kadang bicara mencampur berbagai jenis bahasa. Makanya saya yakin kita bisa mengalahkan Google. Teknisnya, suara direkam perkata atau juga bicara spontan. Nanti suara akan dipotong dan dipilah.

Kami memasukkan suara-suara dari orang-orang yang dari suku bangsa-suku bangsa besar di Indonesia. Lalu sesuai dengan demografinya, karena orang Jawa, Sunda dan etnis tertentu lebih banyak, saya akan memasukan suara orang jawa lebih banyak. Tapi ini baru sampling, karena data kita terbatas dananya. Tapi ini harus terus berkembang.

Nuance dan Google melakukan pengumpulan suara dengan menggratiskan aplikasi suara mereka. Nuance gratis sejak 2012 dan Google sejak 2013. Kita nggak akan sanggup, apalagi perusahaan ini masih rumahan. Akan perlu sumber yang sangat besar. Jadi pantas yang main di sektor ini perusahaan raksasa semua. Jadi membutuhkan server untuk menyimpan suara yang besar sekali. Ini alasan mengapa sistem kami yang mobile belum diluncurkan ke publik. Karena kami belum sanggup menyiapkan infrastruktur yang sangat besar.

Sebesar apa modal yang diperlukan agar aplikasi ini bisa digunakan oleh masyarakat luas?

Kalau saya menggunakan aplikasi di mobile phone, saya memerlukan 1 core CPU. Jika aplikasi ini akan dipakai oleh 1000 orang dalam waktu bersamaan, maka sekurang-kurangnya saya harus memerlukan 1.000 core. Misal 1 komputer memakai 10 core. Itu kan biayanya mahal.

Saya baru tahu sebabnya, kenapa prusahaan besar yang hanya bermain di sini. Karena sangat mahal sekali. Tapi nilai yang dihasilkan sangat besar. Nilai informasi jauh lebih berharg daripada uang.

Apakah aplikasi Anda sudah dipakai untuk umum?

Kami sudah mengembangkan sejumlah aplikasi yang siap masuk ke pasar. Salah satunya untuk rapat. Sehingga orang bicara, bisa langsung tertranskip menjadi tulisan. Bahkan bisa tahu siapa yang bicara. Ini sudah digunakan di KPK, Dinas Psikologi TNI AU, Kementerian Lingkungan Hidup dan Kehutanan, dan Hotel Salak. Kami pun mengikuti lelang pengadaan barang untuk aplikasi transkipsi rapat otomatis ini.

Seberapa jauh presisi aplikasi ini untuk mengubah suara menjadi teks?

Lebih dari 70 persen akurat. Bahkan kalau saya mengucapkan kalimat harga, maka sudah otomatis yang tertera adalah angka beserta rupiah. Begitu juga jika saya menyebut nama gelar akademik sudah bisa otomatis ditulis singkatan seperti DR, M.Sc, Prof dan sebagainya. Ini selayaknya presisi seperti orang mengetik tulisan manual.

Kami juga mengembangkan aplikasi untuk mobile. Untuk pengganti keyboard ponsel yang saat ini kebanyakan pakai sistem layar sentuh. Dengan adanya aplikasi ini, kita hanya perlu bicara dan tulisan akan muncul otomatis di halaman pengetikan aplikasi WhatsApp, BlackBerry, maupun Telegram.

Kami juga mengembangkan aplikasi untuk wartawan. Sehingga saat wawancara, cukup direkam menggunakan ponsel dan bisa otomatis muncul kalimat apa yang dikatakan narasumber secara waktu bersamaan. Aplikasi ini bisa disinksonisasi dengan PC. Sehingga bisa langsung menulis berita. Nama aplikasinya, Kutulis. Ini sudah jadi, tapi belum dilaunching.

Kami juga kembangkan Aplikasi untuk biometric, atau untuk mengenali seseorang atau juga memverifikasi. Ini pernah kami pakai di sebuah instansi untuk mengetahui seseorang masih hidup atau tidak. Khususnya untu pensiunan yang sudah tua.

Setiap bulan pensiunan harus datang untuk mengambil uang pensiun. Namun bagaimana jika sakit atau tidak bisa datang karena lain hal. Mereka datang untuk menandakan jika maasih hidup. Dengan adanya aplikasi suara, maka mereka tidak perlu datang. Cukup verifikasi suara lewat telepon saja, dan uang akan ditransfer.

Kami juga membuat sistem untuk website. Jadi kita bisa bicara ke sebuah website, dan kata-kata yang disebutkan otomatis menjadi tulisan. Jadi ini nantinya bisa digunakan untuk menjadi barang di situs ecommers, oleh seseorag yang tengah menyetir mobil.

Mereka bisa mencari barang yang mereka inginkan tanpa harus mengetik ke smartphone mereka. Karena kalau ngetik smartphone sambil menyetir, akan sangat bahaya. Karena ketika kita bicara ke engine, seperti bicara ke teman kita sendiri. Ini bisa memudahkan komunikasi antara manusia dan mesin.

Saat ini kita sedang dijajah oleh keyboard, mouse dan touchscreen. Manusia aslinya berkomunikasi dengan suara.

Kita bisa membuat ini untuk penyandang cacat. Orang yang tidak mempunyai tangan untuk mengupdate Facebook sulit, maka bisa menggunakan suara. Kita jembatani dengan aplikasi seperti ini. Mereka bisa mandiri. Google home baru akan dilaunching bulan ini, semua operasi rumah dikomunikasikan dengan suara.

Bahkan Google membuat pembayaran apapun dengan suara. Tinggal verifikasi dengan suara, maka bisa menggunakan Google Pay. Tidak perlu mengeluarkan dompet dan ponsel. Konsep kerjanya sudah sangat saya pahami, dan bisa diaplikasikan di Indonesia.

Mengapa teknologi suara menjadi penting untuk dikembangkan?

Suara mempunyai nilai informasi biometric. Dalam suara kita bisa mengetahui jeniskelamin, usia, dan karakter suara. Kenapa punya nilai biometric? Kita punya email Google, Facebook, WhatsApp dan lain-lain. Pada suatu saat kita menggunakan WhatsApp untuk telepon, saat itu lah suara kita di-profile. Suara berkorelasi dengan email tertentu. Seseorang bisa mem-profile data biometric dari jarak jauh. Beda dengan sidik jari jika ingin verifikasi harus datang dengan menempelkan. Tapi suara bisa diambil di mana pun juga.

Ketika menggunakan android yang tersambung ke server-server penyedia jasa aplikasi, data itu ditangkap meraka, semua informasi. Termasuk suara juga diambil. Nah kedaulatan data kita semakin diambil. Nah kalau kita bisa menyediakan platfoam seperti itu di server-server dalam negeri. Sehingga suara itu tidak diambil oleh siapapun. Sekarang menggunakan aplikasi apa saja? Semua sampai ke server orang.

Suara itu lebih banyak informasinya dibanding 1 sidik jari. Suara itu mempunyai hampir 200 ciri untuk membedakan antara suara satu dengan yang lain. Jadi informassi suara sangat valid. Setiap orang punya vokal tengkleng yang beda, panjang leher beda, bentuk leher beda, bentuk gigi beda, dan bentuk hidung beda, itu menyebabkan suara orang berbeda-beda karakteristiknya. Jadi yang kayak begini harus orang Indonesia mengerjakan, jangan mau suara-suaranya diambil.

Sekarang perusahaan raksasa enak sekali, tinggal panen suara setiap hari lewat smarphone yang kita pakai. Masa nggak sadar kedaulatan suara kita.

Bagaimana dengan potensi di Indonesia?

Industri market dalam negeri mempunyai sangat besar. Ini yang melatarbelakangi saya sejak tahun 1992 sampai sekarang saya fokus mengerjakan teknologi suara ke tulisan, tulisan ke suara, translasi bahasa ke bahasa lain. Karena saya sadar potensi yang terkandung sngat besar.

Berapa prediksi keuntungan pendapatan materi dari pengembangan aplikasi tersebut?

Nuance revenue-nya sudah 2 miliar dolar setahun. Apalagi di Indonesia pengguna smartphone-nya besar sekali. Itu bisa menumbuhkan industri kreatif Indonesia dan menahan laju penggalian informasi suara ke luar negeri.

Apa saja kegunaan lain teknologi ini?

Perusahaan kami bisa mengetahui trending topic yang dibicarakan di sebuah stasiun radio. Termasuk untuk mengetahui siaran komersial TV.

Saya bisa tahu sebuah iklan disiarkan di mana saja dan berapa kali ditayangkan, bahakan mengetahu jumlah penontonnya lewat televisi berbasis IP, seperti Indihome. Sehingga saya bisa memberikan data perbandingan antara produk pesaing. Sehingga produk itu bisa memperbaiki teknis marketing beriklan di sebuah TV. Hal ini baru digarap oleh perusahaan luar lewat ratting. Nilat marketnya Rp150 triliun.

Teknologi ini bisa digunakan untuk menggantikan verifikasi ATM yang selama ini menggunakan PIN yang rawan pencurian. Kalau dengan suara, tidak akan bisa diadopsi.

Teknologi ini juga bisa dimanfaatkan dokter untuk mendokumentasikan medical record. Pencatatan rekam medic di Indonesia terkendala karena penulisan. Rekam medic harus didokumentasikan. Agar mudah, dokter cukup bicara dan aplikasi ini bekerja mengetik sendiri. Kecepatan bicara 5 kali lebih cepat. Waktu praktek dokter pun bisa lebih hemat sampai 80 persen.

Dengan pencatatan rekam medic, maka akan mengidentifikasi jenis penyakit yang ditangani dan persediaan stok obat. Sehingga pemesanan obat di rumah sakit tidak mubazir dan berlebih. Jika electronic medical record bisa diaplikasikan dengan online, maka Kementerian Kesehatan bisa mengakses jenis penyakit yang ditangani harian. Jepang dan Amerika Serikat sudah menggunakan ini.

Big data di Indonesia masih banyak berisi tentang teks. Misal dari koran, media online dan lainnya. Sementara suara terus mengalir setiap hari. Berapa ribu stasiun radio, TV dan contact center.

Berapa total pengeluaran uang untuk riset?

Banyak. Tapi akumulasi pengetahuan bisa lebih besar dari apa yang sudah dikeluarkan. Kami dengan metodologi tertentu dan sumber daya yang sedikit, aplikasi bisa langsung digunakan.

Berapakah harga aplikasi?

Tahun pertama 2015, kita sudah bisa menjual 4 lesensi atau aplikasi. Harga 2 lisensi nggak sampai Rp1 miliar. Tahun ini kami ikut di pengadaan pemerintah. Sembari nanti menunggu aplikasi lain ada yang minat untuk membiayai dan kerjasama.

Saat ini sudah 5 negara yang datang menawari kerjasama, dari Rusia, Jepang, Cina, Hongkong, dan Malaysia. Begitu dibeli, maka kami akan mengupdate suara. Update akan dilakukan terus menerus. Setiap hari kami mencari suara baru. Kami mencari suara dari Youtube dan radio tertentu untuk mencari suara dan kata. Kami membangun aplikasi ini dari nol.

Untuk versi mobile, berapa harga yang anda patok?

Belum dihitung sampai sekarang. Tapi misalnya Rp1.000 untuk langganan perbulan sudah cukup dengan pengguna 10 juta orang. Ini menggiurkan sekali.

Saya memang bidangnya S1 teknik elektro tentang noural network. Mengontrol pembangkit listrik dengan neural network. S2 saya soal speed prosesing. Saya S2 di Jepang ikut membantu pengembangan aplikasi interaksi manusia dengan mesin. Itu cukup membantu untuk bekebutuhan khusus.

Membangun perusahaan ini dengan mengenalkan teknologi baru. Lalu bagaimana proses mencari karyawannya? Tentu perlu orang-orang yang harus belajar teknologi baru juga?

Ini teknologi padat modal. Saya mencari orang-orang yang mempunyai nasionalisme tinggi. Perusahan ini masih modal sendiri. Saya patungan dengan beberapa orang. Kalau diserahkan ke asing sudah sejak beberapa bulan lalu. Tapi saya mempertahankan nasionalismenya.

Karyawan ada 15 orang. Ada yang berlatar belakang speech, software engineering, sastra dan desain. Komplit lah kita.

Berapa investasi yang harus dikeluarkan?

Sangat besar, tidak sampai triliunan. Misal target market Rp1 triliun, maka jumlah uang 20 persen dari nilai itu sudah harus disiapkan.

Anda belum dapat keuntungan?

Belum. Baru setahun. Tapi tahun ini kita yakin bisa melampauai target.

Biografi singkat Oskar Riandi

Oskar Riandi lahir di Cirebon, 25 Juli 1967. Dia adalah ilmuan jebolan Jepang yang berhasil membuat aplikasi berbasis suara. Dia pakar teknologi bahasa. Oscar mantan karyawan BPPT. Dia merupakan sarjana lulusan Universitas Waseda, Jepang dan lulusan S2 di Information Science dari Japan Advanced Institute of Science and Technology (JAIST) dengan spesialisasi Pemrosesan Suara.

Sebagai ilmuan dan inovasinya, Oskar pernah menjadi nominator ICT Award untuk kategori RND pada tahun 2008, LiSan, SIDoBI, dan Perisala. Dia juga termasuk 3 dari 101 Inovasi Indonesia Paling Prospektif yang diselenggarakan Kementrian RISTEK dan Business Innovation Center (BIC) tahun 2009. Tahun 2010 dia mendapatkan Ristek Award untuk kategori Teknologi Inovatif. Dia juga pernah mendapatkan Satya Lencana Pembangunan dari Presiden Susilo Bambang Yudhoyono.

Saat ini Oskar mendirikan perusahaan riset bernama PT. Bahasa Kinerja Utama (PT. BAHASA KITA). Perusahaan ini merupakan perusahaan yang berkonsentrasi pada bidang teknologi informasi. Khususnya teknologi suara dan bahasa.

Di bawah kepemimpinannya, perusahaan Oskar mempunyai SDM dalam pengembangan teknologi bahasa cukup lengkap dan beragam. Di antaranya pakar dalam teknologi transkripsi, pakar mesin komputasi, ahli coding, dan berbagai keahlian lain dalam bidang teknologi informasi. Produk utama yang sudah dihasilkan adalah NOTULA, mesin transkripsi ucapan menjadi tulisan. Teknologi yang dihasilkan antara transkripsi ucapan ke tulisan, sintesa tulisan ke ucapan, terjemah bahasa dan terjemah suara ke suara.