Oskar Riandi: Penemu Notula, Aplikasi Pengubah Suara Jadi Tulisan

Sebesar apa modal yang diperlukan agar aplikasi ini bisa digunakan oleh masyarakat luas?

Kalau saya menggunakan aplikasi di mobile phone, saya memerlukan 1 core CPU. Jika aplikasi ini akan dipakai oleh 1000 orang dalam waktu bersamaan, maka sekurang-kurangnya saya harus memerlukan 1.000 core. Misal 1 komputer memakai 10 core. Itu kan biayanya mahal.

Saya baru tahu sebabnya, kenapa prusahaan besar yang hanya bermain di sini. Karena sangat mahal sekali. Tapi nilai yang dihasilkan sangat besar. Nilai informasi jauh lebih berharg daripada uang.

Apakah aplikasi Anda sudah dipakai untuk umum?

Kami sudah mengembangkan sejumlah aplikasi yang siap masuk ke pasar. Salah satunya untuk rapat. Sehingga orang bicara, bisa langsung tertranskip menjadi tulisan. Bahkan bisa tahu siapa yang bicara. Ini sudah digunakan di KPK, Dinas Psikologi TNI AU, Kementerian Lingkungan Hidup dan Kehutanan, dan Hotel Salak. Kami pun mengikuti lelang pengadaan barang untuk aplikasi transkipsi rapat otomatis ini.

Seberapa jauh presisi aplikasi ini untuk mengubah suara menjadi teks?

Lebih dari 70 persen akurat. Bahkan kalau saya mengucapkan kalimat harga, maka sudah otomatis yang tertera adalah angka beserta rupiah. Begitu juga jika saya menyebut nama gelar akademik sudah bisa otomatis ditulis singkatan seperti DR, M.Sc, Prof dan sebagainya. Ini selayaknya presisi seperti orang mengetik tulisan manual.

Kami juga mengembangkan aplikasi untuk mobile. Untuk pengganti keyboard ponsel yang saat ini kebanyakan pakai sistem layar sentuh. Dengan adanya aplikasi ini, kita hanya perlu bicara dan tulisan akan muncul otomatis di halaman pengetikan aplikasi WhatsApp, BlackBerry, maupun Telegram.

Kami juga mengembangkan aplikasi untuk wartawan. Sehingga saat wawancara, cukup direkam menggunakan ponsel dan bisa otomatis muncul kalimat apa yang dikatakan narasumber secara waktu bersamaan. Aplikasi ini bisa disinksonisasi dengan PC. Sehingga bisa langsung menulis berita. Nama aplikasinya, Kutulis. Ini sudah jadi, tapi belum dilaunching.

Kami juga kembangkan Aplikasi untuk biometric, atau untuk mengenali seseorang atau juga memverifikasi. Ini pernah kami pakai di sebuah instansi untuk mengetahui seseorang masih hidup atau tidak. Khususnya untu pensiunan yang sudah tua.

Setiap bulan pensiunan harus datang untuk mengambil uang pensiun. Namun bagaimana jika sakit atau tidak bisa datang karena lain hal. Mereka datang untuk menandakan jika maasih hidup. Dengan adanya aplikasi suara, maka mereka tidak perlu datang. Cukup verifikasi suara lewat telepon saja, dan uang akan ditransfer.

Kami juga membuat sistem untuk website. Jadi kita bisa bicara ke sebuah website, dan kata-kata yang disebutkan otomatis menjadi tulisan. Jadi ini nantinya bisa digunakan untuk menjadi barang di situs ecommers, oleh seseorag yang tengah menyetir mobil.

Mereka bisa mencari barang yang mereka inginkan tanpa harus mengetik ke smartphone mereka. Karena kalau ngetik smartphone sambil menyetir, akan sangat bahaya. Karena ketika kita bicara ke engine, seperti bicara ke teman kita sendiri. Ini bisa memudahkan komunikasi antara manusia dan mesin.

Saat ini kita sedang dijajah oleh keyboard, mouse dan touchscreen. Manusia aslinya berkomunikasi dengan suara.

Kita bisa membuat ini untuk penyandang cacat. Orang yang tidak mempunyai tangan untuk mengupdate Facebook sulit, maka bisa menggunakan suara. Kita jembatani dengan aplikasi seperti ini. Mereka bisa mandiri. Google home baru akan dilaunching bulan ini, semua operasi rumah dikomunikasikan dengan suara.

Bahkan Google membuat pembayaran apapun dengan suara. Tinggal verifikasi dengan suara, maka bisa menggunakan Google Pay. Tidak perlu mengeluarkan dompet dan ponsel. Konsep kerjanya sudah sangat saya pahami, dan bisa diaplikasikan di Indonesia.

Mengapa teknologi suara menjadi penting untuk dikembangkan?

Suara mempunyai nilai informasi biometric. Dalam suara kita bisa mengetahui jeniskelamin, usia, dan karakter suara. Kenapa punya nilai biometric? Kita punya email Google, Facebook, WhatsApp dan lain-lain. Pada suatu saat kita menggunakan WhatsApp untuk telepon, saat itu lah suara kita di-profile. Suara berkorelasi dengan email tertentu. Seseorang bisa mem-profile data biometric dari jarak jauh. Beda dengan sidik jari jika ingin verifikasi harus datang dengan menempelkan. Tapi suara bisa diambil di mana pun juga.

Ketika menggunakan android yang tersambung ke server-server penyedia jasa aplikasi, data itu ditangkap meraka, semua informasi. Termasuk suara juga diambil. Nah kedaulatan data kita semakin diambil. Nah kalau kita bisa menyediakan platfoam seperti itu di server-server dalam negeri. Sehingga suara itu tidak diambil oleh siapapun. Sekarang menggunakan aplikasi apa saja? Semua sampai ke server orang.

Suara itu lebih banyak informasinya dibanding 1 sidik jari. Suara itu mempunyai hampir 200 ciri untuk membedakan antara suara satu dengan yang lain. Jadi informassi suara sangat valid. Setiap orang punya vokal tengkleng yang beda, panjang leher beda, bentuk leher beda, bentuk gigi beda, dan bentuk hidung beda, itu menyebabkan suara orang berbeda-beda karakteristiknya. Jadi yang kayak begini harus orang Indonesia mengerjakan, jangan mau suara-suaranya diambil.

Sekarang perusahaan raksasa enak sekali, tinggal panen suara setiap hari lewat smarphone yang kita pakai. Masa nggak sadar kedaulatan suara kita.

Bagaimana dengan potensi di Indonesia?

Industri market dalam negeri mempunyai sangat besar. Ini yang melatarbelakangi saya sejak tahun 1992 sampai sekarang saya fokus mengerjakan teknologi suara ke tulisan, tulisan ke suara, translasi bahasa ke bahasa lain. Karena saya sadar potensi yang terkandung sngat besar.

Berapa prediksi keuntungan pendapatan materi dari pengembangan aplikasi tersebut?

Nuance revenue-nya sudah 2 miliar dolar setahun. Apalagi di Indonesia pengguna smartphone-nya besar sekali. Itu bisa menumbuhkan industri kreatif Indonesia dan menahan laju penggalian informasi suara ke luar negeri.

Apa saja kegunaan lain teknologi ini?

Perusahaan kami bisa mengetahui trending topic yang dibicarakan di sebuah stasiun radio. Termasuk untuk mengetahui siaran komersial TV.

Saya bisa tahu sebuah iklan disiarkan di mana saja dan berapa kali ditayangkan, bahakan mengetahu jumlah penontonnya lewat televisi berbasis IP, seperti Indihome. Sehingga saya bisa memberikan data perbandingan antara produk pesaing. Sehingga produk itu bisa memperbaiki teknis marketing beriklan di sebuah TV. Hal ini baru digarap oleh perusahaan luar lewat ratting. Nilat marketnya Rp150 triliun.

Teknologi ini bisa digunakan untuk menggantikan verifikasi ATM yang selama ini menggunakan PIN yang rawan pencurian. Kalau dengan suara, tidak akan bisa diadopsi.

Teknologi ini juga bisa dimanfaatkan dokter untuk mendokumentasikan medical record. Pencatatan rekam medic di Indonesia terkendala karena penulisan. Rekam medic harus didokumentasikan. Agar mudah, dokter cukup bicara dan aplikasi ini bekerja mengetik sendiri. Kecepatan bicara 5 kali lebih cepat. Waktu praktek dokter pun bisa lebih hemat sampai 80 persen.

Dengan pencatatan rekam medic, maka akan mengidentifikasi jenis penyakit yang ditangani dan persediaan stok obat. Sehingga pemesanan obat di rumah sakit tidak mubazir dan berlebih. Jika electronic medical record bisa diaplikasikan dengan online, maka Kementerian Kesehatan bisa mengakses jenis penyakit yang ditangani harian. Jepang dan Amerika Serikat sudah menggunakan ini.

Big data di Indonesia masih banyak berisi tentang teks. Misal dari koran, media online dan lainnya. Sementara suara terus mengalir setiap hari. Berapa ribu stasiun radio, TV dan contact center.

Berapa total pengeluaran uang untuk riset?

Banyak. Tapi akumulasi pengetahuan bisa lebih besar dari apa yang sudah dikeluarkan. Kami dengan metodologi tertentu dan sumber daya yang sedikit, aplikasi bisa langsung digunakan.

Berapakah harga aplikasi?

Tahun pertama 2015, kita sudah bisa menjual 4 lesensi atau aplikasi. Harga 2 lisensi nggak sampai Rp1 miliar. Tahun ini kami ikut di pengadaan pemerintah. Sembari nanti menunggu aplikasi lain ada yang minat untuk membiayai dan kerjasama.

Saat ini sudah 5 negara yang datang menawari kerjasama, dari Rusia, Jepang, Cina, Hongkong, dan Malaysia. Begitu dibeli, maka kami akan mengupdate suara. Update akan dilakukan terus menerus. Setiap hari kami mencari suara baru. Kami mencari suara dari Youtube dan radio tertentu untuk mencari suara dan kata. Kami membangun aplikasi ini dari nol.

Untuk versi mobile, berapa harga yang anda patok?

Belum dihitung sampai sekarang. Tapi misalnya Rp1.000 untuk langganan perbulan sudah cukup dengan pengguna 10 juta orang. Ini menggiurkan sekali.

Saya memang bidangnya S1 teknik elektro tentang noural network. Mengontrol pembangkit listrik dengan neural network. S2 saya soal speed prosesing. Saya S2 di Jepang ikut membantu pengembangan aplikasi interaksi manusia dengan mesin. Itu cukup membantu untuk bekebutuhan khusus.

Membangun perusahaan ini dengan mengenalkan teknologi baru. Lalu bagaimana proses mencari karyawannya? Tentu perlu orang-orang yang harus belajar teknologi baru juga?

Ini teknologi padat modal. Saya mencari orang-orang yang mempunyai nasionalisme tinggi. Perusahan ini masih modal sendiri. Saya patungan dengan beberapa orang. Kalau diserahkan ke asing sudah sejak beberapa bulan lalu. Tapi saya mempertahankan nasionalismenya.

Karyawan ada 15 orang. Ada yang berlatar belakang speech, software engineering, sastra dan desain. Komplit lah kita.

Berapa investasi yang harus dikeluarkan?

Sangat besar, tidak sampai triliunan. Misal target market Rp1 triliun, maka jumlah uang 20 persen dari nilai itu sudah harus disiapkan.

Anda belum dapat keuntungan?

Belum. Baru setahun. Tapi tahun ini kita yakin bisa melampauai target.

Biografi singkat Oskar Riandi

Oskar Riandi lahir di Cirebon, 25 Juli 1967. Dia adalah ilmuan jebolan Jepang yang berhasil membuat aplikasi berbasis suara. Dia pakar teknologi bahasa. Oscar mantan karyawan BPPT. Dia merupakan sarjana lulusan Universitas Waseda, Jepang dan lulusan S2 di Information Science dari Japan Advanced Institute of Science and Technology (JAIST) dengan spesialisasi Pemrosesan Suara.

Sebagai ilmuan dan inovasinya, Oskar pernah menjadi nominator ICT Award untuk kategori RND pada tahun 2008, LiSan, SIDoBI, dan Perisala. Dia juga termasuk 3 dari 101 Inovasi Indonesia Paling Prospektif yang diselenggarakan Kementrian RISTEK dan Business Innovation Center (BIC) tahun 2009. Tahun 2010 dia mendapatkan Ristek Award untuk kategori Teknologi Inovatif. Dia juga pernah mendapatkan Satya Lencana Pembangunan dari Presiden Susilo Bambang Yudhoyono.

Saat ini Oskar mendirikan perusahaan riset bernama PT. Bahasa Kinerja Utama (PT. BAHASA KITA). Perusahaan ini merupakan perusahaan yang berkonsentrasi pada bidang teknologi informasi. Khususnya teknologi suara dan bahasa.

Di bawah kepemimpinannya, perusahaan Oskar mempunyai SDM dalam pengembangan teknologi bahasa cukup lengkap dan beragam. Di antaranya pakar dalam teknologi transkripsi, pakar mesin komputasi, ahli coding, dan berbagai keahlian lain dalam bidang teknologi informasi. Produk utama yang sudah dihasilkan adalah NOTULA, mesin transkripsi ucapan menjadi tulisan. Teknologi yang dihasilkan antara transkripsi ucapan ke tulisan, sintesa tulisan ke ucapan, terjemah bahasa dan terjemah suara ke suara.