Rumah Audio Saya mendengar orang mati? teknologi bahasa alami membuat suara masa lalu dan sekarang menjadi hidup

Saya mendengar orang mati? teknologi bahasa alami membuat suara masa lalu dan sekarang menjadi hidup

Daftar Isi:

Anonim

Saat ini, sebagian besar suara komputer ketinggalan jaman. Anda mungkin tidak terlalu peduli tentang cyborg dan robot ketika Anda mendengar "droid" di ponsel Anda membantu Anda dengan pembayaran tagihan atau menanyakan departemen apa yang Anda inginkan. Tetapi bagaimana jika Anda tiba-tiba mendengar Kurt Cobain meminta informasi kartu? Atau John F. Kennedy bercerita tentang keajaiban pemilihan awal? Atau Elvis menurunkan nama dan alamatmu sebelum membobol "sebongkah, sebongkah cinta yang membara?"


Semua ini akan … agak aneh, tetapi yang lebih menarik adalah bahwa teknologi ini pada dasarnya sudah ada di sini. Hanya satu dekade yang lalu, kami kagum dengan kemampuan komputer untuk berbicara sama sekali. Sekarang, kita akan dilantai oleh suara bebas yang dihasilkan komputer yang terdengar seperti orang yang kita kenal.

Perubahan Besar dalam NLP

Jika Anda memperhatikan bidang pemrosesan bahasa alami (NLP), Anda mungkin telah mendengar tentang beberapa kemajuan terbaru yang melampaui jenis suara asisten virtual kalengan yang sekarang kita dengar di sistem penentuan posisi global (GPS) dan bisnis otomatis kami saluran telepon.


Permulaan NLP membutuhkan banyak penelitian ke dalam mekanisme umum bicara manusia. Para peneliti dan insinyur harus mengidentifikasi masing-masing fonetik, melipatnya menjadi algoritma yang lebih besar untuk menghasilkan frasa dan kalimat, dan kemudian mencoba mengelola semua itu pada tingkat meta untuk menghasilkan sesuatu yang terdengar nyata. Seiring waktu, para pemimpin NLP menguasainya dan mulai membangun algoritma canggih untuk memahami apa yang dikatakan manusia. Dengan menggabungkan kedua hal ini, perusahaan menghasilkan driver untuk asisten virtual hari ini dan pegawai pembayaran tagihan sepenuhnya digital, yang tingkah lakunya - walaupun menjengkelkan - masih menakjubkan ketika Anda berhenti untuk memikirkan pekerjaan yang dilakukan pada mereka.


Sekarang, beberapa perusahaan melampaui suara virtual umum untuk mengumpulkan hasil personalisasi yang lebih spesifik. Ini membutuhkan melalui leksikon orang tertentu dan mengumpulkan sejumlah besar video suara yang unik, kemudian menerapkan arsip ini pada ritme kompleks untuk fonetik, penekanan, irama, dan semua isyarat kecil lainnya yang sering dikelompokkan oleh ahli bahasa di bawah bendera "prosodi".


Apa yang keluar adalah suara yang pendengar anggap sebagai "dimiliki" oleh orang tertentu - baik seseorang yang mereka kenal dan telah berbicara dengan, atau seseorang yang suaranya mereka kenali sebagai akibat dari ketenaran orang tersebut.


Dari Elvis ke Martin Luther King, suara siapa pun sekarang dapat "dikloning" dengan cara ini - asalkan ada rekaman substansial rekaman dari pidato mereka. Dengan menerapkan analisis dan manipulasi yang lebih rinci pada suara kecil individu, perusahaan dapat membuat salinan karbon virtual dari suara seseorang yang terdengar sangat mirip dengan yang asli.

Kreasi "Teks ke Suara" yang Menyenangkan di VivoText

VivoText, misalnya, adalah salah satu perusahaan yang bekerja untuk merevolusi penggunaan suara manusia buatan untuk semua jenis kampanye, dari buku audio hingga respon suara interaktif (IVR). Di VivoText, tim riset dan produksi sedang mengerjakan proses yang, secara teoritis, dapat secara khusus meniru suara selebriti yang telah meninggal, seperti Ol 'Blue Eyes sendiri.


"Untuk mengkloning suara Frank Sinatra, kami benar-benar akan melalui warisan rekamannya, " kata CEO VivoText, Gershon Silbert, berbicara tentang bagaimana teknologi semacam ini dapat bekerja.


Saat ini, VivoText sedang mengarsipkan suara orang-orang yang masih bersama kami, seperti koresponden NPR Neal Conan, yang telah mendaftar sebagai model untuk proyek perintis TI semacam ini. Video promosi menunjukkan pekerja VivoText dengan susah payah membuat modul kode fonetik menggunakan input suara yang disediakan dari Conan. Mereka kemudian membuat model untuk alat text to speech (TTS) yang membangkitkan hasil yang sangat manusiawi dan dipersonifikasikan.


Menurut Ben Feibleman, wakil presiden strategi dan pengembangan bisnis di VivoText, komputer bekerja pada tingkat fonem (menggunakan bagian bicara unik terkecil) untuk menyesuaikan dengan model prosodik untuk suara manusia individu.


"Ia tahu bagaimana suara berbicara, " kata Feibleman, menambahkan bahwa dengan menggunakan "pemilihan unit, " komputer memilih sejumlah bagian untuk menyusun satu kata pendek, seperti di mana kata "Jumat" diberikan lima komponen yang membantu mengembangkan penekanan dan hasil nada tertentu.

Suara Buatan dalam Pemasaran

Jadi, bagaimana cara kerjanya dalam pemasaran? Produk-produk VivoText dapat sangat berguna dalam menciptakan produk, seperti buku audio, yang dapat menjangkau audiens target. Misalnya, seberapa efektif suara Elvis dibandingkan dengan suara generik, datar, dan otomatis jika digunakan untuk menjual produk yang berhubungan dengan hiburan?


Atau, bagaimana dengan politik? Feibleman telah bekerja pada berbagai ide untuk menggunakan proyek seperti ini untuk meningkatkan pemasaran bagi perusahaan atau pihak lain yang membutuhkan pengiriman pesan yang lebih efektif.


"Jika Anda tahu ada politisi yang mencalonkan diri sebagai presiden, ini bisa membuat 10 juta pemilih negara bagian mendapat panggilan pribadi dari seorang kandidat, berterima kasih kepada mereka atas dukungan mereka, memberi tahu mereka di mana mereka harus pergi untuk memilih, cuaca dan semua fasilitas yang diperlukan malam sebelum pemilihan, "kata Feibleman.

Suara Anda Hidup

Ada aplikasi lain yang jelas untuk semua teknologi ini. Perusahaan bahasa alami seperti VivoText dapat membuat layanan pribadi yang akan mengunggah semua data suara pelanggan ke produk yang memungkinkan orang itu untuk "berbicara selamanya."


Implementasi praktis kemungkinan akan menimbulkan sejumlah pertanyaan tentang bagaimana kita mendengar dan menginternalisasi suara yang diucapkan. Misalnya, apa yang diperlukan untuk membuat aliran suara terdengar persis seperti seseorang? Seberapa baik kita harus mengenal seseorang untuk mengenali suara tertentu? Dan, yang menarik, apa yang terjadi jika layanan bahasa alami menghasilkan karikatur kasar, dan bukan mimikri yang meyakinkan?


Mengevaluasi hasil, kata Feibleman, seringkali tergantung pada pertimbangan konteks. Misalnya, dia mengatakan bahwa anak-anak biasanya tidak bertanya tentang siapa yang berbicara ketika mereka mendengarkan sebuah cerita. Mereka hanya menginginkan lebih. Tetapi juga, banyak orang dewasa mungkin tidak berpikir tentang siapa yang berbicara dengan mereka, mengingat skenario tertentu, seperti siaran pasif atau pesan telepon. Juga, lebih mudah untuk dibodohi oleh komputer melalui telepon karena suara yang diredam dapat menutupi gangguan atau perbedaan lainnya antara hasil komputer dan suara manusia.


"Tidak terpikir olehmu untuk menantang keaslian suara, " kata Feibleman.

Di Tahun 2525

Ketika perusahaan bergerak maju dalam mengembangkan produk dan layanan dan menjawab pertanyaan-pertanyaan ini, teknologi "ucapan hidup" dapat memajukan kita menuju konvergensi teknologi dan pikiran manusia, yang secara klasik disebut kecerdasan buatan (AI).


Jika komputer dapat berbicara seperti kita, mereka mungkin dapat menipu pengguna lain untuk berpikir bahwa mereka berpikir seperti kita, memasukkan prinsip singularitas yang lebih besar, seperti yang disampaikan ke dalam kamus kami oleh John von Neumann, perintis teknologi era 1950-an yang diinjili oleh para penulis dan pemikir seperti Ray Kurzweil. Buku Kurzweil 2005, "The Singularity Is Near, " menggairahkan sebagian dan menakut-nakuti yang lain. Kurzweil meramalkan bahwa pada tahun 2045, "kecerdasan" sebagai sebuah fenomena akan menjadi sangat tidak terkait dari otak manusia dan bermigrasi ke dalam teknologi, mengaburkan batas antara mesin dan tuan manusia mereka.


Diabadikan dalam lirik Zager & Evans '"In the Year 2525" (tidak ada yang balada sci-fi menyeramkan seperti orang-orang ini) …


Pada tahun 4545

Anda tidak perlu gigi, tidak perlu

matamu

Anda tidak akan menemukan sesuatu untuk dikunyah

Tidak ada yang akan melihatmu


Pada tahun 5555

Lengan Anda terkulai lemas di sisi tubuh

Kakimu tidak punya apa-apa untuk dilakukan

Beberapa mesin melakukannya untuk Anda


Apakah suara komputer merupakan langkah ke arah ini? Sebagai cara baru untuk melakukan outsourcing beberapa fungsi tubuh manusia (atau lebih umum, untuk mensimulasikannya), kemajuan teknologi semacam ini adalah salah satu yang terbesar - dan mungkin tidak dilaporkan - kemajuan di cakrawala saat kita melihat ke masa depan tunggal . (tentang "singularitas" di Will Computers Mampu Meniru Pikiran Manusia?)

Saya mendengar orang mati? teknologi bahasa alami membuat suara masa lalu dan sekarang menjadi hidup