Studi Baru Mengungkap Kesenjangan Mengejutkan dalam Empati AI
Agen percakapan (CA) seperti Alexa dari Amazon dan Siri dari Apple dirancang untuk menjawab pertanyaan, menawarkan saran, dan bahkan menunjukkan empati. Namun, penelitian baru menunjukkan bahwa mereka masih kalah dibandingkan manusia dalam menafsirkan dan mengeksplorasi pengalaman pengguna.
CA didukung oleh mannequin bahasa besar (LLM) yang menyerap sejumlah besar knowledge yang dihasilkan manusia, sehingga rentan terhadap bias yang sama dengan manusia yang menjadi sumber informasi tersebut.
Para peneliti dari Cornell College, Olin School, dan Stanford College menguji teori ini dengan mendorong CA untuk menunjukkan empati saat berbicara dengan atau sekitar 65 identitas manusia yang berbeda.
Penilaian Nilai dan Ideologi Berbahaya
Tim tersebut menemukan bahwa CA membuat penilaian terhadap identitas tertentu – seperti homosexual dan Muslim – dan dapat mendorong identitas yang terkait dengan ideologi berbahaya, termasuk Nazisme.
“Saya pikir empati otomatis dapat memberikan dampak yang luar biasa dan potensi besar untuk hal-hal positif – misalnya, di sektor pendidikan atau layanan kesehatan,” kata penulis utama Andrea Cuadra, yang sekarang menjadi peneliti pascadoktoral di Stanford.
“Sangat kecil kemungkinannya (empati otomatis) tidak akan terjadi,” katanya, “jadi penting bagi kita untuk memiliki perspektif kritis ketika hal ini terjadi sehingga kita dapat lebih berhati-hati dalam memitigasi potensi kerugian.”
Cuadra akan membawakan “Ilusi Empati? Catatan tentang Tampilan Emosi dalam Interaksi Manusia-Komputer” di CHI '24, konferensi Asosiasi Mesin Komputasi tentang Faktor Manusia dalam Sistem Komputasi, 11-18 Mei di Honolulu. Rekan penulis penelitian di Cornell College termasuk Nicola Dell, profesor madya, Deborah Estrin, profesor ilmu komputer, dan Malte Jung, profesor ilmu informasi.
Reaksi Emosional vs. Interpretasi
Para peneliti menemukan bahwa, secara umum, LLM mendapat nilai tinggi untuk reaksi emosional, namun mendapat nilai rendah untuk interpretasi dan eksplorasi. Dengan kata lain, LLM mampu merespons pertanyaan berdasarkan pelatihan mereka namun tidak mampu menggali lebih dalam.
Dell, Estrin, dan Jung mengatakan mereka terinspirasi untuk memikirkan pekerjaan ini ketika Cuadra mempelajari penggunaan CA generasi sebelumnya oleh orang dewasa yang lebih tua.
“Dia menyaksikan penggunaan teknologi yang menarik untuk tujuan transaksional seperti penilaian kelemahan kesehatan, serta untuk pengalaman kenang-kenangan terbuka,” kata Estrin. “Sepanjang perjalanan, dia mengamati contoh jelas ketegangan antara 'empati' yang memaksa dan mengganggu.”
Referensi: “Ilusi Empati? Catatan tentang Tampilan Emosi dalam Interaksi Manusia-Komputer” oleh Andrea Cuadra, Maria Wang, Lynn Andrea Stein, Malte F. Jung, Nicola Dell, Deborah Estrin dan James A. Landay, 11 Mei 2024, CHI '24.
DOI: 10.1145/3613904.3642336
Pendanaan untuk penelitian ini berasal dari Nationwide Science Basis; Beasiswa Doktor Inisiatif Kehidupan Digital Cornell Tech; Beasiswa Postdoctoral Stanford PRISM Baker; dan Institut Stanford untuk Kecerdasan Buatan yang Berpusat pada Manusia.