Demensia Digital? AI Menunjukkan Tanda-tanda Penurunan Kognitif yang Mengejutkan

Esiklopedia Telkom University Portal rangkuman informasi dari semua cabang pengetahuan Januari 19, 2025

0 17 2 minutes read

Demensia Digital? AI Menunjukkan Tanda-tanda Penurunan Kognitif yang Mengejutkan

Konsep Kegagalan Kecerdasan Buatan yang Rusak — Sebuah studi di The BMJ mengungkapkan bahwa model bahasa besar terkemuka menunjukkan tanda-tanda gangguan kognitif ringan ketika menjalani tes yang biasanya digunakan untuk deteksi dini demensia. Kredit: SciTechDaily.com

Temuan ini menantang asumsi bahwa AI akan segera menggantikan dokter manusia

Penelitian menunjukkan bahwa model AI teratas menunjukkan gangguan kognitif yang mirip dengan gejala demensia awal ketika dievaluasi dengan tes MoCA. Temuan ini menggarisbawahi keterbatasan AI dalam aplikasi klinis, khususnya dalam tugas-tugas yang memerlukan keterampilan visual dan eksekutif.

Gangguan Kognitif pada AI

Hampir semua model bahasa besar terkemuka, atau “chatbots,” menunjukkan tanda-tanda gangguan kognitif ringan ketika diuji menggunakan penilaian yang biasa digunakan untuk mendeteksi demensia dini, menurut sebuah penelitian yang diterbitkan dalam edisi Natal majalah tersebut. BMJ.

Studi ini juga menemukan bahwa versi lama dari chatbot ini, seperti halnya pasien manusia lanjut usia, memiliki kinerja yang lebih buruk dalam tes tersebut. Para penulis berpendapat bahwa temuan ini “menantang asumsi bahwa kecerdasan buatan akan segera menggantikan dokter manusia.”

Kemajuan dan Spekulasi AI

Kemajuan terbaru dalam kecerdasan buatan telah memicu kegembiraan dan kekhawatiran tentang apakah chatbots dapat melampaui dokter manusia dalam tugas medis.

Meskipun penelitian sebelumnya telah menunjukkan bahwa model bahasa besar (LLM) unggul dalam berbagai tugas diagnostik medis, potensi kerentanannya terhadap gangguan kognitif yang mirip dengan manusia, seperti penurunan kognitif, sebagian besar masih belum dieksplorasi—hingga saat ini.

Mengevaluasi Kemampuan Kognitif AI

Untuk mengisi kesenjangan pengetahuan ini, para peneliti menilai kemampuan kognitif LLM terkemuka yang tersedia untuk umum – ChatGPT versi 4 dan 4o (dikembangkan oleh OpenAI), Claude 3.5 “Sonnet” (dikembangkan oleh Anthropic), dan Gemini versi 1 dan 1.5 (dikembangkan oleh Alfabet) – menggunakan tes Montreal Cognitive Assessment (MoCA).

Tes MoCA banyak digunakan untuk mendeteksi gangguan kognitif dan tanda-tanda awal demensia, biasanya pada orang dewasa lanjut usia. Melalui sejumlah tugas dan pertanyaan singkat, ia menilai kemampuan termasuk perhatian, memori, bahasa, keterampilan visuospasial, dan fungsi eksekutif. Skor maksimalnya adalah 30 poin, dengan skor 26 atau lebih umumnya dianggap normal.

Kinerja AI pada Tes Kognitif

Instruksi yang diberikan kepada LLM untuk setiap tugas sama dengan instruksi yang diberikan kepada pasien manusia. Penilaian mengikuti pedoman resmi dan dievaluasi oleh ahli saraf yang berpraktik.

ChatGPT 4o meraih skor tertinggi pada tes MoCA (26 dari 30), diikuti oleh ChatGPT 4 dan Claude (25 dari 30), dengan Gemini 1.0 mendapatkan skor terendah (16 dari 30).

Tantangan dalam Fungsi Visual dan Eksekutif

Semua chatbot menunjukkan kinerja yang buruk dalam keterampilan visuospasial dan tugas eksekutif, seperti tugas membuat jejak (menghubungkan angka dan huruf yang dilingkari dalam urutan menaik) dan tes menggambar jam (menggambar tampilan jam yang menunjukkan waktu tertentu). Model Gemini gagal dalam tugas mengingat yang tertunda (mengingat urutan lima kata).

Sebagian besar tugas lainnya, termasuk penamaan, perhatian, bahasa, dan abstraksi dilakukan dengan baik oleh semua chatbots.

Namun, dalam pengujian visuospasial lebih lanjut, chatbots tidak mampu menunjukkan empati atau menafsirkan adegan visual kompleks secara akurat. Hanya ChatGPT 4o yang berhasil dalam tahap pengujian Stroop yang tidak selaras, yang menggunakan kombinasi nama warna dan warna font untuk mengukur pengaruh interferensi terhadap waktu reaksi.

Implikasi AI dalam Pengaturan Klinis

Ini adalah temuan observasi dan penulis mengakui perbedaan mendasar antara otak manusia dan model bahasa besar.

Namun, mereka menunjukkan bahwa kegagalan semua model bahasa besar dalam tugas-tugas yang memerlukan abstraksi visual dan fungsi eksekutif menyoroti kelemahan signifikan yang dapat menghambat penggunaannya dalam pengaturan klinis.

Oleh karena itu, mereka menyimpulkan: “Tidak hanya ahli saraf kemungkinan tidak akan tergantikan oleh model bahasa besar dalam waktu dekat, namun temuan kami menunjukkan bahwa mereka mungkin akan segera merawat pasien virtual baru – model kecerdasan buatan yang mengalami gangguan kognitif.”

Referensi: “Usia melawan mesin—kerentanan model bahasa besar terhadap gangguan kognitif: analisis cross sectional” oleh Roy Dayan, Benjamin Uliel dan Gal Koplewitz, 20 Desember 2024, BMJ.
DOI: 10.1136/bmj-2024-081948