Bagaimana Teori Permainan Membuat AI Lebih Cerdas
MIT Peneliti CSAIL telah mengembangkan “permainan konsensus” baru yang meningkatkan pemahaman teks dan keterampilan pembuatan AI.
“Permainan konsensus” MIT meningkatkan pembuatan teks AI menggunakan teori permainan. Metode ini, pemeringkatan keseimbangan, meningkatkan kinerja dan keandalan AI tetapi menghadapi tantangan komputasi. Ini dapat memajukan decoding mannequin bahasa secara signifikan.
Recreation Konsensus AI: Pendekatan Baru pada Mannequin Bahasa
Bayangkan Anda sedang bermain recreation dengan seorang teman yang tujuan Anda adalah mengomunikasikan pesan rahasia satu sama lain hanya dengan menggunakan kalimat samar. Tugas teman Anda adalah menebak pesan rahasia di balik kalimat Anda. Terkadang, Anda memberikan petunjuk secara langsung, dan di lain waktu, teman Anda harus menebak pesannya dengan menanyakan pertanyaan ya atau tidak tentang petunjuk yang Anda berikan. Tantangannya adalah Anda berdua ingin memastikan bahwa Anda memahami satu sama lain dengan benar dan menyetujui pesan rahasia tersebut.
Peneliti Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) MIT telah menciptakan “permainan” serupa untuk membantu meningkatkan cara AI memahami dan menghasilkan teks. Ini dikenal sebagai “permainan konsensus” dan melibatkan dua bagian sistem AI — satu bagian mencoba menghasilkan kalimat (seperti memberikan petunjuk), dan bagian lainnya mencoba memahami dan mengevaluasi kalimat tersebut (seperti menebak pesan rahasia).
Pendekatan Teori Permainan terhadap AI
Para peneliti menemukan bahwa dengan memperlakukan interaksi ini sebagai sebuah permainan, di mana kedua bagian AI bekerja sama berdasarkan aturan tertentu untuk menyepakati pesan yang tepat, mereka dapat secara signifikan meningkatkan kemampuan AI untuk memberikan jawaban yang benar dan koheren terhadap pertanyaan. Mereka menguji pendekatan baru yang mirip permainan ini pada berbagai tugas, seperti pemahaman membaca, menyelesaikan soal matematika, dan melakukan percakapan, dan menemukan bahwa pendekatan ini membantu AI bekerja lebih baik secara keseluruhan.
Secara tradisional, mannequin bahasa besar menjawab salah satu dari dua cara: menghasilkan jawaban langsung dari mannequin (kueri generatif) atau menggunakan mannequin untuk menilai serangkaian jawaban yang telah ditentukan (kueri diskriminatif), yang dapat menghasilkan hasil yang berbeda dan terkadang tidak sesuai. Dengan pendekatan generatif, “Siapakah presiden Amerika Serikat?” mungkin menghasilkan jawaban yang lugas seperti “Joe Biden.” Namun, pertanyaan yang diskriminatif dapat membantah fakta ini secara salah ketika mengevaluasi jawaban yang sama, seperti “Barack Obama.”
Menyeimbangkan Respons AI dengan Peringkat Ekuilibrium
Jadi, bagaimana kita merekonsiliasi prosedur penilaian yang tidak kompatibel untuk mencapai prediksi yang koheren dan efisien?
“Bayangkan cara baru untuk membantu mannequin bahasa memahami dan menghasilkan teks, seperti sebuah permainan. Kami telah mengembangkan metode teori permainan yang bebas pelatihan yang memperlakukan seluruh proses sebagai permainan petunjuk dan sinyal yang kompleks, di mana generator mencoba mengirimkan pesan yang tepat kepada diskriminator menggunakan bahasa alami. Alih-alih menggunakan bidak catur, mereka menggunakan kata-kata dan kalimat,” kata Athul Jacob, mahasiswa PhD MIT di bidang teknik elektro dan ilmu komputer dan afiliasi CSAIL. “Cara kami untuk menavigasi permainan ini adalah menemukan 'perkiraan keseimbangan', yang mengarah ke algoritma decoding baru yang disebut 'peringkat keseimbangan'. Ini adalah demonstrasi yang cukup menarik tentang bagaimana menggabungkan strategi teori permainan dapat mengatasi beberapa tantangan besar dalam membuat mannequin bahasa lebih andal dan konsisten.”
Saat diuji pada banyak tugas, seperti pemahaman membaca, penalaran akal sehat, pemecahan masalah matematika, dan dialog, algoritme tim secara konsisten meningkatkan kinerja model-model ini. Penggunaan algoritma ER dengan mannequin LLaMA-7B bahkan mengungguli hasil mannequin yang jauh lebih besar. “Mengingat mannequin ini sudah kompetitif dan sudah banyak orang yang mengerjakannya selama beberapa waktu, namun tingkat peningkatan yang kami lihat mampu mengungguli mannequin yang berukuran 10 kali lipat merupakan kejutan yang menyenangkan,” kata Jacob.
Permainan Aktif
“Diplomasi,” sebuah permainan papan strategis yang berlatar di Eropa sebelum Perang Dunia I, di mana para pemain menegosiasikan aliansi, mengkhianati teman, dan menaklukkan wilayah tanpa menggunakan dadu – hanya mengandalkan keterampilan, strategi, dan manipulasi antarpribadi – baru-baru ini hadir kembali. . Pada bulan November 2022, ilmuwan komputer, termasuk Jacob, mengembangkan “Cicero,” sebuah agen AI yang mencapai kemampuan tingkat manusia dalam permainan tujuh pemain dengan motif campuran, yang membutuhkan keterampilan yang sama, tetapi dengan bahasa alami. Perhitungan di balik hal ini sebagian mengilhami Permainan Konsensus.
Meskipun sejarah agen AI sudah lama ada sebelum perangkat lunak OpenAI memasuki dunia obrolan pada bulan November 2022, telah terdokumentasikan dengan baik bahwa mereka masih dapat bercosplay sebagai teman Anda yang bermaksud baik namun bersifat patologis.
Sistem permainan konsensus mencapai keseimbangan sebagai kesepakatan, memastikan ketepatan dan kesetiaan terhadap wawasan asli mannequin. Untuk mencapai hal ini, metode ini secara berulang menyesuaikan interaksi antara komponen generatif dan diskriminatif hingga mencapai konsensus mengenai jawaban yang secara akurat mencerminkan kenyataan dan selaras dengan keyakinan awal mereka. Pendekatan ini secara efektif menjembatani kesenjangan antara kedua metode kueri.
Penerapan dan Tantangan Praktis
Dalam praktiknya, penerapan pendekatan permainan konsensus pada kueri mannequin bahasa, terutama untuk tugas tanya jawab, memang melibatkan tantangan komputasi yang signifikan. Misalnya, saat menggunakan kumpulan knowledge seperti MMLU, yang memiliki ribuan pertanyaan dan jawaban pilihan ganda, mannequin harus menerapkan mekanisme tersebut pada setiap kueri. Kemudian harus mencapai konsensus antara komponen generatif dan diskriminatif untuk setiap pertanyaan dan kemungkinan jawabannya.
Sistem ini memang mengalami kesulitan dengan hak kelulusan sekolah dasar: soal kata matematika. Hal ini tidak boleh menghasilkan jawaban yang salah, yang merupakan komponen penting dalam memahami proses menghasilkan jawaban yang benar.
Arah masa depan
“Beberapa tahun terakhir telah terlihat kemajuan yang sangat mengesankan baik dalam pengambilan keputusan strategis maupun pembuatan bahasa dari sistem AI, namun kami baru mulai mencari cara untuk menggabungkan keduanya. Pemeringkatan keseimbangan adalah langkah pertama ke arah ini, namun saya pikir ada banyak hal yang dapat kita lakukan untuk meningkatkan skala ini ke permasalahan yang lebih kompleks,” kata Jacob.
Solusi untuk pekerjaan di masa depan adalah dengan menyempurnakan mannequin dasar dengan mengintegrasikan keluaran dari metode yang ada saat ini. Hal ini sangat menjanjikan karena dapat menghasilkan jawaban yang lebih faktual dan konsisten dalam berbagai tugas, termasuk faktualitas dan pembuatan jawaban terbuka. Metode tersebut memiliki potensi yang tinggi untuk meningkatkan performa mannequin dasar secara signifikan, sehingga dapat menghasilkan keluaran yang lebih andal dan faktual dari ChatGPT dan mannequin bahasa serupa yang digunakan orang sehari-hari.
Wawasan Pakar tentang Kemajuan AI
“Meskipun mannequin bahasa fashionable, seperti ChatGPT dan Gemini, telah mengarah pada penyelesaian berbagai tugas melalui antarmuka obrolan, proses penguraian kode statistik yang menghasilkan respons dari mannequin tersebut tetap tidak berubah selama beberapa dekade,” kata Ilmuwan Riset Google Ahmad Beirami, yang dulunya adalah tidak terlibat dalam pekerjaan tersebut. “Usulan para peneliti MIT adalah kerangka teori permainan inovatif untuk memecahkan kode mannequin bahasa melalui penyelesaian keseimbangan permainan konsensus. Peningkatan kinerja signifikan yang dilaporkan dalam makalah penelitian ini cukup menjanjikan, membuka pintu bagi potensi perubahan paradigma dalam decoding mannequin bahasa yang dapat memicu banyaknya aplikasi baru.”
Referensi: “Permainan Konsensus: Pembuatan Mannequin Bahasa melalui Pencarian Ekuilibrium” oleh Athul Paul Jacob, Yikang Shen, Gabriele Farina dan Jacob Andreas, 13 Oktober 2023, Ilmu Komputer > Ilmu Komputer dan Teori Permainan.
arXiv:2310.09139
Jacob menulis makalah tersebut bersama peneliti MIT-IBM Watson Lab Yikang Shen dan asisten profesor Departemen Teknik Elektro dan Ilmu Komputer MIT Gabriele Farina dan Jacob Andreas, yang juga merupakan anggota CSAIL. Mereka mempresentasikan karya mereka di Konferensi Internasional tentang Representasi Pembelajaran (ICLR) awal bulan ini, dan karya tersebut disorot sebagai “makalah sorotan”. Penelitian ini juga mendapatkan “penghargaan makalah terbaik” pada Lokakarya NeurIPS R0-FoMo pada bulan Desember 2023.