Para ilmuwan berpikir ini akan membuat AI lebih buruk tetapi membuatnya lebih pintar


Ternyata melatih AI di lingkungan yang terkontrol dengan sempurna dapat membantu berkinerja lebih baik dalam pengaturan dunia nyata yang kacau.
artificial intelligence is prepared for real-world tasks.
Unexpected AI Training Success in Unfamiliar Environments
A home robot trained in a factory to handle household chores may struggle with tasks like scrubbing the sink or taking out the trash when placed in a real kitchen. The unfamiliar environment can disrupt its performance.
To prevent this, engineers typically design training simulations that closely resemble the real-world settings where the AI will operate.
However, researchers from MIT and other institutions have discovered that this approach isn’t always the most effective. Surprisingly, training an AI in a completely different, more controlled environment can sometimes lead to better performance.
Their findings suggest that AI agents trained in a predictable, noise-free environment often outperform those trained in a more variable, noisy setting — even when tested in that same noisy environment.
The researchers call this unexpected phenomenon the indoor training effect.
“If we learn to play tennis in an indoor environment where there is no noise, we might be able to more easily master different shots. Then, if we move to a noisier environment, like a windy tennis court, we could have a higher probability of playing tennis well than if we started learning in the windy environment,” explains Serena Bono, a research assistant in the MIT Media Lab and lead author of a paper on the indoor training effect.
https://www.youtube.com/watch?v=jeyp1vlsmd8
Efek pelatihan dalam ruangan: keuntungan yang tidak terduga dari pergeseran distribusi dalam fungsi transisi. Kredit: Pusat MIT untuk Otak, Pikiran, dan Mesin
Menguji teori: permainan atari dan hasil yang mengejutkan
Para peneliti mempelajari fenomena ini dengan melatih agen -agen AI untuk bermain game Atari, yang mereka modifikasi dengan menambahkan beberapa ketidakpastian. Mereka terkejut menemukan bahwa efek pelatihan dalam ruangan secara konsisten terjadi di seluruh permainan Atari dan variasi game.
Mereka berharap hasil ini memicu penelitian tambahan untuk mengembangkan metode pelatihan yang lebih baik untuk agen AI.
“Ini adalah sumbu yang sama sekali baru untuk dipikirkan.
Bono dan Madan berkolaborasi di atas kertas dengan Ishaan Grover, seorang mahasiswa pascasarjana di MIT; Mao Yasueda, seorang mahasiswa pascasarjana di Yale; Cynthia Breazeal, seorang profesor seni dan sains media di MIT dan kepala kelompok robotika pribadi di MIT Media Lab; Hanspeter Pfister, Profesor Ilmu Komputer An Wang di Harvard; dan Gabriel Kreiman, seorang profesor di Harvard Medical School. Penelitian mereka akan dipresentasikan di Asosiasi untuk Kemajuan Konferensi Kecerdasan Buatan (AAAI).
Pelatihan Masalah: Mengapa AI Berjuang Di Ruang Baru
Para peneliti berangkat untuk mengeksplorasi mengapa agen pembelajaran penguatan cenderung memiliki kinerja yang suram ketika diuji pada lingkungan yang berbeda dari ruang pelatihan mereka.
Pembelajaran penguatan adalah metode coba-coba di mana agen mengeksplorasi ruang pelatihan dan belajar mengambil tindakan yang memaksimalkan hadiahnya.
Tim mengembangkan teknik untuk secara eksplisit menambahkan sejumlah suara ke satu elemen dari masalah pembelajaran penguatan yang disebut fungsi transisi. Fungsi transisi mendefinisikan probabilitas suatu agen akan berpindah dari satu negara ke negara lain, berdasarkan tindakan yang dipilihnya.
Jika agen bermain Pac-Man, fungsi transisi mungkin menentukan probabilitas bahwa hantu di papan permainan akan naik, turun, kiri, atau kanan. Dalam pembelajaran penguatan standar, AI akan dilatih dan diuji menggunakan fungsi transisi yang sama.
Para peneliti menambahkan kebisingan ke fungsi transisi dengan pendekatan konvensional ini dan, seperti yang diharapkan, itu melukai kinerja Pac-Man agen.
Tetapi ketika para peneliti melatih agen dengan permainan PAC-Man bebas-noise, kemudian mengujinya di lingkungan di mana mereka menyuntikkan kebisingan ke dalam fungsi transisi, itu berkinerja lebih baik daripada agen yang dilatih pada permainan bising.
“Aturan praktisnya adalah Anda harus mencoba menangkap fungsi transisi kondisi penyebaran sebaik yang Anda bisa selama pelatihan untuk mendapatkan hasil maksimal untuk uang Anda.
Menyuntikkan jumlah kebisingan yang bervariasi ke dalam fungsi transisi memungkinkan para peneliti menguji banyak lingkungan, tetapi itu tidak membuat game yang realistis. Semakin banyak suara yang mereka suntikan ke Pac-Man, semakin besar kemungkinan hantu akan teleportasi secara acak ke kotak yang berbeda.
Untuk melihat apakah efek pelatihan dalam ruangan terjadi pada permainan Pac-Man normal, mereka menyesuaikan probabilitas yang mendasari sehingga hantu bergerak secara normal tetapi lebih cenderung bergerak ke atas dan ke bawah, daripada kiri dan kanan. Agen AI yang dilatih di lingkungan bebas kebisingan masih berkinerja lebih baik dalam game realistis ini.
“Itu bukan hanya karena cara kami menambahkan kebisingan untuk menciptakan lingkungan ad hoc.
Pola Pembelajaran AI: Penemuan yang mengejutkan
Ketika para peneliti menggali lebih dalam untuk mencari penjelasan, mereka melihat beberapa korelasi tentang bagaimana agen AI mengeksplorasi ruang pelatihan.
Ketika kedua agen AI mengeksplorasi sebagian besar area yang sama, agen yang dilatih di lingkungan yang tidak berkinerja lebih baik, mungkin karena lebih mudah bagi agen untuk mempelajari aturan permainan tanpa gangguan kebisingan.
Jika pola eksplorasi mereka berbeda, maka agen yang dilatih di lingkungan yang bising cenderung berkinerja lebih baik. Ini mungkin terjadi karena agen perlu memahami pola yang tidak dapat dipelajari di lingkungan bebas kebisingan.
“Jika saya hanya belajar bermain tenis dengan forehand saya di lingkungan yang tidak tidak ada, tetapi kemudian di yang bising saya juga harus bermain dengan backhand saya, saya tidak akan bermain juga di lingkungan yang tidak tidak ada,” Bono menjelaskan.
Implikasi di masa depan: Memanfaatkan efek pelatihan dalam ruangan
Ke depan, para peneliti berencana untuk menyelidiki apakah efek pelatihan dalam ruangan berlaku untuk lingkungan belajar penguatan yang lebih kompleks dan teknik AI lainnya, seperti visi komputer dan pemrosesan bahasa alami. Mereka juga bertujuan untuk mengembangkan lingkungan pelatihan yang memanfaatkan efek ini, berpotensi meningkatkan kinerja AI dalam pengaturan dunia nyata yang tidak terduga.
Referensi: “The Efek pelatihan dalam ruangan: Keuntungan tak terduga dari pergeseran distribusi dalam fungsi transisi ”oleh Serena Bono, Spandan Madan, Ishaan Grover, Mao Yasueda, Cynthia Breazeal, Hanspeter Pfister dan Gabriel Kreiman, 8 Januari 2025, Ilmu Komputer> Pembelajaran Mesin.
ARXIV: 2401.15856