Sains & Teknologi

Mengapa Anda Harus Berpikir Dua Kali Sebelum Mengandalkan ChatGPT untuk Nasihat Keuangan

Kecerdasan Buatan Robot Empati
Sebuah studi yang dipimpin oleh Washington State University menilai kinerja model AI, termasuk ChatGPT, pada soal ujian keuangan. Meskipun ChatGPT unggul dalam pertanyaan pilihan ganda dan menyatukan konsep-konsep luas dengan baik, ChatGPT kesulitan dengan tugas-tugas berbeda seperti menentukan perlindungan asuransi atau mengevaluasi kesepakatan merger. Kredit: SciTechDaily.com

Sebuah studi yang dipimpin WSU menemukan bahwa ChatGPT efektif dalam tugas-tugas keuangan yang luas tetapi lemah dalam bidang-bidang yang berbeda. Meskipun ChatGPT 4.0 lebih unggul, ChatGPT 3.5 yang disempurnakan menyainginya ketepatan. AI dipandang sebagai alat untuk membantu para profesional, bukan menggantikan mereka, namun dapat berdampak pada peran keuangan tingkat pemula dalam melakukan tugas yang berulang.

Model bahasa besar, seperti ChatGPT, menunjukkan kinerja yang kuat pada pertanyaan pilihan ganda dari ujian lisensi keuangan tetapi kesulitan dengan tugas yang lebih berbeda.

Sebuah studi yang dipimpin oleh Washington State University mengevaluasi lebih dari 10.000 respons dari model AI BARD, Llama, dan ChatGPT terhadap soal ujian keuangan. Para peneliti tidak hanya menilai kemampuan model untuk memilih jawaban yang benar, tetapi juga meminta mereka memberikan penjelasan atas pilihan mereka. Tanggapan ini kemudian dibandingkan dengan penjelasan dari para profesional.

Di antara model yang diuji, dua versi ChatGPT memiliki kinerja terbaik secara keseluruhan. Namun, model-model ini pun menunjukkan ketidakakuratan yang signifikan ketika menangani topik-topik yang lebih kompleks dan lanjutan.

“Masih terlalu dini untuk khawatir ChatGPT mengambil alih pekerjaan keuangan sepenuhnya,” kata penulis studi DJ Fairhurst dari Carson College of Business di WSU. “Untuk konsep-konsep luas yang sudah lama ada penjelasan bagus di internet, ChatGPT dapat melakukan pekerjaan yang sangat baik dalam mensintesis konsep-konsep tersebut. Jika ini adalah masalah yang spesifik dan unik, maka akan sangat sulit.”

Ruang Lingkup dan Temuan Studi

Untuk penelitian ini, dipublikasikan di Jurnal Analis KeuanganFairhurst dan rekan penulis Daniel Greene dari Clemson University menggunakan pertanyaan dari ujian perizinan termasuk ujian Esensi Industri Sekuritas serta Seri 6, 7, 65, dan 66.

Untuk melampaui kemampuan model AI dalam memilih jawaban yang benar, para peneliti meminta model untuk memberikan penjelasan tertulis. Mereka juga memilih pertanyaan berdasarkan tugas pekerjaan tertentu yang mungkin dilakukan oleh para profesional keuangan.

“Lulus ujian sertifikasi saja tidak cukup. Kami benar-benar perlu menggali lebih dalam untuk mendapatkan apa yang sebenarnya dapat dilakukan oleh model-model ini,” kata Fairhurst.

Dari semua model, ChatGPT versi berbayar, versi 4.0, memiliki performa terbaik, memberikan jawaban yang paling mirip dengan pakar manusia. Akurasinya juga 18 hingga 28 poin persentase lebih tinggi dibandingkan model lainnya. Namun, hal ini berubah ketika para peneliti menyempurnakan ChatGPT 3.5 versi gratis sebelumnya, dengan memberikan contoh tanggapan dan penjelasan yang benar. Setelah penyetelan ini, akurasinya mendekati ChatGPT 4.0 dan bahkan melampauinya dalam memberikan jawaban yang serupa dengan jawaban manusia profesional.

Kelemahan AI dalam Tugas Keuangan Khusus

Namun, kedua model tersebut masih gagal dalam menjawab jenis pertanyaan tertentu. Meskipun model ini mampu meninjau transaksi sekuritas dan memantau tren pasar keuangan dengan baik, model tersebut memberikan jawaban yang lebih tidak akurat untuk situasi khusus seperti menentukan cakupan asuransi klien dan status pajak.

Fairhurst dan Greene, bersama dengan mahasiswa doktoral WSU Adam Bozman, kini mencari cara lain untuk menentukan apa yang bisa dan tidak bisa dilakukan ChatGPT dengan proyek yang memintanya mengevaluasi potensi kesepakatan merger. Untuk melakukan hal ini, mereka memanfaatkan fakta bahwa ChatGPT dilatih pada data hingga September 2021, dan menggunakan kesepakatan yang dibuat setelah tanggal tersebut ketika hasilnya diketahui. Temuan awal menunjukkan bahwa sejauh ini, model AI tidak begitu baik dalam melakukan tugas ini.

Secara keseluruhan, para peneliti mengatakan bahwa ChatGPT mungkin masih lebih baik digunakan sebagai alat untuk membantu daripada sebagai pengganti profesional keuangan yang sudah mapan. Di sisi lain, AI dapat mengubah cara beberapa bank investasi mempekerjakan analis tingkat pemula.

“Praktik mengangkat sekelompok orang sebagai analis junior, membiarkan mereka bersaing dan mempertahankan pemenang – hal ini menjadi jauh lebih mahal,” kata Fairhurst. “Jadi ini mungkin berarti penurunan dalam jenis pekerjaan tersebut, tapi ini bukan karena ChatGPT lebih baik daripada para analis, ini karena kami telah meminta analis junior untuk melakukan tugas-tugas yang lebih rendah.”

Referensi: “Seberapa Banyak yang Diketahui ChatGPT tentang Keuangan?” oleh Douglas (DJ) Fairhurst dan Daniel Greene, 18 November 2024, Jurnal Analis Keuangan.
DOI: 10.1080/0015198X.2024.2411941

Related Articles

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Back to top button