Shock! Kecerdasan Buatan, Akurasi Anjlok hingga 65%!

Pahamtekno.com - Tim peneliti dari Apple menemukan kekurangan dalam kecerdasan buatan (AI). Iman Mirzadeh, seorang insinyur riset pembelajaran mesin (machine learning/ML), melakukan studi yang menunjukkan bahwa perubahan kecil dalam penyusunan pertanyaan matematika dapat berdampak besar pada kinerja model bahasa besar (LLM). Akurasi jawaban model-model ini dapat turun hingga 65%, membuatnya kurang dapat diandalkan dalam hal penalaran yang konsisten.

Model bahasa besar (LLM) memiliki kemampuan untuk memahami dan menghasilkan teks dalam bahasa alami, serta disebut "besar" karena dilatih dengan data dalam jumlah yang sangat besar. Program AI generatif seperti ChatGPT dan Microsoft Copilot didukung oleh model-model LLM ini.

Dalam penelitian Apple, model-model LLM seperti OpenAI dan Meta diuji menggunakan alat baru yang disebut GSM-Symbolic untuk melihat bagaimana mereka menangani masalah penalaran matematika. Peneliti menemukan bahwa penambahan informasi yang tidak relevan pada pertanyaan matematika bisa menyebabkan hasil yang berbeda antar model, meskipun hasil perhitungan seharusnya tidak terpengaruh oleh informasi tambahan tersebut.

Sebagai contoh, ketika peneliti menambahkan detail tentang ukuran buah kiwi pada soal matematika sederhana, model LLM seperti OpenAI o1 dan Llama dari Meta salah dalam menghitung jumlah kiwi yang dapat dikumpulkan seseorang dalam sehari. Baik model yang bersifat komersial maupun open-source mengalami masalah ini, sehingga menurunkan kredibilitasnya.

Kesimpulan dari penelitian ini adalah bahwa model bahasa besar tidak sepenuhnya menggunakan logika praktis dalam memecahkan masalah, melainkan lebih mengandalkan pencocokan pola yang dipelajari selama pelatihan.

Bahkan perubahan sederhana seperti mengubah nama pertanyaan dapat menyebabkan perbedaan jawaban hingga 10%. Hal ini menunjukkan bahwa AI saat ini masih belum mampu memberikan penalaran formal yang akurat dan konsisten dalam situasi dunia nyata.

Para peneliti juga mengusulkan bahwa untuk meningkatkan kemampuan pengambilan keputusan dan pemecahan masalah, AI perlu menggabungkan pendekatan jaringan saraf dengan penalaran berbasis simbol, yang dikenal sebagai AI neurosymbolic. Dalam penalaran berbasis simbol, variabel, konstanta, dan aturan logis digunakan untuk mendukung deduksi logis.

Penelitian ini mengingatkan bahwa pengguna tidak boleh sepenuhnya mengandalkan AI untuk tugas yang memerlukan penalaran yang lebih dalam dan pemahaman yang lebih baik.