Satu kajian baru mendedahkan mengapa ChatGPT terus mengada-adakan maklumat.
Suatu hari, saya bertukar-tukar idea dengan SembangGPT Tiba-tiba, dia melancarkan cerita fiksyen yang panjang dan tiada kaitan dengan gesaan saya. Ia sangat tidak masuk akal sehingga membuatkan saya ketawa. Sejak kebelakangan ini, saya tidak pernah melihat ralat seperti ini dalam gesaan teks, tetapi saya masih melihatnya dengan agak kerap dengan penjanaan imej.
Mengapakah chatbots terus meneka sedangkan mereka tidak sepatutnya?

Penyelidikan mencadangkan masalah struktur menyebabkan halusinasi ini; punca masalah berpunca daripada piawaian dan papan pendahulu yang menilai model AI dan memberi ganjaran kepada jawapan yang yakin.
Dalam erti kata lain, apabila chatbot berkata "Saya tidak tahu," ia akan dihukum dalam ujian. Ini bermakna model secara aktif digalakkan untuk sentiasa memberikan jawapan, walaupun mereka tidak pasti jawapan itu betul.
Dalam amalan, ini menjadikan pembantu pintar anda lebih cenderung untuk meneka dan bukannya mengakui ketidakpastian. Ini mungkin tidak berbahaya untuk pertanyaan mudah setiap hari. Tetapi dalam situasi yang lebih sensitif, daripada soalan perubatan kepada nasihat kewangan, kesilapan yakin itu boleh bertukar menjadi risiko sebenar dengan cepat.
Sebagai pengguna berpengalaman, inilah sebabnya saya sentiasa menyemak fakta dan meminta sumber chatbot. Kadangkala, jika maklumat itu kelihatan tidak masuk akal dan saya meminta sumber, chatbot akan berkata seperti, "Perkara yang bagus!" atau sesuatu yang serupa, tanpa mengakui ia salah.
Model yang lebih baru tidak kebal.

Menariknya, kertas OpenAI mendapati bahawa model tertumpu inferens seperti o3 dan o4-mini sebenarnya berhalusinasi lebih kerap daripada beberapa model lama. kenapa? Kerana mereka biasanya menghasilkan lebih banyak tuntutan, yang bermaksud lebih banyak peluang untuk kesilapan.
Jadi, hanya kerana model "lebih bijak" dalam membuat inferens tidak semestinya menjadikannya lebih jujur tentang perkara yang tidak diketahuinya.
Apakah penyelesaian kepada masalah ini?

Penyelidik percaya penyelesaiannya terletak pada mengubah cara kami menilai dan mengukur AI. Daripada menghukum model kerana mengatakan "Saya tidak pasti," ujian yang lebih berharga harus memberi ganjaran kepada respons yang ditentukur, tanda ketidakpastian atau keupayaan untuk merujuk kepada sumber lain.
Ini mungkin bermakna bahawa chatbot masa depan anda mungkin lebih banyak melindung nilai jawapannya, kurang bergantung pada pendekatan "Inilah jawapannya" dan lebih banyak lagi pada pendekatan "Inilah yang saya fikir, tetapi saya tidak pasti". Ia mungkin kelihatan lebih perlahan, tetapi ia boleh mengurangkan ralat berbahaya dengan ketara. Ini membuktikan bahawa pemikiran kritis di pihak kita masih penting.
Sejauh manakah ini penting bagi anda?

Jika anda menggunakan bot sembang popular seperti ChatGPT, Gemini, Claude atau Grok, anda mungkin pernah mengalami "halusinasi" sebelum ini. Penyelidikan ini mencadangkan bahawa ia bukan sepenuhnya mengenai model itu sendiri, tetapi lebih kepada cara ia diuji-seperti permainan peluang untuk melihat siapa yang boleh menjadi betul pada kebanyakan masa.
Bagi pengguna, ini bermakna kita perlu berhati-hati dan menganggap jawapan AI sebagai cadangan pertama, bukan kata akhir. Bagi pembangun, ini adalah petanda bahawa sudah tiba masanya untuk memikirkan semula cara kami mengukur kejayaan supaya pembantu AI masa depan dapat mengenali perkara yang mereka tidak tahu dan bukannya membuat kesilapan kritikal.
