Syarikat permulaan AI mengatasi Gemini 3 dalam ujian inferens utama

Sejak ia muncul gemini 3 Buat pertama kalinya, beliau berjaya mengekalkan kedudukannya di puncak Papan Pendahulu LMArenaSenarai ini merupakan kedudukan kolektif di mana beribu-ribu pengguna sebenar membandingkan model. Kecerdasan buatan Mereka menguji satu sama lain secara bersemuka merentasi pelbagai tugasan, mengundi respons terbaik. Tetapi apabila tiba masanya untuk mencapai kriteria inferens yang paling sukar, terdapat bintang baharu yang sedang meningkat naik, dan bintang yang telah mengatasi Google—dan melakukannya tanpa melatih modelnya sendiri.

Sebuah syarikat baharu yang dianggotai oleh enam orang bernama Poetiq berkata ia menduduki tempat pertama dalam Kit Ujian Separuh Khas ARC-AGI-2Ini merupakan cabaran inferens yang sangat sukar yang dicipta oleh penyelidik AI François Chollet. Sistem syarikat baharu itu memperoleh skor 54 peratus, mengatasi skor yang dilaporkan sebelum ini iaitu kira-kira 45 peratus untuk Gemini 3 Deep Think.

Imej Adobe Firefly bagi superintelligence

Untuk meletakkan perspektif itu, kebanyakan model AI tersekat di bawah 5 peratus pada penanda aras ini hanya enam bulan yang lalu. Melepasi 50 peratus adalah sesuatu yang ramai penyelidik anggap akan mengambil masa bertahun-tahun.

Dan bahagian yang paling mengejutkan: Kejayaan Poetiq tidak disokong oleh model sempadan baharu – tetapi oleh cara yang lebih bijak dalam mengatur model sedia ada.

Bagaimanakah Poetiq mencapai kejayaan ini?

Lembaga Pengarah

Daripada membina penukar besar-besaran dari awal, Poetiq telah membangunkan apa yang dipanggil metasistem; pada asasnya pengawal AI yang menyelia, mengkritik dan menambah baik output mana-mana model yang anda sambungkan kepadanya. Untuk kerja ARC-AGI-2 mereka, pasukan itu menggunakan Gemini 3 Pro sebagai model asas.

Poetiq menggambarkan sistem ini sebagai gelung pengoptimuman yang dikawal ketat: Cipta > Kritik > Perbaiki > Semak.

Inilah yang menjadikannya istimewa:

  • Tiada latihan semula diperlukan: Sistem ini menyesuaikan diri dengan model baharu dalam beberapa jam.
  • Ia dibina sepenuhnya pada model bahasa yang besar dan sedia ada: Tiada suntingan tersuai tersedia
  • Kos yang lebih rendah: Deep Think Google dilaporkan berharga $77 setiap tugasan; sistem Poetiq lebih hampir kepada $30.
  • Sumber terbuka: Penyelesaiannya tersedia untuk umum dan boleh disahkan.
  • Audit kendiri: Sistem menilai jawapannya sendiri sebelum mengembalikan keputusan akhir.

Dihidupkan laman web Bagi syarikat itu, pasukan Poetiq mengatakan pendekatan ini berfungsi dengan mengekstrak Plus daripada kuasa inferens model bahasa besar sedia ada – bukan dengan penskalaan pengkomputeran secara brute-force.

Mengapakah ujian ARC-AGI-2 penting?

Ilustrasi konsep kecerdasan buatan

Walaupun kebanyakan ujian piawai mengukur kemahiran terhad seperti pengaturcaraan atau matematik, ARC-AGI-2 direka bentuk untuk menguji sesuatu yang lebih mendalam: pengecaman corak, pengukuran, penaakulan abstrak dan jenis generalisasi yang dipelajari manusia pada awal zaman kanak-kanak.

Ia sengaja sukar dan sangat tidak mesra kepada Model Bahasa Besar (LLM) semasa. Malah banyak model canggih juga gagal teruk di dalamnya.

Atas sebab ini, lonjakan daripada keputusan satu digit kepada 54 peratus dalam tempoh setengah tahun adalah mengejutkan. Ini menunjukkan kemajuan dalam kaedah inferens, bukan sahaja saiz model mentah.

Walau bagaimanapun, keputusan Poetiq terpakai khusus untuk kumpulan ujian separa swasta, yang tidak dibuka sepenuhnya kepada orang ramai. Laman web syarikat menyatakan bahawa keputusan tersebut telah disahkan oleh organisasi penanda aras—tetapi replikasi pihak ketiga bebas masih belum selesai, yang penting untuk ujian penanda aras bagi impak ini.

Penemuan seterusnya mungkin tidak datang daripada model yang lebih besar, kerana karya Poetiq menonjolkan trend yang semakin meningkat dalam kecerdasan buatan: kemajuan tidak selalunya memerlukan berbilion dolar dalam infrastruktur atau makmal penyelidikan yang besar.

Jika sistem sedemikian berjaya melangkaui parameter standard untuk merangkumi perancangan, pengaturcaraan, penyelidikan atau pembuatan keputusan dunia sebenar, ia boleh membentuk semula cara kecerdasan buatan dibangunkan. Daripada menunggu superkomputer seterusnya, syarikat mungkin menumpukan pada membina kecerdasan komposit yang menjadikan model hari ini lebih pintar, lebih murah dan lebih konsisten.

Kesimpulannya

Poetiq telah mengeluarkan penyelesaian sumber terbuka untuk ARC-AGI supaya para penyelidik boleh menguji, melanjutkan atau mencabar keputusannya. Piawaian ini mengandungi set ujian tersembunyi dan sejarah menunjukkan bahawa keputusan boleh berubah sebaik sahaja sebilangan besar orang menjalankan penilaian bebas.

Jika angka Poetiq kekal, ia boleh mewakili titik perubahan dalam penyelidikan inferens AI. Satu pasukan yang terdiri daripada enam orang mungkin baru sahaja menunjukkan bahawa organisasi model boleh menyaingi, atau mengatasi, melatih model yang jauh lebih besar. Poetiq baru sahaja membuktikan bahawa anda tidak memerlukan makmal gergasi untuk menang.


 

Ruangan komen telah ditutup.