Sebuah tinjauan akademis baru-baru ini telah menyoroti kekurangan signifikan dalam benchmark AI, yang dapat menyesatkan perusahaan untuk membuat keputusan keuangan kritis berdasarkan data yang tidak akurat. Saat perusahaan mengalokasikan anggaran yang substansial, sering kali dalam kisaran delapan hingga sembilan digit, untuk program AI generatif, mereka sering kali mengandalkan papan peringkat publik dan benchmark untuk menilai kemampuan model.
Studi ini, berjudul 'Mengukur Apa yang Penting: Validitas Konstruksi dalam Benchmark Model Bahasa Besar,' memeriksa 445 benchmark dari konferensi AI terkemuka. Sebuah tim yang terdiri dari 29 ahli menemukan bahwa hampir semua artikel yang ditinjau menunjukkan kelemahan di setidaknya satu area, menimbulkan keraguan tentang validitas klaim mengenai kinerja model.
Masalah ini sangat mengkhawatirkan bagi Chief Technology Officers dan Chief Data Officers, karena berdampak langsung pada tata kelola AI dan strategi investasi. Jika sebuah benchmark yang mengklaim mengukur kualitas seperti 'keamanan' atau 'ketahanan' gagal mencerminkan atribut tersebut dengan akurat, organisasi berisiko menerapkan model yang dapat menyebabkan kerugian finansial dan reputasi yang signifikan.
Para peneliti menekankan pentingnya validitas konstruksi, yang mengacu pada seberapa baik sebuah tes mengukur konsep yang diklaim untuk dinilai. Misalnya, sementara 'kecerdasan' tidak dapat diukur secara langsung, proksi dibuat untuk mengevaluasinya. Studi ini memperingatkan bahwa validitas konstruksi yang rendah dapat membuat skor benchmark yang tinggi menjadi tidak relevan atau menyesatkan, yang menyebabkan perusahaan membuat keputusan berdasarkan penilaian yang cacat.
Tinjauan ini mengidentifikasi masalah sistemik dalam evaluasi AI, termasuk definisi yang samar dan kurangnya ketelitian statistik. Dengan mengkhawatirkan, hanya 16 persen dari benchmark yang menggunakan estimasi ketidakpastian atau uji statistik, membuat sulit untuk menentukan apakah perbedaan kinerja adalah nyata atau hanya kebetulan. Selain itu, banyak benchmark menderita dari kontaminasi data, di mana model menghafal jawaban daripada menunjukkan kemampuan penalaran yang sebenarnya. Ini merusak validitas hasil dan menyerukan perlunya penggabungan pemeriksaan kontaminasi dalam desain benchmark.
Studi ini berfungsi sebagai kisah peringatan bagi para pemimpin perusahaan, menekankan bahwa benchmark AI publik tidak boleh menggantikan evaluasi internal yang menyeluruh yang disesuaikan dengan kebutuhan bisnis tertentu. Skor tinggi di papan peringkat publik tidak menjamin kesesuaian untuk aplikasi tertentu. Isabella Grandi, Direktur Strategi Data & Tata Kelola di NTT DATA UK&I, menekankan pentingnya evaluasi yang konsisten terhadap prinsip yang jelas untuk memastikan bahwa teknologi AI melayani kemajuan dan kebutuhan masyarakat. Laporan ini diakhiri dengan delapan rekomendasi bagi perusahaan untuk mengembangkan benchmark internal mereka sendiri, mendorong pergeseran dari penilaian AI generik menuju evaluasi yang lebih bermakna.