Peneliti dari Scale AI dan Center for AI Safety (CAIS) telah memperkenalkan Remote Labor Index, sebuah tolok ukur yang dirancang untuk mengevaluasi seberapa baik model AI canggih dapat mengotomatiskan pekerjaan lepas yang bernilai ekonomi. Dalam studi mereka, mereka memberikan berbagai tugas lepas yang disimulasikan kepada agen AI terkemuka dan menemukan bahwa bahkan kinerja terbaik hanya berhasil menyelesaikan kurang dari 3 persen dari pekerjaan, menghasilkan hanya $1,810 dari potensi $143,991.
Di antara alat AI yang diuji, Manus dari sebuah startup China muncul sebagai yang paling mampu, diikuti oleh Grok dari xAI, Claude dari Anthropic, ChatGPT dari OpenAI, dan Gemini dari Google. Dan Hendrycks, direktur CAIS, mengungkapkan harapan bahwa tolok ukur ini akan memberikan pemahaman yang lebih jelas tentang kemampuan AI, mencatat bahwa meskipun beberapa agen telah menunjukkan perbaikan, itu tidak menjamin kemajuan yang berkelanjutan dengan kecepatan yang sama.
Kemajuan pesat dalam AI telah memicu diskusi tentang potensi teknologi ini untuk melampaui kecerdasan manusia dan menggantikan pekerja. Misalnya, Dario Amodei, CEO Anthropic, sebelumnya mengklaim bahwa 90 persen tugas pengkodean dapat diotomatisasi dalam waktu dekat. Namun, tren historis telah menunjukkan bahwa prediksi semacam itu sering kali meleset, seperti yang terlihat dengan kekhawatiran sebelumnya tentang AI yang menggantikan radiolog.
Untuk membuat tolok ukur ini, para peneliti mensimulasikan berbagai tugas lepas yang bersumber dari pekerja Upwork yang terverifikasi, mencakup bidang seperti desain grafis, pengeditan video, pengembangan game, dan pekerjaan administratif. Mereka memberikan model AI deskripsi pekerjaan, file yang diperlukan, dan contoh pekerjaan manusia yang telah diselesaikan. Hendrycks menunjukkan bahwa meskipun AI telah meningkat dalam bidang seperti pengkodean dan penalaran logis, ia masih menghadapi tantangan dengan tugas kompleks yang memerlukan beberapa langkah dan tidak memiliki kemampuan untuk belajar dan beradaptasi seperti yang dilakukan manusia.
Analisis ini bertentangan dengan tolok ukur GDPval dari OpenAI, yang mengklaim bahwa model AI terdepan seperti GPT-5 mendekati kinerja manusia dalam 220 tugas terkait kantor. Namun, Liu dan Hendrycks mengakui bahwa Remote Labor Index mungkin tidak sepenuhnya menangkap dampak ekonomi AI, karena banyak pekerjaan melibatkan tugas di luar cakupannya. Selain itu, banyak pekerja lepas mungkin memanfaatkan AI untuk meningkatkan produktivitas mereka daripada digantikan olehnya. Meskipun demikian, narasi tentang AI yang mengambil pekerjaan semakin mendapatkan perhatian, seperti yang dibuktikan dengan pengumuman terbaru Amazon tentang pemotongan 14,000 pekerjaan, yang sebagian disebabkan oleh meningkatnya AI generatif. Beth Galetti, wakil presiden senior Amazon, menggambarkan generasi AI ini sebagai teknologi paling transformatif sejak Internet, memungkinkan inovasi yang lebih cepat di berbagai sektor. Namun, Remote Labor Index menunjukkan bahwa AI tidak mungkin mengisi peran yang ditinggalkan oleh pemotongan pekerjaan ini.