Anthropic Mengungkap Ancaman Distilasi Model AI Skala Besar

Anthropic telah melaporkan bahwa beberapa laboratorium luar negeri terlibat dalam kampanye distilasi model AI yang luas yang menargetkan sistem AI Claude. Kampanye ini melibatkan penggunaan lebih dari 24.000 akun menipu untuk menghasilkan lebih dari 16 juta pertukaran, dengan tujuan memperoleh logika kepemilikan untuk meningkatkan platform pesaing.

Proses distilasi, ketika digunakan secara sah, memungkinkan perusahaan untuk membuat versi aplikasi yang lebih kecil dan lebih hemat biaya. Namun, aktor jahat mengeksploitasi teknik ini untuk mendapatkan akses ke kemampuan yang kuat jauh lebih cepat dan lebih murah daripada melalui pengembangan independen. Ini menimbulkan tantangan serius terhadap hak kekayaan intelektual, terutama karena Anthropic membatasi akses komersial di China demi alasan keamanan nasional.

Untuk menghindari pembatasan ini, penyerang memanfaatkan jaringan proxy komersial yang mengoperasikan apa yang disebut Anthropic sebagai arsitektur "kluster hydra". Jaringan ini mendistribusikan lalu lintas di berbagai API dan platform cloud, membuatnya sulit untuk menentukan titik kegagalan tunggal. Anthropic telah mencatat bahwa ketika satu akun diblokir, akun lain dengan cepat mengambil tempatnya, menyulitkan upaya deteksi.

Implikasi dari model yang dilatih secara ilegal ini sangat serius, karena mereka melewati langkah-langkah keamanan yang telah ditetapkan untuk melindungi terhadap penyalahgunaan oleh aktor negara dan non-negara. Misalnya, pengembang AS menerapkan langkah-langkah pengaman untuk mencegah penggunaan sistem mereka dalam pengembangan senjata biologi atau melakukan serangan siber. Namun, sistem yang dikloning tidak memiliki perlindungan ini, memungkinkan kemampuan berbahaya untuk berkembang, yang dapat digunakan oleh pemerintah otoriter untuk operasi ofensif.

Anthropic telah mengidentifikasi kampanye spesifik yang menargetkan Claude, menggunakan korelasi alamat IP dan metadata permintaan untuk melacak operasi ini kembali ke laboratorium asing. Setiap kampanye berfokus pada fungsi yang berbeda, seperti penalaran agenik dan penggunaan alat, dan melibatkan volume permintaan yang signifikan yang terkoordinasi. Temuan ini menyoroti perlunya langkah-langkah keamanan yang ditingkatkan, termasuk pencetakan perilaku dan pengklasifikasi lalu lintas, untuk mendeteksi dan mengurangi upaya ekstraksi yang canggih ini. Anthropic menekankan pentingnya kolaborasi lintas industri untuk mengatasi ancaman yang semakin meningkat yang ditimbulkan oleh serangan distilasi model AI ini.