Para pemimpin perusahaan yang menghadapi biaya tinggi dalam penerapan model AI mungkin menemukan solusi melalui desain arsitektur yang baru diusulkan. Kemampuan generatif AI yang terus berkembang datang dengan tuntutan komputasi yang substansial selama pelatihan dan inferensi, yang mengarah pada pengeluaran tinggi dan kekhawatiran lingkungan. Masalah utama terletak pada proses autoregresif dari model-model ini, yang menghasilkan teks secara berurutan, token demi token, menciptakan ketidakefisienan.
Untuk bisnis yang menangani aliran data yang luas, seperti yang berasal dari jaringan IoT atau pasar keuangan, generasi berurutan ini membuat analisis jangka panjang menjadi lambat dan mahal. Namun, penelitian dari Tencent AI dan Universitas Tsinghua memperkenalkan alternatif yang menjanjikan: Continuous Autoregressive Language Models (CALM). Pendekatan inovatif ini mendefinisikan ulang proses generasi untuk memprediksi vektor kontinu alih-alih token diskrit.
Metode CALM memanfaatkan autoencoder berkualitas tinggi yang mengompresi beberapa token menjadi satu vektor kontinu, meningkatkan bandwidth semantik. Ini memungkinkan model untuk memproses kelompok kata dalam satu langkah daripada secara individu, sehingga mengurangi jumlah langkah generatif dan mengurangi beban komputasi.
Hasil eksperimen menunjukkan bahwa model CALM dapat mencapai trade-off kinerja-komputasi yang menguntungkan. Misalnya, satu model CALM menunjukkan pengurangan 44% dalam FLOP pelatihan dan penurunan 34% dalam FLOP inferensi dibandingkan dengan Transformer dasar dengan kemampuan serupa. Ini menunjukkan penghematan yang signifikan baik pada biaya pelatihan awal maupun biaya operasional yang berkelanjutan.
Transisi dari kosakata terbatas ke ruang vektor tak terbatas memerlukan pengembangan kerangka kerja baru, karena metode pelatihan tradisional seperti lapisan softmax dan estimasi likelihood maksimum tidak dapat diterapkan. Para peneliti memperkenalkan tujuan tanpa likelihood menggunakan Energy Transformer untuk memfasilitasi prediksi yang akurat tanpa menghitung probabilitas eksplisit. Mereka juga menciptakan metrik evaluasi baru, BrierLM, yang berkorelasi baik dengan metrik tradisional meskipun pendekatan komputasi model berbeda.
Penelitian ini tidak hanya menyoroti potensi pergeseran dalam arsitektur AI generatif tetapi juga menekankan pentingnya efisiensi arsitektural dibandingkan dengan ukuran model yang besar. Saat tren saat ini dalam memperbesar model menghadapi hasil yang menurun dan biaya yang meningkat, kerangka CALM mewakili jalur baru untuk meningkatkan efisiensi model bahasa. Para pemimpin teknologi didorong untuk mempertimbangkan efisiensi arsitektural saat mengevaluasi solusi AI, karena mengurangi FLOP per token yang dihasilkan dapat menjadi keunggulan kompetitif yang krusial untuk penerapan AI yang lebih ekonomis dan berkelanjutan di seluruh perusahaan.