Penelitian Inovatif untuk Model Bahasa Besar
Tim Riset Yandex berkolaborasi dengan para peneliti dari Institute of Science and Technology Austria, NeuralMagic, dan KAUST dalam pengembangan dua metode kompresi inovatif untuk model bahasa besar (LLM): Additive Quantization of Language Models (AQLM) dan PV-Tuning.
Ketika digabungkan, metode-metode ini memungkinkan pengurangan ukuran model hingga 8 kali lipat sekaligus mempertahankan kualitas respons hingga 95%.
Tujuan dari metode ini adalah untuk mengoptimalkan sumber daya dan meningkatkan efisiensi dalam menjalankan model bahasa besar. Artikel penelitian yang merinci pendekatan ini telah ditampilkan di International Conference on Machine Learning (ICML) yang saat ini berlangsung di Wina, Austria.
Fitur Utama AQLM dan PV-Tuning
Sistem AQLM memanfaatkan pendekatan kuantisasi aditif yang berfungsi untuk memetakan himpunan besar menjadi himpunan kecil dalam melakukan kompresi LLM. Pendekatan ini tradisionalnya digunakan untuk pengambilan informasi.
Metode ini mampu mempertahankan Bahkan meningkatkan akurasi model di bawah kompresi ekstrem, sehingga memungkinkan pemanfaatan LLM pada perangkat sehari-hari seperti komputer rumah dan smartphone. Penggunaan memori juga dapat berkurang secara signifikan.
PV-Tuning mengatasi kesalahan yang mungkin timbul selama proses kompresi model. Kombinasi AQLM dan PV-Tuning memberikan hasil optimal sehingga model mampu memberikan respons berkualitas tinggi, bahkan pada sumber daya penyimpanan yang terbatas.
Evaluasi dan Pengenalan Metode
Penilaian efektivitas metode ini dilakukan secara ketat menggunakan model-model sumber terbuka yang populer seperti Llama 2, Llama 3, Mistral, dan lainnya.
Para peneliti mengompresi LLM ini dan mengevaluasi kualitas jawaban yang dihasilkan berdasarkan tolok ukur bahasa Inggris – WikiText2 dan C4. Hasilnya menunjukkan bahwa metode ini mampu mempertahankan kualitas jawaban 95% secara mengesankan walaupun model-model tersebut dikompresi hingga 8 kali.
Manfaat AQLM dan PV-Tuning
Metode baru ini menawarkan penghematan sumber daya yang substansial bagi perusahaan yang terlibat dalam pengembangan dan penggunaan model bahasa, baik yang berpemilik maupun LLM sumber terbuka.
Sebagai contoh, model Llama 2 dengan 13 miliar parameter, setelah dikompresi, kini dapat berjalan hanya dengan 1 GPU, bukan 4 GPU. Hal ini mengurangi biaya perangkat keras hingga 8 kali lipat.
Artinya, perusahaan rintisan, peneliti perorangan, dan penggemar LLM dapat menjalankan LLM tingkat lanjut seperti Llama di komputer sehari-hari mereka.
Aplikasi Baru untuk LLM
AQLM dan PV-Tuning memungkinkan model digunakan pada perangkat dengan sumber daya penyimpanan yang terbatas, sehingga membuka kemungkinan penggunaan dan aplikasi baru seperti smartphone, speaker pintar, dan berbagai perangkat sehari-hari lainnya.
Dengan LLM canggih terintegrasi, pengguna dapat mengakses pembuatan teks dan gambar, bantuan suara, rekomendasi yang dipersonalisasi, dan bahkan terjemahan bahasa secara real-time, tanpa perlu koneksi internet aktif.
Selain itu, model yang dikompresi dengan metode ini dapat beroperasi hingga 4 kali lebih cepat karena memerlukan lebih sedikit komputasi.
Implementasi dan Akses
Para pengembang dan peneliti di seluruh dunia sudah dapat menggunakan AQLM dan PV-Tuning yang sekarang tersedia di GitHub. Materi pelatihan yang disediakan oleh penulis memberikan panduan dalam mempelajari LLM yang dikompresi secara efektif untuk berbagai aplikasi.
Sebagai tambahan, para pengembang dapat mengunduh model-model sumber terbuka populer yang telah dikompresi menggunakan metode-metode ini.