DeepSeek Perkenalkan Sparse Attention untuk API Lebih Murah

DeepSeek memperkenalkan model “sparse attention” dalam V3.2-exp untuk memotong biaya API hingga 50 persen dalam konteks panjang. (Sumber: REUTERS/Dado Ruvi)
DeepSeek memperkenalkan model “sparse attention” dalam V3.2-exp untuk memotong biaya API hingga 50 persen dalam konteks panjang. (Sumber: REUTERS/Dado Ruvi)

DeepSeek memperkenalkan model “sparse attention” dalam V3

Pada tanggal 29 September 2025, DeepSeek mengumumkan peluncuran model eksperimental baru bernama V3.2-exp, yang dirancang khusus untuk mengurangi biaya inference (pemanggilan API) dalam konteks panjang. Model baru ini diperkenalkan melalui unggahan di platform Hugging Face, disertai makalah akademik yang diunggah ke GitHub agar dapat diakses dan dievaluasi oleh pihak luar.

Fitur paling menonjol dari model ini adalah mekanisme “Sparse Attention” atau perhatian jarang, yang mengoptimalkan penggunaan sumber daya ketika model harus memproses konteks panjang. Dengan teknik ini, DeepSeek mengklaim bahwa biaya panggilan API dapat ditekan hingga 50 persen dalam situasi konteks panjang.

Dalam konteks industri AI saat ini, pengurangan biaya inference menjadi hal strategis. Meski banyak perhatian tertuju pada biaya pelatihan model besar, biaya operasional sehari-hari (misalnya pemanggilan API) juga memicu tekanan ekonomi terhadap penyedia layanan AI. Model baru DeepSeek berusaha menjawab tantangan itu dengan arsitektur yang lebih efisien.

Bagaimana Sparse Attention Bekerja

Sparse Attention dalam model V3.2-exp dibangun melalui dua tahap utama: lightning indexer dan fine-grained token selector.

  1. Lightning Indexer
    Modul ini memindai keseluruhan konteks input (window konteks) dan menandai cuplikan (span) yang paling relevan berdasarkan heuristik tertentu. Dengan cara ini, konteks yang dipertimbangkan untuk langkah berikutnya hanya sebagian kecil dari keseluruhan teks.

  2. Fine-Grained Token Selector
    Setelah cuplikan relevan ditetapkan, modul ini memilih token-token spesifik dalam cuplikan tersebut untuk menjadi bagian dari jendela perhatian (attention window) terbatas. Dengan cara ini, model hanya memproses token-token esensial, tidak seluruh konteks.

Kombinasi kedua tahap ini memungkinkan model mempertahankan akurasi dalam memahami konteks yang luas, sekaligus menekan beban komputasi dan penggunaan memori, yang kemudian berdampak pada penurunan biaya inference.

DeepSeek menyebut bahwa pendekatan sparse attention ini relatif berhasil dalam pengujian awalnya, terutama dalam situasi konteks panjang di mana perbedaan beban komputasi lebih terasa dibanding pendek konteks.

Performa, Harga, dan Ketersediaan

DeepSeek menyatakan bahwa dalam pengujian internal, panggilan API sederhana dalam konteks panjang mampu mengalami penurunan biaya hingga setengahnya (50 persen). Model ini bersifat open-weight dan tersedia di platform Hugging Face, sehingga pihak ketiga dapat melakukan evaluasi mandiri atas klaim-klaim efisiensi yang diajukan.

DeepSeek menegaskan bahwa V3.2-exp masih berada di tahap eksperimental (“experimental model”) dan merupakan langkah menengah dalam pergerakan menuju arsitektur generasi berikutnya. Selain itu, rilis model ini diiringi dengan pemotongan harga API sebesar lebih dari 50 persen agar sejalan dengan efisiensi yang dijanjikan.

Dalam laporan Reuters, disebut bahwa model ini memperkenalkan sistem “DeepSeek Sparse Attention” serta penurunan biaya API lebih dari 50 persen.

Signifikansi Teknologi dan Tantangan Arsitektur

Langkah DeepSeek memperkenalkan sparse attention bukan sekadar eksekusi teknis, melainkan juga respons terhadap salah satu perangkap utama model besar: biaya inferensi yang melonjak ketika konteks memperpanjang parameter perhatian (attention).

Model-model besar tradisional umumnya memproses semua pasangan token (token-token attention) dalam konteks penuh, yang menyebabkan kompleksitas komputasi bertumbuh kuadratik terhadap panjang konteks. Sparse attention berupaya memotong pertumbuhan beban tersebut dengan memilih subset token yang esensial.

Namun demikian, pendekatan semacam ini membawa tantangan: jika pemilihan token atau cuplikan kurang optimal, model dapat kehilangan nuansa konteks yang krusial, atau “melewatkan sinyal” penting. DeepSeek sendiri menyebut bahwa kualitas output perlu diuji secara lebih luas.

Dalam rilisnya, DeepSeek menyebut bahwa sparse attention dibangun di atas arsitektur sebelumnya seperti Multi-Head Latent Attention (MLA), yang telah digunakan untuk mengompresi cache Key-Value dalam model tradisional. Dengan integrasi teknik baru ini, mereka hendak menjaga keseimbangan antara efisiensi dan kualitas.

Dampak Potensial dan Persaingan Industri

Rilis model seperti V3.2-exp dapat berdampak signifikan terhadap industri AI, terutama dalam konteks biaya operasional layanan AI:

  • Tekanan harga terhadap penyedia AI lain
    Jika klaim efisiensi terbukti secara independen, banyak penyedia model akan dipaksa mengevaluasi ulang struktur harga mereka agar tetap kompetitif.

  • Adopsi teknologi efisiensi
    Sparse attention atau teknik optimasi lainnya mungkin menjadi standar yang makin diperhatikan di masa depan, terutama untuk aplikasi yang membutuhkan konteks panjang seperti pemrosesan dokumen, ringkasan hukum, analisis medis, dan lain-lain.

  • Ekosistem open-weight mempercepat evaluasi eksternal
    Karena model disediakan dengan bobot terbuka (open-weight), pihak ketiga dapat menguji sendiri efisiensi dan kualitasnya, yang mempercepat validasi atau kritik dari komunitas AI luas.

  • Perubahan fokus dari skala ke efisiensi
    Tren sebelumnya adalah membangun model semakin besar dengan lebih banyak parameter. Model seperti V3.2-exp mengingatkan bahwa optimasi arsitektur tetap menjadi ruang inovasi penting.

✍️ Ditulis oleh: Fadjri Adhi Putra & Fahmi Fahrulrozi
📌 Editor: Redaksi Tren Media

Ikuti Saluran Resmi Trenmedia di WhatsApp!
Dapatkan berita terkini, tren viral, serta tips inspiratif langsung dari redaksi.

📱 Saluran Trenmedia 🍳 Saluran Resep Masakan Viral

Klik dan bergabung sekarang – update terbaru langsung masuk ke WhatsApp kamu!

BERITATERKAIT

BERITATERBARU

INSTAGRAMFEED