DEV Community

Cover image for GRPO: Teknik Reinforcement Learning yang Membuat DeepSeek sangat Powerfull.
Ogi Wemy
Ogi Wemy

Posted on

GRPO: Teknik Reinforcement Learning yang Membuat DeepSeek sangat Powerfull.

Di awal tahun 2025 inovasi kecerdasan buatan (AI) semakin berkembang, DeepSeek model AI Open Source asal China hadir sebagai pesaing model-model AI Close Source seperti Openai. Deepseek mampu mengembangkan model AI yang begitu pintar dengan biaya komputasi yang lebih murah. Di balik terobosan mereka, terdapat beragam teknik canggih, dan yang paling utama adalah Group Relative Policy Optimization (GRPO). Artikel ini akan membahas GRPO, menjelaskan bagaimana teknik reinforcement learning (RL) ini memberikan kontribusi signifikan terhadap kemampuan luar biasa model-model DeepSeek.

Apa itu GRPO??

Group Relative Policy Optimization (GRPO) adalah varian cerdas dari Proximal Policy Optimization (PPO), sebuah algoritma reinforcement learning (RL) yang populer. Namun, GRPO tidak hanya menyalin PPO standar; ia memperkenalkan perubahan penting yang membuatnya sangat efektif, terutama dalam konteks pelatihan model yang kompleks.

Prinsip-Prinsip Utama GRPO:

  1. Output Groups: Untuk setiap input (misalnya, pertanyaan atau state dalam simulasi), GRPO menghasilkan sekelompok output yang berbeda. Grup ini mewakili berbagai kemungkinan aksi yang dapat diambil oleh model. Keragaman dalam grup output ini sangat penting untuk proses pembelajaran.
  2. Relative Evaluation: Alih-alih menilai setiap output secara terpisah berdasarkan reward absolut (misalnya, apakah jawaban benar atau salah), GRPO membandingkan mereka satu sama lain di dalam grup. Dengan kata lain, GRPO berfokus pada perbaikan relatif. Ini adalah langkah penting untuk meningkatkan efisiensi dan stabilitas.
  3. Efficient Baseline Estimation: GRPO menggunakan baseline untuk menormalkan reward dan mengurangi variasi dalam proses pelatihan. Namun, tidak seperti PPO standar yang bergantung pada model critic terpisah, GRPO memperkirakan baseline ini secara efisien dari statistik kelompok.
  4. Policy Optimization: Setelah reward relatif dihitung, GRPO memperbarui kebijakan model. Proses ini dilakukan dengan hati-hati, memastikan bahwa perubahan tidak terlalu besar dan dapat menyebabkan divergensi (ketidakstabilan) dalam pelatihan.

Rumus GRPO:

Image description

Mari kita uraikan komponen-komponen pentingnya:

  • IGRPO(θ): Tujuan yang ingin dimaksimalkan selama pelatihan. Ini mewakili kinerja yang diharapkan dari kebijakan dengan parameter θ.

  • E[s ~ P(S), {ai}G i=1 ~ πθold (A|s)]: Nilai yang diharapkan (rata-rata) dari seluruh state s yang mungkin (ditarik dari distribusi P(S)) dan seluruh kelompok aksi ai, dengan kelompok ditarik dari kebijakan sebelumnya.

  • πθ(ai|s): Probabilitas melakukan aksi ai dalam state s dengan kebijakan saat ini.

  • πθold(ai|s): Probabilitas yang sama, tetapi menggunakan kebijakan sebelumnya.

  • Ait: Advantage dari aksi ai dalam state s, yang memperhitungkan baseline kinerja kelompok. Perhatikan, advantage ini dihitung secara relatif dalam kelompok.

  • clip(ratio, 1-ε, 1+ε): Ini adalah fungsi kliping yang membatasi rasio probabilitas antara kebijakan baru dan lama. Parameter ε menentukan besarnya perubahan maksimum yang diizinkan dalam satu langkah pelatihan. Ini sangat penting untuk stabilitas.

  • β: Koefisien yang mengontrol pentingnya regularisasi dengan Divergensi Kullback-Leibler (DKL).

  • DKL[πθ||πref]: Divergensi Kullback-Leibler antara kebijakan saat ini (πθ) dan kebijakan referensi (πref). Kebijakan referensi biasanya adalah versi awal dari kebijakan. Suku ini mencegah kebijakan menyimpang terlalu jauh dari awal dan membantu memastikan stabilitas.

Keunggulan Kompetitif

GRPO memiliki beberapa keunggulan dibandingkan teknik optimasi lainnya, menjadikannya pilihan yang menarik bagi DeepSeek dan organisasi lain yang berfokus pada pelatihan model yang kompleks:

  • Efisiensi Komputasi: Menghilangkan model critic mengarah pada penghematan sumber daya yang signifikan, yang sangat penting ketika melatih model besar.

  • Stabilitas yang Ditingkatkan: Mekanisme evaluasi relatif dan kliping probabilitas bekerja sama untuk memastikan proses pelatihan yang lebih stabil.

  • Robust terhadap Kebisingan: GRPO kurang rentan terhadap dampak reward yang bising, yang dapat sangat umum terjadi dalam tugas-tugas dunia nyata.

  • Eksplorasi yang Lebih Baik: Evaluasi kelompok mendorong model untuk mencoba solusi yang beragam, yang dapat menyebabkan penemuan strategi yang lebih baik.

Kesimpulan

Group Relative Policy Optimization(GRPO) adalah bukti kekuatan inovasi dalam reinforcement learning. Dengan menggabungkan evaluasi relatif dan tujuan yang disederhanakan, GRPO menawarkan jalur yang menarik untuk melatih model yang kuat dan efisien.

Billboard image

The Next Generation Developer Platform

Coherence is the first Platform-as-a-Service you can control. Unlike "black-box" platforms that are opinionated about the infra you can deploy, Coherence is powered by CNC, the open-source IaC framework, which offers limitless customization.

Learn more

Top comments (0)

The Most Contextual AI Development Assistant

Pieces.app image

Our centralized storage agent works on-device, unifying various developer tools to proactively capture and enrich useful materials, streamline collaboration, and solve complex problems through a contextual understanding of your unique workflow.

👥 Ideal for solo developers, teams, and cross-company projects

Learn more