Belajar AI: Memahami Language Agents | OCI Generative AI Professional Course #3

#ai #agentaichallenge

1. Apa Itu Language Agents?

Language Agents adalah bidang riset baru yang ngembangin LLM-based agents, alias model AI yang bisa ngelakuin lebih dari sekadar jawab pertanyaan. Bayangin LLM kayak GPT-4 atau DeepSeek yang dikasih kemampuan buat:

Bikin rencana dan "berpikir" (reasoning).
Ambil tindakan berdasarkan rencana dan lingkungan sekitar.
Pake tools (alat) buat bantu kerja mereka.

Ini kayak ngubah LLM dari chatbot biasa jadi asisten cerdas yang bisa ngatur strategi dan eksekusi tugas. Area ini masih "budding" (baru berkembang), jadi banyak inovasi seru yang lagi diteliti!

Analogi sederhana:

Tanpa Language Agents, LLM cuma bisa jawab berdasarkan pelatihan.
Dengan Language Agents, LLM jadi agen yang bisa nyari solusi, pake kalkulator, atau ngakses data eksternal.

2. Kemampuan Utama Language Agents

Berdasarkan gambar, ada tiga kemampuan utama Language Agents:

Create plans and "reason":
- Agen ini bisa bikin rencana dan "berpikir" langkah demi langkah. Misalnya, kalau ditanya "Gimana cara bikin aplikasi AI sederhana?", agen bakal buat outline: 1) Pilih model, 2) Siapin data, 3) Coding, dll.
Take actions in response to plans and the environment:
- Setelah bikin rencana, agen bisa eksekusi tindakan berdasarkan situasi. Contoh: Kalau rencananya pake Python, agen bisa nulis kode atau panggil library yang dibutuhin.
Are capable of using tools:
- Agen bisa pake tools eksternal, kayak kalkulator, API, atau database, buat bantu jawab atau selesain tugas. Ini bikin mereka lebih fleksibel daripada LLM biasa.

3. Metode Terkenal di Language Agents

Gambar juga ngasih contoh beberapa karya penting di bidang ini. Aku jelasin satu-satu:

a. ReAct [Yao et al., 2022]

Apa itu?: ReAct adalah framework iteratif di mana LLM ngeluarin thoughts (pikiran), lalu ambil actions (tindakan), dan ngamatin results (hasil).
Cara kerja:
1. LLM mikir: "Aku perlu data buat jawab ini."
2. Ambil tindakan: Nyari data di corpus atau panggil tool.
3. Ngamatin hasil: Periksa apakah data cukup, lalu lanjut.
Contoh:
- Pertanyaan: "Berapa 5 + 7?"
- Thought: "Aku perlu kalkulator."
- Action: Panggil tool kalkulator.
- Result: "12".
Kerennya: ReAct bikin LLM lebih interaktif dan adaptif.

b. Toolformer [Schick et al., 2023]

Apa itu?: Teknik pre-training di mana strings (teks biasa) diganti dengan calls ke tools yang ngasih hasil.
Cara kerja:
- Selama pelatihan, LLM dilatih buat ngerti kapan harus panggil tool (misalnya, API cuaca) daripada nulis teks manual.
- Contoh: "Cuaca hari ini" diganti jadi panggil API cuaca, trus hasilnya (misalnya, "25°C") diproses lagi.
Contoh:
- Input: "Cuaca di Jakarta?"
- Toolformer: Panggil API cuaca → "25°C di Jakarta hari ini."
Kerennya: Bikin LLM lebih praktis buat tugas real-time tanpa perlu data pelatihan baru.

c. Bootstrapped reasoning [Zelikman et al., 2022]

Apa itu?: Metode yang nyuruh LLM ngeluarin rationalization (penjelasan langkah) dari proses berpikir, lalu pake data itu buat fine-tuning.
Cara kerja:
1. Prompt LLM buat jelasin langkah-langkah (misalnya, "Aku tambah 5 + 7 jadi 12").
2. Simpen penjelasan ini sebagai data fine-tuning.
3. Latih ulang LLM biar lebih jago nalar.
Contoh:
- Pertanyaan: "Kenapa 5 + 7 = 12?"
- LLM: "Aku tambah 5 + 7, step by step: 5 + 2 = 7, 7 + 3 = 10, 10 + 2 = 12."
- Data ini dipake buat improve reasoning.
Kerennya: Bikin LLM lebih transparan dan terlatih buat nalar logis.

4. Kaitan dengan DeepSeek 1.5B

DeepSeek 1.5B yang kamu pake di lokal bisa nggak sih jadi Language Agent?

Bisa, tapi ada batasannya. Karena cuma 1.5B parameter, DeepSeek udah jago di reasoning (matematika, coding), tapi buat jadi agen penuh (bikin rencana, pake tools), perlu tambahan:
- Integrasi ReAct buat bikin dia mikir dan ambil tindakan.
- Tambahin tools sederhana (misalnya, kalkulator atau API lokal) pake framework kayak LangChain.
- Optimasi hardware biar prosesnya nggak lelet (misalnya, pake GPU kalau ada).
Tips: Coba tes DeepSeek dengan prompt sederhana kayak "Bikin rencana buat ngerjain soal matematika" dan lihat apakah dia bisa ngeluarin langkah-langkah.

5. Catatan Belajar dan Langkah Selanjutnya

Progres gue: Gue sekarang ngerti Language Agents adalah LLM yang bisa bikin rencana, ambil tindakan, dan pake tools. Metode kayak ReAct, Toolformer, sama Bootstrapped reasoning nunjukin cara bikin LLM lebih cerdas.
Rencana berikutnya:
- Coba implementasi ReAct sederhana pake DeepSeek 1.5B di lokal. Misalnya, bikin agen yang mikir dan panggil kalkulator.
- Eksplor LangChain atau library lain buat tambahin tools ke DeepSeek.
- Tes Bootstrapped reasoning dengan prompt langkah-langkah buat latih reasoning lebih baik.
- Dalemin detail ReAct atau coba bikin agen yang interaktif pake Python.

Motivasi: Language Agents bikin AI lebih hidup kayak karakter di game! Dengan DeepSeek, gue bisa eksperimen bikin agen sederhana di lokal. Ser