DEV Community

Cover image for สอนสร้างระบบอัตโนมัติเบราว์เซอร์ด้วย AI โดยใช้ Python, Ollama และ DeepSeek
Thanawat Wongchai
Thanawat Wongchai

Posted on • Originally published at apidog.com

สอนสร้างระบบอัตโนมัติเบราว์เซอร์ด้วย AI โดยใช้ Python, Ollama และ DeepSeek

การทำงานอัตโนมัติของเบราว์เซอร์สมัยใหม่กำลังพัฒนาอย่างรวดเร็ว หมดยุคของสคริปต์ Selenium ที่เปราะบางและเวิร์กโฟลว์ที่ไม่เสถียร ด้วยเครื่องมือโอเพนซอร์สอย่าง Browser Use ผนวกกับโฮสต์ LLM ในเครื่องเช่น Ollama และเอ็นจิ้นการให้เหตุผลขั้นสูงอย่าง DeepSeek นักพัฒนาสามารถสร้างเอเจนต์ AI ที่ท่องเว็บ โต้ตอบกับแบบฟอร์ม แยกข้อมูล และทำงานอัตโนมัติได้อย่างน่าเชื่อถือ—ทั้งหมดนี้ขับเคลื่อนด้วยคำสั่งภาษาธรรมชาติ

ลองใช้ Apidog วันนี้

ในคู่มือนี้ คุณจะได้ตั้งค่าสแต็ก Browser Use + Ollama + DeepSeek ตั้งแต่เริ่มต้น เข้าใจบทบาทของแต่ละส่วน และเขียนเอเจนต์ Python ที่ควบคุมเบราว์เซอร์จริงได้ด้วยคำสั่งภาษาธรรมชาติ เหมาะสำหรับนักพัฒนา API, วิศวกรแบ็กเอนด์ และทีม QA ที่ต้องการ automation ที่ควบคุมได้ เป็นส่วนตัว และทำซ้ำได้

ทำไมต้องใช้ Browser Use, Ollama และ DeepSeek สำหรับ AI Browser Automation?

สแต็กนี้แบ่งหน้าที่ชัดเจน:

  • Browser Use: แพ็กเกจ Python สำหรับควบคุมเบราว์เซอร์ เช่น เปิดหน้าเว็บ คลิก กรอกฟอร์ม และดึงข้อมูล
  • Ollama: รัน LLM ในเครื่อง ช่วยให้ inference เกิดขึ้นบนเครื่องของคุณเอง
  • DeepSeek: โมเดล reasoning เช่น deepseek/seed หรือ deepseek-r1 สำหรับแปลงคำสั่งระดับสูงให้เป็นขั้นตอนที่เอเจนต์ทำได้

เมื่อใช้ร่วมกัน คุณสามารถสร้างเอเจนต์ที่ทำงานเหล่านี้ได้:

  • นำทางเว็บและดึงข้อมูลอัตโนมัติ
  • กรอกฟอร์มและโต้ตอบกับหน้าเว็บแบบไดนามิก
  • ทำงานหลายขั้นตอนจาก prompt เดียว เช่น ค้นหา เปรียบเทียบ และสรุปผล

ข้อกำหนดเบื้องต้น

ตรวจสอบเครื่องของคุณก่อนเริ่มติดตั้ง:

  • Python 3.11+
python --version
Enter fullscreen mode Exit fullscreen mode
  • Ollama: ดาวน์โหลดจาก ollama.com
  • Node.js: จำเป็นสำหรับ Playwright
node --version
Enter fullscreen mode Exit fullscreen mode
  • Git: สำหรับโคลน repository
  • ฮาร์ดแวร์ที่แนะนำ:
    • CPU อย่างน้อย 4 คอร์
    • RAM 16GB
    • พื้นที่ว่างประมาณ 12GB สำหรับโมเดล DeepSeek
    • GPU ไม่บังคับ แต่ช่วยให้โมเดลขนาดใหญ่ทำงานเร็วขึ้น

เคล็ดลับ: ติดตั้ง dependency ให้ครบก่อน เพื่อหลีกเลี่ยง error ระหว่างติดตั้ง Playwright หรือรันโมเดลผ่าน Ollama

ตั้งค่าโปรเจกต์ AI Browser Automation

1. สร้างโฟลเดอร์โปรเจกต์

mkdir browser-use-agent
cd browser-use-agent
Enter fullscreen mode Exit fullscreen mode

2. โคลน Repository ของ Browser Use

git clone https://github.com/browser-use/browser-use.git
cd browser-use
Enter fullscreen mode Exit fullscreen mode

3. สร้างและเปิดใช้งาน Python Virtual Environment

python -m venv venv
Enter fullscreen mode Exit fullscreen mode

เปิดใช้งาน environment:

macOS / Linux

source venv/bin/activate
Enter fullscreen mode Exit fullscreen mode

Windows

venv\Scripts\activate
Enter fullscreen mode Exit fullscreen mode

เมื่อสำเร็จ คุณจะเห็น (venv) ในเทอร์มินัล

4. เปิดโปรเจกต์ใน VS Code

code .
Enter fullscreen mode Exit fullscreen mode

หากไม่ได้ใช้ VS Code สามารถใช้ editor อื่นได้ แต่ให้แน่ใจว่าเลือก Python interpreter จาก virtual environment เดียวกัน

ติดตั้ง Ollama และ DeepSeek ในเครื่อง

1. ติดตั้ง Ollama

ดาวน์โหลดและติดตั้งจาก ollama.com

ตรวจสอบว่า Ollama พร้อมใช้งาน:

ollama --version
Enter fullscreen mode Exit fullscreen mode

ดาวน์โหลด ollama

2. ดาวน์โหลดโมเดล DeepSeek

สำหรับ reasoning ให้ใช้โมเดล DeepSeek seed:

ollama pull deepseek/seed
Enter fullscreen mode Exit fullscreen mode

หมายเหตุ:

  • โมเดลมีขนาดประมาณ 12GB
  • หากพื้นที่หรือทรัพยากรเครื่องจำกัด สามารถลองใช้ qwen2.5:14b ซึ่งมีขนาดประมาณ 4GB
  • หลังดาวน์โหลด ให้ตรวจสอบโมเดลที่ติดตั้งแล้ว:
ollama list
Enter fullscreen mode Exit fullscreen mode

มองหา deepseek-r1 หรือโมเดลที่คุณเลือกใช้

ดึงโมเดล deepseek

ติดตั้ง Browser Use และ Dependencies

1. ติดตั้ง Browser Use พร้อมเครื่องมือสำหรับ development

รันคำสั่งนี้ใน virtual environment:

pip install . ."[dev]"
Enter fullscreen mode Exit fullscreen mode

2. ติดตั้ง LangChain และ Ollama Integration

pip install langchain langchain-ollama
Enter fullscreen mode Exit fullscreen mode

แพ็กเกจเหล่านี้ใช้เชื่อม Browser Use agent กับ LLM ที่รันผ่าน Ollama

3. ติดตั้ง Playwright Browsers

playwright install
Enter fullscreen mode Exit fullscreen mode

หากเจอปัญหาเกี่ยวกับ system dependencies ให้รัน:

playwright install-deps
Enter fullscreen mode Exit fullscreen mode

ตรวจสอบอีกครั้งว่า environment ใช้ Python 3.11+ เพราะ Browser Use และ Playwright ต้องพึ่ง dependency ที่เข้ากันได้กับเวอร์ชันนี้

เชื่อม Browser Use กับ Ollama และ DeepSeek

เริ่ม Ollama server ในเทอร์มินัลอีกหน้าต่าง:

ollama serve
Enter fullscreen mode Exit fullscreen mode

Ollama จะเปิด LLM server ที่:

http://localhost:11434
Enter fullscreen mode Exit fullscreen mode

ปล่อยให้ process นี้ทำงานอยู่ระหว่างรันสคริปต์ automation

ตัวอย่าง: สร้าง AI Agent เพื่อตรวจสอบสภาพอากาศในบอสตันบน Google

ในตัวอย่างนี้ เราจะเขียนสคริปต์ Python เพื่อให้ agent เปิด Google ค้นหาสภาพอากาศใน Boston, Massachusetts แล้วส่งผลลัพธ์กลับมา

1. สร้างไฟล์ test.py

เพิ่มโค้ดนี้ในโฟลเดอร์โปรเจกต์:

import asyncio
from browser_use import Agent
from langchain_ollama import ChatOllama

# Task: Use Google to find the weather in Boston, Massachusetts
async def run_search() -> str:
    agent = Agent(
        task="Use Google to find the weather in Boston, Massachusetts",
        llm=ChatOllama(
            model="deepseek/seed",
            num_ctx=32000,
        ),
        max_actions_per_step=3,
        tool_call_in_content=False,
    )
    result = await agent.run(max_steps=15)
    return result

async def main():
    result = await run_search()
    print("\n\n", result)

if __name__ == "__main__":
    asyncio.run(main())
Enter fullscreen mode Exit fullscreen mode

2. เลือก Python Interpreter ใน VS Code

หากใช้ VS Code:

  1. กด Ctrl+P หรือ Cmd+P บน macOS
  2. พิมพ์ > Select Python Interpreter
  3. เลือก interpreter จาก virtual environment ของโปรเจกต์ เช่น venv

3. รันสคริปต์

python test.py
Enter fullscreen mode Exit fullscreen mode

Agent จะเปิดเบราว์เซอร์ ค้นหาสภาพอากาศของบอสตันบน Google และพิมพ์ผลลัพธ์ในเทอร์มินัล

การค้นหาด้วย browser-use

หากเกิด error ให้ตรวจสอบ:

ollama serve
Enter fullscreen mode Exit fullscreen mode

และยืนยันว่าพอร์ต 11434 ใช้งานได้

ดู log ของ Ollama ได้ที่:

~/.ollama/logs
Enter fullscreen mode Exit fullscreen mode

ผลการค้นหาด้วย browser-use

การผสานรวม Apidog: ทดสอบ API ที่ Agent ใช้งาน

เมื่อ AI browser agent ของคุณโต้ตอบกับเว็บ API เช่น scraping endpoint หรือทำ workflow ที่พึ่งพา backend API การตรวจสอบ contract ของ API จะช่วยลดปัญหา automation ล้มเหลวจาก response ที่เปลี่ยนไป

Apidog ช่วยใน workflow นี้ได้โดย:

  • ทำ automated API testing เพื่อยืนยันว่า endpoint ทำงานตามที่คาดไว้
  • สร้างและจัดการ API test cases สำหรับ backend
  • ตรวจสอบ API contract ใน staging และ production

แนวทางใช้งานร่วมกันคือ ให้ browser agent ทำงานบน UI หรือเว็บ workflow และใช้ Apidog ตรวจสอบ API ที่อยู่เบื้องหลัง เพื่อให้แน่ใจว่า automation ไม่ได้พึ่งพา endpoint ที่พังหรือ response ที่ไม่ตรง contract

เริ่มใช้ Apidog ฟรีเพื่อเสริมความแข็งแรงให้ workflow AI browser automation ของคุณ

การทดสอบสัญญา API ด้วย Apidog

การทดสอบสัญญา API ด้วย Apidog

เคล็ดลับ Prompt Engineering สำหรับ Browser Agent

Prompt ที่ดีควรชัดเจน มีขอบเขต และระบุผลลัพธ์ที่ต้องการ

เขียนงานให้เฉพาะเจาะจง

ตัวอย่างที่ดี:

ไปที่ kayak.com, ค้นหาเที่ยวบินจากซูริกไปปักกิ่ง, วันที่ 25.12.2025–02.02.2026, แล้วเรียงตามราคา
Enter fullscreen mode Exit fullscreen mode

ดีกว่า:

หาเที่ยวบิน
Enter fullscreen mode Exit fullscreen mode

แบ่งงานที่ซับซ้อนเป็นขั้นตอน

ตัวอย่าง:

เยี่ยมชม LinkedIn, ค้นหางาน ML, บันทึกลิงก์งานลงในไฟล์, แล้วสมัคร 3 รายการแรก
Enter fullscreen mode Exit fullscreen mode

ปรับ prompt ตามผลลัพธ์

หาก agent ทำงานไม่ตรงที่ต้องการ ให้ปรับ prompt ให้ละเอียดขึ้น เช่น ระบุเว็บไซต์ ปุ่มที่ต้องคลิก รูปแบบข้อมูลที่ต้องดึง หรือเงื่อนไขหยุดทำงาน การทดสอบ prompt ใน Open WebUI chat สามารถช่วยให้เห็นพฤติกรรมของโมเดลก่อนนำไปใช้กับ Browser Use

การดีบักและแก้ไขปัญหา

ใช้ checklist นี้เมื่อ automation ไม่ทำงานตามคาด:

  • ตรวจสอบว่า Ollama ทำงานอยู่
ollama serve
Enter fullscreen mode Exit fullscreen mode
  • ดู log ของ Ollama
~/.ollama/logs
Enter fullscreen mode Exit fullscreen mode

ใช้สำหรับตรวจสอบ error จากโมเดลหรือการโหลดโมเดล

  • ตรวจสอบ output ของ Playwright

Playwright จะแสดง action และ error ในเทอร์มินัล ช่วยระบุได้ว่า agent ติดที่การเปิดหน้าเว็บ การคลิก หรือ selector บางจุด

  • ลดขนาดโมเดลหากทำงานช้า

หาก DeepSeek ทำงานช้าเกินไปบนเครื่องของคุณ ให้ลองใช้โมเดลที่เบากว่า เช่น qwen2.5:14b

  • เปลี่ยน task ได้จากสตริงเดียว

แก้ค่า task ในสคริปต์เพื่อเปลี่ยน workflow เช่น:

task="Go to GitHub, search for browser-use, and summarize the repository stars and description"
Enter fullscreen mode Exit fullscreen mode

หรือ:

task="Open the login page, enter test credentials, and verify whether the dashboard loads"
Enter fullscreen mode Exit fullscreen mode

คำถามที่พบบ่อย

คำถามที่ 1. Browser Use คืออะไร?

Browser Use คือแพ็กเกจ Python สำหรับ AI-powered browser automation โดยใช้ Playwright ดูได้ที่ GitHub

คำถามที่ 2. ต้องใช้ GPU หรือไม่?

ไม่จำเป็นสำหรับโมเดลขนาดเล็ก เช่น DeepSeek/seed แต่ GPU ช่วยให้โมเดลขนาดใหญ่ตอบสนองเร็วขึ้น

คำถามที่ 3. ใช้โมเดลอื่นนอกจาก DeepSeek ได้ไหม?

ได้ หากโมเดลนั้นรองรับโดย Ollama และมีความสามารถด้าน reasoning ที่เหมาะกับงาน ดูรายละเอียดเพิ่มเติมได้ที่ GitHub

คำถามที่ 4. ข้อมูลถูกประมวลผลในเครื่องหรือไม่?

ใช่ หากรันผ่าน Ollama โดยไม่ตั้งค่าให้ส่งออกไปที่บริการอื่น ข้อมูลและ inference จะอยู่บนเครื่องของคุณ

คำถามที่ 5. ทำ automation สำหรับ login และงานหลายขั้นตอนได้ไหม?

ทำได้ ระบุงานระดับสูงใน prompt แล้ว agent จะพยายามแยกงานเป็น action ย่อย เช่น เปิดหน้าเว็บ กรอกข้อมูล คลิก และตรวจสอบผลลัพธ์

สรุป

ด้วย Python, Browser Use, Ollama และ DeepSeek คุณสามารถสร้าง AI agent ที่ควบคุมเบราว์เซอร์จริงจากคำสั่งภาษาธรรมชาติได้ สแต็กนี้เหมาะกับทีมที่ต้องการ automation ที่เป็นส่วนตัว ควบคุมได้ และประยุกต์ใช้กับ QA, backend integration หรือการทดสอบ workflow ที่ซับซ้อน

หาก workflow ของคุณเกี่ยวข้องกับ API ให้เพิ่ม Apidog เพื่อช่วยตรวจสอบ contract และทดสอบ endpoint ที่ agent ใช้งาน ลดความเสี่ยงจาก API response ที่เปลี่ยนหรือ endpoint ที่ไม่เสถียร

เริ่มจากสคริปต์ตัวอย่างในบทความนี้ จากนั้นเปลี่ยนค่า task ให้ตรงกับ workflow ของคุณ แล้วค่อยๆ เพิ่มการตรวจสอบผลลัพธ์และการทดสอบ API เพื่อให้ automation ทำงานได้อย่างน่าเชื่อถือ

Top comments (0)