Thanawat Wongchai

Posted on Jun 23 • Originally published at apidog.com

สอนสร้างระบบอัตโนมัติเบราว์เซอร์ด้วย AI โดยใช้ Python, Ollama และ DeepSeek

การทำงานอัตโนมัติของเบราว์เซอร์สมัยใหม่กำลังพัฒนาอย่างรวดเร็ว หมดยุคของสคริปต์ Selenium ที่เปราะบางและเวิร์กโฟลว์ที่ไม่เสถียร ด้วยเครื่องมือโอเพนซอร์สอย่าง Browser Use ผนวกกับโฮสต์ LLM ในเครื่องเช่น Ollama และเอ็นจิ้นการให้เหตุผลขั้นสูงอย่าง DeepSeek นักพัฒนาสามารถสร้างเอเจนต์ AI ที่ท่องเว็บ โต้ตอบกับแบบฟอร์ม แยกข้อมูล และทำงานอัตโนมัติได้อย่างน่าเชื่อถือ—ทั้งหมดนี้ขับเคลื่อนด้วยคำสั่งภาษาธรรมชาติ

ลองใช้ Apidog วันนี้

ในคู่มือนี้ คุณจะได้ตั้งค่าสแต็ก Browser Use + Ollama + DeepSeek ตั้งแต่เริ่มต้น เข้าใจบทบาทของแต่ละส่วน และเขียนเอเจนต์ Python ที่ควบคุมเบราว์เซอร์จริงได้ด้วยคำสั่งภาษาธรรมชาติ เหมาะสำหรับนักพัฒนา API, วิศวกรแบ็กเอนด์ และทีม QA ที่ต้องการ automation ที่ควบคุมได้ เป็นส่วนตัว และทำซ้ำได้

ทำไมต้องใช้ Browser Use, Ollama และ DeepSeek สำหรับ AI Browser Automation?

สแต็กนี้แบ่งหน้าที่ชัดเจน:

Browser Use: แพ็กเกจ Python สำหรับควบคุมเบราว์เซอร์ เช่น เปิดหน้าเว็บ คลิก กรอกฟอร์ม และดึงข้อมูล
Ollama: รัน LLM ในเครื่อง ช่วยให้ inference เกิดขึ้นบนเครื่องของคุณเอง
DeepSeek: โมเดล reasoning เช่น deepseek/seed หรือ deepseek-r1 สำหรับแปลงคำสั่งระดับสูงให้เป็นขั้นตอนที่เอเจนต์ทำได้

เมื่อใช้ร่วมกัน คุณสามารถสร้างเอเจนต์ที่ทำงานเหล่านี้ได้:

นำทางเว็บและดึงข้อมูลอัตโนมัติ
กรอกฟอร์มและโต้ตอบกับหน้าเว็บแบบไดนามิก
ทำงานหลายขั้นตอนจาก prompt เดียว เช่น ค้นหา เปรียบเทียบ และสรุปผล

ข้อกำหนดเบื้องต้น

ตรวจสอบเครื่องของคุณก่อนเริ่มติดตั้ง:

Python 3.11+

python --version

Ollama: ดาวน์โหลดจาก ollama.com
Node.js: จำเป็นสำหรับ Playwright

node --version

Git: สำหรับโคลน repository
ฮาร์ดแวร์ที่แนะนำ:
- CPU อย่างน้อย 4 คอร์
- RAM 16GB
- พื้นที่ว่างประมาณ 12GB สำหรับโมเดล DeepSeek
- GPU ไม่บังคับ แต่ช่วยให้โมเดลขนาดใหญ่ทำงานเร็วขึ้น

เคล็ดลับ: ติดตั้ง dependency ให้ครบก่อน เพื่อหลีกเลี่ยง error ระหว่างติดตั้ง Playwright หรือรันโมเดลผ่าน Ollama

ตั้งค่าโปรเจกต์ AI Browser Automation

1. สร้างโฟลเดอร์โปรเจกต์

mkdir browser-use-agent
cd browser-use-agent

2. โคลน Repository ของ Browser Use

git clone https://github.com/browser-use/browser-use.git
cd browser-use

3. สร้างและเปิดใช้งาน Python Virtual Environment

python -m venv venv

เปิดใช้งาน environment:

macOS / Linux

source venv/bin/activate

Windows

venv\Scripts\activate

เมื่อสำเร็จ คุณจะเห็น (venv) ในเทอร์มินัล

4. เปิดโปรเจกต์ใน VS Code

code .

หากไม่ได้ใช้ VS Code สามารถใช้ editor อื่นได้ แต่ให้แน่ใจว่าเลือก Python interpreter จาก virtual environment เดียวกัน

ติดตั้ง Ollama และ DeepSeek ในเครื่อง

1. ติดตั้ง Ollama

ดาวน์โหลดและติดตั้งจาก ollama.com

ตรวจสอบว่า Ollama พร้อมใช้งาน:

ollama --version

2. ดาวน์โหลดโมเดล DeepSeek

สำหรับ reasoning ให้ใช้โมเดล DeepSeek seed:

ollama pull deepseek/seed

หมายเหตุ:

โมเดลมีขนาดประมาณ 12GB
หากพื้นที่หรือทรัพยากรเครื่องจำกัด สามารถลองใช้ qwen2.5:14b ซึ่งมีขนาดประมาณ 4GB
หลังดาวน์โหลด ให้ตรวจสอบโมเดลที่ติดตั้งแล้ว:

ollama list

มองหา deepseek-r1 หรือโมเดลที่คุณเลือกใช้

ติดตั้ง Browser Use และ Dependencies

1. ติดตั้ง Browser Use พร้อมเครื่องมือสำหรับ development

รันคำสั่งนี้ใน virtual environment:

pip install . ."[dev]"

2. ติดตั้ง LangChain และ Ollama Integration

pip install langchain langchain-ollama

แพ็กเกจเหล่านี้ใช้เชื่อม Browser Use agent กับ LLM ที่รันผ่าน Ollama

3. ติดตั้ง Playwright Browsers

playwright install

หากเจอปัญหาเกี่ยวกับ system dependencies ให้รัน:

playwright install-deps

ตรวจสอบอีกครั้งว่า environment ใช้ Python 3.11+ เพราะ Browser Use และ Playwright ต้องพึ่ง dependency ที่เข้ากันได้กับเวอร์ชันนี้

เชื่อม Browser Use กับ Ollama และ DeepSeek

เริ่ม Ollama server ในเทอร์มินัลอีกหน้าต่าง:

ollama serve

Ollama จะเปิด LLM server ที่:

http://localhost:11434

ปล่อยให้ process นี้ทำงานอยู่ระหว่างรันสคริปต์ automation

ตัวอย่าง: สร้าง AI Agent เพื่อตรวจสอบสภาพอากาศในบอสตันบน Google

ในตัวอย่างนี้ เราจะเขียนสคริปต์ Python เพื่อให้ agent เปิด Google ค้นหาสภาพอากาศใน Boston, Massachusetts แล้วส่งผลลัพธ์กลับมา

1. สร้างไฟล์ `test.py`

เพิ่มโค้ดนี้ในโฟลเดอร์โปรเจกต์:

import asyncio
from browser_use import Agent
from langchain_ollama import ChatOllama

# Task: Use Google to find the weather in Boston, Massachusetts
async def run_search() -> str:
    agent = Agent(
        task="Use Google to find the weather in Boston, Massachusetts",
        llm=ChatOllama(
            model="deepseek/seed",
            num_ctx=32000,
        ),
        max_actions_per_step=3,
        tool_call_in_content=False,
    )
    result = await agent.run(max_steps=15)
    return result

async def main():
    result = await run_search()
    print("\n\n", result)

if __name__ == "__main__":
    asyncio.run(main())

2. เลือก Python Interpreter ใน VS Code

หากใช้ VS Code:

กด Ctrl+P หรือ Cmd+P บน macOS
พิมพ์ > Select Python Interpreter
เลือก interpreter จาก virtual environment ของโปรเจกต์ เช่น venv

3. รันสคริปต์

python test.py

Agent จะเปิดเบราว์เซอร์ ค้นหาสภาพอากาศของบอสตันบน Google และพิมพ์ผลลัพธ์ในเทอร์มินัล

หากเกิด error ให้ตรวจสอบ:

ollama serve

และยืนยันว่าพอร์ต 11434 ใช้งานได้

ดู log ของ Ollama ได้ที่:

~/.ollama/logs

การผสานรวม Apidog: ทดสอบ API ที่ Agent ใช้งาน

เมื่อ AI browser agent ของคุณโต้ตอบกับเว็บ API เช่น scraping endpoint หรือทำ workflow ที่พึ่งพา backend API การตรวจสอบ contract ของ API จะช่วยลดปัญหา automation ล้มเหลวจาก response ที่เปลี่ยนไป

Apidog ช่วยใน workflow นี้ได้โดย:

ทำ automated API testing เพื่อยืนยันว่า endpoint ทำงานตามที่คาดไว้
สร้างและจัดการ API test cases สำหรับ backend
ตรวจสอบ API contract ใน staging และ production

แนวทางใช้งานร่วมกันคือ ให้ browser agent ทำงานบน UI หรือเว็บ workflow และใช้ Apidog ตรวจสอบ API ที่อยู่เบื้องหลัง เพื่อให้แน่ใจว่า automation ไม่ได้พึ่งพา endpoint ที่พังหรือ response ที่ไม่ตรง contract

เริ่มใช้ Apidog ฟรีเพื่อเสริมความแข็งแรงให้ workflow AI browser automation ของคุณ

การทดสอบสัญญา API ด้วย Apidog

เคล็ดลับ Prompt Engineering สำหรับ Browser Agent

Prompt ที่ดีควรชัดเจน มีขอบเขต และระบุผลลัพธ์ที่ต้องการ

เขียนงานให้เฉพาะเจาะจง

ตัวอย่างที่ดี:

ไปที่ kayak.com, ค้นหาเที่ยวบินจากซูริกไปปักกิ่ง, วันที่ 25.12.2025–02.02.2026, แล้วเรียงตามราคา

ดีกว่า:

หาเที่ยวบิน

แบ่งงานที่ซับซ้อนเป็นขั้นตอน

ตัวอย่าง:

เยี่ยมชม LinkedIn, ค้นหางาน ML, บันทึกลิงก์งานลงในไฟล์, แล้วสมัคร 3 รายการแรก

ปรับ prompt ตามผลลัพธ์

หาก agent ทำงานไม่ตรงที่ต้องการ ให้ปรับ prompt ให้ละเอียดขึ้น เช่น ระบุเว็บไซต์ ปุ่มที่ต้องคลิก รูปแบบข้อมูลที่ต้องดึง หรือเงื่อนไขหยุดทำงาน การทดสอบ prompt ใน Open WebUI chat สามารถช่วยให้เห็นพฤติกรรมของโมเดลก่อนนำไปใช้กับ Browser Use

การดีบักและแก้ไขปัญหา

ใช้ checklist นี้เมื่อ automation ไม่ทำงานตามคาด:

ตรวจสอบว่า Ollama ทำงานอยู่

ollama serve

ดู log ของ Ollama

~/.ollama/logs

ใช้สำหรับตรวจสอบ error จากโมเดลหรือการโหลดโมเดล

ตรวจสอบ output ของ Playwright

Playwright จะแสดง action และ error ในเทอร์มินัล ช่วยระบุได้ว่า agent ติดที่การเปิดหน้าเว็บ การคลิก หรือ selector บางจุด

ลดขนาดโมเดลหากทำงานช้า

หาก DeepSeek ทำงานช้าเกินไปบนเครื่องของคุณ ให้ลองใช้โมเดลที่เบากว่า เช่น qwen2.5:14b

เปลี่ยน task ได้จากสตริงเดียว

แก้ค่า task ในสคริปต์เพื่อเปลี่ยน workflow เช่น:

task="Go to GitHub, search for browser-use, and summarize the repository stars and description"

หรือ:

task="Open the login page, enter test credentials, and verify whether the dashboard loads"

คำถามที่พบบ่อย

คำถามที่ 1. Browser Use คืออะไร?

Browser Use คือแพ็กเกจ Python สำหรับ AI-powered browser automation โดยใช้ Playwright ดูได้ที่ GitHub

คำถามที่ 2. ต้องใช้ GPU หรือไม่?

ไม่จำเป็นสำหรับโมเดลขนาดเล็ก เช่น DeepSeek/seed แต่ GPU ช่วยให้โมเดลขนาดใหญ่ตอบสนองเร็วขึ้น

คำถามที่ 3. ใช้โมเดลอื่นนอกจาก DeepSeek ได้ไหม?

ได้ หากโมเดลนั้นรองรับโดย Ollama และมีความสามารถด้าน reasoning ที่เหมาะกับงาน ดูรายละเอียดเพิ่มเติมได้ที่ GitHub

คำถามที่ 4. ข้อมูลถูกประมวลผลในเครื่องหรือไม่?

ใช่ หากรันผ่าน Ollama โดยไม่ตั้งค่าให้ส่งออกไปที่บริการอื่น ข้อมูลและ inference จะอยู่บนเครื่องของคุณ

คำถามที่ 5. ทำ automation สำหรับ login และงานหลายขั้นตอนได้ไหม?

ทำได้ ระบุงานระดับสูงใน prompt แล้ว agent จะพยายามแยกงานเป็น action ย่อย เช่น เปิดหน้าเว็บ กรอกข้อมูล คลิก และตรวจสอบผลลัพธ์

สรุป

ด้วย Python, Browser Use, Ollama และ DeepSeek คุณสามารถสร้าง AI agent ที่ควบคุมเบราว์เซอร์จริงจากคำสั่งภาษาธรรมชาติได้ สแต็กนี้เหมาะกับทีมที่ต้องการ automation ที่เป็นส่วนตัว ควบคุมได้ และประยุกต์ใช้กับ QA, backend integration หรือการทดสอบ workflow ที่ซับซ้อน

หาก workflow ของคุณเกี่ยวข้องกับ API ให้เพิ่ม Apidog เพื่อช่วยตรวจสอบ contract และทดสอบ endpoint ที่ agent ใช้งาน ลดความเสี่ยงจาก API response ที่เปลี่ยนหรือ endpoint ที่ไม่เสถียร

เริ่มจากสคริปต์ตัวอย่างในบทความนี้ จากนั้นเปลี่ยนค่า task ให้ตรงกับ workflow ของคุณ แล้วค่อยๆ เพิ่มการตรวจสอบผลลัพธ์และการทดสอบ API เพื่อให้ automation ทำงานได้อย่างน่าเชื่อถือ

DEV Community

สอนสร้างระบบอัตโนมัติเบราว์เซอร์ด้วย AI โดยใช้ Python, Ollama และ DeepSeek

ทำไมต้องใช้ Browser Use, Ollama และ DeepSeek สำหรับ AI Browser Automation?

ข้อกำหนดเบื้องต้น

ตั้งค่าโปรเจกต์ AI Browser Automation

1. สร้างโฟลเดอร์โปรเจกต์

2. โคลน Repository ของ Browser Use

3. สร้างและเปิดใช้งาน Python Virtual Environment

4. เปิดโปรเจกต์ใน VS Code

ติดตั้ง Ollama และ DeepSeek ในเครื่อง

1. ติดตั้ง Ollama

2. ดาวน์โหลดโมเดล DeepSeek

ติดตั้ง Browser Use และ Dependencies

1. ติดตั้ง Browser Use พร้อมเครื่องมือสำหรับ development

2. ติดตั้ง LangChain และ Ollama Integration

3. ติดตั้ง Playwright Browsers

เชื่อม Browser Use กับ Ollama และ DeepSeek

ตัวอย่าง: สร้าง AI Agent เพื่อตรวจสอบสภาพอากาศในบอสตันบน Google

1. สร้างไฟล์ `test.py`

2. เลือก Python Interpreter ใน VS Code

3. รันสคริปต์

การผสานรวม Apidog: ทดสอบ API ที่ Agent ใช้งาน

เคล็ดลับ Prompt Engineering สำหรับ Browser Agent

เขียนงานให้เฉพาะเจาะจง

แบ่งงานที่ซับซ้อนเป็นขั้นตอน

ปรับ prompt ตามผลลัพธ์

การดีบักและแก้ไขปัญหา

คำถามที่พบบ่อย

สรุป

Top comments (0)

ทำไมต้องใช้ Browser Use, Ollama และ DeepSeek สำหรับ AI Browser Automation?

ข้อกำหนดเบื้องต้น

ตั้งค่าโปรเจกต์ AI Browser Automation

1. สร้างโฟลเดอร์โปรเจกต์

2. โคลน Repository ของ Browser Use

3. สร้างและเปิดใช้งาน Python Virtual Environment

4. เปิดโปรเจกต์ใน VS Code

ติดตั้ง Ollama และ DeepSeek ในเครื่อง

1. ติดตั้ง Ollama

2. ดาวน์โหลดโมเดล DeepSeek

ติดตั้ง Browser Use และ Dependencies

1. ติดตั้ง Browser Use พร้อมเครื่องมือสำหรับ development

2. ติดตั้ง LangChain และ Ollama Integration

3. ติดตั้ง Playwright Browsers

เชื่อม Browser Use กับ Ollama และ DeepSeek

ตัวอย่าง: สร้าง AI Agent เพื่อตรวจสอบสภาพอากาศในบอสตันบน Google

1. สร้างไฟล์ test.py

2. เลือก Python Interpreter ใน VS Code

3. รันสคริปต์

การผสานรวม Apidog: ทดสอบ API ที่ Agent ใช้งาน

เคล็ดลับ Prompt Engineering สำหรับ Browser Agent

เขียนงานให้เฉพาะเจาะจง

แบ่งงานที่ซับซ้อนเป็นขั้นตอน

ปรับ prompt ตามผลลัพธ์

การดีบักและแก้ไขปัญหา

คำถามที่พบบ่อย

สรุป

1. สร้างไฟล์ `test.py`