การทำงานอัตโนมัติของเบราว์เซอร์สมัยใหม่กำลังพัฒนาอย่างรวดเร็ว หมดยุคของสคริปต์ Selenium ที่เปราะบางและเวิร์กโฟลว์ที่ไม่เสถียร ด้วยเครื่องมือโอเพนซอร์สอย่าง Browser Use ผนวกกับโฮสต์ LLM ในเครื่องเช่น Ollama และเอ็นจิ้นการให้เหตุผลขั้นสูงอย่าง DeepSeek นักพัฒนาสามารถสร้างเอเจนต์ AI ที่ท่องเว็บ โต้ตอบกับแบบฟอร์ม แยกข้อมูล และทำงานอัตโนมัติได้อย่างน่าเชื่อถือ—ทั้งหมดนี้ขับเคลื่อนด้วยคำสั่งภาษาธรรมชาติ
ในคู่มือนี้ คุณจะได้ตั้งค่าสแต็ก Browser Use + Ollama + DeepSeek ตั้งแต่เริ่มต้น เข้าใจบทบาทของแต่ละส่วน และเขียนเอเจนต์ Python ที่ควบคุมเบราว์เซอร์จริงได้ด้วยคำสั่งภาษาธรรมชาติ เหมาะสำหรับนักพัฒนา API, วิศวกรแบ็กเอนด์ และทีม QA ที่ต้องการ automation ที่ควบคุมได้ เป็นส่วนตัว และทำซ้ำได้
ทำไมต้องใช้ Browser Use, Ollama และ DeepSeek สำหรับ AI Browser Automation?
สแต็กนี้แบ่งหน้าที่ชัดเจน:
- Browser Use: แพ็กเกจ Python สำหรับควบคุมเบราว์เซอร์ เช่น เปิดหน้าเว็บ คลิก กรอกฟอร์ม และดึงข้อมูล
- Ollama: รัน LLM ในเครื่อง ช่วยให้ inference เกิดขึ้นบนเครื่องของคุณเอง
-
DeepSeek: โมเดล reasoning เช่น
deepseek/seedหรือdeepseek-r1สำหรับแปลงคำสั่งระดับสูงให้เป็นขั้นตอนที่เอเจนต์ทำได้
เมื่อใช้ร่วมกัน คุณสามารถสร้างเอเจนต์ที่ทำงานเหล่านี้ได้:
- นำทางเว็บและดึงข้อมูลอัตโนมัติ
- กรอกฟอร์มและโต้ตอบกับหน้าเว็บแบบไดนามิก
- ทำงานหลายขั้นตอนจาก prompt เดียว เช่น ค้นหา เปรียบเทียบ และสรุปผล
ข้อกำหนดเบื้องต้น
ตรวจสอบเครื่องของคุณก่อนเริ่มติดตั้ง:
- Python 3.11+
python --version
- Ollama: ดาวน์โหลดจาก ollama.com
- Node.js: จำเป็นสำหรับ Playwright
node --version
- Git: สำหรับโคลน repository
-
ฮาร์ดแวร์ที่แนะนำ:
- CPU อย่างน้อย 4 คอร์
- RAM 16GB
- พื้นที่ว่างประมาณ 12GB สำหรับโมเดล DeepSeek
- GPU ไม่บังคับ แต่ช่วยให้โมเดลขนาดใหญ่ทำงานเร็วขึ้น
เคล็ดลับ: ติดตั้ง dependency ให้ครบก่อน เพื่อหลีกเลี่ยง error ระหว่างติดตั้ง Playwright หรือรันโมเดลผ่าน Ollama
ตั้งค่าโปรเจกต์ AI Browser Automation
1. สร้างโฟลเดอร์โปรเจกต์
mkdir browser-use-agent
cd browser-use-agent
2. โคลน Repository ของ Browser Use
git clone https://github.com/browser-use/browser-use.git
cd browser-use
3. สร้างและเปิดใช้งาน Python Virtual Environment
python -m venv venv
เปิดใช้งาน environment:
macOS / Linux
source venv/bin/activate
Windows
venv\Scripts\activate
เมื่อสำเร็จ คุณจะเห็น (venv) ในเทอร์มินัล
4. เปิดโปรเจกต์ใน VS Code
code .
หากไม่ได้ใช้ VS Code สามารถใช้ editor อื่นได้ แต่ให้แน่ใจว่าเลือก Python interpreter จาก virtual environment เดียวกัน
ติดตั้ง Ollama และ DeepSeek ในเครื่อง
1. ติดตั้ง Ollama
ดาวน์โหลดและติดตั้งจาก ollama.com
ตรวจสอบว่า Ollama พร้อมใช้งาน:
ollama --version
2. ดาวน์โหลดโมเดล DeepSeek
สำหรับ reasoning ให้ใช้โมเดล DeepSeek seed:
ollama pull deepseek/seed
หมายเหตุ:
- โมเดลมีขนาดประมาณ 12GB
- หากพื้นที่หรือทรัพยากรเครื่องจำกัด สามารถลองใช้
qwen2.5:14bซึ่งมีขนาดประมาณ 4GB - หลังดาวน์โหลด ให้ตรวจสอบโมเดลที่ติดตั้งแล้ว:
ollama list
มองหา deepseek-r1 หรือโมเดลที่คุณเลือกใช้
ติดตั้ง Browser Use และ Dependencies
1. ติดตั้ง Browser Use พร้อมเครื่องมือสำหรับ development
รันคำสั่งนี้ใน virtual environment:
pip install . ."[dev]"
2. ติดตั้ง LangChain และ Ollama Integration
pip install langchain langchain-ollama
แพ็กเกจเหล่านี้ใช้เชื่อม Browser Use agent กับ LLM ที่รันผ่าน Ollama
3. ติดตั้ง Playwright Browsers
playwright install
หากเจอปัญหาเกี่ยวกับ system dependencies ให้รัน:
playwright install-deps
ตรวจสอบอีกครั้งว่า environment ใช้ Python 3.11+ เพราะ Browser Use และ Playwright ต้องพึ่ง dependency ที่เข้ากันได้กับเวอร์ชันนี้
เชื่อม Browser Use กับ Ollama และ DeepSeek
เริ่ม Ollama server ในเทอร์มินัลอีกหน้าต่าง:
ollama serve
Ollama จะเปิด LLM server ที่:
http://localhost:11434
ปล่อยให้ process นี้ทำงานอยู่ระหว่างรันสคริปต์ automation
ตัวอย่าง: สร้าง AI Agent เพื่อตรวจสอบสภาพอากาศในบอสตันบน Google
ในตัวอย่างนี้ เราจะเขียนสคริปต์ Python เพื่อให้ agent เปิด Google ค้นหาสภาพอากาศใน Boston, Massachusetts แล้วส่งผลลัพธ์กลับมา
1. สร้างไฟล์ test.py
เพิ่มโค้ดนี้ในโฟลเดอร์โปรเจกต์:
import asyncio
from browser_use import Agent
from langchain_ollama import ChatOllama
# Task: Use Google to find the weather in Boston, Massachusetts
async def run_search() -> str:
agent = Agent(
task="Use Google to find the weather in Boston, Massachusetts",
llm=ChatOllama(
model="deepseek/seed",
num_ctx=32000,
),
max_actions_per_step=3,
tool_call_in_content=False,
)
result = await agent.run(max_steps=15)
return result
async def main():
result = await run_search()
print("\n\n", result)
if __name__ == "__main__":
asyncio.run(main())
2. เลือก Python Interpreter ใน VS Code
หากใช้ VS Code:
- กด
Ctrl+PหรือCmd+Pบน macOS - พิมพ์
> Select Python Interpreter - เลือก interpreter จาก virtual environment ของโปรเจกต์ เช่น
venv
3. รันสคริปต์
python test.py
Agent จะเปิดเบราว์เซอร์ ค้นหาสภาพอากาศของบอสตันบน Google และพิมพ์ผลลัพธ์ในเทอร์มินัล
หากเกิด error ให้ตรวจสอบ:
ollama serve
และยืนยันว่าพอร์ต 11434 ใช้งานได้
ดู log ของ Ollama ได้ที่:
~/.ollama/logs
การผสานรวม Apidog: ทดสอบ API ที่ Agent ใช้งาน
เมื่อ AI browser agent ของคุณโต้ตอบกับเว็บ API เช่น scraping endpoint หรือทำ workflow ที่พึ่งพา backend API การตรวจสอบ contract ของ API จะช่วยลดปัญหา automation ล้มเหลวจาก response ที่เปลี่ยนไป
Apidog ช่วยใน workflow นี้ได้โดย:
- ทำ automated API testing เพื่อยืนยันว่า endpoint ทำงานตามที่คาดไว้
- สร้างและจัดการ API test cases สำหรับ backend
- ตรวจสอบ API contract ใน staging และ production
แนวทางใช้งานร่วมกันคือ ให้ browser agent ทำงานบน UI หรือเว็บ workflow และใช้ Apidog ตรวจสอบ API ที่อยู่เบื้องหลัง เพื่อให้แน่ใจว่า automation ไม่ได้พึ่งพา endpoint ที่พังหรือ response ที่ไม่ตรง contract
เริ่มใช้ Apidog ฟรีเพื่อเสริมความแข็งแรงให้ workflow AI browser automation ของคุณ
การทดสอบสัญญา API ด้วย Apidog
เคล็ดลับ Prompt Engineering สำหรับ Browser Agent
Prompt ที่ดีควรชัดเจน มีขอบเขต และระบุผลลัพธ์ที่ต้องการ
เขียนงานให้เฉพาะเจาะจง
ตัวอย่างที่ดี:
ไปที่ kayak.com, ค้นหาเที่ยวบินจากซูริกไปปักกิ่ง, วันที่ 25.12.2025–02.02.2026, แล้วเรียงตามราคา
ดีกว่า:
หาเที่ยวบิน
แบ่งงานที่ซับซ้อนเป็นขั้นตอน
ตัวอย่าง:
เยี่ยมชม LinkedIn, ค้นหางาน ML, บันทึกลิงก์งานลงในไฟล์, แล้วสมัคร 3 รายการแรก
ปรับ prompt ตามผลลัพธ์
หาก agent ทำงานไม่ตรงที่ต้องการ ให้ปรับ prompt ให้ละเอียดขึ้น เช่น ระบุเว็บไซต์ ปุ่มที่ต้องคลิก รูปแบบข้อมูลที่ต้องดึง หรือเงื่อนไขหยุดทำงาน การทดสอบ prompt ใน Open WebUI chat สามารถช่วยให้เห็นพฤติกรรมของโมเดลก่อนนำไปใช้กับ Browser Use
การดีบักและแก้ไขปัญหา
ใช้ checklist นี้เมื่อ automation ไม่ทำงานตามคาด:
- ตรวจสอบว่า Ollama ทำงานอยู่
ollama serve
- ดู log ของ Ollama
~/.ollama/logs
ใช้สำหรับตรวจสอบ error จากโมเดลหรือการโหลดโมเดล
- ตรวจสอบ output ของ Playwright
Playwright จะแสดง action และ error ในเทอร์มินัล ช่วยระบุได้ว่า agent ติดที่การเปิดหน้าเว็บ การคลิก หรือ selector บางจุด
- ลดขนาดโมเดลหากทำงานช้า
หาก DeepSeek ทำงานช้าเกินไปบนเครื่องของคุณ ให้ลองใช้โมเดลที่เบากว่า เช่น qwen2.5:14b
- เปลี่ยน task ได้จากสตริงเดียว
แก้ค่า task ในสคริปต์เพื่อเปลี่ยน workflow เช่น:
task="Go to GitHub, search for browser-use, and summarize the repository stars and description"
หรือ:
task="Open the login page, enter test credentials, and verify whether the dashboard loads"
คำถามที่พบบ่อย
คำถามที่ 1. Browser Use คืออะไร?
Browser Use คือแพ็กเกจ Python สำหรับ AI-powered browser automation โดยใช้ Playwright ดูได้ที่ GitHub
คำถามที่ 2. ต้องใช้ GPU หรือไม่?
ไม่จำเป็นสำหรับโมเดลขนาดเล็ก เช่น DeepSeek/seed แต่ GPU ช่วยให้โมเดลขนาดใหญ่ตอบสนองเร็วขึ้น
คำถามที่ 3. ใช้โมเดลอื่นนอกจาก DeepSeek ได้ไหม?
ได้ หากโมเดลนั้นรองรับโดย Ollama และมีความสามารถด้าน reasoning ที่เหมาะกับงาน ดูรายละเอียดเพิ่มเติมได้ที่ GitHub
คำถามที่ 4. ข้อมูลถูกประมวลผลในเครื่องหรือไม่?
ใช่ หากรันผ่าน Ollama โดยไม่ตั้งค่าให้ส่งออกไปที่บริการอื่น ข้อมูลและ inference จะอยู่บนเครื่องของคุณ
คำถามที่ 5. ทำ automation สำหรับ login และงานหลายขั้นตอนได้ไหม?
ทำได้ ระบุงานระดับสูงใน prompt แล้ว agent จะพยายามแยกงานเป็น action ย่อย เช่น เปิดหน้าเว็บ กรอกข้อมูล คลิก และตรวจสอบผลลัพธ์
สรุป
ด้วย Python, Browser Use, Ollama และ DeepSeek คุณสามารถสร้าง AI agent ที่ควบคุมเบราว์เซอร์จริงจากคำสั่งภาษาธรรมชาติได้ สแต็กนี้เหมาะกับทีมที่ต้องการ automation ที่เป็นส่วนตัว ควบคุมได้ และประยุกต์ใช้กับ QA, backend integration หรือการทดสอบ workflow ที่ซับซ้อน
หาก workflow ของคุณเกี่ยวข้องกับ API ให้เพิ่ม Apidog เพื่อช่วยตรวจสอบ contract และทดสอบ endpoint ที่ agent ใช้งาน ลดความเสี่ยงจาก API response ที่เปลี่ยนหรือ endpoint ที่ไม่เสถียร
เริ่มจากสคริปต์ตัวอย่างในบทความนี้ จากนั้นเปลี่ยนค่า task ให้ตรงกับ workflow ของคุณ แล้วค่อยๆ เพิ่มการตรวจสอบผลลัพธ์และการทดสอบ API เพื่อให้ automation ทำงานได้อย่างน่าเชื่อถือ





Top comments (0)