DEV Community

Cover image for Hướng Dẫn Cài Đặt và Sử Dụng Firecrawl CLI Chi Tiết
Sebastian Petrus
Sebastian Petrus

Posted on • Originally published at apidog.com

Hướng Dẫn Cài Đặt và Sử Dụng Firecrawl CLI Chi Tiết

Firecrawl CLI là công cụ terminal tất cả trong một cho phép AI Agents và dev cạo dữ liệu (scrape), tìm kiếm, lập bản đồ (map), crawl và tự động hóa trình duyệt trên bất kỳ website nào với markdown sạch, JSON, screenshot và nhiều định dạng khác — ghi trực tiếp vào hệ thống tệp của bạn. Chạy nhanh qua `npx firecrawl` (không cần cài đặt) hoặc cài đặt toàn cục, rồi kết nối với Claude Code, Cursor hoặc OpenCode chỉ qua một lệnh `firecrawl init` để tự động thêm kỹ năng.

Dùng thử Apidog ngay hôm nay

Bạn nên cài đặt Firecrawl CLI để các tác nhân AI và dev lấy dữ liệu web real-time, đáng tin cậy, không cần tự viết script tùy chỉnh dễ gãy hoặc bị chặn. Firecrawl CLI gom tất cả: scrape, search web, map sitemap, crawl đệ quy, session cloud browser thành một công cụ gốc terminal duy nhất. Đầu ra gồm markdown sạch, JSON chuẩn, screenshot, HTML vào thẳng file hệ thống — giữ số token thấp và ngữ cảnh chính xác cho LLM. Agents như Claude Code, Cursor, OpenCode dùng Firecrawl CLI hàng ngày để lấy nội dung mới từ trang động, JavaScript nặng, các luồng bảo vệ mà công cụ truyền thống không xử lý được.

💡Trước khi chạy lệnh Firecrawl CLI đầu tiên, hãy tải Apidog miễn phí. Nó giúp bạn test và debug trực quan các endpoint API của Firecrawl mà Firecrawl CLI sử dụng — API key, param tùy chỉnh, response shape — tất cả trên giao diện sạch sẽ. Tiết kiệm cực nhiều thời gian trial & error khi tích hợp agent.

Quy trình chuẩn: chuẩn bị môi trường, cài Firecrawl CLI, xác thực, khám phá lệnh core, tích hợp agent, áp dụng best practice. Firecrawl CLI tự động quản lý concurrency, throttling và local cache — bạn chỉ tập trung extract dữ liệu giá trị. Chọn flag chuẩn như selector format hay timeout giúp cải thiện output rõ rệt.

Lợi ích nổi bật của Firecrawl CLI

Firecrawl CLI render JavaScript thật qua cloud browsers, tôn trọng anti-bot và khả năng thu hồi nội dung >80% trên các site phức tạp nơi cheerio hoặc Puppeteer cơ bản bó tay. Mặc định xuất markdown tối ưu cho LLM, bỏ phần thừa, giảm áp lực context window khi feed cho agent.

Firecrawl CLI ghi file local thay vì truyền data lớn, giúp bạn search nội dung đã scrape qua bash, không cần gọi API lặp lại. Kết hợp lệnh `scrape`, `search`, `map`, `crawl`, `browser` linh hoạt trong script hoặc agent loop. Không cần thêm library riêng biệt, headless instance hay proxy rotation. Dùng flag như `--only-main-content` cho kết quả sạch, rẻ hơn, tăng năng suất rõ rệt.


Chuẩn bị môi trường cài đặt Firecrawl CLI

1. Xác minh Node.js ≥18

Kiểm tra phiên bản Node.js:

node --version
Enter fullscreen mode Exit fullscreen mode

Cập nhật Node qua trình quản lý gói hoặc nvm nếu cần.

2. Tạo workspace cho dự án:

mkdir firecrawl-cli-projects && cd firecrawl-cli-projects
Enter fullscreen mode Exit fullscreen mode

Tổ chức output, dễ quản lý qua Git. Có thể tắt đo từ xa:

export FIRECRAWL_NO_TELEMETRY=1
Enter fullscreen mode Exit fullscreen mode

Cài đặt Firecrawl CLI - Khuyến nghị dùng phương pháp Init cho agent

Cài đặt, xác thực, thêm kỹ năng agent chỉ với một bước:

npx -y firecrawl-cli@latest init --all --browser
Enter fullscreen mode Exit fullscreen mode

Firecrawl CLI sẽ mở browser để login (hoặc đăng ký) tài khoản, tạo/lưu trữ API key, cấu hình skill cho Claude Code, Cursor, agent khác. Khởi động lại agent để nhận khả năng mới. Cách này trang bị Firecrawl CLI toàn hệ thống, truy cập cloud browser/serverless ngay.

Cài đặt toàn cục qua npm (nếu dùng thường xuyên)

npm install -g firecrawl-cli
Enter fullscreen mode Exit fullscreen mode

Kiểm tra cài đặt:

firecrawl --version
Enter fullscreen mode Exit fullscreen mode

Giờ bạn chạy được Firecrawl CLI từ bất kỳ thư mục nào, không cần npx.


Xác thực Firecrawl CLI & kiểm tra cấu hình

Mở khóa toàn bộ tính năng bằng xác thực:

firecrawl login
Enter fullscreen mode Exit fullscreen mode

CLI sẽ yêu cầu xác thực OAuth qua browser. Hoặc đặt key thủ công:

export FIRECRAWL_API_KEY=fc-your-key-here
Enter fullscreen mode Exit fullscreen mode

Kiểm tra trạng thái:

firecrawl --status
Enter fullscreen mode Exit fullscreen mode

Hiện số credit, giới hạn concurrency, trạng thái xác thực. Xem config chi tiết:

firecrawl view-config
Enter fullscreen mode Exit fullscreen mode

Đổi tài khoản: firecrawl logout rồi login lại. Nếu chạy Firecrawl cục bộ/self-host, dùng --api-url http://localhost:3002 để skip cloud auth/credit.


Làm chủ lệnh scrape trong Firecrawl CLI

Trích xuất nội dung từ bất kỳ URL nào:

firecrawl scrape https://example.com --only-main-content
Enter fullscreen mode Exit fullscreen mode

Thêm output file:

firecrawl scrape https://example.com --only-main-content -o output.md
Enter fullscreen mode Exit fullscreen mode

Nên dùng --only-main-content để loại sidebar, nav, ads, giảm token usage.

Yêu cầu nhiều định dạng cùng lúc:

firecrawl scrape https://example.com --format markdown,json,html,links,images --pretty
Enter fullscreen mode Exit fullscreen mode

Chụp screenshot: thêm --screenshot hoặc --full-page-screenshot. Xử lý trang tải chậm: --wait-for 5000.

Lọc tag chính xác:

firecrawl scrape https://docs.example.com --include-tags main,article --exclude-tags nav,footer,script
Enter fullscreen mode Exit fullscreen mode

Thêm --timing để kiểm tra hiệu suất. Kết quả được lưu local, sẵn sàng feed vào agent.


Tìm kiếm web với Firecrawl CLI

Tìm kiếm và cạo top kết quả:

firecrawl search "latest AI agent benchmarks" --scrape --limit 8 --scrape-formats markdown
Enter fullscreen mode Exit fullscreen mode

Có thể lọc độ mới (--tbs qdr:w), vị trí hoặc loại nguồn. Kết hợp với browser session để xác thực sâu hơn. Hỗ trợ vòng lặp nghiên cứu web khép kín.


Lập bản đồ sitemap bằng Firecrawl CLI

Khám phá mọi URL trước khi scrape/crawl sâu:

firecrawl map https://example.com -o sitemap.json
Enter fullscreen mode Exit fullscreen mode

Trả về danh sách có metadata. Dùng output này cho lệnh scrape hoặc crawl. Firecrawl CLI tự động tôn trọng robots.txt.


Thu thập (crawl) toàn bộ website đệ quy

Thu thập toàn diện:

firecrawl crawl https://example.com --wait --progress -o crawl-output.json
Enter fullscreen mode Exit fullscreen mode

Theo dõi link nội bộ, scrape tất cả, lưu về máy. Điều chỉnh độ sâu, số trang, concurrency để kiểm soát chi phí. Báo cáo tiến độ real-time.


Tự động hóa phiên trình duyệt với Firecrawl CLI

Khởi tạo cloud browser session:

firecrawl browser launch-session
Enter fullscreen mode Exit fullscreen mode

Nhận session ID. Thực hiện action:

firecrawl browser execute "open https://news.ycombinator.com" --session <id>
firecrawl browser execute "click .titleline > a" --session <id>
firecrawl browser execute "scrape" --session <id>
Enter fullscreen mode Exit fullscreen mode

Hỗ trợ click, type, navigate, scrape sau tương tác động. Đóng session để giải phóng tài nguyên. Thay thế mã Puppeteer phức tạp bằng lệnh CLI đơn giản.


Cấu hình nâng cao & flag toàn cục

Tùy chỉnh vĩnh viễn:

firecrawl config --api-url https://your-custom-endpoint --concurrency 5
Enter fullscreen mode Exit fullscreen mode

Các setting này áp dụng mỗi lần chạy. Ép output JSON toàn cục, chỉnh header request. Giám sát số credit qua --status. Xuất API key trong shell profile để CLI luôn sẵn sàng.


Tích hợp Firecrawl CLI vào agent AI

Cài skill Firecrawl CLI một lần (npx -y firecrawl-cli@latest init --all), agent tự phát hiện. Chế độ CLI + Skills: agent gọi lệnh CLI rõ ràng. Chế độ MCP: agent gọi tool native ẩn.

Firecrawl CLI trả về local file path, không phải raw content — giữ context window gọn nhẹ, agent nghiên cứu web tin cậy mà không cần prompt thêm.


Khắc phục sự cố Firecrawl CLI hiệu quả

  • Thất bại xác thực? Chạy lại firecrawl login.
  • Đạt rate limit? Giảm concurrency hoặc nâng gói.
  • Kết quả trống ở trang JS-heavy? Tăng --wait-for hoặc bật --only-main-content.
  • Dùng --timing để debug.
  • Xóa đăng nhập bằng firecrawl logout khi đổi key.

Best practice tối ưu Firecrawl CLI

  • Luôn dùng --only-main-content cho markdown sạch.
  • Đặt tên file output rõ ràng, phân chia folder hợp lý.
  • Test scope nhỏ trước khi crawl toàn site.
  • Chạy theo pipeline: search → map → crawl.
  • Quản lý version folder output để tái tạo dataset.
  • Kiểm tra credit hàng tuần để duy trì hiệu quả.

Những thói quen này giúp Firecrawl CLI nhanh, tiết kiệm chi phí, đáng tin cậy.


Kết hợp Apidog để nâng workflow Firecrawl CLI

Tải Apidog miễn phí và nhập endpoint Firecrawl (scrape, search, crawl, ...). Apidog giúp trực quan hóa request, lưu API key thành biến, mô phỏng response, chạy thử nghiệm tự động. Debug param phức tạp hoặc payload tùy chỉnh trước khi thực thi CLI. Kết hợp Firecrawl CLI + Apidog = dữ liệu web mới nhất cùng hành vi API đã verified.


Kết luận

Bạn đã nắm trọn mọi khía cạnh của Firecrawl CLI: từ cài đặt, xác thực đến cạo dữ liệu nâng cao, tìm kiếm, map, crawl, tự động hóa browser. Firecrawl CLI biến web hỗn loạn thành quy trình sạch, gọn, ưu tiên terminal — trao quyền cho cả tác nhân và dev.

Hãy chạy lệnh init ngay hôm nay, thử scrape một site, rồi mở rộng dần. Firecrawl CLI sẽ thưởng cho bạn khi dùng flag hợp lý và chịu thử nghiệm.

Dùng thử Apidog miễn phí để tăng tốc test Firecrawl CLI và xác thực API. Cài đặt Firecrawl CLI, khai thác triệt để, làm chủ web real-time.

Tài nguyên bổ sung

Top comments (0)