DEV Community

Cover image for NoSQL Toàn Tập: Khi Nào Nên "Chia Tay" SQL Để Dùng NoSQL?
ITPrep
ITPrep

Posted on • Originally published at itprep.com.vn

NoSQL Toàn Tập: Khi Nào Nên "Chia Tay" SQL Để Dùng NoSQL?

Chào anh em Backend và System Design! Khi bắt đầu một dự án mới, câu hỏi quen thuộc nhất luôn là: "Dùng MySQL, PostgreSQL hay ném hết vào MongoDB cho nhanh?".

SQL (Cơ sở dữ liệu quan hệ) đã thống trị thế giới phần mềm hàng chục năm nay nhờ tính toàn vẹn dữ liệu (ACID). Nhưng khi dữ liệu phình to lên hàng Terabyte và lượng request đánh sập server mỗi giây, SQL bắt đầu "hụt hơi". Đó là lúc NoSQL (Not Only SQL) bước lên giải cứu.

Hôm nay, cùng mình mổ xẻ xem NoSQL thực chất là gì, và làm sao để chọn đúng loại Database cho dự án nhé!

💡 1. NoSQL Có Gì Khác Biệt?

NoSQL sinh ra không phải để tiêu diệt SQL, mà để giải quyết những bài toán mà SQL làm không tốt. Các đặc trưng "ăn tiền" của NoSQL bao gồm:

  • Schema-less (Không cần schema cứng): Dữ liệu linh hoạt, nay insert một field, mai insert thêm 3 fields khác cũng không sao. Không cần ALTER TABLE mệt mỏi.
  • Mở rộng ngang (Horizontal Scaling): Thay vì phải mua một con server siêu to khổng lồ (SQL thường mở rộng dọc), NoSQL cho phép bạn cắm thêm hàng chục con server rẻ tiền vào để chia sẻ tải.
  • Hiệu suất đọc/ghi cực cao: Bỏ qua các ràng buộc khóa ngoại (Foreign Keys) hay JOIN phức tạp, NoSQL tập trung vào việc đọc/ghi dữ liệu thô với tốc độ bàn thờ.

⚖️ 2. Định Luật CAP - "Luật Chơi" Của Hệ Thống Phân Tán

Để hiểu NoSQL, anh em bắt buộc phải hiểu định luật CAP. Trong một hệ thống phân tán, bạn chỉ có thể chọn tối đa 2 trong 3 yếu tố sau:

  1. Consistency (Tính nhất quán): Ghi xong ở node A, đọc ở node B cũng phải ra dữ liệu y hệt ngay lập tức.
  2. Availability (Tính sẵn sàng): Server luôn phải trả về kết quả (dù có thể là kết quả cũ), không được phép sập hay báo lỗi từ chối dịch vụ.
  3. Partition Tolerance (Chịu lỗi phân mảnh): Mạng giữa các node bị đứt, hệ thống vẫn phải hoạt động.

👉 Thực tế: Mạng internet luôn có độ trễ và rớt gói tin (bắt buộc phải có P). Nên các hệ thống NoSQL thường bắt bạn chọn:

  • CP (Consistency + Partition Tolerance): Ưu tiên dữ liệu chuẩn xác, chấp nhận server báo lỗi nếu mạng chập chờn (HBase, MongoDB).
  • AP (Availability + Partition Tolerance): Ưu tiên hệ thống luôn sống, chấp nhận dữ liệu có thể bị delay cập nhật một chút (Cassandra, DynamoDB, CouchDB) - gọi là Eventual Consistency.

🏗️ 3. Tứ Đại Gia Tộc NoSQL

Đừng đánh đồng NoSQL = MongoDB. NoSQL có tận 4 mô hình hoàn toàn khác nhau:

  1. Key-Value Stores (Redis, DynamoDB):
    • Đặc điểm: Cực kỳ đơn giản, chỉ lưu trữ 1 key đi kèm 1 value.
    • Nên dùng: Caching, Quản lý Session, Giỏ hàng tạm, Bảng xếp hạng game.
  2. Document Databases (MongoDB, CouchDB):
    • Đặc điểm: Lưu dữ liệu dưới dạng JSON/BSON linh hoạt.
    • Nên dùng: CMS, Hồ sơ User đa dạng, E-commerce Catalog.
  3. Column-Family Stores (Cassandra, HBase):
    • Đặc điểm: Lưu dữ liệu theo các cột thay vì hàng, ghi dữ liệu cực nhanh.
    • Nên dùng: Tracking log, Dữ liệu IoT (cảm biến gửi liên tục), Time-series data.
  4. Graph Databases (Neo4j):
    • Đặc điểm: Lưu dữ liệu dạng Đồ thị (Node và Cạnh). Giỏi nhất khoản tìm kiếm mối quan hệ chằng chịt.
    • Nên dùng: Mạng xã hội (A là bạn của B, B thích bài của C), Recommendation System, Chống gian lận (Fraud Detection).

🥊 4. Tư Duy "Query-Driven Design"

Khi dùng SQL, chúng ta vẽ ERD, chuẩn hóa dữ liệu (Normalization) xong xuôi rồi mới viết câu Query.
Nhưng khi dùng NoSQL, tư duy bị đảo ngược hoàn toàn: Query-Driven Design.

Anh em phải tự hỏi: "User sẽ lấy dữ liệu này ra bằng cách nào?", sau đó thiết kế cấu trúc JSON/Bảng để phục vụ đúng câu Query đó, thậm chí chấp nhận Denormalization (lưu lặp lại dữ liệu) để khỏi phải JOIN.

Ví dụ: Trong IoT, thay vì lưu bảng Device và bảng Temperature_Log riêng rồi JOIN lại, ta ném thẳng mọi thứ vào một Column-Family Database hoặc một Document bự để lúc đọc ra chỉ tốn đúng 1 nhịp.

🎯 Tổng kết: Tương lai là Polyglot Persistence

Sẽ không có chuyện SQL hay NoSQL "độc bá". Các hệ thống lớn như Netflix, Uber, Shopee hiện nay đều dùng mô hình Polyglot Persistence (Dùng nhiều Database cùng lúc).

  • Data tiền nong, giao dịch cốt lõi? 👉 PostgreSQL / MySQL.
  • Tăng tốc độ đọc? 👉 Redis.
  • Lưu log và phân tích hành vi người dùng? 👉 Cassandra / Elasticsearch.

Anh em đang dùng loại DB nào cho project hiện tại? Đã từng trải qua "nỗi đau" chọn sai Database chưa? Cùng chia sẻ dưới comment nhé! 👇

🔥 Khám phá thêm: Nếu anh em muốn tìm hiểu sâu hơn về kiến trúc Database, SQL JOIN, hay các mẹo phỏng vấn Backend, hãy ghé thăm blog ITPrep để nâng cấp bộ kỹ năng ngay hôm nay!


Nguồn tham khảo: ITPrep - NoSQL Là Gì? Hướng Dẫn Chuyên Sâu về Cơ Sở Dữ liệu Phi Quan Hệ

Top comments (0)