I) Cấu trúc chính
MATCH (col1,col2,...) AGAINST (expr [search_modifier])
-
col1, col2, ...: Các cột chứa dữ liệu văn bản mà bạn muốn tìm kiếm. -
expr: Biểu thức tìm kiếm, có thể là một chuỗi hoặc một biến -
search_modifier: Tùy chọn để xác định cách thức tìm kiếm, có thể làIN NATURAL LANGUAGE MODE,IN BOOLEAN MODE, hoặcWITH QUERY EXPANSION.
II) Điều kiện dùng FULLTEXT
- MySQL hỗ trợ InnoDB hoặc MyISAM
- Chỉ mục index dạng FULLTEXT
II) Các loại tìm kiếm FULLTEXT
1) Tìm kiếm bằng ngôn ngữ tự nhiên (A Natural Language)
1.1) Định nghĩa
Tìm kiếm bằng ngôn ngữ tự nhiên được cài đặt mặc định khi dùng câu lệnh:
MATCH() ... AGAINST()
MATCH() ... AGAINST('keyword' IN NATURAL LANGUAGE MODE)
1.2) Đặc điểm
- Tìm kiếm bằng ngôn ngữ tự nhiên mặc định không có phân biệt rõ ràng chữ hoa với chữ thường. Để cho phép tìm kiếm bằng ngon ngữ tự nhiên phân biệt rõ ràng các chữ hoa chữ thường thì cần chuyển đổi kiểu utf8mb4 sang utf8mb4_0900_as_cs hoặc utf8mb4_bin.
- Có áp dụng danh sách stopwords
- MySQL tự động tính độ liên quan (relevance score)
- Kết quả thường được sắp xếp theo độ liên quan
- Chỉ hoạt động trên cột có FULLTEXT INDEX
- Chỉ hỗ trợ các kiểu dữ liệu: CHAR, VARCHAR, TEXT
1.3) Điểm mạnh
- Tìm kiếm bằng ngôn ngữ tự nhiên có hiệu suất tìm kiếm full-text hơn cách quét toàn bộ bảng dữ liệu trong MySQL
- Hiệu suất tìm kiếm nhanh hơn LIKE '%keyword%'
- Tìm kiếm bằng ngôn ngữ tự nhiên giúp không cần sử dụng Order By trong query.
2) Tìm kiếm Boolean (Boolean Search)
2.1) Định nghĩa
Boolean Full-Text Search là kiểu tìm kiếm full-text sử dụng:
MATCH() ... AGAINST('keyword' IN BOOLEAN MODE)
2.2) Đặc điểm
-
Trong tìm kiếm Boolean cho phép sử dụng các toán tử, cụ thể:
-
+: bắt buộc phải có - Ví dụ:
'+apple +juice' : Tìm các hàng chứa cả hai từ. '+apple macintosh' : Tìm các hàng có chứa từ _apple_ , nhưng xếp hạng các hàng cao hơn nếu chúng cũng chứa từ _macintosh _. '+apple +juice' : Tìm các hàng chứa cả hai từ.-
-: không được có - Ví dụ:
'+apple -macintosh' : Tìm các hàng có chứa từ “ apple ” nhưng không chứa từ _macintosh_ .-
": tìm chính xác cụm từ - Ví dụ:
'"some words"' : Tìm các hàng chính xác có từ _some words_-
*: wildcard / prefix - Ví dụ:
'apple*' : Tìm các hàng chứa các từ như _apple_ , _apples_ , _applesauce_ hoặc _applet_-
><: tăng / giảm độ liên quan - Ví dụ:
'+apple +(>turnover <strudel)' : Tìm các hàng chứa các từ _apple_ và _turnover_ hoặc _apple_ và _strudel_ (theo bất kỳ thứ tự nào), nhưng xếp hạng _apple turnover_ cao hơn _apple strudel_-
~: giảm điểm relevance - Ví dụ:
'+apple ~macintosh' : Tìm các hàng chứa từ _apple_ , nhưng nếu hàng đó cũng chứa từ _macintosh_ , hãy đánh giá thấp hơn so với trường hợp hàng đó không chứa từ _macintosh_ .-
(): nhóm biểu thức - Ví dụ:
'+apple +(>turnover <strudel)' : Nhóm 2 biểu thức bắt buộc phải có, và độ liên quan. -
Không tự động sắp xếp theo độ liên quan
Có áp dụng stopwords
Với InnoDB, tất cả cột trong MATCH() phải có FULLTEXT INDEX
-
MyISAM có thể search dù không có FULLTEXT INDEX nhưng rất chậm
2.3) Điểm mạnh
Tìm kiếm linh hoạt hơn
Hỗ trợ các logic Or, and, not
3) Tìm kiếm mở rộng truy vấn (Query Expansion Search)
3.1) Định nghĩa
Query Expansion (mở rộng truy vấn) là một biến thể của tìm kiếm full-text trong MySQL, giúp mở rộng kết quả tìm kiếm bằng cách tự động bổ sung thêm từ khóa liên quan từ các kết quả ban đầu.
MATCH(col1, col2, ...)
AGAINST('keyword' WITH QUERY EXPANSION)
3.2) Đặc điểm
- Tìm kiếm mở rộng truy vấn hoạt động dựa vào 2 bước chính là:
- Bước 1: Tìm kiếm như tìm kiếm theo ngôn ngữ tự nhiên
- Bước 2: Lấy một số từ quan trọng từ các kết quả đầu tiên và thực hiện lại tìm kiếm với tập từ khóa đã mở rộng.
- Tìm kiếm mở rộng truy vấn dựa theo ngữ nghĩa
- Tự động mở rộng truy vấn tìm kiếm
- Không cần người dùng nhập đủ keywords
- Hỗ trợ tốt khi từ để tìm kiếm từ thiếu ngữ nghĩa
3.3) Điểm mạnh
- Từ keyword thiếu ngữ nghĩa có thể mở rộng phạm vi kết quả tìm kiếm.
- Tăng khả năng tìm kiếm ý định tìm kiếm liên quan
III. Full-Text Stopwords
Định nghĩa
Stopwords là các từ quá phổ biến (như “the”, “a”, “is”, …) sẽ bị bỏ qua khi tạo index và khi tìm kiếm full-text trong MySQL.
IV. Full-Text Restrictions
Định nghĩa
Full-Text Restrictions là tập hợp các giới hạn và điều kiện bắt buộc khi sử dụng tính năng Full-Text Search trong MySQL. Các giới hạn này quy định những trường hợp mà FULLTEXT index và câu lệnh MATCH() ... AGAINST() được phép hoặc không được phép hoạt động.
V. Fine-Tuning MySQL Full-Text Search
Định nghĩa
Fine-Tuning Full-Text Search là quá trình điều chỉnh các tham số và cấu hình của MySQL Full-Text Search nhằm thay đổi hành vi tìm kiếm (như tokenization, stopwords, operator, indexing), tối ưu theo nhu cầu cụ thể.
Cấu hình
1) Cấu hình độ dài từ
innodb_ft_min_token_size
innodb_ft_max_token_size
ft_min_word_len
ft_max_word_len
2) Cấu hình ngưỡng Natural Language (MyISAM)
#define GWS_IN_USE GWS_FREQ
3) Cấu hình ngưỡng Natural Language (MyISAM)
ft_boolean_syntax
Top comments (0)