DEV Community

Hoàng Mạnh Khiêm
Hoàng Mạnh Khiêm

Posted on

Full-Text Search Functions

I) Cấu trúc chính

MATCH (col1,col2,...) AGAINST (expr [search_modifier])
Enter fullscreen mode Exit fullscreen mode
  • col1, col2, ...: Các cột chứa dữ liệu văn bản mà bạn muốn tìm kiếm.
  • expr: Biểu thức tìm kiếm, có thể là một chuỗi hoặc một biến
  • search_modifier: Tùy chọn để xác định cách thức tìm kiếm, có thể là IN NATURAL LANGUAGE MODE, IN BOOLEAN MODE, hoặc WITH QUERY EXPANSION.

II) Điều kiện dùng FULLTEXT

  • MySQL hỗ trợ InnoDB hoặc MyISAM
  • Chỉ mục index dạng FULLTEXT

II) Các loại tìm kiếm FULLTEXT

1) Tìm kiếm bằng ngôn ngữ tự nhiên (A Natural Language)

1.1) Định nghĩa

Tìm kiếm bằng ngôn ngữ tự nhiên được cài đặt mặc định khi dùng câu lệnh:

MATCH() ... AGAINST()
MATCH() ... AGAINST('keyword' IN NATURAL LANGUAGE MODE)
Enter fullscreen mode Exit fullscreen mode

1.2) Đặc điểm

  • Tìm kiếm bằng ngôn ngữ tự nhiên mặc định không có phân biệt rõ ràng chữ hoa với chữ thường. Để cho phép tìm kiếm bằng ngon ngữ tự nhiên phân biệt rõ ràng các chữ hoa chữ thường thì cần chuyển đổi kiểu utf8mb4 sang utf8mb4_0900_as_cs hoặc utf8mb4_bin.
  • Có áp dụng danh sách stopwords
  • MySQL tự động tính độ liên quan (relevance score)
  • Kết quả thường được sắp xếp theo độ liên quan
  • Chỉ hoạt động trên cột có FULLTEXT INDEX
  • Chỉ hỗ trợ các kiểu dữ liệu: CHAR, VARCHAR, TEXT

1.3) Điểm mạnh

  • Tìm kiếm bằng ngôn ngữ tự nhiên có hiệu suất tìm kiếm full-text hơn cách quét toàn bộ bảng dữ liệu trong MySQL
  • Hiệu suất tìm kiếm nhanh hơn LIKE '%keyword%'
  • Tìm kiếm bằng ngôn ngữ tự nhiên giúp không cần sử dụng Order By trong query.

2) Tìm kiếm Boolean (Boolean Search)

2.1) Định nghĩa

Boolean Full-Text Search là kiểu tìm kiếm full-text sử dụng:

MATCH() ... AGAINST('keyword' IN BOOLEAN MODE)
Enter fullscreen mode Exit fullscreen mode

2.2) Đặc điểm

  • Trong tìm kiếm Boolean cho phép sử dụng các toán tử, cụ thể:

    • + : bắt buộc phải có
    • Ví dụ:
     '+apple +juice' : Tìm các hàng chứa cả hai từ.
     '+apple macintosh' : Tìm các hàng có chứa từ _apple_ , nhưng xếp hạng các hàng cao hơn nếu chúng cũng chứa từ _macintosh _.
     '+apple +juice' : Tìm các hàng chứa cả hai từ.      
    
    • - : không được có
    • Ví dụ:
     '+apple -macintosh' : Tìm các hàng có chứa từ “ apple ” nhưng không chứa từ _macintosh_ .
    
    • " : tìm chính xác cụm từ
    • Ví dụ:
     '"some words"' : Tìm các hàng chính xác có từ _some words_
    
    • * : wildcard / prefix
    • Ví dụ:
     'apple*' : Tìm các hàng chứa các từ như _apple_ , _apples_ , _applesauce_ hoặc _applet_ 
    
    • > < : tăng / giảm độ liên quan
    • Ví dụ:
     '+apple +(>turnover <strudel)' : Tìm các hàng chứa các từ _apple_ và _turnover_ hoặc _apple_ và _strudel_ (theo bất kỳ thứ tự nào), nhưng xếp hạng _apple turnover_ cao hơn _apple strudel_
    
    • ~ : giảm điểm relevance
    • Ví dụ:
     '+apple ~macintosh' : Tìm các hàng chứa từ _apple_ , nhưng nếu hàng đó cũng chứa từ _macintosh_ , hãy đánh giá thấp hơn so với trường hợp hàng đó không chứa từ _macintosh_ .
    
    • () : nhóm biểu thức
    • Ví dụ:
     '+apple +(>turnover <strudel)' : Nhóm 2 biểu thức bắt buộc phải có, và độ liên quan.
    
  • Không tự động sắp xếp theo độ liên quan

  • Có áp dụng stopwords

  • Với InnoDB, tất cả cột trong MATCH() phải có FULLTEXT INDEX

  • MyISAM có thể search dù không có FULLTEXT INDEX nhưng rất chậm

    2.3) Điểm mạnh

  • Tìm kiếm linh hoạt hơn

  • Hỗ trợ các logic Or, and, not

3) Tìm kiếm mở rộng truy vấn (Query Expansion Search)

3.1) Định nghĩa

Query Expansion (mở rộng truy vấn) là một biến thể của tìm kiếm full-text trong MySQL, giúp mở rộng kết quả tìm kiếm bằng cách tự động bổ sung thêm từ khóa liên quan từ các kết quả ban đầu.

MATCH(col1, col2, ...)
AGAINST('keyword' WITH QUERY EXPANSION)
Enter fullscreen mode Exit fullscreen mode

3.2) Đặc điểm

  • Tìm kiếm mở rộng truy vấn hoạt động dựa vào 2 bước chính là:
    • Bước 1: Tìm kiếm như tìm kiếm theo ngôn ngữ tự nhiên
    • Bước 2: Lấy một số từ quan trọng từ các kết quả đầu tiên và thực hiện lại tìm kiếm với tập từ khóa đã mở rộng.
  • Tìm kiếm mở rộng truy vấn dựa theo ngữ nghĩa
  • Tự động mở rộng truy vấn tìm kiếm
  • Không cần người dùng nhập đủ keywords
  • Hỗ trợ tốt khi từ để tìm kiếm từ thiếu ngữ nghĩa

3.3) Điểm mạnh

  • Từ keyword thiếu ngữ nghĩa có thể mở rộng phạm vi kết quả tìm kiếm.
  • Tăng khả năng tìm kiếm ý định tìm kiếm liên quan

III. Full-Text Stopwords

Định nghĩa

Stopwords là các từ quá phổ biến (như “the”, “a”, “is”, …) sẽ bị bỏ qua khi tạo index và khi tìm kiếm full-text trong MySQL.

IV. Full-Text Restrictions

Định nghĩa

Full-Text Restrictions là tập hợp các giới hạn và điều kiện bắt buộc khi sử dụng tính năng Full-Text Search trong MySQL. Các giới hạn này quy định những trường hợp mà FULLTEXT index và câu lệnh MATCH() ... AGAINST() được phép hoặc không được phép hoạt động.

V. Fine-Tuning MySQL Full-Text Search

Định nghĩa

Fine-Tuning Full-Text Search là quá trình điều chỉnh các tham số và cấu hình của MySQL Full-Text Search nhằm thay đổi hành vi tìm kiếm (như tokenization, stopwords, operator, indexing), tối ưu theo nhu cầu cụ thể.

Cấu hình

1) Cấu hình độ dài từ

innodb_ft_min_token_size
innodb_ft_max_token_size
ft_min_word_len
ft_max_word_len
Enter fullscreen mode Exit fullscreen mode

2) Cấu hình ngưỡng Natural Language (MyISAM)

#define GWS_IN_USE GWS_FREQ
Enter fullscreen mode Exit fullscreen mode

3) Cấu hình ngưỡng Natural Language (MyISAM)

ft_boolean_syntax
Enter fullscreen mode Exit fullscreen mode

Top comments (0)