David Chan

Posted on Apr 23

QIMMA LLM leaderboard theo nguyên tắc “validate trước, evaluate sau”

#ai #llm #nlp #testing

Giới thiệu

Trong vài năm gần đây, số lượng benchmark và leaderboard cho mô hình ngôn ngữ tiếng Ả Rập tăng nhanh. Nhưng cũng như nhiều hệ đánh giá trong giai đoạn bùng nổ LLM, tốc độ mở rộng thường đi trước độ chặt chẽ của dữ liệu. Hệ quả là không ít bảng xếp hạng trông rất thuyết phục, nhưng nếu soi kỹ, điểm số của model đôi khi phản ánh lỗi benchmark nhiều không kém gì phản ánh năng lực thật.

QIMMA xuất hiện như một phản biện trực diện cho vấn đề đó. Đây không chỉ là một Arabic LLM leaderboard mới, mà là một evaluation framework theo hướng quality-first: kiểm định chất lượng benchmark trước khi dùng benchmark để chấm model.

Cách tiếp cận này đặc biệt hữu ích nếu bạn đang:

huấn luyện hoặc fine-tune Arabic LLM,
chọn model cho sản phẩm Arabic NLP,
so sánh tác động của instruction tuning,
đánh giá hiệu quả của model specialization theo miền.

Một leaderboard thiếu kiểm định có thể khiến bạn đi đến quyết định sai: chọn nhầm mô hình, tối ưu sai năng lực, hoặc đánh giá sai tác động thật của dữ liệu và prompt.

Vì sao nhiều leaderboard Arabic hiện nay chưa đủ đáng tin

1) Sai lệch do benchmark dịch từ tiếng Anh

Một vấn đề phổ biến của nhiều benchmark Arabic là chúng được tạo bằng cách dịch từ bộ dữ liệu tiếng Anh, thay vì được viết gốc trong tiếng Ả Rập. Trên lý thuyết, cách này giúp mở rộng coverage nhanh. Nhưng trong thực tế, nó tạo ra nhiều hệ quả:

Translation artifacts khiến câu hỏi trở nên gượng ép hoặc mất tự nhiên.
Ý nghĩa dễ bị lệch khi dịch các khái niệm văn hóa, pháp lý hoặc xã hội.
Phân phối ngôn ngữ không còn phản ánh cách người dùng Arabic thực sự hỏi hoặc diễn đạt.
Dữ liệu thường nghiêng về Modern Standard Arabic (MSA) theo kiểu máy móc, trong khi ứng dụng thực tế còn cần hiểu phương ngữ và sắc thái bản ngữ.

Khi đem những benchmark như vậy đi đánh giá model, ta dễ rơi vào bẫy quen thuộc: mô hình đạt điểm cao vì giỏi đoán theo cấu trúc bản dịch, chứ không hẳn vì hiểu tiếng Ả Rập tốt hơn.

2) Rủi ro từ gold labels, annotation và formatting

Ngay cả benchmark native Arabic cũng chưa chắc đáng tin nếu thiếu khâu kiểm định. QIMMA chỉ ra nhiều lỗi rất thực tế:

Gold answer sai
Đánh nhãn không nhất quán
Mismatch giữa đáp án vàng và metric
Lỗi encoding hoặc formatting
Mẫu bị trùng
Text hỏng hoặc khó đọc
Thiên kiến văn hóa trong nội dung

Đây không phải lỗi nhỏ. Với benchmark trắc nghiệm hoặc QA, chỉ cần một tỷ lệ nhỏ gold label sai cũng đủ làm méo thứ hạng giữa các model có hiệu năng sát nhau.

3) Thiếu khả năng tái lập và kiểm toán

Một leaderboard chỉ thật sự hữu ích khi cộng đồng có thể audit nó. Nhiều hệ đánh giá hiện nay thiếu một hoặc nhiều thành phần sau:

script đánh giá công khai,
cấu hình prompt chuẩn hóa,
per-sample inference outputs,
cách xử lý exception hoặc mapping label.

Nếu thiếu các thành phần này, việc tái lập gần như bất khả thi. Trong nghiên cứu học thuật, đây là lỗ hổng nghiêm trọng. Trong doanh nghiệp, đây là rủi ro vận hành: bạn không biết mình đang tin vào một hệ đo đáng tin hay chỉ vào một bản demo đẹp.

4) Khi benchmark sai, leaderboard cũng sai theo

Đây là luận điểm cốt lõi của QIMMA:

Nếu benchmark có lỗi hệ thống, leaderboard cũng sai theo cách có hệ thống.

Vấn đề không nằm ở việc có thêm bao nhiêu model trên bảng xếp hạng, mà nằm ở việc thước đo có đủ đáng tin để xếp hạng hay không.

Triết lý thiết kế của QIMMA: validate trước, evaluate sau

Từ benchmark-first sang quality-first

Phần lớn leaderboard hiện nay đi theo quy trình quen thuộc:

Gom benchmark
Chuẩn hóa script
Chạy model
Xếp hạng

QIMMA thêm một bước quan trọng ngay từ đầu:

Gom benchmark
Kiểm định chất lượng từng mẫu
Làm sạch hoặc hiệu chỉnh benchmark
Chuẩn hóa đánh giá
Chạy model
Xếp hạng

Nghe có vẻ chỉ thêm một bước, nhưng về phương pháp luận thì khác biệt rất lớn. Trọng tâm chuyển từ “chạy được nhiều benchmark” sang “đảm bảo benchmark xứng đáng để chạy”.

Năm thuộc tính khiến QIMMA nổi bật

QIMMA khác nhiều leaderboard Arabic hiện nay ở 5 điểm chính:

Quality-first evaluation thay vì benchmark-first
99% native Arabic content
Có pipeline benchmark validation trước evaluation
Công khai code đánh giá
Có public per-sample outputs

Nếu nhiều leaderboard chỉ là một bảng điểm tổng hợp, QIMMA gần hơn với một governance layer cho Arabic LLM evaluation.

Vì sao 99% native Arabic content là quyết định chiến lược

Con số 99% native Arabic content không chỉ để đẹp về mặt thống kê. Đây là quyết định chiến lược vì nó:

giảm phụ thuộc vào dữ liệu dịch,
bám sát hơn với ngữ cảnh sử dụng thật,
đặc biệt quan trọng trong các miền như văn hóa, pháp lý, y khoa, thơ ca và văn học.

Ở các miền này, dịch thuật dễ làm mất nghĩa nhất. Bài học này không chỉ đúng với tiếng Ả Rập, mà còn đúng với hầu hết ngôn ngữ ngoài tiếng Anh có nền văn hóa và hệ quy chiếu ngữ nghĩa mạnh.

Cấu trúc bộ đánh giá QIMMA

Quy mô dữ liệu: 109 subsets, 14 benchmarks, hơn 52K mẫu

QIMMA không phải một bộ benchmark nhỏ thiên về curated examples. Nó có quy mô đủ lớn để trở thành một leaderboard nghiêm túc:

109 subsets
14 source benchmarks
Hơn 52.000 samples

Điểm đáng chú ý là QIMMA cố cân bằng giữa scale và quality control, thay vì hy sinh một bên cho bên còn lại.

Bảy miền năng lực được bao phủ

Bộ đánh giá trải trên 7 domains:

Cultural
STEM
Legal
Medical
Safety
Poetry & Literature
Coding

Cách chia này hữu ích hơn kiểu gom benchmark rời rạc, vì nó giúp người dùng trả lời các câu hỏi rất thực tế như:

Mô hình nào phù hợp cho chatbot giáo dục Arabic?
Mô hình nào mạnh hơn trong legal QA?
Mô hình nào tốt ở tri thức tổng quát nhưng yếu ở văn hóa và văn học Arabic?

Ba nhóm task chính: MCQ, QA, code

QIMMA bao phủ ba kiểu nhiệm vụ chính:

MCQ
QA sinh tự do hoặc có ngữ cảnh
Code generation

Đây là cách chia thiết thực. Một leaderboard chỉ đo MCQ thường nghiêng về recall hoặc lựa chọn đáp án. Khi thêm QA sinh tự do và coding, bức tranh về năng lực mô hình sát thực tế hơn đáng kể.

Vì sao coding cần được xử lý riêng trong Arabic evaluation

Trong coding benchmark, vấn đề cốt lõi thường không nằm ở test harness hay execution semantics, mà nằm ở cách diễn đạt đề bài bằng tiếng Ả Rập. Vì vậy, QIMMA không xử lý benchmark code giống QA hoặc MCQ. Đây là một quyết định đúng về mặt kỹ thuật: sửa đúng tầng gây nhiễu, không động vào phần vẫn đáng tin.

Pipeline kiểm định chất lượng benchmark của QIMMA

Đây là phần tạo giá trị lớn nhất cho QIMMA.

Tầng 1: dual-LLM screening với Qwen3 và DeepSeek

QIMMA dùng hai mô hình mạnh để kiểm tra độc lập từng mẫu:

Qwen3-235B-A22B-Instruct
DeepSeek-V3-671B

Việc dùng dual-LLM screening giúp giảm rủi ro của mô hình judge đơn lẻ. Nếu chỉ dùng một evaluator model, pipeline dễ bị ảnh hưởng bởi bias, lỗi đọc ngữ cảnh hoặc giới hạn riêng của model đó.

Rubric 10 tiêu chí và ngưỡng loại mẫu

Mỗi mẫu được chấm theo rubric 10 tiêu chí, dạng nhị phân 0/1.

Quy tắc lọc:

Nếu một trong hai model chấm dưới 7/10, mẫu bị gắn cờ.
Nếu cả hai model đồng thuận loại, mẫu bị loại ngay.
Nếu chỉ một model gắn cờ, mẫu được chuyển sang human review.

Đây là cách đặt ngưỡng khá hợp lý: đủ nghiêm để lọc lỗi, nhưng không cực đoan đến mức loại bỏ mẫu chỉ vì một tín hiệu bất thường nhỏ.

Tầng 2: human review cho các ca bất đồng

Những mẫu gây tranh cãi được chuyển cho chuyên gia bản ngữ tiếng Ả Rập xem xét. Đây là bước khó tự động hóa hoàn toàn, vì nhiều trường hợp liên quan đến:

sắc thái diễn đạt,
khác biệt vùng miền,
phương ngữ,
mức độ tự nhiên,
tính phù hợp văn hóa.

Ở Arabic, human review không chỉ xử lý ambiguity, mà còn phải giải quyết dialectal variation và cultural interpretation.

Xử lý phương ngữ và khác biệt vùng miền

QIMMA làm đúng ở một điểm quan trọng về ngôn ngữ học: Arabic không phải một không gian ngôn ngữ đơn nhất. Một câu trả lời có thể:

hợp lý ở một vùng,
kém tự nhiên ở vùng khác,
hoặc dùng phương ngữ thay vì MSA.

Nếu evaluator bỏ qua thực tế này, benchmark sẽ vô tình phạt những đáp án đúng trong ngữ cảnh bản ngữ nhưng không khớp với kỳ vọng cứng của dataset.

Benchmark Arabic đang lỗi ở đâu: phát hiện thực nghiệm từ QIMMA

Tỷ lệ loại mẫu theo từng benchmark

Kết quả kiểm định cho thấy lỗi benchmark không hề ngẫu nhiên. Một số bộ dữ liệu có tỷ lệ mẫu bị loại đáng kể:

ArabicMMLU: 14.163 mẫu, loại 436 mẫu, tương đương 3,1%
MizanQA: 1.769 mẫu, loại 41 mẫu, tương đương 2,3%
PalmX: 0,8%
MedAraBench: 0,7%
FannOrFlop: 0,6%

Một số benchmark sạch hơn đáng kể:

GAT
3LM STEM
AraDiCE-Culture
ArabLegalQA
AraTrust

Con số 3,1% nghe có thể không lớn, nhưng trong đánh giá model hiện đại, chênh lệch vài điểm phần trăm đôi khi đủ để đảo vị trí top models.

Các nhóm lỗi phổ biến nhất

QIMMA phân loại lỗi theo một taxonomy khá hữu ích.

1. Answer Quality

Sai gold index
Đáp án vàng không khớp
Đáp án chứa thông tin sai factual
Thiếu answer hoặc để raw text không chuẩn

2. Text & Formatting Quality

Văn bản hỏng
Lỗi chính tả hoặc ngữ pháp nghiêm trọng
Trùng lặp mẫu
Formatting không hợp lệ

3. Cultural Sensitivity

Củng cố định kiến
Gom cộng đồng Arabic đa dạng thành một thực thể đồng nhất

4. Gold Answer Compliance

Đáp án vàng không tương thích với giao thức đánh giá
Nhãn đúng không khớp với cách metric đọc nhãn

Phân biệt lỗi factual, lỗi protocol và lỗi văn hóa

Điểm hay của taxonomy này là nó tách bạch bản chất lỗi:

Lỗi factual: nội dung sai sự thật
Lỗi protocol: nội dung có thể đúng nhưng sai cách mã hóa hoặc cách chấm
Lỗi văn hóa: dữ liệu thiếu nhạy cảm ngữ cảnh hoặc thiếu trung tính

Trong thực tế xây benchmark, ba loại lỗi này cần ba chiến lược xử lý khác nhau. Nhiều nhóm nghiên cứu tập trung sửa factual error nhưng lại bỏ qua protocol mismatch, trong khi chính lỗi protocol rất dễ phá hỏng pipeline evaluation.

Khi nào nên loại mẫu, khi nào nên sửa mẫu

Đây là một quyết định cốt lõi trong benchmark curation.

Nên loại mẫu khi:

gold label không còn cứu được,
nội dung hỏng nặng,
mẫu mâu thuẫn với chính định nghĩa task,
tồn tại bias hoặc ambiguity không thể giải quyết nhất quán.

Nên sửa mẫu khi:

lỗi chủ yếu nằm ở wording,
có thể hiệu chỉnh mà vẫn giữ nguyên bản chất task,
test harness hoặc answer space vẫn ổn định.

QIMMA áp dụng nguyên tắc này khá tốt, đặc biệt với coding benchmark.

Trường hợp đặc biệt: chuẩn hóa benchmark code tiếng Ả Rập

Vì sao HumanEval+ và MBPP+ không nên bị xử lý như QA hoặc MCQ

Với QA hay MCQ, khi câu hỏi hoặc gold answer có vấn đề, loại mẫu thường là cách an toàn. Nhưng với benchmark code, điều cần giữ nguyên là:

task identifier,
reference solution,
test suite,
execution semantics.

Nếu chỉ problem statement tiếng Ả Rập viết chưa tốt, loại cả sample sẽ lãng phí. QIMMA chọn hướng hợp lý hơn: giữ nguyên phần kiểm thử, chỉ chỉnh lại mô tả bài toán.

Giữ nguyên test suite, chỉ chỉnh problem statement

Hai benchmark được xử lý theo cách này là:

3LM HumanEval+
3LM MBPP+

Nguyên tắc áp dụng:

Giữ nguyên task identifier
Giữ nguyên reference solution
Giữ nguyên test suite
Chỉ chỉnh Arabic problem statement

Đây là quyết định đúng theo góc nhìn software evaluation và LLM inference benchmarking. Nó duy trì tính so sánh giữa các model, đồng thời giảm nhiễu ở lớp ngôn ngữ mô tả.

Năm loại sửa prompt đã áp dụng

QIMMA chia việc chỉnh sửa prompt code thành 5 nhóm:

Linguistic refinement
Clarity improvements
Consistency normalization
Structural corrections
Semantic refinements

Nếu từng làm việc với benchmark lập trình đa ngôn ngữ, bạn sẽ thấy đây là các lỗi rất phổ biến. Chỉ một problem statement hơi tối nghĩa cũng có thể làm model sinh sai hoàn toàn, dù năng lực giải bài toán vẫn đủ tốt.

Tỷ lệ sửa 81–88% nói lên điều gì

Tỷ lệ chỉnh sửa prompt là rất cao:

HumanEval+: 145/164 prompt, tương đương 88%
MBPP+: 308/378 prompt, tương đương 81%

Đây là tín hiệu rất đáng chú ý. Nó cho thấy trong coding benchmark tiếng Ả Rập, nút thắt chính không nằm ở bài toán lập trình cốt lõi mà nằm ở lớp diễn đạt ngôn ngữ. Nếu không xử lý điểm này, ta rất dễ kết luận sai rằng model coding yếu, trong khi thực ra model đang vấp ở phần hiểu đề.

Hạ tầng đo lường và chuẩn hóa đánh giá

LightEval, EvalPlus và FannOrFlop trong pipeline

QIMMA tận dụng các công cụ đã có chỗ đứng trong cộng đồng:

LightEval
EvalPlus
FannOrFlop

Lợi ích của lựa chọn này:

không phải xây mọi thứ từ đầu,
tăng khả năng tái lập,
dễ kiểm toán,
thuận lợi cho việc mở rộng.

Một hệ đánh giá tốt không nhất thiết phải phát minh toàn bộ framework mới; điều quan trọng là ghép đúng công cụ, chuẩn hóa quy trình và công khai đủ các lớp xử lý.

Metric phù hợp theo từng loại nhiệm vụ

QIMMA không áp một metric duy nhất cho mọi benchmark. Đây là lựa chọn đúng đắn:

MCQ → Normalized Log-Likelihood Accuracy
Multi-select MCQ → Probability Mass on Gold Choices
Generative QA → F1 BERTScore (AraBERT v02)
Code → Pass@1

Điểm đáng khen là họ tránh lạm dụng exact match cho QA tiếng Ả Rập. Trong một ngôn ngữ có nhiều biến thể biểu đạt như Arabic, exact match thường quá cứng và dễ đánh giá thấp những câu trả lời đúng về nghĩa.

Sáu prompt templates và vai trò của prompt normalization

QIMMA chuẩn hóa prompting thành 6 dạng:

MCQ
MCQ-C
MCQ-I
QA
QA-C
QA-F

Prompt normalization giúp giảm phương sai không cần thiết giữa các benchmark. Nếu mỗi bộ dữ liệu có một prompt format khác nhau, rất khó biết model đang thắng vì năng lực thật hay chỉ vì hợp prompt hơn.

Các benchmark ngoại lệ giữ nguyên prompt gốc

Hai benchmark là ngoại lệ:

MizanQA
ArabCulture

Chúng giữ system prompt gốc từ paper ban đầu. Đây là một thỏa hiệp hợp lý, vì ở một số benchmark, prompt bản thân nó là một phần của thiết kế task. Chuẩn hóa quá tay trong trường hợp này đôi khi lại làm mất tính nhất quán với công bố gốc.

Kết quả leaderboard và những gì chúng thực sự cho thấy

Top model toàn bảng

Top 3 trên leaderboard tại thời điểm bài viết:

Qwen/Qwen3.5-397B-A17B-FP8 — 68,06
Applied-Innovation-Center/Karnak — 66,20
inceptionai/Jais-2-70B-Chat — 65,81

Khoảng cách giữa các model top không quá lớn. Điều này càng nhấn mạnh vì sao benchmark cleanliness quan trọng: chỉ một lượng nhỏ sample lỗi cũng có thể làm đổi thứ hạng.

Arabic-specialized model mạnh ở đâu

Kết quả cho thấy các Arabic-specialized models có lợi thế rõ ở những tác vụ gắn với:

văn hóa,
ngôn ngữ,
sắc thái diễn đạt,
tri thức đặc thù Arabic.

Ví dụ:

Jais-2-70B-Chat mạnh trên ArabicMMLU và ArabCulture
Karnak dẫn đầu ở 3LM STEM và ArabLegalQA

Với các sản phẩm phục vụ người dùng Arabic bản địa, đây là tín hiệu rất thực tế: một model multilingual lớn chưa chắc là lựa chọn tối ưu nếu thiếu specialization phù hợp.

Multilingual model vẫn chiếm ưu thế ở coding

Ở mảng coding, các mô hình multilingual vẫn thể hiện ưu thế rõ hơn. Ví dụ:

Qwen3.5-397B dẫn đầu nổi bật ở các benchmark code

Điều này không quá bất ngờ. Coding là miền mà dữ liệu huấn luyện thường có tính toàn cầu cao; phần lớn ngữ cảnh lập trình, tài liệu kỹ thuật và pattern lập trình vẫn xoay quanh tiếng Anh.

Tóm gọn:

Arabic specialization giúp mạnh hơn ở ngôn ngữ và văn hóa
Multilingual scale vẫn rất hiệu quả ở coding

Kích thước model có tương quan, nhưng không quyết định tất cả

Trên tập 46 models, tác giả ghi nhận:

có tương quan dương giữa model size và performance,
nhưng tương quan này không tuyến tính.

Một số quan sát đáng chú ý:

model chuyên cho Arabic có thể vượt model multilingual cùng cỡ,
instruction-tuned models thường tốt hơn base models,
một số model nhỏ hơn vẫn thắng model lớn ở domain cụ thể.

Đây là kết luận có giá trị thực tiễn cao. Trong bối cảnh triển khai LLM thực tế, năng lực không chỉ đến từ số tham số, mà còn đến từ specialization, instruction tuning, data quality và cách benchmark được xây dựng.

Ý nghĩa phương pháp luận của QIMMA đối với Arabic NLP

Benchmark governance quan trọng không kém model engineering

QIMMA gửi đi một thông điệp rõ ràng: trong Arabic NLP, benchmark governance không còn là việc phụ. Nó cần được xem là một phần cốt lõi của hệ đánh giá.

Chúng ta đã đầu tư rất nhiều vào:

pretraining,
fine-tuning,
alignment,
serving infrastructure,
inference optimization,
quantization và deployment.

Nhưng nếu benchmark đầu vào thiếu chất lượng, toàn bộ nỗ lực đó vẫn có thể bị đánh giá sai.

Public per-sample outputs như một chuẩn minh bạch mới

Một leaderboard thực sự hữu ích nên cho phép cộng đồng truy ngược tới từng mẫu. Public per-sample outputs là bước tiến quan trọng vì nó giúp:

kiểm tra failure modes,
xác minh kết quả bất thường,
so sánh model ở cấp độ ví dụ,
phát hiện lỗi benchmark còn sót.

Nếu nhiều leaderboard khác áp dụng chuẩn này, chất lượng đánh giá trong cộng đồng sẽ tăng đáng kể.

Có thể tái sử dụng cho các ngôn ngữ low-resource khác

Dù QIMMA tập trung vào Arabic, phần giá trị nhất của nó nằm ở chỗ pipeline có thể tái sử dụng cho:

ngôn ngữ low-resource,
ngôn ngữ có nhiều phương ngữ,
ngôn ngữ thường bị benchmark hóa bằng dữ liệu dịch.

Các thành phần có thể mang đi áp dụng gần như nguyên trạng gồm:

dual-LLM screening,
rubric-based filtering,
human review cho các ca bất đồng,
taxonomy lỗi benchmark,
prompt normalization theo task type.

QIMMA là framework, không chỉ là leaderboard

Nếu chỉ nhìn QIMMA như một bảng xếp hạng model Arabic, ta sẽ bỏ lỡ phần quan trọng nhất. Giá trị cốt lõi của dự án là ở chỗ nó buộc cộng đồng đổi câu hỏi.

Thay vì hỏi:

“Model nào đang đứng đầu?”

QIMMA buộc ta hỏi trước:

“Benchmark này đã đủ sạch để xếp hạng chưa?”

Đó là một thay đổi rất cần thiết cho giai đoạn trưởng thành của LLM evaluation.

Tài nguyên nên giữ khi tham chiếu hoặc viết lại

Bài báo arXiv

Bản tham chiếu học thuật của công trình:

@misc{alqadi2026arabicbenchmarksreliableqimmas,
      title={Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation}, 
      author={Leen AlQadi and Ahmed Alzubaidi and Mohammed Alyafeai and Hamza Alobeidli and Maitha Alhammadi and Shaikha Alsuwaidi and Omar Alkaabi and Basma El Amel Boussaha and Hakim Hacid},
      year={2026},
      eprint={2604.03395},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2604.03395}, 
}

Citation học thuật

Nếu bạn cần trích dẫn công trình trong bài viết, báo cáo nội bộ hoặc tài liệu nghiên cứu, nên giữ nguyên khối BibTeX ở trên để đảm bảo chuẩn hóa citation.

Link leaderboard và repository mã nguồn

Trong ngữ cảnh triển khai thực tế, hai tài nguyên quan trọng nhất cần theo dõi cùng paper là:

Leaderboard chính thức
Repository mã nguồn đánh giá

Đây là hai điểm quyết định khả năng:

tái lập kết quả,
kiểm toán pipeline,
so sánh thêm các model mới trong tương lai.

Kết luận

QIMMA là một ví dụ hiếm cho thấy cộng đồng Arabic NLP đang dịch chuyển từ tư duy “có benchmark để chấm là đủ” sang tư duy benchmark phải được kiểm định như một sản phẩm hạ tầng.

Điều khiến QIMMA đáng chú ý không nằm ở việc nó có thêm 109 subsets hay hơn 52K mẫu, mà ở chỗ nó đưa ra một nguyên tắc rất nên trở thành chuẩn mới: