Y Hành Nhan

Posted on Jul 4

Top AI Papers on Hugging Face - 2026-07-04

#ai #machinelearning #huggingface

10 paper AI nổi bật nhất trên Hugging Face hôm nay: xu hướng mới về agent, đánh giá, suy luận và hạ tầng mô hình

Hôm nay, danh sách paper được cộng đồng Hugging Face upvote cao nhất cho thấy một bức tranh khá rõ về hướng đi của AI hiện tại: agent tự trị, benchmark/evaluation sát thực tế hơn, tối ưu hạ tầng suy luận, và các cách biểu diễn mới ngoài fine-tuning truyền thống.

Trong bài viết này, mình sẽ tóm tắt 10 paper theo 4 góc nhìn cho mỗi bài:

Bài toán
Ý tưởng
Điểm mới
Ứng dụng thực tế

1) Program-as-Weights: A Programming Paradigm for Fuzzy Functions

Paper: 2607.02512
GitHub: https://github.com/programasweights/programasweights-python
Project: https://programasweights.com/

Bài toán

Nhiều tác vụ AI không dễ mô tả bằng code cứng, nhưng cũng không đáng để fine-tune cả một mô hình lớn. Ta muốn một cách “lập trình” các hàm mờ (fuzzy functions) bằng ngôn ngữ tự nhiên, rồi chạy cục bộ với chi phí thấp.

Ý tưởng

Paper đề xuất mô hình Program-as-Weights: thay vì viết chương trình dạng text hoặc tinh chỉnh toàn bộ model, hệ thống dùng một compiler model 4B để biên dịch đặc tả ngôn ngữ tự nhiên thành một neural artifact nhỏ gọn. Sau đó một interpreter model 0.6B cố định sẽ thực thi artifact này.

Nói đơn giản: “code” không còn là Python hay prompt dài, mà là trọng số/chương trình nén dưới dạng tham số.

Điểm mới

Điểm mới lớn nhất là coi weights như chương trình. Cách này khác với:

prompt engineering: phụ thuộc vào context dài,
fine-tuning đầy đủ: tốn tài nguyên,
adapter truyền thống: chưa hẳn đóng vai trò như một “hàm” độc lập.

Paper còn giới thiệu benchmark FuzzyBench để đo khả năng biểu diễn các hàm mờ.

Ứng dụng thực tế

Xây các công cụ AI chạy local, gọn nhẹ
Tạo assistant chuyên biệt cho từng workflow
Nhúng “kỹ năng” mới vào hệ thống mà không phải deploy model lớn Đây là hướng đáng chú ý nếu bạn muốn xây tool builder hoặc AI edge/local-first.

2) EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments

Paper: 2607.02440

Bài toán

Agent tự trị không chỉ cần ra quyết định trong một lượt, mà còn phải tự cải tiến policy qua nhiều vòng. Nhưng hiện chưa có nhiều benchmark đánh giá việc agent tự sửa luật hành động của chính mình trong môi trường tương tác.

Ý tưởng

EvoPolicyGym tạo ra một testbed nơi agent có thể chỉnh sửa executable policies trong giới hạn ngân sách nhất định. Hệ thống theo dõi agent có biết tận dụng feedback từ môi trường để cải thiện policy theo thời gian hay không.

Điểm mới

Thay vì chỉ đo reward cuối, paper đi sâu vào trajectory-level diagnostics: agent sửa gì, sửa lúc nào, hiệu quả ra sao. Kết quả cho thấy muốn policy tiến hóa tốt thì không chỉ cần model mạnh, mà còn cần:

cơ chế chỉnh sửa phù hợp nhiệm vụ,
feedback đủ chất lượng,
quy trình refinement bị ràng buộc ngân sách hợp lý.

Ứng dụng thực tế

Agent tối ưu chiến lược vận hành
Hệ thống tự điều chỉnh rule trong game, robotics, workflow automation
Đánh giá AI coder/AI planner có thật sự biết “tự cải thiện” không

3) AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents

Paper: 2607.02255
GitHub: https://github.com/AlayaLab/AgenticSTS
Project: https://alayalab.github.io/AgenticSTS/

Bài toán

Các agent dài hơi thường thất bại không phải vì suy luận yếu, mà vì quản lý bộ nhớ kém: quên mục tiêu, giữ thông tin thừa, hoặc lấy sai ký ức khi cần.

Ý tưởng

AgenticSTS dùng cách tiếp cận bounded contract: bộ nhớ được chia lớp, truy xuất bằng typed retrieval, rồi lắp ráp thành prompt mới cho từng bước ra quyết định. Nhờ vậy, nhóm tác giả có thể tách riêng và đo từng thành phần memory.

Điểm mới

Điểm mạnh của paper là biến “memory” từ khái niệm mơ hồ thành thứ có thể ablation rõ ràng. Nó cho phép trả lời câu hỏi:

loại ký ức nào thực sự hữu ích?
retrieval theo kiểu nào tốt hơn?
giới hạn bộ nhớ ảnh hưởng ra sao đến hiệu năng?

Benchmark được gắn với bài toán dài hơi như Slay the Spire 2, khá phù hợp để kiểm tra năng lực chiến lược.

Ứng dụng thực tế

Trợ lý cá nhân nhớ đúng ngữ cảnh lâu dài
Agent chơi game/ra quyết định nhiều bước
Hệ thống enterprise agent cần ghi nhớ trạng thái công việc theo phiên

4) PerceptionRubrics: Calibrating Multimodal Evaluation to Human Perception

Paper: 2606.28322
GitHub: https://github.com/M1chaelPeng/PerceptionRubrics
Project: https://weiyana.github.io/PerceptionRubrics/

Bài toán

Benchmark multimodal hiện nay thường cho điểm cao nhưng trải nghiệm thực tế lại chưa tốt. Có khoảng cách giữa điểm benchmark và cảm nhận của con người.

Ý tưởng

PerceptionRubrics đề xuất framework chấm điểm theo rubric, chia đánh giá thành các tiêu chí atomic, kết hợp gated scoring và cơ chế đồng thuận kiểu peer-review để tăng độ tin cậy.

Điểm mới

Thay vì một con số tổng đơn giản, paper quan tâm đến các nhóm lỗi như:

Must-Right: lỗi tuyệt đối không được sai,
Easy-Wrong: câu hỏi tưởng dễ nhưng model lại hỏng.

Cách này làm lộ ra Reliability Gap — tức chênh lệch giữa hiệu năng đo bằng benchmark cũ và độ tin cậy trong sử dụng thật.

Ứng dụng thực tế

Đánh giá model vision-language trước khi đưa vào sản phẩm
Xây bộ test QA nội bộ cho trợ lý hình ảnh
Giảm rủi ro “demo đẹp nhưng dùng thật kém”

5) Morphing into Hybrid Attention Models

Paper: 2606.30562
GitHub: https://github.com/LanDisen/FlashMorph

Bài toán

Transformer full attention rất mạnh nhưng đắt đỏ khi xử lý context dài. Linear attention rẻ hơn nhưng thường giảm chất lượng. Câu hỏi là: có thể kết hợp cả hai một cách tối ưu không?

Ý tưởng

Paper đưa ra FlashMorph, coi việc chọn layer nào dùng full attention, layer nào dùng linear attention là một bài toán tối ưu dưới ràng buộc ngân sách. Từ đó biến một Transformer thường thành hybrid attention model.

Điểm mới

Thay vì thay toàn bộ kiến trúc theo cách cứng nhắc, FlashMorph chọn một tập con layer để giữ full attention. Đây là cách tiếp cận tinh hơn, phù hợp với trực giác rằng không phải tầng nào cũng cần năng lực attention mạnh như nhau.

Paper còn dùng linearization regularization và logits distillation để giữ chất lượng khi chuyển đổi.

Ứng dụng thực tế

Mô hình ngữ cảnh dài cho chat/document QA
Giảm chi phí inference trên GPU
Chuyển model hiện có sang bản rẻ hơn mà không cần thiết kế lại từ đầu

6) AgenticDataBench: A Comprehensive Benchmark for Data Agents

Paper: 2607.01647
GitHub: https://github.com/AgenticDataBench/AgenticDataBench
Project: https://agenticdatabench.github.io

Bài toán

Data agent đang là xu hướng lớn: AI hỗ trợ phân tích dữ liệu, làm sạch, trực quan hóa, báo cáo. Tuy nhiên benchmark cho data agent còn rời rạc và thiếu độ phủ kỹ năng.

Ý tưởng

AgenticDataBench xây một benchmark toàn diện cho data science workflows, bao phủ nhiều domain, có annotation chi tiết theo nhiệm vụ và kỹ năng.

Điểm mới

Điểm mới là benchmark không chỉ gom task, mà còn đo skill coverage bằng cách phân cụm phân cấp theo kỹ năng. Nghĩa là ta biết model mạnh ở đâu:

data cleaning,
exploratory analysis,
feature reasoning,
visualization,
báo cáo kết quả.

Ứng dụng thực tế

So sánh các data agent trước khi tích hợp vào sản phẩm BI
Đo tiến bộ của AI analyst nội bộ
Tìm “lỗ hổng kỹ năng” để fine-tune hoặc bổ sung tool

7) Multi-Resolution Flow Matching: Training-Free Diffusion Acceleration via Staged Sampling

Paper: 2607.01642
GitHub: https://github.com/Xingyu-Zheng/MrFlow

Bài toán

Mô hình text-to-image kiểu diffusion/flow matching cho chất lượng tốt nhưng thường chậm, đặc biệt ở độ phân giải cao.

Ý tưởng

MrFlow tăng tốc bằng pipeline nhiều giai đoạn:

sinh ảnh ở độ phân giải thấp,
super-resolution trong pixel space,
thêm noise hợp lý để khớp lại quá trình sinh ảnh.

Điểm hay là phương pháp này không cần train thêm và không cần sửa runtime quá nhiều.

Điểm mới

Nhiều cách tăng tốc diffusion đòi hỏi distillation hoặc retraining. MrFlow đi theo hướng training-free, tận dụng việc sinh ảnh thấp độ phân giải giúp giảm mạnh số token/tính toán.

Theo mô tả, phương pháp có thể đạt speedup tới 25x, rất ấn tượng nếu chất lượng được giữ ổn.

Ứng dụng thực tế

Sinh ảnh nhanh cho sản phẩm sáng tạo
Prototype text-to-image trên hạ tầng hạn chế
Giảm chi phí inference cho dịch vụ tạo ảnh

8) ELDR: Expert-Locality-Aware Decode Routing for PD-Disaggregated MoE Serving

Paper: 2607.00466

Bài toán

Với hệ thống serving MoE quy mô lớn, đặc biệt theo kiểu prefill-decode disaggregated, hiệu năng dễ bị nghẽn do routing không tối ưu, cache phân tán và expert locality kém.

Ý tưởng

ELDR xây một decode router biết tận dụng tính cục bộ của expert. Nó dự đoán expert nào có khả năng được kích hoạt, rồi điều hướng request đến nơi phù hợp để tận dụng cache và giảm overhead.

Điểm mới

Điểm mới ở đây nằm ở tư duy hệ thống: không chỉ tối ưu model, mà tối ưu đường đi của request dựa trên expert activation patterns. Paper dùng các kỹ thuật như:

K-means,
locality-band routing,
signature cache.

Ứng dụng thực tế

Serving MoE hiệu quả hơn trên cụm GPU
Giảm TPOT và tăng throughput
Hữu ích cho các công ty triển khai LLM lớn ở production

9) Seed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity

Paper: 2607.00248

Bài toán

Nhiều model mạnh trên benchmark nhưng gặp khó khi xử lý độ phức tạp đời thực: kiến thức đuôi dài, chỉ dẫn mơ hồ, nhiệm vụ đa bước, và nhu cầu tìm kiếm/thị giác/suy luận kết hợp.

Ý tưởng

Seed2.0 được giới thiệu như một model hướng tới các tác vụ thực tế hơn, tập trung cải thiện:

reasoning,
visual understanding,
search capability,
instruction following.

Điểm mới

Dù đây thiên về model card hơn là paper thuật toán thuần, giá trị nằm ở cách nhóm tác giả định khung đánh giá theo nhu cầu người dùng thực thay vì chỉ benchmark quen thuộc.

Ứng dụng thực tế

Trợ lý đa phương thức cho tác vụ phức tạp
Hệ thống cần kết hợp nhìn, đọc, suy luận và tìm kiếm
Tham khảo cách thiết kế evaluation cho model sản phẩm

10) Multimodal Continuous Reasoning via Asymmetric Mutual Variational Learning

Paper: 2607.00461

Bài toán

Trong multimodal reasoning, nhiều hệ thống dùng “continuous latent reasoning”, nhưng khi huấn luyện lại dễ gặp train-inference mismatch: lúc train thấy tín hiệu tốt hơn thực tế, dẫn đến leakage hoặc latent không ổn định.

Ý tưởng

Paper đề xuất Asymmetric Mutual Variational Learning, dùng cơ chế hiệu chỉnh hai chiều giữa posterior và prior để vừa tránh lộ đáp án, vừa giữ latent space ổn định hơn khi suy luận.

Điểm mới

Đóng góp chính là cách kết hợp:

forward KL,
reverse KL,
hiệu chỉnh bất đối xứng hai chiều.

Điều này giúp giảm answer leakage, vốn là vấn đề tinh vi nhưng rất quan trọng khi huấn luyện mô hình reasoning latent.

Ứng dụng thực tế

Nâng chất lượng MLLM cho suy luận ảnh-văn bản
Các hệ thống cần chain-of-thought ẩn trong latent space
Tăng độ vững khi triển khai multimodal reasoning ngoài môi trường lab

Kết luận: 4 xu hướng nổi bật từ top paper hôm nay

Nhìn tổng thể, 10 paper này cho thấy 4 xu hướng rất rõ:

1. Agent đang chuyển từ “trả lời” sang “tự vận hành”

Các paper như EvoPolicyGym, AgenticSTS, AgenticDataBench đều tập trung vào agent dài hơi, có bộ nhớ, có khả năng tự chỉnh sửa và thao tác trong workflow thực.

2. Evaluation đang trở nên thực dụng hơn

PerceptionRubrics và AgenticDataBench nhấn mạnh rằng benchmark tốt phải phản ánh lỗi thật, kỹ năng thật và độ tin cậy khi dùng thật.

3. Tối ưu hạ tầng inference là mặt trận cực nóng

FlashMorph, MrFlow, ELDR đều giải quyết bài toán chi phí-vs-chất lượng ở tầng hệ thống: context dài, diffusion nhanh, serving MoE hiệu quả.

4. Cách biểu diễn “chương trình” và “suy luận” đang được viết lại

Program-as-Weights và paper về continuous multimodal reasoning cho thấy cộng đồng đang tìm các biểu diễn mới vượt khỏi prompt hoặc fine-tuning thông thường.

Nếu phải chọn các paper đáng theo dõi nhất về tác động dài hạn, mình sẽ ưu tiên:

Program-as-Weights vì mở ra một paradigm mới,
AgenticSTS vì đụng đúng nút thắt memory của agent,
PerceptionRubrics vì evaluation tốt thường là đòn bẩy quan trọng nhất cho tiến bộ thực tế,
ELDR vì serving MoE sẽ ngày càng quan trọng ở production.

Nếu bạn muốn, mình có thể viết tiếp phần 2 với format sâu hơn: mỗi paper 1 mục riêng gồm background, phương pháp, kết quả, nhận định cá nhân, và startup opportunities.