Y Hành Nhan

Posted on Jun 28

Top AI Papers on Hugging Face - 2026-06-28

#ai #machinelearning #huggingface

10 Paper AI Hot Nhất Hôm Nay Trên Hugging Face: Agent Memory, Image Agent, Robot Control và Làn Sóng Generative Mới

Hôm nay, bảng xếp hạng paper được upvote cao trên Hugging Face cho thấy một bức tranh rất rõ: AI đang dịch chuyển từ các mô hình “biết trả lời” sang các hệ thống “biết hành động”, “biết nhớ”, “biết thích nghi” và “biết tạo nội dung theo ngữ cảnh thực tế”.

Trong bài viết này, mình sẽ tóm lược 10 paper nổi bật nhất, theo 4 góc nhìn cho mỗi bài:

Bài toán
Ý tưởng chính
Điểm mới
Ứng dụng thực tế

1. Are We Ready For An Agent-Native Memory System?

Paper ID: 2606.24775

GitHub: https://github.com/OpenDataBox/MemoryData

Bài toán

Các AI agent hiện đại không còn chỉ xử lý một prompt rồi kết thúc. Chúng cần bộ nhớ dài hạn: nhớ người dùng là ai, các tác vụ trước đó, công cụ đã dùng, kế hoạch đang dang dở, và cả những thông tin cần cập nhật theo thời gian.

Vấn đề là phần lớn hệ thống memory cho agent hiện nay được xây khá chắp vá: lưu gì, truy xuất thế nào, cập nhật ra sao, khi nào quên bớt… vẫn thiếu một khung đánh giá bài bản.

Ý tưởng

Paper tiếp cận memory của agent như một bài toán quản lý dữ liệu. Thay vì coi memory chỉ là “một vector database”, nhóm tác giả chia nó thành nhiều module:

biểu diễn và lưu trữ
trích xuất thông tin
truy hồi và định tuyến
bảo trì / cập nhật / xóa

Từ đó, họ đề xuất cách đánh giá memory theo nhiều workload và nhiều nút thắt khác nhau.

Điểm mới

Điểm đáng chú ý nhất là paper không giới thiệu một “mô hình nhớ mới”, mà đưa ra một framework đánh giá hệ thống memory-native cho agent.

Các tiêu chí như:

độ trung thực khi biểu diễn thông tin
độ chính xác truy hồi
tính đúng đắn khi cập nhật
độ ổn định trên chuỗi tương tác dài
trade-off giữa chi phí và hiệu năng

được đưa vào đánh giá có hệ thống.

Ứng dụng thực tế

Paper này rất hữu ích cho:

chatbot cá nhân hóa
trợ lý công việc dài hạn
agent hỗ trợ nghiên cứu
hệ điều hành AI có nhiều phiên làm việc

Nói ngắn gọn, nếu muốn xây agent “nhớ lâu nhưng không nhớ sai”, đây là hướng rất quan trọng.

2. DanceOPD: On-Policy Generative Field Distillation

Bài toán

Trong generative image models, ta thường có nhiều năng lực khác nhau:

sinh ảnh từ text
chỉnh sửa cục bộ
chỉnh sửa toàn cục

Thông thường các khả năng này được học riêng hoặc kết hợp chưa thật sự mượt, dẫn tới model mạnh ở tác vụ này nhưng yếu ở tác vụ khác.

Ý tưởng

DanceOPD đề xuất một cơ chế distillation theo kiểu on-policy cho các flow-matching model. Ý tưởng là để student model học từ các “expert capability” khác nhau, nhưng học theo đúng phân phối đầu ra mà chính nó tạo ra trong quá trình huấn luyện.

Điểm mới

Một số điểm mới nổi bật:

dùng on-policy generative field distillation
có routing theo năng lực chuyên biệt
huấn luyện dựa trên velocity field / velocity MSE objective

Cách tiếp cận này giúp gom nhiều loại năng lực tạo sinh vào cùng một student model mà không làm chúng triệt tiêu nhau quá mạnh.

Ứng dụng thực tế

DanceOPD có thể hữu ích cho:

công cụ thiết kế ảnh all-in-one
trình chỉnh sửa sáng tạo tích hợp sinh mới và edit
workflow tạo quảng cáo, concept art, poster

Đây là hướng đi quan trọng nếu muốn một model vừa “vẽ từ đầu”, vừa “sửa ảnh” tốt.

3. DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation

Paper ID: 2606.26058

GitHub: https://github.com/HKUST-C4G/DomainShuttle

Bài toán

Text-to-video đang tiến bộ nhanh, nhưng vẫn rất khó ở bài toán subject-driven generation: ví dụ đưa vào ảnh một người hoặc một con vật, rồi yêu cầu tạo video mới mà vẫn giữ đúng danh tính/chủ thể đó, kể cả trong bối cảnh rất khác.

Ý tưởng

DomainShuttle tập trung vào việc mô hình hóa sự khác nhau giữa:

in-domain: cùng loại miền dữ liệu quen thuộc
cross-domain: chuyển sang phong cách hoặc ngữ cảnh khác

Hệ thống dùng các cơ chế như domain-aware AdaLN và Video-Reference DualRoPE để căn chỉnh giữa ảnh tham chiếu và chuỗi video sinh ra.

Điểm mới

Điểm mới nằm ở chỗ paper không chỉ cố “copy chủ thể” vào video, mà xử lý cả vấn đề khác miền dữ liệu.

Ngoài ra, Cross-Pair Consistent Loss giúp duy trì sự nhất quán của chủ thể giữa các cặp tham chiếu và video.

Ứng dụng thực tế

Ứng dụng rất rộng:

tạo video quảng cáo cá nhân hóa
animation từ ảnh nhân vật
virtual influencer
sản xuất nội dung ngắn cho mạng xã hội

Đây là mảnh ghép quan trọng để text-to-video đi từ demo đẹp sang sản xuất thực tế.

4. In-Context World Modeling for Robotic Control

Bài toán

Robot ngoài đời thật luôn gặp tình huống mới: ma sát khác, tải trọng khác, cấu hình thiết bị khác. Nếu mỗi lần thay đổi lại phải fine-tune model thì quá chậm và đắt đỏ.

Ý tưởng

Paper đề xuất ICWM: robot tự tạo các tương tác ngắn để “thăm dò thế giới”, rồi dùng chính các quan sát đó như in-context information để suy ra các biến ẩn của hệ thống.

Nói cách khác, thay vì update trọng số, robot thích nghi ngay trong ngữ cảnh.

Điểm mới

Điểm rất hay là họ biến bài toán nhận dạng hệ thống (system identification) thành bài toán in-context adaptation. Điều này giống cách LLM học “on the fly” từ ví dụ trong prompt, nhưng áp dụng cho điều khiển robot.

Ứng dụng thực tế

Rất tiềm năng cho:

robot công nghiệp cần đổi tool thường xuyên
robot dịch vụ trong môi trường thay đổi
tay máy trong kho vận
robot nghiên cứu cần chuyển từ mô phỏng sang thực tế

Nếu hướng này tiếp tục hiệu quả, robot sẽ linh hoạt hơn nhiều mà không cần huấn luyện lại liên tục.

5. ShutterMuse: Capture-Time Photography Guidance with MLLMs

Paper ID: 2606.25763

GitHub: https://github.com/lijayuTnT/ShutterMuse

Bài toán

Phần lớn AI về nhiếp ảnh hiện nay hoạt động sau khi chụp: chỉnh ảnh, crop lại, tăng màu. Nhưng người dùng thật sự cần hỗ trợ ngay lúc bấm máy: đứng thế nào, bố cục ra sao, lệch khung chỗ nào.

Ý tưởng

ShutterMuse xây dựng benchmark và dataset cho tác vụ hỗ trợ chụp ảnh theo thời gian thực. Mô hình có thể đưa ra:

hướng dẫn bố cục cho người cầm máy
gợi ý pose cho chủ thể

Điểm mới

Điểm mới là đưa MLLM vào giai đoạn capture-time, thay vì chỉ hậu kỳ. Paper còn hợp nhất hai nhu cầu vốn thường tách rời:

photographer-side composition guidance
subject-side pose recommendation

Ứng dụng thực tế

Rất thực dụng cho:

app camera thông minh
trợ lý chụp ảnh trên điện thoại
kiosk chụp ảnh tự động
du lịch, cưới hỏi, social content

Đây là kiểu ứng dụng AI mà người dùng phổ thông có thể cảm nhận giá trị ngay lập tức.

6. OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

Paper ID: 2606.26790

GitHub: https://github.com/jinyangwu/OPID

Bài toán

Huấn luyện language agent bằng reinforcement learning thường rất tốn mẫu và tín hiệu thưởng khá thưa. Agent chỉ biết cuối cùng thành công hay thất bại, nhưng không biết rõ từng bước nào tốt/xấu.

Ý tưởng

OPID khai thác completed trajectories để trích xuất dạng giám sát hindsight dày hơn. Từ các quỹ đạo hoàn tất, hệ thống distill ra các skill hoặc các bước hành động có cấu trúc hơn để huấn luyện policy.

Điểm mới

Điểm mới chính là:

on-policy skill distillation
dùng hindsight supervision dày đặc hơn thay vì chỉ reward cuối
tổ chức hành vi theo kiểu phân cấp kỹ năng

Điều này giúp agent học hiệu quả hơn trong môi trường dài hơi.

Ứng dụng thực tế

Phù hợp cho:

web agent
coding agent
task automation agent
trợ lý nhiều bước cần lập kế hoạch và thực thi

Đây là một mảnh ghép quan trọng để agent RL bớt “học mò”.

7. Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation

Bài toán

Một prompt văn bản thường không đủ để mô tả toàn bộ ngữ cảnh cần thiết cho ảnh thực tế. Ví dụ muốn tạo poster sản phẩm, người dùng còn cần style, bố cục, thông tin thương hiệu, ví dụ tham khảo, ràng buộc từ môi trường sử dụng.

Ý tưởng

Qwen-Image-Agent xem bài toán tạo ảnh như một quy trình agentic gồm:

lập kế hoạch
suy luận
tìm kiếm thông tin
dùng bộ nhớ

Agent sẽ dần xây dựng “full generation context” trước khi gọi image model.

Điểm mới

Điểm mới ở đây là chuyển từ “text prompt → image” sang “agent xây ngữ cảnh → image”. Đây là cách trực diện để xử lý cái gọi là context gap trong image generation thực tế.

Ứng dụng thực tế

Rất phù hợp cho:

thiết kế marketing
tạo ảnh sản phẩm thương mại điện tử
creative assistant cho doanh nghiệp
pipeline thiết kế có nhiều ràng buộc

Xu hướng này cho thấy tương lai của AI tạo ảnh có thể không nằm ở model lớn hơn, mà ở agent thông minh hơn.

8. The Verification Horizon: No Silver Bullet for Coding Agent Rewards

Bài toán

Với coding agents, việc thiết kế reward rất khó. Nếu dùng test case làm tín hiệu thưởng, agent có thể “hack” test. Nếu dùng proxy khác, proxy đó có thể lệch khỏi ý định thật của con người.

Ý tưởng

Paper phân tích bài toán verification như một cuộc đua liên tục giữa:

năng lực sinh của agent
năng lực xác minh / chấm điểm / kiểm tra

Khi policy mạnh hơn, các tín hiệu xác minh cũ có thể bị bão hòa hoặc bị khai thác.

Điểm mới

Điểm mới không phải một thuật toán cụ thể, mà là một luận điểm rất quan trọng: không có viên đạn bạc cho reward của coding agent. Hệ thống xác minh phải thích nghi cùng với năng lực của agent.

Ứng dụng thực tế

Rất đáng đọc cho các đội đang xây:

coding copilots
autonomous software agents
bug-fixing agents
benchmark đánh giá agent

Paper này mang tính “cảnh báo chiến lược”: đừng quá tin vào một chỉ số thưởng tĩnh.

9. ViQ: Text-Aligned Visual Quantized Representations at Any Resolution

Paper ID: 2606.27313

GitHub: https://github.com/yuxumin/ViQ

Bài toán

Biểu diễn ảnh rời rạc (discrete visual tokens) rất hấp dẫn vì giúp training multimodal hiệu quả hơn. Nhưng thường có trade-off khó chịu:

token giàu ngữ nghĩa thì mất chi tiết
token giữ chi tiết thì khó align với text

Ý tưởng

ViQ đề xuất framework lượng tử hóa hình ảnh có thể giữ được cả semantic richness lẫn low-level detail, đồng thời hỗ trợ native-resolution inputs.

Điểm mới

Các thành phần mới gồm:

text-aligned pre-training
proximal representation learning
position-aware head-wise quantization

Nhờ đó, representation rời rạc không còn quá “thô”, mà hữu ích hơn cho multimodal modeling.

Ứng dụng thực tế

Có tiềm năng trong:

vision-language model hiệu quả hơn
nén token cho mô hình đa phương thức
retrieval, captioning, reasoning trên ảnh độ phân giải cao
training hệ thống thế hệ mới tiết kiệm compute hơn

10. MVTrack4Gen: Multi-View Point Tracking as Geometric Supervision for 4D Video Generation

Paper ID: 2606.26087

GitHub: https://github.com/cvlab-kaist/MVTrack4Gen

Bài toán

Sinh video góc nhìn mới luôn gặp vấn đề lớn: hình có thể đẹp từng frame, nhưng hình học và chuyển động không nhất quán giữa các góc nhìn.

Ý tưởng

MVTrack4Gen dùng multi-view point tracking như một dạng supervision hình học cho mô hình diffusion tạo video. Thay vì chỉ ép mô hình sinh frame hợp mắt, họ đưa thêm ràng buộc về correspondence giữa các điểm qua nhiều view.

Điểm mới

Điểm mới là biến tracking đa góc nhìn thành tín hiệu học cho 4D video generation. Cơ chế này cải thiện:

geometric consistency
motion fidelity
liên kết giữa các góc nhìn

Ứng dụng thực tế

Rất hứa hẹn cho:

AR/VR
phim và game
digital human
mô phỏng cảnh động nhiều camera

Nếu muốn video sinh ra không chỉ đẹp mà còn “đúng vật lý / đúng hình học”, đây là hướng rất đáng chú ý.

Kết luận: 3 Xu Hướng Lớn Đang Nổi Lên

Nhìn tổng thể 10 paper hôm nay, có thể thấy 3 xu hướng nổi bật:

1. Agent đang trở thành lớp điều phối trung tâm

Các paper như Agent-Native Memory, OPID, Qwen-Image-Agent, và Verification Horizon cho thấy trọng tâm không chỉ còn là model nền, mà là cách agent:

nhớ
lập kế hoạch
tự cải thiện
được đánh giá an toàn và đáng tin

2. Generative AI đang đi vào bài toán thực tế hơn

Từ DomainShuttle, DanceOPD, ShutterMuse đến MVTrack4Gen, mục tiêu không còn chỉ là “demo đẹp”, mà là:

giữ đúng chủ thể
chỉnh sửa linh hoạt
hỗ trợ người dùng trong ngữ cảnh thật
đảm bảo tính nhất quán hình học

3. Khả năng thích nghi theo ngữ cảnh là chìa khóa

ICWM và Qwen-Image-Agent là hai ví dụ rất rõ cho xu hướng này: thay vì cập nhật tham số liên tục, hệ thống học cách thích nghi qua ngữ cảnh, tương tác và bộ nhớ.

Lời cuối

Nếu phải chọn vài paper đáng theo dõi nhất về tác động dài hạn, mình sẽ chọn:

Are We Ready For An Agent-Native Memory System?
In-Context World Modeling for Robotic Control
Qwen-Image-Agent
The Verification Horizon

Vì chúng chạm vào các câu hỏi nền tảng: làm sao để AI nhớ đúng, thích nghi nhanh, hành động theo ngữ cảnh, và được đánh giá đúng mục tiêu.

Nếu bạn muốn, mình có thể viết tiếp phần 2 theo một trong các hướng sau:

Bảng so sánh 10 paper
Top 5 paper đáng đọc kỹ nhất cho startup AI
Tóm tắt mỗi paper theo kiểu dễ hiểu cho người không chuyên
Phiên bản post LinkedIn / Facebook ngắn gọn