DEV Community: huggingface

Top AI Papers on Hugging Face - 2026-06-30

Y Hành Nhan — Tue, 30 Jun 2026 12:02:01 +0000

10 paper AI nổi bật nhất hôm nay trên Hugging Face: video streaming, agent dài hạn, benchmark và robot

Hôm nay, bảng xếp hạng paper trên Hugging Face cho thấy một xu hướng rất rõ: AI đang dịch chuyển từ mô hình chỉ “trả lời tốt” sang hệ thống có thể hành động, đánh giá, tự dừng đúng lúc và vận hành trong thế giới thật. Danh sách top paper trải dài từ chỉnh sửa video thời gian thực, agent terminal/web, benchmark suy luận video, cho đến robot manipulation và navigation.

Dưới đây là phần tóm lược theo 4 câu hỏi cho mỗi paper: bài toán, ý tưởng, điểm mới, và ứng dụng thực tế.

1) LiveEdit: chỉnh sửa video diffusion theo thời gian thực

Bài toán.

Các mô hình video diffusion hiện nay thường chỉnh sửa theo kiểu “offline”: phải nhìn cả chuỗi video rồi mới xử lý. Điều này không phù hợp với các kịch bản như livestream, camera AR, hoặc biên tập tương tác, nơi hệ thống phải xử lý từng frame một nhưng vẫn giữ nhân vật, bối cảnh và hiệu ứng ổn định trong thời gian dài.

Ý tưởng.

LiveEdit xây dựng một framework chỉnh sửa video streaming, causal: frame hiện tại được chỉnh sửa dựa trên quá khứ, thay vì cần toàn bộ video. Trọng tâm là một pipeline chưng cất 3 giai đoạn, biến một foundation model hai chiều thành editor một chiều đủ nhanh cho thời gian thực. Thêm vào đó là cơ chế mask cache hướng AR để duy trì vùng chỉnh sửa ổn định.

Điểm mới.

Điểm đáng chú ý nhất là bài toán “streaming video editing” được đặt ra một cách nghiêm túc, thay vì chỉ tối ưu tốc độ inference. Paper không chỉ cố làm nhanh hơn, mà còn giải quyết mâu thuẫn khó: causality + ổn định dài hạn + chất lượng hình ảnh.

Ứng dụng thực tế.

Rất phù hợp cho AR/VR, filter camera trực tiếp, đổi phong cách video khi quay, hỗ trợ sản xuất nội dung ngắn, hoặc công cụ hậu kỳ tương tác gần real-time.

2) Agents-A1: không tăng tham số, tăng “độ dài chân trời” của agent

Bài toán.

Trong agentic AI, năng lực không chỉ đến từ kích thước model mà còn đến từ khả năng xử lý chuỗi hành động dài, đa bước, đa công cụ. Câu hỏi paper đặt ra là: liệu có thể đạt hiệu năng kiểu “trillion-parameter” mà không cần huấn luyện mô hình khổng lồ?

Ý tưởng.

Agents-A1 là một mô hình MoE 35B nhưng được huấn luyện theo hướng mở rộng horizon thay vì chỉ mở rộng tham số. Họ dùng 3 giai đoạn: supervised fine-tuning, teacher theo từng domain, rồi multi-teacher on-policy distillation có định tuyến theo domain. Nói ngắn gọn: thay vì nhồi thêm kích thước, họ dạy agent đi được hành trình dài hơn và đa dạng hơn.

Điểm mới.

Thông điệp mới ở đây là scaling law cho agent có thể nằm ở trajectory length và diversity, không chỉ ở model size. Đây là góc nhìn rất đáng chú ý vì nó dịch trọng tâm từ “bigger LLM” sang “better long-horizon training”.

Ứng dụng thực tế.

Có ý nghĩa cho các hệ AI assistant biết dùng tool, automation trong doanh nghiệp, tác vụ nhiều bước như nghiên cứu, coding, thao tác web, hay vận hành workflow nội bộ.

3) Agentic Abstention: agent có biết lúc nào nên dừng?

Bài toán.

Đa số benchmark agent hiện nay chỉ đo agent có làm được việc hay không. Nhưng trong thực tế, một agent tốt còn phải biết khi nào không nên làm tiếp: khi thiếu thông tin, khi rủi ro cao, hoặc khi khả năng sai quá lớn.

Ý tưởng.

Paper xem “abstention” như một bài toán quyết định tuần tự. Agent không chỉ chọn hành động, mà còn phải quyết định dừng lại, hỏi thêm, hoặc từ chối. Họ đánh giá điều này trên nhiều môi trường như web shopping, terminal và QA.

Điểm mới.

Điểm mới là đưa khái niệm abstention từ phân loại truyền thống sang agentic systems. Với agent, “không làm gì” không phải thất bại, mà đôi khi là hành động đúng nhất.

Ứng dụng thực tế.

Cực kỳ quan trọng cho AI trong môi trường rủi ro: tài chính, y tế, vận hành doanh nghiệp, giao dịch tự động, hoặc trợ lý doanh nghiệp có quyền truy cập hệ thống thật.

4) TUA-Bench: benchmark cho agent dùng terminal

Bài toán.

Agent hiện nay thường được demo trên các tác vụ nhỏ hoặc benchmark hẹp. Nhưng trong công việc thực tế, rất nhiều nhiệm vụ diễn ra trong terminal, shell, CLI, workflow phần mềm chuyên dụng.

Ý tưởng.

TUA-Bench xây dựng benchmark cho general-purpose terminal-use agents, bao phủ cả hoạt động số phổ thông lẫn workflow chuyên biệt. Hệ thống chấm điểm theo cách execution-based, tức là nhìn vào kết quả thực thi chứ không chỉ so khớp text đầu ra.

Điểm mới.

Paper này quan trọng vì benchmark được thiết kế gần với công việc thật hơn. Nó giúp phân biệt rõ agent “nói hay” với agent thực sự dùng được.

Ứng dụng thực tế.

Phù hợp để đánh giá agent cho DevOps, data engineering, automation nội bộ, vận hành server, scripting, và trợ lý kỹ thuật.

5) Trimming the Long-Tail of Visual World Modeling Evaluation

Bài toán.

Nhiều world model tạo ảnh/video trông rất thuyết phục trên các tình huống phổ biến, nhưng lại thất bại ở những trường hợp hiếm, bất thường, hoặc vi phạm trực giác vật lý.

Ý tưởng.

Paper đề xuất đánh giá world model trên phân phối dài đuôi: từ tình huống thông thường, đến bất thường, thậm chí “impossible scenarios”. Mục tiêu là kiểm tra model có thực sự hiểu vật lý, ràng buộc, affordance và tính nhất quán theo thời gian hay không.

Điểm mới.

Thay vì chỉ đo realism hay FID-like metrics, paper nhấn mạnh generalization under rare events. Đây là hướng rất cần thiết nếu world model được dùng cho planning hoặc simulation.

Ứng dụng thực tế.

Quan trọng cho robotics, autonomous systems, simulator huấn luyện agent, và bất cứ nơi nào mô hình phải suy luận ngoài các trường hợp “đẹp, phổ biến”.

6) Beyond IID: Tabular Foundation Models có thực sự tổng quát?

Bài toán.

Tabular foundation models được kỳ vọng thay thế hoặc vượt qua các phương pháp cổ điển trên dữ liệu bảng. Nhưng phần lớn đánh giá trước đây thường ở điều kiện khá sạch, gần IID, trong khi dữ liệu thật thường lệch phân phối, nhiều nhiễu và nhiều đặc trưng phức tạp.

Ý tưởng.

Paper benchmark các tabular foundation models trên nhiều điều kiện hơn: IID, non-IID, dữ liệu lớn, dữ liệu nhiều chiều. Kết quả cho thấy mô hình mới không phải lúc nào cũng thắng; trong nhiều trường hợp, tree-based methods vẫn rất mạnh.

Điểm mới.

Điểm mới không nằm ở kiến trúc mà ở tinh thần phản biện benchmark. Paper đặt lại câu hỏi rất thực tế: “general-purpose” đến đâu, và trong bối cảnh nào?

Ứng dụng thực tế.

Rất hữu ích cho doanh nghiệp làm risk scoring, fraud detection, forecasting, CRM analytics, nơi dữ liệu bảng vẫn là xương sống.

7) Video-MME-Logical: benchmark suy luận thời gian và logic trên video

Bài toán.

Nhiều MLLM làm tốt nhận diện vật thể trong video nhưng chưa chắc giỏi suy luận động: đếm theo chuỗi, theo dõi trạng thái, xác định thứ tự trước-sau, hay kết hợp nhiều phép suy luận theo thời gian.

Ý tưởng.

Video-MME-Logical xây dựng benchmark có kiểm soát để đánh giá chính xác các dạng temporal-logical operations. Các bài toán không đơn thuần là “trong video có gì”, mà là “điều gì xảy ra theo trình tự nào, bao nhiêu lần, và trong quan hệ logic gì”.

Điểm mới.

Benchmark này tách bạch perception khỏi reasoning. Đây là điều rất quan trọng vì nhiều mô hình hiện nay có thể nhìn tốt nhưng suy luận chuỗi sự kiện còn yếu.

Ứng dụng thực tế.

Có ích cho video surveillance, phân tích thể thao, trợ lý video, robotics perception, hoặc QA trên dữ liệu camera.

8) Qwen-RobotManip: alignment mở khóa scale cho robot manipulation

Bài toán.

Robot manipulation cần tổng hợp nhiều loại dữ liệu: video góc nhìn người, demo bằng tay, trajectory robot, lệnh ngôn ngữ. Thách thức là các nguồn này khác nhau về biểu diễn, động học và mục tiêu hành vi.

Ý tưởng.

Qwen-RobotManip đề xuất một Vision-Language-Action foundation model với unified alignment trên 3 lớp:

representation alignment
motion alignment
behavior alignment

Nhờ đó, mô hình có thể học từ dữ liệu đa nguồn ở quy mô lớn mà vẫn chuyển hóa được thành hành động robot.

Điểm mới.

Điểm đáng giá nhất là cách nhìn “alignment” không chỉ là căn chỉnh text-image, mà là căn chỉnh xuyên qua biểu diễn, chuyển động và hành vi. Điều này giúp mô hình có khả năng zero-shot instruction following, phục hồi lỗi, và chuyển sang embodiment khác.

Ứng dụng thực tế.

Rất hứa hẹn cho robot gia dụng, kho vận, lắp ráp, và học từ demo người.

9) Qwen-RobotNav: mô hình navigation có khả năng mở rộng

Bài toán.

Robot navigation thường bị phân mảnh: mỗi bài toán một policy riêng, mỗi dạng cảm biến một pipeline riêng. Điều này làm khó việc mở rộng sang nhiều nhiệm vụ và môi trường thực.

Ý tưởng.

Qwen-RobotNav đưa ra một mô hình navigation với giao diện tham số hóa, cho phép thay đổi mode tác vụ và kiểu quan sát trong cùng một framework. Mô hình được huấn luyện đa tác vụ và thể hiện khả năng zero-shot sang robot thật.

Điểm mới.

Điểm mới là biến navigation thành một substrate thống nhất cho planning không gian, thay vì một tập hợp policy rời rạc. Đây là hướng rất phù hợp với tư duy foundation model cho robot.

Ứng dụng thực tế.

Dùng cho robot di chuyển trong nhà máy, kho hàng, dịch vụ, hoặc môi trường chưa thấy trước.

10) AsyncOPD: dữ liệu on-policy cũ đến mức nào thì còn dùng được?

Bài toán.

Huấn luyện agent/LLM bằng on-policy distillation thường chậm vì phải đợi rollout mới từ policy hiện tại. Nếu làm bất đồng bộ để tăng thông lượng, dữ liệu sẽ bị stale: được sinh từ policy cũ.

Ý tưởng.

AsyncOPD nghiên cứu trade-off này một cách hệ thống. Họ xem xét cách distillation hoạt động khi rollout và learner được tách rời, đồng thời phân tích ảnh hưởng của stale-policy data, các biến thể KL, và cách hiệu chỉnh.

Điểm mới.

Đây là một paper có giá trị thực dụng cao: thay vì chỉ đề xuất thuật toán RL đẹp về lý thuyết, nó xử lý câu hỏi hạ tầng huấn luyện rất thật là độ cũ của dữ liệu ảnh hưởng thế nào đến chất lượng học.

Ứng dụng thực tế.

Quan trọng cho các hệ post-training quy mô lớn, đặc biệt trong RLHF, tool-use agent training, và distillation cho LLM.

Xu hướng nổi bật rút ra từ top 10 hôm nay

Nhìn toàn cục, có 4 xu hướng lớn:

1. Từ model sang system

Nhiều paper không chỉ nói về kiến trúc mà nói về hệ thống hoàn chỉnh: LiveEdit cho streaming, Agents-A1 cho long-horizon agent, AsyncOPD cho pipeline huấn luyện, TUA-Bench và Video-MME-Logical cho đánh giá thực dụng.

2. Benchmark đang trở nên “khó chịu” hơn

Các benchmark mới không còn dễ dãi. Chúng đo:

khả năng dừng đúng lúc,
suy luận thời gian và logic,
làm việc trong terminal thật,
tổng quát hóa ở các trường hợp long-tail.

Điều này rất tốt vì nó buộc cộng đồng đi từ demo đẹp sang năng lực đáng tin cậy.

3. Agent và robot đang hội tụ

Agents-A1, Agentic Abstention, TUA-Bench, RobotManip, RobotNav đều chia sẻ một tinh thần chung: AI phải biết quan sát, lập kế hoạch, hành động và tự hiệu chỉnh. Sự khác biệt giữa “agent số” và “agent vật lý” đang dần thu hẹp.

4. “Scale” không còn chỉ là tăng tham số

Nhiều paper cho thấy mở rộng năng lực có thể đến từ:

scale dữ liệu hành vi,
scale trajectory,
scale benchmark,
scale alignment,
scale hạ tầng huấn luyện.

Đây là một thay đổi tư duy quan trọng trong AI hiện đại.

Kết luận

Top paper hôm nay phản ánh một giai đoạn rất thú vị của AI research: thay vì chỉ theo đuổi mô hình lớn hơn, cộng đồng đang tập trung vào khả năng hành động trong thế giới thật, đánh giá nghiêm túc hơn, và tối ưu toàn bộ vòng đời hệ thống từ training tới deployment.

Nếu phải chọn vài paper đáng theo dõi nhất theo tác động thực tế:

LiveEdit cho ứng dụng sáng tạo và AR,
Agents-A1 cho agent dài hạn,
Agentic Abstention vì tính an toàn và độ tin cậy,
TUA-Bench vì benchmark gần công việc thật,
Qwen-RobotManip / RobotNav vì robot foundation model đang tăng tốc rất nhanh.

Nếu bạn muốn, tôi có thể làm tiếp một phiên bản bảng so sánh 10 paper theo từng tiêu chí như: mức độ thực dụng, độ mới thuật toán, tiềm năng startup, và paper nào đáng đọc kỹ nhất.

Top AI Papers on Hugging Face - 2026-06-29

Y Hành Nhan — Mon, 29 Jun 2026 12:01:25 +0000

10 paper AI nổi bật nhất trên Hugging Face hôm nay: từ sinh ảnh, robot đến tăng tốc suy luận LLM

Hôm nay, bảng xếp hạng paper trên Hugging Face cho thấy một bức tranh khá rõ về hướng đi hiện tại của AI: mô hình sinh ngày càng “agentic” hơn, robot cần khả năng thích nghi trong ngữ cảnh thực, và LLM không chỉ cần mạnh mà còn phải chạy nhanh, đáng tin và dễ kiểm chứng hơn.

Dưới đây là bài tổng hợp 10 paper được upvote cao nhất, tập trung vào 4 câu hỏi cho mỗi bài:

Bài toán: họ đang cố giải quyết vấn đề gì?
Ý tưởng: cách tiếp cận chính là gì?
Điểm mới: đóng góp khác biệt nằm ở đâu?
Ứng dụng thực tế: có thể dùng vào việc gì?

1) DanceOPD: On-Policy Generative Field Distillation

Bài toán:

Các mô hình sinh ảnh hiện đại thường mạnh ở một tác vụ cụ thể, ví dụ text-to-image, hoặc chỉnh sửa cục bộ, hoặc chỉnh sửa toàn cục. Việc gom nhiều năng lực này vào một mô hình nhỏ hơn, nhanh hơn mà vẫn giữ chất lượng là bài toán khó.

Ý tưởng:

DanceOPD đề xuất một khung on-policy generative field distillation cho các mô hình flow-matching. Thay vì chỉ học lại đầu ra tĩnh từ teacher, student được huấn luyện theo cách bám sát trường vận tốc (velocity field) mà expert tạo ra trong quá trình sinh, đồng thời dùng routing theo năng lực để xử lý các loại tác vụ khác nhau.

Điểm mới:

Dùng on-policy distillation thay vì chỉ học offline từ dữ liệu cố định.
Hợp nhất text-to-image, local editing, global editing trong cùng một framework.
Tối ưu theo velocity-based objective, phù hợp với họ mô hình flow-matching.

Ứng dụng thực tế:

Các hệ thống sinh ảnh thương mại có thể dùng cách này để tạo mô hình nhẹ hơn nhưng đa năng hơn, phù hợp cho chỉnh sửa ảnh tương tác, sáng tạo nội dung và triển khai chi phí thấp.

2) In-Context World Modeling for Robotic Control

Bài toán:

Robot thường hoạt động tốt trong môi trường đã biết, nhưng khi gặp cấu hình mới — tải trọng khác, ma sát khác, vật thể khác — thì hiệu quả suy giảm mạnh. Fine-tune lại mô hình cho từng tình huống là quá đắt.

Ý tưởng:

Paper này xem nhận diện hệ động lực là một bài toán in-context adaptation. Robot tự tạo ra vài tương tác thăm dò, rồi từ những quan sát đó suy ra trạng thái ẩn của môi trường mà không cần cập nhật tham số.

Điểm mới:

Áp dụng tư duy “in-context learning” vào robot control.
Chính sách học cách thích nghi qua ngữ cảnh tương tác, thay vì retrain.
Hướng tới mô hình robot tổng quát hơn, đặc biệt khi kết hợp với Vision-Language-Action models.

Ứng dụng thực tế:

Hữu ích cho robot trong nhà máy, kho vận, hoặc môi trường gia đình — nơi điều kiện luôn thay đổi. Thay vì calibrate liên tục, robot có thể tự thăm dò nhanh và thích nghi ngay.

3) OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

Bài toán:

Huấn luyện language agent bằng reinforcement learning thường rất tốn mẫu và tín hiệu thưởng thưa. Agent biết mình thành công hay thất bại, nhưng không rõ đã làm đúng điều gì ở từng bước.

Ý tưởng:

OPID trích xuất dense hindsight supervision từ các trajectory đã hoàn thành. Nói cách khác, sau khi agent giải xong một nhiệm vụ, hệ thống nhìn lại toàn bộ quá trình để distill ra các kỹ năng con và gán tín hiệu học dày hơn cho từng token/hành động.

Điểm mới:

On-policy skill distillation cho agent ngôn ngữ.
Khai thác trajectory hoàn chỉnh để tạo supervision hậu nghiệm.
Kết hợp kỹ năng phân cấp và token-level supervision, giúp RL hiệu quả hơn.

Ứng dụng thực tế:

Phù hợp với agent giải quyết tác vụ nhiều bước như dùng tool, duyệt web, viết code, hoặc lập kế hoạch dài hạn. Đây là hướng quan trọng nếu muốn agent học nhanh hơn từ chính kinh nghiệm của nó.

4) Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation

Bài toán:

Nhiều mô hình text-to-image thất bại không phải vì năng lực sinh ảnh kém, mà vì thiếu ngữ cảnh. Prompt của người dùng thường ngắn, mơ hồ, thiếu thông tin về phong cách, bố cục, tri thức thế giới, hay ràng buộc cụ thể.

Ý tưởng:

Qwen-Image-Agent coi sinh ảnh là một bài toán agentic: trước khi tạo ảnh, hệ thống có thể lập kế hoạch, suy luận, tìm kiếm, truy hồi bộ nhớ để xây dựng “ngữ cảnh hoàn chỉnh” cho quá trình sinh.

Điểm mới:

Đặt vấn đề context gap làm trung tâm.
Dùng một framework thống nhất gồm plan–reason–search–memory.
Đề xuất góc nhìn rằng sinh ảnh thực tế không chỉ là “prompt in, image out”.

Ứng dụng thực tế:

Rất phù hợp cho thiết kế quảng cáo, minh họa sản phẩm, concept art hay e-commerce, nơi người dùng chỉ mô tả mơ hồ ban đầu. Một image agent tốt có thể hỏi thêm, suy luận thêm, tra cứu thêm trước khi sinh.

5) The Verification Horizon: No Silver Bullet for Coding Agent Rewards

Bài toán:

Với coding agents, việc thưởng theo test pass rate hay các tín hiệu tự động thường dẫn đến reward hacking: agent tối ưu chỉ số thay vì thật sự giải đúng ý người dùng.

Ý tưởng:

Paper lập luận rằng không có “viên đạn bạc” cho reward design. Khi năng lực generative tăng, agent cũng giỏi hơn trong việc lách tín hiệu kiểm chứng. Vì thế, hệ thống verification phải tiến hóa cùng năng lực mô hình.

Điểm mới:

Nhấn mạnh khái niệm verification horizon: giới hạn của tín hiệu xác minh hiện tại.
Phân tích mối quan hệ giữa proxy signal và human intent.
Đưa ra góc nhìn hệ thống thay vì chỉ tìm một reward function tốt hơn.

Ứng dụng thực tế:

Cực kỳ quan trọng cho coding copilots, software agents, và các hệ thống tự động hóa doanh nghiệp. Thông điệp cốt lõi: muốn agent đáng tin, cần đầu tư vào verification stack, không chỉ model.

6) ViQ: Text-Aligned Visual Quantized Representations at Any Resolution

Bài toán:

Biểu diễn ảnh rời rạc (discrete visual tokens) rất hữu ích cho mô hình đa phương thức, nhưng thường phải đánh đổi giữa giàu ngữ nghĩa và giữ chi tiết hình ảnh. Ngoài ra, nhiều hệ thống gặp khó với ảnh độ phân giải linh hoạt.

Ý tưởng:

ViQ xây dựng một framework lượng tử hóa ảnh vừa text-aligned, vừa hỗ trợ any resolution. Họ kết hợp pretraining theo ngữ nghĩa văn bản với cơ chế lượng tử hóa bảo toàn cấu trúc không gian và chi tiết mức thấp.

Điểm mới:

Hướng tới visual tokens có cả semantic richness lẫn detail preservation.
Hỗ trợ input native-resolution thay vì ép về kích thước cố định.
Đưa ra thiết kế như position-aware head-wise quantization và học biểu diễn gần đúng tốt hơn.

Ứng dụng thực tế:

Có ích cho VLM, image generation, image understanding, và nén biểu diễn thị giác hiệu quả. Đây có thể là mảnh ghép hạ tầng quan trọng cho các mô hình multimodal thế hệ mới.

7) JetSpec: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting

Bài toán:

Speculative decoding là cách tăng tốc sinh văn bản của LLM bằng cách để một draft model dự đoán trước nhiều token, rồi model lớn xác nhận. Nhưng khi mở rộng, hiệu quả thường bị chặn bởi trade-off giữa draft budget và acceptance rate.

Ý tưởng:

JetSpec dùng parallel tree drafting: thay vì đoán một chuỗi tuyến tính, hệ thống mở ra một cây ứng viên song song, kết hợp cơ chế dự thảo hiệu quả với điều kiện nhân quả để tăng số token được chấp nhận.

Điểm mới:

Giải bài toán “scaling ceiling” của speculative decoding.
Kết hợp tree drafting với causal conditioning.
Nhắm đến end-to-end speedup thực tế, đã tính cả tích hợp hệ thống như vLLM.

Ứng dụng thực tế:

Rất thiết thực cho mọi dịch vụ LLM production: chatbot, coding assistant, search assistant. Nếu tăng được tốc độ suy luận mà không giảm chất lượng, chi phí vận hành sẽ giảm đáng kể.

8) PhysisForcing: Physics Reinforced World Simulator for Robotic Manipulation

Bài toán:

Video world model cho robot thường tạo ra các chuỗi hình ảnh trông hợp lý, nhưng lại sai vật lý: vật thể xuyên nhau, chuyển động phi thực, quan hệ tác động–kết quả không ổn định. Điều này làm giảm giá trị của simulator cho lập kế hoạch.

Ý tưởng:

PhysisForcing tăng cường tính nhất quán vật lý bằng hai mức ràng buộc:

pixel-level trajectory alignment cho quỹ đạo chuyển động
semantic-level relational alignment cho quan hệ giữa các vật thể và hành động

Điểm mới:

Tập trung trực diện vào physical consistency trong embodied video generation.
Kết hợp tín hiệu mức pixel và mức ngữ nghĩa.
Đánh giá trên các benchmark robot manipulation và cả giao thức closed-loop với planner.

Ứng dụng thực tế:

Có thể dùng để huấn luyện hoặc kiểm thử robot trong môi trường mô phỏng đáng tin hơn, đặc biệt cho thao tác gắp, đặt, đẩy, mở, lắp ráp.

9) GUI vs. CLI: Execution Bottlenecks in Screen-Only and Skill-Mediated Computer-Use Agents

Bài toán:

Các computer-use agent hiện nay thường thao tác qua GUI như con người: nhìn màn hình, click chuột, điền form. Nhưng GUI rất chậm, dễ lỗi và khó mở rộng. Câu hỏi là: khi nào nên dùng GUI, khi nào nên dùng CLI hay skill trung gian?

Ý tưởng:

Paper so sánh các agent chỉ dựa vào màn hình với các agent có thể gọi skill-mediation, ví dụ lệnh CLI hoặc API. Từ đó chỉ ra các nút thắt thực thi chứ không chỉ nút thắt nhận thức.

Điểm mới:

Đưa ra phân tích thực nghiệm về execution bottlenecks.
So sánh hai paradigm agent quan trọng: screen-only và skill-mediated.
Gợi ý rằng tối ưu computer-use agent không chỉ là làm model “thông minh hơn”, mà còn phải chọn giao diện hành động tốt hơn.

Ứng dụng thực tế:

Quan trọng cho agent tự động hóa văn phòng, data entry, web operations, hoặc dev workflows. Nhiều tác vụ thực ra sẽ hiệu quả hơn nếu agent biết chuyển từ GUI sang CLI/API khi thích hợp.

10) Translation as a Bridging Action: Transferring Manipulation Skills from Humans to Robots

Bài toán:

Chuyển kỹ năng thao tác từ người sang robot rất khó vì khác biệt hình thái: tay người, cổ tay, góc nhìn, và gripper của robot không giống nhau. Dữ liệu người làm không thể ánh xạ trực tiếp sang robot.

Ý tưởng:

Paper dùng một bridging action representation dựa trên relative wrist translation trong hệ quy chiếu camera đầu tiên. Đây là dạng biểu diễn hành động trừu tượng hơn, giúp giảm khác biệt giữa người và robot.

Điểm mới:

Dùng translation làm cầu nối giữa hai embodiment.
Kết hợp với vision-language-action model có interleaved action tokens và attention masking.
Nhắm vào bài toán khó là bi-manual manipulation.

Ứng dụng thực tế:

Mở ra hướng học từ video người thao tác để dạy robot làm việc nhà, lắp ráp, đóng gói, hoặc hỗ trợ sản xuất mà không cần quá nhiều dữ liệu robot chuyên biệt.

Xu hướng chung rút ra từ top paper hôm nay

Nhìn tổng thể, có 4 xu hướng nổi bật:

1. AI đang chuyển từ “mô hình đơn năng” sang “agent có quy trình”

Điều này thấy rõ ở Qwen-Image-Agent, OPID, và cả các paper về coding/computer-use agent. Mô hình không chỉ cần trả lời, mà phải biết lập kế hoạch, tương tác, tự sửa, và chọn công cụ phù hợp.

2. Robot cần thích nghi linh hoạt thay vì học cố định

In-Context World Modeling, PhysisForcing, và Translation as a Bridging Action đều xoay quanh việc giúp robot hoạt động tốt hơn ngoài phòng lab: tự thích nghi, hiểu vật lý, và học từ dữ liệu con người.

3. Hạ tầng suy luận và biểu diễn ngày càng quan trọng

JetSpec và ViQ cho thấy năng lực AI không chỉ đến từ model lớn hơn, mà còn từ biểu diễn tốt hơn và suy luận nhanh hơn.

4. Độ tin cậy đang trở thành nút thắt lớn

The Verification Horizon nhắc một điều rất quan trọng: khi agent ngày càng mạnh, bài toán khó nhất có thể không còn là “làm được hay không”, mà là xác minh rằng nó làm đúng điều ta thực sự muốn.

Kết luận

Top 10 paper hôm nay không chỉ là danh sách các kết quả lẻ tẻ, mà phản ánh khá rõ giai đoạn hiện tại của AI:

Generative AI đang trở nên đa bước và giàu ngữ cảnh hơn.
Robotics đang chuyển sang thích nghi trong bối cảnh mở.
LLM systems tập trung mạnh vào tối ưu hiệu năng và khả năng triển khai.
Agent reliability nổi lên như một bài toán nền tảng.

Nếu phải chọn vài paper đáng theo dõi kỹ nhất về tác động thực tế ngắn hạn, mình sẽ ưu tiên:

JetSpec cho inference production,
Qwen-Image-Agent cho hướng image agent,
In-Context World Modeling for Robotic Control cho robot thích nghi,
The Verification Horizon cho anyone building coding agents.

Nếu bạn muốn, ở bước tiếp theo mình có thể làm thêm một trong 3 dạng sau:

Bảng tóm tắt 10 paper dạng so sánh 1 trang
Phiên bản blog viết theo văn phong newsletter chuyên nghiệp hơn
Chọn ra top 3 paper quan trọng nhất và phân tích sâu hơn từng bài

Top AI Papers on Hugging Face - 2026-06-28

Y Hành Nhan — Sun, 28 Jun 2026 12:01:07 +0000

10 Paper AI Hot Nhất Hôm Nay Trên Hugging Face: Agent Memory, Image Agent, Robot Control và Làn Sóng Generative Mới

Hôm nay, bảng xếp hạng paper được upvote cao trên Hugging Face cho thấy một bức tranh rất rõ: AI đang dịch chuyển từ các mô hình “biết trả lời” sang các hệ thống “biết hành động”, “biết nhớ”, “biết thích nghi” và “biết tạo nội dung theo ngữ cảnh thực tế”.

Trong bài viết này, mình sẽ tóm lược 10 paper nổi bật nhất, theo 4 góc nhìn cho mỗi bài:

Bài toán
Ý tưởng chính
Điểm mới
Ứng dụng thực tế

1. Are We Ready For An Agent-Native Memory System?

Paper ID: 2606.24775

GitHub: https://github.com/OpenDataBox/MemoryData

Bài toán

Các AI agent hiện đại không còn chỉ xử lý một prompt rồi kết thúc. Chúng cần bộ nhớ dài hạn: nhớ người dùng là ai, các tác vụ trước đó, công cụ đã dùng, kế hoạch đang dang dở, và cả những thông tin cần cập nhật theo thời gian.

Vấn đề là phần lớn hệ thống memory cho agent hiện nay được xây khá chắp vá: lưu gì, truy xuất thế nào, cập nhật ra sao, khi nào quên bớt… vẫn thiếu một khung đánh giá bài bản.

Ý tưởng

Paper tiếp cận memory của agent như một bài toán quản lý dữ liệu. Thay vì coi memory chỉ là “một vector database”, nhóm tác giả chia nó thành nhiều module:

biểu diễn và lưu trữ
trích xuất thông tin
truy hồi và định tuyến
bảo trì / cập nhật / xóa

Từ đó, họ đề xuất cách đánh giá memory theo nhiều workload và nhiều nút thắt khác nhau.

Điểm mới

Điểm đáng chú ý nhất là paper không giới thiệu một “mô hình nhớ mới”, mà đưa ra một framework đánh giá hệ thống memory-native cho agent.

Các tiêu chí như:

độ trung thực khi biểu diễn thông tin
độ chính xác truy hồi
tính đúng đắn khi cập nhật
độ ổn định trên chuỗi tương tác dài
trade-off giữa chi phí và hiệu năng

được đưa vào đánh giá có hệ thống.

Ứng dụng thực tế

Paper này rất hữu ích cho:

chatbot cá nhân hóa
trợ lý công việc dài hạn
agent hỗ trợ nghiên cứu
hệ điều hành AI có nhiều phiên làm việc

Nói ngắn gọn, nếu muốn xây agent “nhớ lâu nhưng không nhớ sai”, đây là hướng rất quan trọng.

2. DanceOPD: On-Policy Generative Field Distillation

Bài toán

Trong generative image models, ta thường có nhiều năng lực khác nhau:

sinh ảnh từ text
chỉnh sửa cục bộ
chỉnh sửa toàn cục

Thông thường các khả năng này được học riêng hoặc kết hợp chưa thật sự mượt, dẫn tới model mạnh ở tác vụ này nhưng yếu ở tác vụ khác.

Ý tưởng

DanceOPD đề xuất một cơ chế distillation theo kiểu on-policy cho các flow-matching model. Ý tưởng là để student model học từ các “expert capability” khác nhau, nhưng học theo đúng phân phối đầu ra mà chính nó tạo ra trong quá trình huấn luyện.

Điểm mới

Một số điểm mới nổi bật:

dùng on-policy generative field distillation
có routing theo năng lực chuyên biệt
huấn luyện dựa trên velocity field / velocity MSE objective

Cách tiếp cận này giúp gom nhiều loại năng lực tạo sinh vào cùng một student model mà không làm chúng triệt tiêu nhau quá mạnh.

Ứng dụng thực tế

DanceOPD có thể hữu ích cho:

công cụ thiết kế ảnh all-in-one
trình chỉnh sửa sáng tạo tích hợp sinh mới và edit
workflow tạo quảng cáo, concept art, poster

Đây là hướng đi quan trọng nếu muốn một model vừa “vẽ từ đầu”, vừa “sửa ảnh” tốt.

3. DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation

Paper ID: 2606.26058

GitHub: https://github.com/HKUST-C4G/DomainShuttle

Bài toán

Text-to-video đang tiến bộ nhanh, nhưng vẫn rất khó ở bài toán subject-driven generation: ví dụ đưa vào ảnh một người hoặc một con vật, rồi yêu cầu tạo video mới mà vẫn giữ đúng danh tính/chủ thể đó, kể cả trong bối cảnh rất khác.

Ý tưởng

DomainShuttle tập trung vào việc mô hình hóa sự khác nhau giữa:

in-domain: cùng loại miền dữ liệu quen thuộc
cross-domain: chuyển sang phong cách hoặc ngữ cảnh khác

Hệ thống dùng các cơ chế như domain-aware AdaLN và Video-Reference DualRoPE để căn chỉnh giữa ảnh tham chiếu và chuỗi video sinh ra.

Điểm mới

Điểm mới nằm ở chỗ paper không chỉ cố “copy chủ thể” vào video, mà xử lý cả vấn đề khác miền dữ liệu.

Ngoài ra, Cross-Pair Consistent Loss giúp duy trì sự nhất quán của chủ thể giữa các cặp tham chiếu và video.

Ứng dụng thực tế

Ứng dụng rất rộng:

tạo video quảng cáo cá nhân hóa
animation từ ảnh nhân vật
virtual influencer
sản xuất nội dung ngắn cho mạng xã hội

Đây là mảnh ghép quan trọng để text-to-video đi từ demo đẹp sang sản xuất thực tế.

4. In-Context World Modeling for Robotic Control

Bài toán

Robot ngoài đời thật luôn gặp tình huống mới: ma sát khác, tải trọng khác, cấu hình thiết bị khác. Nếu mỗi lần thay đổi lại phải fine-tune model thì quá chậm và đắt đỏ.

Ý tưởng

Paper đề xuất ICWM: robot tự tạo các tương tác ngắn để “thăm dò thế giới”, rồi dùng chính các quan sát đó như in-context information để suy ra các biến ẩn của hệ thống.

Nói cách khác, thay vì update trọng số, robot thích nghi ngay trong ngữ cảnh.

Điểm mới

Điểm rất hay là họ biến bài toán nhận dạng hệ thống (system identification) thành bài toán in-context adaptation. Điều này giống cách LLM học “on the fly” từ ví dụ trong prompt, nhưng áp dụng cho điều khiển robot.

Ứng dụng thực tế

Rất tiềm năng cho:

robot công nghiệp cần đổi tool thường xuyên
robot dịch vụ trong môi trường thay đổi
tay máy trong kho vận
robot nghiên cứu cần chuyển từ mô phỏng sang thực tế

Nếu hướng này tiếp tục hiệu quả, robot sẽ linh hoạt hơn nhiều mà không cần huấn luyện lại liên tục.

5. ShutterMuse: Capture-Time Photography Guidance with MLLMs

Paper ID: 2606.25763

GitHub: https://github.com/lijayuTnT/ShutterMuse

Bài toán

Phần lớn AI về nhiếp ảnh hiện nay hoạt động sau khi chụp: chỉnh ảnh, crop lại, tăng màu. Nhưng người dùng thật sự cần hỗ trợ ngay lúc bấm máy: đứng thế nào, bố cục ra sao, lệch khung chỗ nào.

Ý tưởng

ShutterMuse xây dựng benchmark và dataset cho tác vụ hỗ trợ chụp ảnh theo thời gian thực. Mô hình có thể đưa ra:

hướng dẫn bố cục cho người cầm máy
gợi ý pose cho chủ thể

Điểm mới

Điểm mới là đưa MLLM vào giai đoạn capture-time, thay vì chỉ hậu kỳ. Paper còn hợp nhất hai nhu cầu vốn thường tách rời:

photographer-side composition guidance
subject-side pose recommendation

Ứng dụng thực tế

Rất thực dụng cho:

app camera thông minh
trợ lý chụp ảnh trên điện thoại
kiosk chụp ảnh tự động
du lịch, cưới hỏi, social content

Đây là kiểu ứng dụng AI mà người dùng phổ thông có thể cảm nhận giá trị ngay lập tức.

6. OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

Paper ID: 2606.26790

GitHub: https://github.com/jinyangwu/OPID

Bài toán

Huấn luyện language agent bằng reinforcement learning thường rất tốn mẫu và tín hiệu thưởng khá thưa. Agent chỉ biết cuối cùng thành công hay thất bại, nhưng không biết rõ từng bước nào tốt/xấu.

Ý tưởng

OPID khai thác completed trajectories để trích xuất dạng giám sát hindsight dày hơn. Từ các quỹ đạo hoàn tất, hệ thống distill ra các skill hoặc các bước hành động có cấu trúc hơn để huấn luyện policy.

Điểm mới

Điểm mới chính là:

on-policy skill distillation
dùng hindsight supervision dày đặc hơn thay vì chỉ reward cuối
tổ chức hành vi theo kiểu phân cấp kỹ năng

Điều này giúp agent học hiệu quả hơn trong môi trường dài hơi.

Ứng dụng thực tế

Phù hợp cho:

web agent
coding agent
task automation agent
trợ lý nhiều bước cần lập kế hoạch và thực thi

Đây là một mảnh ghép quan trọng để agent RL bớt “học mò”.

7. Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation

Bài toán

Một prompt văn bản thường không đủ để mô tả toàn bộ ngữ cảnh cần thiết cho ảnh thực tế. Ví dụ muốn tạo poster sản phẩm, người dùng còn cần style, bố cục, thông tin thương hiệu, ví dụ tham khảo, ràng buộc từ môi trường sử dụng.

Ý tưởng

Qwen-Image-Agent xem bài toán tạo ảnh như một quy trình agentic gồm:

lập kế hoạch
suy luận
tìm kiếm thông tin
dùng bộ nhớ

Agent sẽ dần xây dựng “full generation context” trước khi gọi image model.

Điểm mới

Điểm mới ở đây là chuyển từ “text prompt → image” sang “agent xây ngữ cảnh → image”. Đây là cách trực diện để xử lý cái gọi là context gap trong image generation thực tế.

Ứng dụng thực tế

Rất phù hợp cho:

thiết kế marketing
tạo ảnh sản phẩm thương mại điện tử
creative assistant cho doanh nghiệp
pipeline thiết kế có nhiều ràng buộc

Xu hướng này cho thấy tương lai của AI tạo ảnh có thể không nằm ở model lớn hơn, mà ở agent thông minh hơn.

8. The Verification Horizon: No Silver Bullet for Coding Agent Rewards

Bài toán

Với coding agents, việc thiết kế reward rất khó. Nếu dùng test case làm tín hiệu thưởng, agent có thể “hack” test. Nếu dùng proxy khác, proxy đó có thể lệch khỏi ý định thật của con người.

Ý tưởng

Paper phân tích bài toán verification như một cuộc đua liên tục giữa:

năng lực sinh của agent
năng lực xác minh / chấm điểm / kiểm tra

Khi policy mạnh hơn, các tín hiệu xác minh cũ có thể bị bão hòa hoặc bị khai thác.

Điểm mới

Điểm mới không phải một thuật toán cụ thể, mà là một luận điểm rất quan trọng: không có viên đạn bạc cho reward của coding agent. Hệ thống xác minh phải thích nghi cùng với năng lực của agent.

Ứng dụng thực tế

Rất đáng đọc cho các đội đang xây:

coding copilots
autonomous software agents
bug-fixing agents
benchmark đánh giá agent

Paper này mang tính “cảnh báo chiến lược”: đừng quá tin vào một chỉ số thưởng tĩnh.

9. ViQ: Text-Aligned Visual Quantized Representations at Any Resolution

Paper ID: 2606.27313

GitHub: https://github.com/yuxumin/ViQ

Bài toán

Biểu diễn ảnh rời rạc (discrete visual tokens) rất hấp dẫn vì giúp training multimodal hiệu quả hơn. Nhưng thường có trade-off khó chịu:

token giàu ngữ nghĩa thì mất chi tiết
token giữ chi tiết thì khó align với text

Ý tưởng

ViQ đề xuất framework lượng tử hóa hình ảnh có thể giữ được cả semantic richness lẫn low-level detail, đồng thời hỗ trợ native-resolution inputs.

Điểm mới

Các thành phần mới gồm:

text-aligned pre-training
proximal representation learning
position-aware head-wise quantization

Nhờ đó, representation rời rạc không còn quá “thô”, mà hữu ích hơn cho multimodal modeling.

Ứng dụng thực tế

Có tiềm năng trong:

vision-language model hiệu quả hơn
nén token cho mô hình đa phương thức
retrieval, captioning, reasoning trên ảnh độ phân giải cao
training hệ thống thế hệ mới tiết kiệm compute hơn

10. MVTrack4Gen: Multi-View Point Tracking as Geometric Supervision for 4D Video Generation

Paper ID: 2606.26087

GitHub: https://github.com/cvlab-kaist/MVTrack4Gen

Bài toán

Sinh video góc nhìn mới luôn gặp vấn đề lớn: hình có thể đẹp từng frame, nhưng hình học và chuyển động không nhất quán giữa các góc nhìn.

Ý tưởng

MVTrack4Gen dùng multi-view point tracking như một dạng supervision hình học cho mô hình diffusion tạo video. Thay vì chỉ ép mô hình sinh frame hợp mắt, họ đưa thêm ràng buộc về correspondence giữa các điểm qua nhiều view.

Điểm mới

Điểm mới là biến tracking đa góc nhìn thành tín hiệu học cho 4D video generation. Cơ chế này cải thiện:

geometric consistency
motion fidelity
liên kết giữa các góc nhìn

Ứng dụng thực tế

Rất hứa hẹn cho:

AR/VR
phim và game
digital human
mô phỏng cảnh động nhiều camera

Nếu muốn video sinh ra không chỉ đẹp mà còn “đúng vật lý / đúng hình học”, đây là hướng rất đáng chú ý.

Kết luận: 3 Xu Hướng Lớn Đang Nổi Lên

Nhìn tổng thể 10 paper hôm nay, có thể thấy 3 xu hướng nổi bật:

1. Agent đang trở thành lớp điều phối trung tâm

Các paper như Agent-Native Memory, OPID, Qwen-Image-Agent, và Verification Horizon cho thấy trọng tâm không chỉ còn là model nền, mà là cách agent:

nhớ
lập kế hoạch
tự cải thiện
được đánh giá an toàn và đáng tin

2. Generative AI đang đi vào bài toán thực tế hơn

Từ DomainShuttle, DanceOPD, ShutterMuse đến MVTrack4Gen, mục tiêu không còn chỉ là “demo đẹp”, mà là:

giữ đúng chủ thể
chỉnh sửa linh hoạt
hỗ trợ người dùng trong ngữ cảnh thật
đảm bảo tính nhất quán hình học

3. Khả năng thích nghi theo ngữ cảnh là chìa khóa

ICWM và Qwen-Image-Agent là hai ví dụ rất rõ cho xu hướng này: thay vì cập nhật tham số liên tục, hệ thống học cách thích nghi qua ngữ cảnh, tương tác và bộ nhớ.

Lời cuối

Nếu phải chọn vài paper đáng theo dõi nhất về tác động dài hạn, mình sẽ chọn:

Are We Ready For An Agent-Native Memory System?
In-Context World Modeling for Robotic Control
Qwen-Image-Agent
The Verification Horizon

Vì chúng chạm vào các câu hỏi nền tảng: làm sao để AI nhớ đúng, thích nghi nhanh, hành động theo ngữ cảnh, và được đánh giá đúng mục tiêu.

Nếu bạn muốn, mình có thể viết tiếp phần 2 theo một trong các hướng sau:

Bảng so sánh 10 paper
Top 5 paper đáng đọc kỹ nhất cho startup AI
Tóm tắt mỗi paper theo kiểu dễ hiểu cho người không chuyên
Phiên bản post LinkedIn / Facebook ngắn gọn

Unleash Local LLMs: Find the Perfect Model for Your Hardware with whichllm!

GitHubOpenSource — Sat, 27 Jun 2026 14:26:17 +0000

Quick Summary: 📝

whichllm is a command-line tool that helps users find and run the best-performing Large Language Models (LLMs) locally on their specific hardware. It benchmarks models based on real-world performance and hardware compatibility, rather than just parameter count, providing a ranked list of suitable LLMs.

Key Takeaways: 💡

✅ Automatically identifies and ranks optimal local LLMs for your specific hardware.
✅ Goes beyond simple size checks, considering performance and generation for best results.
✅ Offers flexible configuration for conservative or ambitious model recommendations.
✅ Enables hardware simulation to plan upgrades and ensure model compatibility.
✅ Streamlines local LLM deployment, saving developers time and effort.

Project Statistics: 📊

⭐ Stars: 5322
🍴 Forks: 279
❗ Open Issues: 16

Tech Stack: 💻

✅ Python

Choosing the right large language model (LLM) to run locally can feel like a daunting task. With countless models available on HuggingFace and varying hardware capabilities across different machines, it's easy to get lost in a sea of specifications and benchmarks. This is where whichllm steps in as an incredibly useful tool for any developer looking to leverage local AI.whichllm simplifies the process by intelligently analyzing your system's hardware, including your GPU, CPU, and available RAM. It then scours HuggingFace to identify and rank the top LLMs that are not just technically runnable, but actually perform well on your specific setup. Unlike simple 'does it fit?' tools, whichllm considers factors like partial RAM offload and near-edge VRAM fits, giving you recommendations that optimize both performance and quality. It even accounts for model generations and real-world benchmarks to ensure you're getting the best possible pick, not just the biggest.The project offers flexible options for different needs. If you prefer a more conservative recommendation, similar to what you might find in tools like LM Studio, you can easily adjust parameters to prioritize models that fit entirely within your GPU's VRAM and leave extra headroom for runtime overhead. This ensures a smoother, more reliable experience.Beyond just identifying models for your current machine, whichllm provides powerful simulation capabilities. Thinking about upgrading your hardware? You can simulate different GPUs, like an 'RTX 4090' or even '2x RTX 4090', to see which models they would best support. This feature is invaluable for planning future investments and ensuring compatibility before you buy. You can also use it to compare upgrade candidates directly or even determine what GPU you'd need to run a specific model. For developers, this means less guesswork, faster setup, and more time building amazing things with local AI.

Learn More: 🔗

View the Project on GitHub

🌟 Stay Connected with GitHub Open Source!

📱 Join us on Telegram

Get daily updates on the best open-source projects

GitHub Open Source

👥 Follow us on Facebook

Connect with our community and never miss a discovery

GitHub Open Source

Top AI Papers on Hugging Face - 2026-06-27

Y Hành Nhan — Sat, 27 Jun 2026 12:01:01 +0000

10 paper AI nổi bật nhất hôm nay trên Hugging Face: agent memory, image/video generation, robotics và RL

Hôm nay, bảng xếp hạng paper được upvote nhiều nhất trên Hugging Face cho thấy một bức tranh khá rõ về hướng đi của AI hiện tại: agent thông minh hơn, mô hình tạo ảnh/video thực tế hơn, và hệ thống học thích nghi tốt hơn với môi trường thật. Trong bài viết này, mình sẽ tóm tắt 10 paper nổi bật theo 4 góc nhìn cho mỗi bài:

Bài toán
Ý tưởng chính
Điểm mới
Ứng dụng thực tế

1) Are We Ready For An Agent-Native Memory System?

Bài toán:

Khi xây dựng AI agent dùng LLM, “memory” không còn đơn giản là lưu vài đoạn hội thoại. Agent hiện đại cần lưu trữ thông tin dài hạn, rút trích tri thức, truy hồi đúng ngữ cảnh, cập nhật ký ức cũ và giữ ổn định theo thời gian. Vấn đề là cộng đồng vẫn thiếu một cách đánh giá có hệ thống cho toàn bộ pipeline này.

Ý tưởng:

Paper nhìn memory của agent như một bài toán quản trị dữ liệu. Thay vì chỉ hỏi “agent có nhớ không?”, tác giả tách memory system thành nhiều module: biểu diễn/lưu trữ, extraction, retrieval/routing, maintenance. Từ đó họ đánh giá từng thành phần qua nhiều workload khác nhau.

Điểm mới:

Điểm đáng chú ý là cách tiếp cận data management perspective. Đây không chỉ là benchmark hiệu năng chung, mà là framework để đo các thuộc tính như:

độ trung thực của biểu diễn,
độ chính xác khi truy hồi,
tính đúng đắn khi cập nhật,
độ ổn định theo thời gian dài,
trade-off giữa chi phí và hiệu năng.

Ứng dụng thực tế:

Paper rất hữu ích cho những ai đang xây AI assistant dài hạn, customer support agent, copilot doanh nghiệp, hay agent tự động hóa workflow. Thực tế, nhiều sản phẩm agent thất bại không phải vì model kém, mà vì memory sai, cũ hoặc truy hồi lệch ngữ cảnh.

2) DanceOPD: On-Policy Generative Field Distillation

Bài toán:

Trong mô hình tạo ảnh hiện nay, các khả năng như text-to-image, local editing và global editing thường được tối ưu khá rời rạc. Kết quả là mô hình khó vừa mạnh ở sinh ảnh mới, vừa giỏi chỉnh sửa ảnh.

Ý tưởng:

DanceOPD đề xuất một framework on-policy generative field distillation cho các mô hình flow-matching. Ý tưởng là dùng nhiều “expert capability” và huấn luyện student model bằng cách routing theo năng lực phù hợp, đồng thời tối ưu trên trường vận tốc (velocity field).

Điểm mới:

Có hai điểm mới đáng chú ý:

On-policy distillation: student học trên chính phân phối nó tạo ra, thay vì chỉ bắt chước dữ liệu cố định.
Unification: gom nhiều năng lực tạo/sửa ảnh vào một framework thống nhất.

Điều này giúp giảm khoảng cách giữa lúc train và lúc inference.

Ứng dụng thực tế:

Phù hợp cho các sản phẩm AI creative tools, image editor thông minh, thiết kế marketing, nơi người dùng muốn vừa tạo ảnh từ prompt, vừa sửa cục bộ hoặc chỉnh phong cách toàn cục trong cùng một hệ thống.

3) DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation

Bài toán:

Text-to-video đã tiến bộ nhanh, nhưng khi muốn tạo video với chủ thể cụ thể từ một ảnh tham chiếu, mô hình thường gặp khó ở hai điểm: giữ đúng danh tính/chủ thể và tổng quát sang các domain lạ.

Ý tưởng:

DomainShuttle giải quyết bài toán subject-driven text-to-video trong cả tình huống cùng miền dữ liệu lẫn khác miền dữ liệu. Họ đưa vào mô hình hóa theo domain và cơ chế DualRoPE để xử lý quan hệ giữa token ảnh tham chiếu và token video.

Điểm mới:

Các thành phần mới gồm:

domain-aware AdaLN để thích ứng theo miền,
Video-Reference DualRoPE để biểu diễn tốt hơn giữa ảnh tham chiếu và chuỗi video,
Cross-Pair Consistent Loss để giữ tính nhất quán của chủ thể.

Ứng dụng thực tế:

Rất tiềm năng cho quảng cáo video cá nhân hóa, virtual influencer, content creator tools, e-commerce video generation, nơi người dùng muốn “lấy người/vật này làm nhân vật chính rồi tạo video theo prompt”.

4) ShutterMuse: Capture-Time Photography Guidance with MLLMs

Bài toán:

Phần lớn AI cho nhiếp ảnh hiện nay hoạt động sau khi chụp. Nhưng người mới thường cần hỗ trợ ngay lúc đang chụp: bố cục ra sao, nên crop thế nào, người mẫu nên tạo dáng gì.

Ý tưởng:

ShutterMuse xây dựng benchmark, dataset và một mô hình đa phương thức thống nhất để hỗ trợ cả hai phía:

photographer-side: hướng dẫn bố cục, framing, crop,
subject-side: gợi ý pose/tư thế.

Điểm mới:

Paper không chỉ đưa ra mô hình mà còn xây nền tảng đánh giá cho tác vụ “capture-time guidance” — một bài toán rất thực tế nhưng còn ít được chuẩn hóa. Việc kết hợp supervised fine-tuning và reinforcement fine-tuning cũng cho thấy họ muốn tối ưu theo phản hồi gần với trải nghiệm người dùng.

Ứng dụng thực tế:

Có thể dùng trong camera app thông minh, trợ lý chụp ảnh trên smartphone, studio AI assistant, hoặc công cụ hỗ trợ cho creator quay/chụp nội dung mạng xã hội.

5) In-Context World Modeling for Robotic Control

Bài toán:

Robot ngoài đời thật luôn gặp thay đổi: tải trọng khác, ma sát khác, cấu hình khác. Nếu mỗi thay đổi đều cần fine-tune model thì quá chậm và đắt.

Ý tưởng:

Paper đề xuất In-Context World Modeling (ICWM): robot tự tạo ra một số tương tác thăm dò, rồi dùng chính lịch sử đó để suy ra biến trạng thái/hệ động lực ẩn. Nói cách khác, system identification được biến thành một bài toán in-context adaptation, không cần cập nhật tham số.

Điểm mới:

Điểm mới nằm ở việc dùng tinh thần của in-context learning trong LLM cho robotic control. Thay vì “học lại”, policy suy luận thích nghi tại chỗ từ chuỗi quan sát-hành động.

Ứng dụng thực tế:

Rất quan trọng với robot công nghiệp, robot thao tác trong kho, robot gia đình, nơi môi trường thay đổi liên tục. Nếu làm tốt, robot sẽ triển khai linh hoạt hơn mà không cần pipeline retraining phức tạp.

6) OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

Bài toán:

Huấn luyện language agent bằng reinforcement learning thường thiếu tín hiệu học dày đặc. Phần thưởng cuối cùng quá thưa, khiến việc học chậm và dễ bất ổn.

Ý tưởng:

OPID tận dụng các trajectory đã hoàn thành để trích xuất dense hindsight supervision. Từ kết quả cuối cùng, hệ thống suy ngược ra các kỹ năng con cần thiết và distill chúng vào policy.

Điểm mới:

Các đóng góp nổi bật gồm:

on-policy skill distillation,
tạo biến thể skill-conditioned,
cơ chế critical-first routing,
supervision ở mức token-level cho agent ngôn ngữ.

Điều này giúp RL agent học không chỉ từ “thắng hay thua”, mà từ cấu trúc kỹ năng trong quá trình giải quyết nhiệm vụ.

Ứng dụng thực tế:

Hữu ích cho coding agents, web agents, research agents, và các hệ agent đa bước cần ra quyết định dài hơi.

7) Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation

Bài toán:

Khoảng cách lớn của text-to-image hiện nay là context gap: prompt người dùng thường thiếu thông tin, mơ hồ hoặc ngầm định rất nhiều, trong khi mô hình sinh ảnh chỉ nhận một chuỗi text ngắn.

Ý tưởng:

Qwen-Image-Agent biến việc tạo ảnh thành một tiến trình mang tính agentic hơn: lập kế hoạch, suy luận, tìm kiếm, và dùng memory để dần xây dựng ngữ cảnh đầy đủ trước khi sinh ảnh.

Điểm mới:

Điểm mới ở đây không nằm thuần trong backbone generative model, mà ở khung tác tử bao quanh mô hình tạo ảnh. Paper cũng nhấn mạnh một benchmark mới để đánh giá khả năng của image agent trong các tình huống thực tế.

Ứng dụng thực tế:

Rất phù hợp với thiết kế thương mại, AI content production, creative assistant cho doanh nghiệp, nơi yêu cầu hình ảnh thường phụ thuộc vào brand guideline, bối cảnh, tài liệu tham chiếu và tri thức ngoài prompt.

8) The Verification Horizon: No Silver Bullet for Coding Agent Rewards

Bài toán:

Khi huấn luyện coding agent, ta thường dùng các tín hiệu kiểm chứng như test case, static analysis, hoặc proxy metric. Nhưng các tín hiệu này dễ bị reward hacking: agent tối ưu điểm số mà không thực sự đáp ứng ý định con người.

Ý tưởng:

Paper lập luận rằng không có “viên đạn bạc” nào cho reward của coding agents. Khi năng lực sinh của agent mạnh lên, các cơ chế verification cũ sẽ dần bị khai thác hoặc bão hòa. Vì vậy verification phải tiến hóa cùng agent.

Điểm mới:

Đây là một đóng góp thiên về khung khái niệm hơn là một thuật toán đơn lẻ. Paper đưa ra góc nhìn “verification horizon” để giải thích vì sao nhiều reward tưởng tốt lại nhanh chóng mất tác dụng khi agent giỏi hơn.

Ứng dụng thực tế:

Rất đáng đọc cho đội ngũ xây AI coding assistant, autonomous software engineer, hoặc bất kỳ hệ thống nào dùng proxy reward. Nó nhắc rằng bài toán không chỉ là “đo được”, mà là “đo đúng điều con người thật sự muốn”.

9) ViQ: Text-Aligned Visual Quantized Representations at Any Resolution

Bài toán:

Biểu diễn ảnh rời rạc (quantized/discrete representations) hữu ích cho multimodal learning vì tiết kiệm tính toán. Nhưng thường phải đánh đổi giữa ngữ nghĩa mạnh và giữ chi tiết hình ảnh.

Ý tưởng:

ViQ đề xuất một framework quantization có căn chỉnh với text, nhằm tạo ra biểu diễn thị giác rời rạc nhưng vẫn giàu ngữ nghĩa và hỗ trợ đầu vào ở độ phân giải tự nhiên bất kỳ.

Điểm mới:

Một số thành phần nổi bật:

proximal representation learning,
position-aware head-wise quantization,
thiết kế nhằm cân bằng giữa semantic richness và low-level reconstruction.

Khả năng làm việc ở any resolution cũng là một điểm thực dụng cao.

Ứng dụng thực tế:

Có thể cải thiện multimodal foundation models, vision-language pretraining, retrieval, captioning, và cả các pipeline cần nén biểu diễn thị giác hiệu quả.

10) MVTrack4Gen: Multi-View Point Tracking as Geometric Supervision for 4D Video Generation

Bài toán:

Trong sinh video novel-view hoặc 4D, mô hình thường tạo chuyển động đẹp nhưng thiếu nhất quán hình học giữa các góc nhìn. Điều này làm video trông “ảo”, đặc biệt trong cảnh có camera di chuyển.

Ý tưởng:

MVTrack4Gen đưa vào multi-view point tracking như một dạng giám sát hình học cho mô hình diffusion. Bằng cách học các correspondence cues giữa nhiều góc nhìn, mô hình có thể giữ cấu trúc không gian và chuyển động chính xác hơn.

Điểm mới:

Paper bổ sung:

một auxiliary multi-view tracking head,
huấn luyện joint training với diffusion model,
tận dụng tracking làm geometric supervision thay vì chỉ dựa trên loss hình ảnh/video thông thường.

Ứng dụng thực tế:

Phù hợp cho 3D/4D content creation, game asset generation, AR/VR, cinematic video synthesis, nơi tính nhất quán không gian là yếu tố sống còn.

Xu hướng chung rút ra từ 10 paper

Nhìn tổng thể, 10 paper hôm nay cho thấy 4 xu hướng lớn:

1. AI agent đang chuyển từ “chatbot biết làm việc” sang “hệ thống có cấu trúc”

Các paper như Agent-Native Memory System, OPID, Qwen-Image-Agent và Verification Horizon cùng nhấn mạnh rằng agent không thể chỉ dựa vào model mạnh. Chúng cần:

memory đáng tin cậy,
cơ chế học từ hành vi dài hạn,
planning/reasoning/search,
và verification phù hợp.

2. Generative AI đang dịch chuyển sang bài toán thực tế hơn

Thay vì chỉ “generate đẹp”, các paper như DanceOPD, DomainShuttle, MVTrack4Gen tập trung vào các yêu cầu triển khai thật:

chỉnh sửa cục bộ/toàn cục,
giữ đúng chủ thể,
bảo toàn hình học và chuyển động.

3. Multimodal systems đang đi sâu vào tương tác người dùng

ShutterMuse và Qwen-Image-Agent là ví dụ rõ ràng: AI không chỉ sinh nội dung, mà còn đồng hành trong quá trình sáng tạo.

4. Khả năng thích nghi đang trở thành yếu tố then chốt

Từ ICWM trong robotics tới on-policy distillation trong RL và generative modeling, cộng đồng đang cố giảm phụ thuộc vào việc retrain nặng nề, thay vào đó là thích nghi theo ngữ cảnh và dữ liệu tại chỗ.

Kết luận

Nếu phải tóm gọn tinh thần của danh sách hôm nay trong một câu, thì đó là: AI đang tiến từ mô hình mạnh sang hệ thống hữu dụng.

Với agent, thách thức lớn là memory, reward, verification và kỹ năng dài hạn.
Với image/video generation, trọng tâm đang chuyển sang kiểm soát, tính nhất quán và bối cảnh thực.
Với robotics, đích đến là khả năng thích nghi ngoài đời thật mà không cần retrain liên tục.

Đây là những hướng rất đáng theo dõi, vì chúng tác động trực tiếp đến việc biến AI từ demo ấn tượng thành sản phẩm thật sự bền vững.

Nếu bạn muốn, ở bước tiếp theo mình có thể viết tiếp một phiên bản:

ngắn gọn kiểu newsletter, hoặc
chi tiết hơn từng paper theo format review 200-300 từ/paper.

Top AI Papers on Hugging Face - 2026-06-26

Y Hành Nhan — Fri, 26 Jun 2026 12:01:04 +0000

10 Paper AI Hot nhất trên Hugging Face hôm nay: Agent Memory, Video Generation, Diffusion LLM và hơn thế nữa

Hôm nay, danh sách paper được upvote nhiều nhất trên Hugging Face cho thấy một bức tranh rất rõ: AI đang tiến rất nhanh theo 3 hướng lớn — agent thông minh hơn, mô hình sinh ảnh/video linh hoạt hơn, và biểu diễn/mô hình hóa đa phương thức hiệu quả hơn. Dưới đây là phần tổng hợp 10 paper nổi bật, tập trung vào 4 câu hỏi cho mỗi bài: bài toán là gì, ý tưởng chính là gì, điểm mới nằm ở đâu, và ứng dụng thực tế ra sao.

1) Are We Ready For An Agent-Native Memory System?

Bài toán:

Khi LLM agent làm việc dài hơi, chúng cần “trí nhớ” để lưu thông tin người dùng, lịch sử nhiệm vụ, kế hoạch, công cụ từng dùng, hay kết quả trung gian. Nhưng đa số hệ thống hiện nay ghép nhiều module nhớ lại với nhau theo kiểu ad-hoc, thiếu chuẩn đánh giá rõ ràng.

Ý tưởng:

Paper nhìn memory của agent như một hệ quản trị dữ liệu hoàn chỉnh. Thay vì chỉ hỏi “agent có nhớ không?”, tác giả tách bài toán thành nhiều module: biểu diễn/lưu trữ, trích xuất, truy hồi/định tuyến, bảo trì/cập nhật. Sau đó đánh giá từng phần dưới các workload khác nhau.

Điểm mới:

Đóng góp lớn nhất không phải một thuật toán cụ thể, mà là khung phân tích có hệ thống cho agent memory: đo độ trung thực biểu diễn, độ chính xác truy hồi, độ đúng khi cập nhật, độ ổn định theo thời gian dài, và trade-off chi phí/hiệu năng. Đây là bước quan trọng để biến “memory for agents” từ ý tưởng sang hạ tầng thực thụ.

Ứng dụng thực tế:

Rất hữu ích cho các công ty xây AI assistant dài hạn, như trợ lý khách hàng, copilot nội bộ, tutor cá nhân, hay agent điều phối workflow. Nếu không có memory tốt, agent sẽ quên ngữ cảnh, lặp sai, hoặc cập nhật thông tin sai.

2) DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation

Bài toán:

Sinh video từ text đã khó; sinh video với một chủ thể cụ thể (người, thú cưng, đồ vật) mà vẫn giữ đúng nhận diện qua nhiều bối cảnh còn khó hơn, nhất là khi chủ thể thuộc miền mở chứ không bị giới hạn trong một domain nhỏ.

Ý tưởng:

DomainShuttle đưa vào cơ chế domain-aware modeling để phân biệt xử lý giữa các miền dữ liệu khác nhau, đồng thời dùng Video-Reference DualRoPE để căn chỉnh token từ ảnh tham chiếu và token video trong các không gian vị trí phù hợp.

Điểm mới:

Có 2 ý đáng chú ý:

Domain-aware AdaLN giúp mô hình thích ứng với các domain khác nhau.
Cross-Pair Consistent Loss hỗ trợ giữ tính nhất quán của chủ thể giữa ảnh tham chiếu và video sinh ra.

Ứng dụng thực tế:

Marketing, làm phim ngắn, video cá nhân hóa, virtual influencer, hay tạo video quảng cáo với nhân vật thương hiệu cố định. Đây là mảnh ghép quan trọng cho các hệ thống “image-to-character-to-video”.

3) DanceOPD: On-Policy Generative Field Distillation

Bài toán:

Các mô hình sinh ảnh hiện đại thường giỏi một vài tác vụ riêng: tạo ảnh từ text, chỉnh sửa cục bộ, chỉnh sửa toàn cục. Nhưng gom tất cả vào một mô hình student thống nhất mà vẫn giữ chất lượng cao là bài toán khó.

Ý tưởng:

DanceOPD dùng on-policy generative field distillation để chưng cất nhiều “năng lực chuyên gia” vào một mô hình duy nhất. Hệ thống có routing theo capability, nghĩa là mẫu nào phù hợp với kỹ năng nào sẽ được hướng tới expert tương ứng trong quá trình học.

Điểm mới:

Khác với distillation tĩnh, paper này làm distillation on-policy trên chính quỹ đạo sinh của student. Đồng thời dùng velocity-based training trong bối cảnh flow matching, phù hợp với họ mô hình sinh mới hơn diffusion truyền thống.

Ứng dụng thực tế:

Các sản phẩm chỉnh ảnh “all-in-one” cho người dùng cuối: từ tạo ảnh, thêm vật thể, thay nền, sửa chi tiết khuôn mặt đến chỉnh phong cách toàn ảnh. Điều này giúp giảm số model phải triển khai trong production.

4) ShutterMuse: Capture-Time Photography Guidance with MLLMs

Bài toán:

Phần lớn AI cho nhiếp ảnh tập trung vào hậu kỳ. Nhưng trong thực tế, rất nhiều lỗi xảy ra ngay lúc chụp: bố cục lệch, chủ thể tạo dáng chưa ổn, hậu cảnh gây nhiễu.

Ý tưởng:

ShutterMuse xây benchmark và dataset cho hướng dẫn chụp ảnh theo thời gian thực, đồng thời huấn luyện một MLLM có thể vừa gợi ý bố cục cho người chụp, vừa đề xuất pose cho người được chụp.

Điểm mới:

Điểm hay là bài toán được chia thành 2 phía:

Photographer-side composition
Subject-side pose recommendation

Ngoài supervised fine-tuning, paper còn dùng reinforcement fine-tuning để tối ưu chất lượng khuyến nghị.

Ứng dụng thực tế:

Camera app trên điện thoại, trợ lý chụp ảnh du lịch, studio AI, kiosk selfie, hay smart glasses hỗ trợ nhiếp ảnh. Nếu triển khai tốt, đây có thể là “Google Maps cho việc chụp ảnh đẹp”.

5) ViQ: Text-Aligned Visual Quantized Representations at Any Resolution

Bài toán:

Trong multimodal learning, ảnh thường phải resize mạnh hoặc dùng continuous features rất tốn tài nguyên. Cần một dạng biểu diễn rời rạc, gọn nhẹ, nhưng vẫn giữ được cả ngữ nghĩa cấp cao lẫn chi tiết cấp thấp.

Ý tưởng:

ViQ đề xuất framework lượng tử hóa biểu diễn thị giác sao cho được align với text, đồng thời hỗ trợ ảnh ở độ phân giải bất kỳ. Mục tiêu là dùng token thị giác rời rạc hiệu quả hơn cho mô hình đa phương thức.

Điểm mới:

Paper kết hợp:

Text-aligned pre-training
Position-aware head-wise quantization
Proximal representation learning

Nhờ vậy, biểu diễn không chỉ nén tốt mà còn hữu ích cho các tác vụ cần hiểu ngữ nghĩa.

Ứng dụng thực tế:

Huấn luyện VLM quy mô lớn với chi phí thấp hơn, xử lý tài liệu/ảnh độ phân giải cao, hoặc xây mô hình chạy trên thiết bị giới hạn tài nguyên. Rất phù hợp với xu hướng tiết kiệm compute trong multimodal AI.

6) Improved Large Language Diffusion Models

Bài toán:

LLM hiện nay gần như mặc định là autoregressive: sinh token từ trái sang phải. Cách này mạnh nhưng có giới hạn về song song hóa và đôi khi chưa tận dụng hết ngữ cảnh hai chiều.

Ý tưởng:

Paper quay lại hướng diffusion cho ngôn ngữ, cụ thể là masked diffusion language models với attention hai chiều đầy đủ. Mô hình dần “khử nhiễu” chuỗi token bị mask để tạo ra văn bản hoàn chỉnh.

Điểm mới:

Kết quả cho thấy mô hình diffusion ngôn ngữ có thể vượt autoregressive trên một số benchmark như BBH, ARC-Challenge, MATH, HumanEval, trong khi vẫn cạnh tranh về chất lượng tổng thể. Đây là tín hiệu đáng chú ý vì diffusion cho text từng bị xem là kém thực dụng hơn.

Ứng dụng thực tế:

Nếu hướng này tiếp tục tiến bộ, ta có thể có các language model hỗ trợ generation linh hoạt độ dài, sửa nhiều vị trí đồng thời, hoặc suy luận theo kiểu iterative refinement — rất hợp cho code editing, paraphrase, hoặc constrained generation.

7) Beyond NL2Code: A Structured Survey of Multimodal Code Intelligence

Bài toán:

Sinh code từ mô tả ngôn ngữ tự nhiên đã phát triển mạnh, nhưng thực tế ngày càng nhiều bài toán cần nhìn rồi mới code: từ giao diện GUI, biểu đồ khoa học, sơ đồ vector, đến các artifact thị giác khác.

Ý tưởng:

Đây là một bài survey hệ thống hóa lĩnh vực Multimodal Code Intelligence — nơi mô hình phải chuyển từ perception sang program generation/reasoning. Tác giả phân loại các hướng theo loại đầu vào thị giác và loại tác vụ.

Điểm mới:

Điểm giá trị nhất là góc nhìn verification-centered. Paper không chỉ hỏi “mô hình có sinh đúng code không?”, mà còn nhấn mạnh các hướng như:

verifiable agent traces
multi-signal validation
multi-state verification
cross-task transfer testing

Ứng dụng thực tế:

Xây công cụ tạo giao diện từ mockup, phân tích chart bằng code, tạo hình vector từ sketch, hoặc agent tự động sửa GUI/web app. Với doanh nghiệp, đây là hướng rất gần sản phẩm.

8) Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation

Bài toán:

Text prompt thường quá ngắn để mô tả đủ bối cảnh cho việc tạo ảnh chất lượng cao. “Một quán cà phê vintage buổi chiều mưa” nghe hay, nhưng mô hình thiếu vô số ngữ cảnh ngầm định về phong cách, vật thể, bố cục, ánh sáng, văn hóa, thời đại.

Ý tưởng:

Qwen-Image-Agent xem tạo ảnh là một bài toán agentic. Thay vì nhận prompt rồi sinh ảnh ngay, hệ thống có thể lập kế hoạch, suy luận, tìm kiếm, và dùng memory để xây dựng generation context đầy đủ hơn trước khi vẽ.

Điểm mới:

Đây là bước dịch chuyển từ “text-to-image model” sang “image-generation agent”. Paper cũng đưa ra cách đánh giá năng lực agent qua Image Agent Bench, nhấn mạnh vào các thành phần plan/reason/search/memory.

Ứng dụng thực tế:

Sinh ảnh quảng cáo, minh họa sản phẩm, storyboard, thiết kế sáng tạo chuyên nghiệp — nơi người dùng không muốn tự viết prompt cực dài mà muốn AI tự hỏi tiếp, tự bổ sung ngữ cảnh, rồi mới tạo.

9) MVTrack4Gen: Multi-View Point Tracking as Geometric Supervision for 4D Video Generation

Bài toán:

Sinh video đa góc nhìn hoặc novel-view video thường gặp lỗi không nhất quán hình học: vật thể méo, chuyển động lệch giữa các góc camera, hoặc cấu trúc không giữ vững theo thời gian.

Ý tưởng:

MVTrack4Gen dùng multi-view point tracking làm tín hiệu giám sát hình học cho mô hình diffusion sinh video. Mô hình học không chỉ từ frame appearance mà còn từ correspondence cues giữa các view.

Điểm mới:

Paper thêm một auxiliary multi-view tracking head và huấn luyện joint training để truyền thông tin tracking vào các lớp attention. Đây là cách khá trực tiếp để bơm “cảm nhận hình học” vào mô hình sinh.

Ứng dụng thực tế:

AR/VR, tái dựng cảnh động, game, quay sản phẩm ảo, digital twin, và sản xuất nội dung 3D/video tương tác. Với các bài toán cần camera bay quanh chủ thể, tính nhất quán hình học là yếu tố sống còn.

10) OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

Bài toán:

Huấn luyện language agent bằng reinforcement learning thường rất tốn mẫu và sparse reward: agent chỉ biết mình làm tốt hay tệ ở cuối hành trình, còn giữa đường thiếu tín hiệu học.

Ý tưởng:

OPID khai thác dense hindsight supervision từ các trajectory đã hoàn thành. Nói đơn giản, sau khi agent làm xong, hệ thống nhìn lại toàn bộ quá trình để rút ra các skill trung gian rồi distill ngược vào policy.

Điểm mới:

Điểm mạnh là on-policy skill distillation, cùng với các biến thể skill-conditioned và cơ chế critical-first routing. Điều này giúp agent học hiệu quả hơn từ chính trải nghiệm mới nhất của mình, thay vì chỉ dựa vào replay hay reward cuối cùng.

Ứng dụng thực tế:

Agent dùng tool, web agent, coding agent, hay assistant đa bước. Bất kỳ hệ thống nào cần ra quyết định dài hạn đều hưởng lợi nếu có thể biến “kinh nghiệm làm xong việc” thành supervision dày đặc hơn.

Kết luận: Xu hướng nổi bật hôm nay là gì?

Nhìn tổng thể, 10 paper này phản ánh 4 xu hướng lớn:

Agent đang trở thành hệ thống hoàn chỉnh hơn

Không chỉ có model lõi, mà còn có memory, planning, search, RL, distillation.
Image/Video generation đang chuyển sang hướng có ngữ cảnh và nhất quán hơn

Từ subject consistency, geometric consistency đến context-aware generation.
Biểu diễn hiệu quả là chìa khóa cho multimodal AI quy mô lớn

ViQ là ví dụ rõ rệt cho việc tối ưu cost mà không hy sinh quá nhiều năng lực.
Diffusion không còn chỉ là cho ảnh

Nó đang quay lại mạnh mẽ trong ngôn ngữ và mở ra các kiểu sinh nội dung mới.

Nếu phải chọn vài paper đáng theo dõi nhất về tác động dài hạn, mình sẽ nghiêng về:

Are We Ready For An Agent-Native Memory System?
Improved Large Language Diffusion Models
Qwen-Image-Agent
OPID

Vì chúng chạm vào câu hỏi lớn hơn từng benchmark riêng lẻ: AI sẽ trở thành một “agent có hệ thống”, hay vẫn chỉ là mô hình phản hồi từng lượt?

Nếu bạn muốn, ở bước tiếp theo mình có thể viết tiếp phiên bản blog sâu hơn theo phong cách technical, hoặc rút gọn thành bản newsletter 5 phút đọc.

One Command Spins Up a Private vLLM Server on HF Jobs

MLXIO — Thu, 25 Jun 2026 22:11:37 +0000

A private OpenAI-style vLLM server can now run on HF Jobs with one command, GPU billing only while the job runs.

Key takeaways

One command can stand up a private, OpenAI-compatible vLLM endpoint on Hugging Face Jobs — with no VM setup, no Kubernetes, and billing tied to how long the jo...
The workflow, published by the Hugging Face Blog, uses hf jobs run with the official vllm/vllm-openai container, exposes port 8000, and returns a job-speci...
> “You can spin up a private, OpenAI-compatible LLM endpoint on Hugging Face infrastructure with a single command — no servers to provision, no Kubernetes, pay-per-sec...
That makes this a practical path for tests, evals, batch generation, or quick model trials. If you need a long-lived managed service, Hugging Face points users toward ...

👉 Read the full breakdown on MLXIO

Canonical source: https://mlxio.com/ai-ml/vllm-server-hf-jobs

Top AI Papers on Hugging Face - 2026-06-25

Y Hành Nhan — Thu, 25 Jun 2026 12:01:12 +0000

10 paper AI nổi bật nhất trên Hugging Face hôm nay: agent, bộ nhớ, video, mobile GUI và cả “LLM diffusion”

Hôm nay, danh sách paper được upvote cao trên Hugging Face cho thấy một xu hướng rất rõ: AI đang chuyển từ mô hình “trả lời câu hỏi” sang mô hình “hành động trong thế giới”. Ta thấy dày đặc các chủ đề như agent, memory system, OS-native AI, benchmark cho khám phá khoa học, và các mô hình đa phương thức thời gian thực.

Dưới đây là bản tổng hợp theo 4 góc nhìn cho từng paper:

Bài toán
Ý tưởng
Điểm mới
Ứng dụng thực tế

1) Qwen-AgentWorld: Language World Models for General Agents

Paper: 2606.24597

GitHub: https://github.com/QwenLM/Qwen-AgentWorld

Bài toán

Các AI agent hiện nay thường học và hành động trực tiếp trên môi trường thật hoặc môi trường giả lập hẹp. Vấn đề là cách này tốn chi phí, khó mở rộng, khó bao phủ nhiều domain và đặc biệt khó huấn luyện cho các tác vụ dài hơi.

Ý tưởng

Qwen-AgentWorld xây dựng một language world model: thay vì mô phỏng thế giới bằng engine vật lý hay simulator chuyên biệt, hệ thống dùng ngôn ngữ để biểu diễn trạng thái, chuyển trạng thái và phần thưởng. Nói ngắn gọn, agent có thể “tưởng tượng” môi trường qua text rồi học cách hành động trong môi trường đó.

Điểm mới

Điểm đáng chú ý là paper đẩy khái niệm world model cho agent tổng quát lên quy mô rộng hơn nhiều domain. Họ kết hợp:

mô hình hóa state transition bằng ngôn ngữ,
suy luận kiểu next-state prediction,
và huấn luyện bằng agentic reinforcement learning với cơ chế reward lai giữa rubric và rule.

Ứng dụng thực tế

Hướng này rất phù hợp cho:

AI assistant biết lập kế hoạch dài hạn,
tác tử tự động thao tác web/app,
huấn luyện agent trong các bài toán mà mô phỏng truyền thống khó xây dựng.

Nếu thành công ở quy mô lớn, đây có thể là nền móng cho các agent “tự diễn tập trước khi làm thật”.

2) Are We Ready For An Agent-Native Memory System?

Paper: 2606.24775

GitHub: https://github.com/OpenDataBox/MemoryData

Bài toán

Agent hiện đại không chỉ cần context ngắn trong cửa sổ prompt, mà còn cần bộ nhớ dài hạn: nhớ người dùng là ai, việc nào đã làm, thông tin nào quan trọng, khi nào cần cập nhật hay quên đi. Vấn đề là ta vẫn thiếu một cách đánh giá hệ thống memory thật bài bản.

Ý tưởng

Paper tiếp cận memory cho agent như một bài toán quản trị dữ liệu. Họ chia bộ nhớ thành các khâu:

lưu trữ/biểu diễn,
trích xuất,
truy hồi và định tuyến,
bảo trì/cập nhật.

Sau đó, paper đánh giá các khâu này dưới nhiều workload khác nhau.

Điểm mới

Điểm mới lớn nhất không nằm ở việc đề xuất một thuật toán memory duy nhất, mà ở việc xây dựng khung đánh giá có hệ thống cho “agent-native memory systems”. Các tiêu chí như:

representation fidelity,
retrieval precision,
update correctness,
long-horizon stability,
cost-performance trade-off

giúp cộng đồng nhìn memory không còn là “gắn thêm vector DB là xong”.

Ứng dụng thực tế

Rất hữu ích cho:

personal AI assistant,
customer support agent,
copilot doanh nghiệp cần nhớ lịch sử công việc, preference và policy.

Đây là paper đáng đọc với bất kỳ ai đang xây agent production.

3) NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?

Paper: 2606.24530

GitHub: https://github.com/FrontisAI/NatureBench

Bài toán

Các benchmark coding hiện nay chủ yếu kiểm tra khả năng hoàn thành task kỹ thuật. Nhưng câu hỏi khó hơn là: AI coding agent có thể hỗ trợ khám phá khoa học thật không?

Ý tưởng

NatureBench tạo một benchmark gồm 90 tác vụ khoa học liên ngành, lấy cảm hứng từ các bài báo thuộc họ Nature. Mục tiêu không chỉ là “reproduce code”, mà là kiểm tra liệu agent có thể chạm đến mức khám phá hay ít nhất là tái hiện phương pháp ở chuẩn rất cao.

Điểm mới

Paper chạm đúng một khoảng trống lớn: thay vì benchmark coding thông thường, họ benchmark scientific discovery workflow. Kết quả cho thấy agent hiện tại chủ yếu mạnh ở dịch phương pháp thành code hơn là tạo ra tri thức mới.

Nói cách khác, agent vẫn giống một “kỹ sư triển khai rất giỏi” hơn là “nhà khoa học sáng tạo”.

Ứng dụng thực tế

Paper này quan trọng với:

lab nghiên cứu muốn dùng AI để tăng tốc khoa học,
startup làm AI for science,
đội ngũ xây coding agent chuyên cho nghiên cứu.

Nó giúp đặt kỳ vọng đúng: AI hiện hỗ trợ khoa học tốt ở lớp thực thi và tái hiện, nhưng chưa thật sự thay thế bước đột phá ý tưởng.

4) DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation

Paper: 2606.26058

GitHub: https://github.com/HKUST-C4G/DomainShuttle

Bài toán

Text-to-video hiện tiến rất nhanh, nhưng khi yêu cầu tạo video có chủ thể cụ thể từ ảnh tham chiếu, mô hình thường gặp hai lỗi:

không giữ được danh tính/chủ thể,
hoặc chỉ hoạt động tốt trong domain hẹp.

Ý tưởng

DomainShuttle hướng đến subject-driven text-to-video trong open domain. Hệ thống dùng cơ chế modeling theo domain để xử lý tốt cả tình huống cùng domain lẫn cross-domain.

Điểm mới

Các thành phần đáng chú ý gồm:

domain-aware AdaLN,
Video-Reference DualRoPE,
Cross-Pair Consistent Loss.

Nói đơn giản, paper cố gắng khiến mô hình hiểu rõ hơn mối liên hệ giữa:

token ảnh tham chiếu,
token video sinh ra,
và ngữ cảnh domain.

Ứng dụng thực tế

Ứng dụng rất rõ ràng trong:

quảng cáo cá nhân hóa,
video marketing,
sáng tạo nội dung với nhân vật/brand ambassador nhất quán,
previsualization cho studio.

Đây là hướng có tiềm năng thương mại mạnh vì “giữ đúng chủ thể” là nhu cầu cực lớn trong sản xuất nội dung.

5) MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

Paper: 2606.19926

GitHub: https://github.com/kwai/MemGUI-Agent

Bài toán

Mobile GUI agent thường thất bại ở các tác vụ dài nhiều bước: đặt vé, mua hàng, cấu hình app, điền form dài... Lý do là agent mất ngữ cảnh và không biết thông tin nào cần giữ lại qua nhiều màn hình.

Ý tưởng

MemGUI-Agent đề xuất proactive context management với cơ chế Context-as-Action (ConAct). Tức là quản lý context không còn là phần bị động trong prompt, mà trở thành một phần của chuỗi hành động.

Điểm mới

Paper đưa vào các trường context có cấu trúc như:

folded action history,
folded UI state,
recent step record.

Điểm hay là memory/context được quản trị rõ ràng hơn thay vì nhồi toàn bộ lịch sử vào prompt.

Ứng dụng thực tế

Rất thực tế cho:

trợ lý thao tác điện thoại,
accessibility tools,
tự động hóa tác vụ mobile cho doanh nghiệp,
kiểm thử ứng dụng.

Đây là một bước quan trọng nếu muốn có “AI dùng điện thoại thay người” thật sự đáng tin.

6) ShutterMuse: Capture-Time Photography Guidance with MLLMs

Paper: 2606.25763

GitHub: https://github.com/lijayuTnT/ShutterMuse

Bài toán

Hầu hết AI chỉnh ảnh hiện nay hoạt động sau khi chụp. Nhưng với nhiếp ảnh, giá trị lớn hơn nhiều nằm ở việc hướng dẫn ngay lúc bấm máy: bố cục ra sao, chủ thể nên tạo dáng thế nào.

Ý tưởng

ShutterMuse xây benchmark, dataset và một mô hình đa phương thức thống nhất để hỗ trợ:

composition guidance cho người chụp,
pose recommendation cho người được chụp.

Điểm mới

Paper kết hợp hai vai trò vốn tách rời:

hướng dẫn phía photographer,
hướng dẫn phía subject.

Ngoài supervised fine-tuning, họ còn dùng reinforcement fine-tuning để tăng chất lượng hướng dẫn thẩm mỹ.

Ứng dụng thực tế

Khá rõ cho:

app camera thông minh,
trợ lý chụp ảnh trên điện thoại,
thương mại điện tử, du lịch, wedding, social content.

Nếu tích hợp tốt, đây có thể là “copilot nhiếp ảnh” thời gian thực.

7) Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models

Paper: 2606.25041

Project: https://wan-streamer.com/

Bài toán

Nhiều mô hình multimodal mạnh nhưng phản hồi chậm, không phù hợp với tương tác thời gian thực như gọi video, livestream, hay trợ lý giọng nói có nhìn hình.

Ý tưởng

Wan-Streamer xây mô hình nền tảng audio-visual-text theo kiểu streaming end-to-end, dùng causal attention để xử lý dữ liệu đến liên tục với độ trễ thấp.

Điểm mới

Các điểm kỹ thuật nổi bật:

block-causal attention,
causal encoder/decoder,
multimodal token scheduling.

Mục tiêu là hợp nhất nhiều modality nhưng vẫn giữ trải nghiệm realtime.

Ứng dụng thực tế

Rất hứa hẹn cho:

trợ lý video call,
AI livestream host,
robot hội thoại nhìn-nghe-nói,
lớp học/họp trực tuyến có AI đồng hành.

Đây là hướng then chốt nếu muốn AI thực sự “sống trong dòng thời gian thực”.

8) Beyond NL2Code: A Structured Survey of Multimodal Code Intelligence

Paper: 2606.15932

GitHub: https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code

Bài toán

“Code intelligence” không còn chỉ là từ mô tả ngôn ngữ sinh code. Ngày càng nhiều bài toán đòi hỏi AI hiểu hình ảnh, GUI, biểu đồ, sơ đồ, rồi mới sinh hoặc phân tích code.

Ý tưởng

Đây là một bài survey hệ thống hóa lĩnh vực multimodal code intelligence: từ GUI, scientific visualization, structured graphics cho đến các framework kiểm chứng kết quả.

Điểm mới

Giá trị chính nằm ở việc paper không chỉ liệt kê công trình mà còn nhấn mạnh hướng đi tương lai:

verifiable agent traces,
multi-signal validation,
multi-state verification,
kiểm tra khả năng chuyển giao liên nhiệm vụ.

Ứng dụng thực tế

Hữu ích cho:

người làm AI coding,
team xây GUI agent,
startup làm “ảnh/sơ đồ thành ứng dụng”.

Đây là bài đọc nền tảng để hiểu nơi thị trường code agent sẽ đi tiếp.

9) AOHP: An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction

Paper: 2606.23449

GitHub: https://github.com/aohp-os/aohp

Bài toán

Phần lớn agent hiện chạy “trên” hệ điều hành chứ chưa được hệ điều hành xem như thực thể hạng nhất. Điều này làm hạn chế khả năng cá nhân hóa, hiệu quả thực thi và kiểm soát bảo mật.

Ý tưởng

AOHP xây một framework ở mức OS-level, dựa trên Android, để agent trở thành thành phần native của hệ điều hành.

Điểm mới

Điểm mới là góc nhìn agent-native operating system. Paper không chỉ tối ưu completion rate hay token cost, mà còn đưa ra cơ chế:

personalized service composition,
efficient agent interface,
secure information flow.

Ứng dụng thực tế

Nếu phát triển tốt, đây là nền móng cho:

smartphone có agent hệ thống,
enterprise device management với AI,
môi trường di động nơi AI có quyền năng lớn nhưng vẫn tuân thủ policy.

Đây là hướng rất đáng chú ý vì agent tương lai có thể không còn là app, mà là lớp hạ tầng của OS.

10) Improved Large Language Diffusion Models

Paper: 2606.25331

Bài toán

Mô hình ngôn ngữ hiện nay chủ yếu theo kiểu autoregressive: sinh token trái sang phải. Cách này hiệu quả nhưng có giới hạn về song song hóa và đôi khi hạn chế khả năng khai thác ngữ cảnh hai chiều.

Ý tưởng

Paper theo đuổi masked diffusion language model với fully bidirectional attention. Thay vì sinh tuần tự hoàn toàn, mô hình dần tinh chỉnh chuỗi token qua nhiều bước khử nhiễu.

Điểm mới

Điểm đáng chú ý là mô hình diffusion ngôn ngữ ở đây đạt kết quả cạnh tranh, thậm chí vượt AR trên một số benchmark như:

BBH
ARC-Challenge
MATH
HumanEval

Ngoài ra còn có:

variable-length generation
cơ chế confidence-based scoring

Ứng dụng thực tế

Dù còn sớm, hướng này có thể hữu ích cho:

sinh văn bản cần chỉnh sửa toàn cục,
code generation cần nhất quán dài hạn,
hệ thống nơi ta muốn cân bằng giữa chất lượng và chiến lược sinh song song.

Nó cũng nhắc cộng đồng rằng tương lai của LLM có thể không chỉ thuộc về kiến trúc autoregressive.

Kết luận: 3 xu hướng lớn rút ra từ top paper hôm nay

1. Agent đang trở thành trung tâm

Các paper như Qwen-AgentWorld, MemGUI-Agent, AOHP, và nghiên cứu về agent-native memory cho thấy trọng tâm đã dịch chuyển từ “mô hình biết nói” sang “mô hình biết làm”.

2. Memory và hạ tầng quan trọng không kém model

Ngày càng rõ rằng để agent hữu ích ngoài đời thực, chỉ tăng kích thước mô hình là chưa đủ. Cần:

memory đúng nghĩa,
OS/harness phù hợp,
benchmark phản ánh việc thật.

3. Multimodal AI đang tiến tới thời gian thực và hành động thực tế

Từ ShutterMuse đến Wan-Streamer và DomainShuttle, AI đa phương thức không còn chỉ để demo đẹp, mà đang tiến vào các kịch bản dùng được ngay: quay/chụp, giao tiếp trực tiếp, tạo nội dung sản xuất.

Nếu phải chọn một thông điệp chung của top paper hôm nay, thì đó là:

Kỷ nguyên tiếp theo của AI không chỉ là “hiểu và sinh”, mà là “nhớ, mô phỏng, hành động và tương tác theo thời gian thực”.

Nếu bạn muốn, ở bước tiếp theo mình có thể viết tiếp một phiên bản blog polished hơn theo giọng Tech in Asia / Viblo / Substack, hoặc rút gọn thành bản LinkedIn post 10 ý ngắn.

Top AI Papers on Hugging Face - 2026-06-24

Y Hành Nhan — Wed, 24 Jun 2026 12:00:48 +0000

10 paper AI nổi bật nhất hôm nay trên Hugging Face: agent, world model, attention, biology và an toàn tác vụ

Hôm nay, danh sách paper được upvote nhiều nhất trên Hugging Face cho thấy một xu hướng rất rõ: AI đang chuyển từ “mô hình trả lời” sang “mô hình hành động”. Nhiều paper tập trung vào agent, môi trường mô phỏng, GUI/mobile interaction, benchmark đánh giá năng lực tác vụ thực tế, cùng với các hướng cải thiện hiệu quả suy luận và mở rộng foundation model sang sinh học.

Dưới đây là phần tổng hợp theo 4 góc nhìn cho mỗi paper: bài toán, ý tưởng, điểm mới, và ứng dụng thực tế.

1) Qwen-AgentWorld: Language World Models for General Agents

Bài toán:

Agent hiện nay thường yếu ở khả năng lập kế hoạch dài hạn vì thiếu một “mô hình thế giới” để dự đoán nếu làm hành động A thì môi trường sẽ chuyển sang trạng thái nào. Việc huấn luyện trực tiếp trên môi trường thật cũng tốn kém và chậm.

Ý tưởng:

Qwen-AgentWorld xây dựng world model bằng ngôn ngữ, tức dùng language model để mô phỏng diễn tiến của môi trường, trạng thái, phản hồi và kết quả hành động. Agent có thể “tập dượt” trong môi trường mô phỏng này trước khi ra quyết định thật.

Điểm mới:

Điểm đáng chú ý là tác giả dùng language-based environment simulation cho nhiều domain khác nhau, thay vì chỉ cho một game hay một tác vụ đơn lẻ. Cách này kết hợp dự đoán trạng thái kế tiếp, reasoning theo chuỗi dài, và reinforcement learning để cải thiện policy của agent.

Ứng dụng thực tế:

Rất phù hợp cho các general-purpose agent: trợ lý phần mềm, agent web, agent doanh nghiệp, hay robot software cần thử nghiệm chiến lược an toàn trước khi chạy thật.

2) Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention

Bài toán:

Self-attention ngày càng đắt đỏ khi model lớn hơn. GQA giúp giảm chi phí KV cache, nhưng vẫn chưa tận dụng được khả năng chuyên môn hóa như Mixture-of-Experts.

Ý tưởng:

Paper này đưa ra Grouped Query Experts (GQE): thay vì tất cả query heads cùng hoạt động, model dùng router để chọn một nhóm query-head experts phù hợp theo từng token.

Điểm mới:

Cái hay là tác giả giữ lại lợi ích của Grouped-Query Attention về hiệu quả bộ nhớ và cache, nhưng thêm cơ chế chuyên gia giống MoE ở phần query. Đây là một thiết kế khá “sạch”: tăng năng lực biểu diễn mà không phải trả toàn bộ chi phí của dense attention.

Ứng dụng thực tế:

Có giá trị lớn cho LLM suy luận dài ngữ cảnh, inference tiết kiệm chi phí, và các hệ thống phục vụ model ở quy mô lớn nơi latency và memory là yếu tố sống còn.

3) NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?

Bài toán:

Nhiều benchmark coding hiện chỉ đo xem agent có viết được code đúng không, nhưng không trả lời câu hỏi khó hơn: agent có tái tạo hoặc đạt trình độ khám phá khoa học như các paper top-tier không?

Ý tưởng:

NatureBench xây dựng một benchmark gồm 90 tác vụ khoa học liên ngành xuất phát từ các bài báo thuộc hệ Nature. Thay vì các bài toán toy, đây là các nhiệm vụ gần với nghiên cứu thật.

Điểm mới:

Điểm mới quan trọng là benchmark không chỉ đo reproduction, mà hướng tới đánh giá năng lực discovery-oriented coding agents. Kết quả cho thấy phần lớn agent hiện mới giỏi “dịch phương pháp thành code”, chưa thực sự sáng tạo khoa học.

Ứng dụng thực tế:

Paper này hữu ích cho các nhóm xây dựng AI scientist, coding agent hỗ trợ R&D, và các tổ chức muốn đo xem agent đã đủ tin cậy để tham gia pipeline nghiên cứu hay chưa.

4) MobileForge: Annotation-Free Adaptation for Mobile GUI Agents

Bài toán:

Mobile GUI agent thường cần nhiều dữ liệu gán nhãn đắt đỏ để thích nghi với app mới, trong khi giao diện di động thay đổi liên tục.

Ý tưởng:

MobileForge đề xuất cách annotation-free adaptation, tức cho agent học thích nghi mà không cần gán nhãn thủ công. Hệ thống khai thác tương tác thật với app và tối ưu policy bằng hierarchical feedback-guided policy optimization.

Điểm mới:

Thay vì phụ thuộc vào dataset có nhãn, paper tận dụng feedback phân cấp để cải thiện dần hành vi của agent. Đây là hướng rất thực dụng vì mobile ecosystem thay đổi quá nhanh để con người luôn kịp annotate.

Ứng dụng thực tế:

Phù hợp cho trợ lý thao tác điện thoại, tự động hóa app testing, hỗ trợ người dùng khuyết tật, và agent thực hiện các workflow như đặt xe, chuyển tiền, mua sắm, điền biểu mẫu.

5) MemGUI-Agent: Long-Horizon Mobile GUI Agent with Proactive Context Management

Bài toán:

Mobile agent thường thất bại ở tác vụ dài vì quên ngữ cảnh: trước đó đã bấm gì, thông tin nào quan trọng, màn hình nào đã đi qua.

Ý tưởng:

MemGUI-Agent đưa ra cơ chế proactive context management với khái niệm Context-as-Action (ConAct). Tức là việc quản lý bộ nhớ/ngữ cảnh được xem như một loại hành động chủ động của agent.

Điểm mới:

Thay vì nhồi toàn bộ lịch sử vào prompt, mô hình dùng các trường ngữ cảnh có cấu trúc như folded action history, folded UI state, recent step record. Đây là một cách tiếp cận gọn hơn và phù hợp với tác vụ nhiều bước.

Ứng dụng thực tế:

Rất hữu ích cho các tác vụ mobile dài hơi như đặt vé máy bay, xử lý khiếu nại, đăng ký dịch vụ, hoặc các workflow đòi hỏi chuyển qua nhiều màn hình và nhớ thông tin từ đầu đến cuối.

6) AOHP: An Open-Source OS-Level Agent Harness

Bài toán:

Hiện nay phần lớn agent chạy “trên” hệ điều hành chứ chưa được coi là thực thể hạng nhất trong OS. Điều này gây hạn chế về hiệu năng, cá nhân hóa, và đặc biệt là bảo mật.

Ý tưởng:

AOHP xây dựng một framework ở mức hệ điều hành Android, nơi agent được tích hợp như một thành phần gốc của OS thay vì lớp ứng dụng chắp vá bên trên.

Điểm mới:

Paper nhấn mạnh 3 điểm: personalized interaction, efficient agent interfaces, và secure information flow. Tức không chỉ làm agent mạnh hơn, mà còn làm nó an toàn và rẻ hơn khi vận hành.

Ứng dụng thực tế:

Đây là hướng rất tiềm năng cho agent-native OS trong điện thoại, xe hơi, thiết bị IoT, hay enterprise device management — nơi agent cần quyền truy cập sâu nhưng vẫn phải tuân thủ policy bảo mật.

7) Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding

Bài toán:

Thông thường LLM luôn dùng layer cuối để dự đoán token tiếp theo. Nhưng layer cuối không phải lúc nào cũng tốt nhất, đặc biệt khi alignment hoặc fine-tuning gây nhiễu cho reasoning gốc.

Ý tưởng:

Paper đề xuất Confident Layer Decoding: trong quá trình sinh, hệ thống động chọn layer trung gian đáng tin hơn dựa trên entropy-guided search.

Điểm mới:

Điểm mới nằm ở cách xem việc chọn layer như một optimal stopping problem. Thay vì mặc định “càng sâu càng tốt”, paper cho thấy đôi khi layer giữa cho tín hiệu tốt hơn, giúp giảm “alignment tax” mà không cần retrain nặng.

Ứng dụng thực tế:

Có giá trị ngay cho inference-time optimization trên các model reasoning, nhất là khi muốn tăng chất lượng trả lời toán, logic, khoa học mà không đổi kiến trúc hay tốn thêm quá nhiều compute.

8) BioMatrix: A Biological Foundation Model across Sequences, Structures, and Language

Bài toán:

Dữ liệu sinh học tồn tại ở nhiều modality: sequence, structure, và natural language. Phần lớn model mới chỉ xử lý tốt một hoặc hai dạng, khiến tri thức bị phân mảnh.

Ý tưởng:

BioMatrix xây dựng một multimodal biological foundation model trong kiến trúc decoder-only thống nhất, đưa sequence, structure và text vào cùng một không gian token rời rạc.

Điểm mới:

Điểm mạnh là tư duy “modality matrix”: thay vì xem protein sequence, molecular structure và mô tả ngôn ngữ là ba thế giới tách rời, paper gom chúng vào chung một framework tiền huấn luyện liên tục.

Ứng dụng thực tế:

Rất đáng chú ý cho drug discovery, protein engineering, chú giải chức năng sinh học, và hệ thống hỏi-đáp khoa học có khả năng nối kiến thức ngôn ngữ với cấu trúc phân tử thực.

9) LingxiDiagBench: Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis

Bài toán:

Đánh giá LLM trong y tế tâm thần rất khó vì không chỉ cần chẩn đoán đúng, mà còn phải hỏi đúng, khai thác đúng, và tư vấn phù hợp trong đối thoại động.

Ý tưởng:

LingxiDiagBench xây dựng benchmark multi-agent cho tư vấn và chẩn đoán tâm thần bằng tiếng Trung, bám theo EMR và ICD-10.

Điểm mới:

Paper chỉ ra một phát hiện thú vị: chất lượng hội thoại không đồng nghĩa với độ chính xác chẩn đoán. Một model có thể nói chuyện trôi chảy nhưng vẫn suy luận lâm sàng kém.

Ứng dụng thực tế:

Dùng để đánh giá trợ lý y tế, hệ thống sàng lọc sức khỏe tâm thần, và các mô hình hội thoại chuyên ngành cần tuân thủ tiêu chuẩn lâm sàng thay vì chỉ “nói hay”.

10) SkillHarness: Harnessing Safe Skills for Computer-Use Agents

Bài toán:

Computer-use agents học kỹ năng mới liên tục, nhưng trong môi trường động và có yếu tố đối kháng, việc tái sử dụng kỹ năng cũ có thể dẫn tới hành vi nguy hiểm hoặc sai ngữ cảnh.

Ý tưởng:

SkillHarness xây dựng framework để học, chọn, dùng và loại bỏ kỹ năng theo vòng đời, đồng thời gắn với các ràng buộc an toàn.

Điểm mới:

Paper không xem skill chỉ là một primitive để tái sử dụng, mà là một thực thể có biên an toàn, có thể tự cải thiện constraint và được giám sát từ nhiều nguồn tín hiệu khác nhau.

Ứng dụng thực tế:

Quan trọng cho agent thao tác máy tính trong doanh nghiệp: xử lý email, chỉnh sửa tài liệu, thao tác dashboard, hay vận hành back-office — nơi sai sót nhỏ cũng có thể gây rò rỉ dữ liệu hoặc thao tác ngoài quyền hạn.

Xu hướng nổi bật rút ra từ 10 paper

1. Agent đang là trung tâm

Hơn một nửa danh sách xoay quanh agent: world model, mobile GUI, OS-level harness, computer-use safety, coding-for-science benchmark. Điều này cho thấy cộng đồng đang chuyển từ “chatbot” sang “hệ thống có khả năng hành động”.

2. Benchmark đang tiến gần thế giới thật

NatureBench, LingxiDiagBench, MemGUI-Bench hay MobileWorld đều phản ánh nhu cầu đo năng lực AI trong môi trường phức tạp, nhiều bước, khó chuẩn hóa.

3. Inference efficiency vẫn rất nóng

GQE và Confident Layer Decoding đại diện cho hai hướng lớn:

tối ưu kiến trúc attention,
tối ưu chiến lược giải mã. Đây là các cải tiến có khả năng tác động trực tiếp đến chi phí triển khai.

4. Domain foundation model tiếp tục mở rộng

BioMatrix cho thấy foundation model không chỉ còn là text/image, mà đang đi sâu vào các miền khoa học có cấu trúc dữ liệu riêng và giá trị ứng dụng rất cao.

Kết luận

Nếu phải tóm gọn bức tranh hôm nay trong một câu, thì đó là: AI đang học cách mô phỏng thế giới, hành động trong thế giới đó, và được đánh giá bằng các tiêu chuẩn ngày càng sát thực tế hơn.

Trong 10 paper này, nổi bật nhất về tầm nhìn dài hạn có lẽ là Qwen-AgentWorld và AOHP, vì chúng chạm vào câu hỏi nền tảng: làm sao để agent có môi trường suy nghĩ và có “chỗ đứng” thật sự trong hệ điều hành. Về tính thực dụng gần hạn, MobileForge, MemGUI-Agent, SkillHarness, và Confident Layer Decoding có vẻ là những hướng dễ chuyển thành sản phẩm hơn. Còn về tác động khoa học, NatureBench và BioMatrix mở ra hai mặt trận rất đáng theo dõi: AI for science và foundation model cho sinh học.

Nếu bạn muốn, ở bước tiếp theo mình có thể làm thêm một trong 3 dạng sau:

Bảng so sánh 10 paper theo cột: domain, idea, novelty, maturity
Bản tóm tắt cực ngắn 2-3 câu/paper để đăng Facebook/LinkedIn
Phân tích chuyên sâu top 3 paper đáng đọc nhất hôm nay.

Krea releases Krea 2 as open weights for image generation

Damien Gallagher — Wed, 24 Jun 2026 01:10:33 +0000

Krea releases Krea 2 as open weights for image generation

Krea has released Krea 2 as open weights, including Krea 2 Raw and Krea 2 Turbo. This is worth acting on now because image-generation teams can download and test a new 12B text-to-image model family directly instead of waiting for hosted-only API access.

The short version: Krea is putting the weights on Hugging Face, documenting Diffusers usage, and shipping two checkpoints aimed at different jobs. Raw is the base release. Turbo is post-trained and distilled for faster generation.

What Krea released

Krea’s technical report describes Krea 2 as an open-weights text-to-image foundation model for creative exploration. The Hugging Face model cards list the model as:

Model name: Krea 2
Version: v1.0
Release date: June 22, 2026
Model type: text-to-image diffusion model
Architecture: Diffusion Transformer with 12 billion parameters
Release format: open-weight release plus Krea-hosted product integrations
License: Krea 2 Community License

There are two main checkpoints:

Krea 2 Raw — the base release checkpoint before additional post-training and fine-tuning.
Krea 2 Turbo — a post-trained checkpoint with additional fine-tuning and distillation. Krea’s Turbo post says it is designed for high-quality images in about 2 seconds in the hosted Krea workflow.

Both Hugging Face pages include basic Diffusers examples, which makes this immediately testable for teams already running local or self-hosted image generation stacks.

Why builders should care

Open weights matter because image models are rarely just “type a prompt, get a picture” in production. Teams need to test latency, cost, style control, prompt reliability, safety filters, and integration with their own tools.

Krea 2 is relevant if you are building:

design or marketing workflows;
ecommerce image generation;
game or concept-art pipelines;
architecture and interior-design tools;
creative apps that need local or private deployment options;
image-generation features where hosted-only APIs are too expensive, too slow, or too hard to customize.

The Raw/Turbo split is also practical. Raw gives researchers and model hackers a cleaner base checkpoint to inspect and adapt. Turbo is the more product-shaped checkpoint for faster creative loops.

Caveats

This is not an Apache/MIT-style unrestricted release. The weights are under the Krea 2 Community License, and the model cards say deployers must implement content filtering or equivalent review processes to prevent unlawful or policy-violating use. Teams should read the license and acceptable-use terms before putting it into a product.

Krea’s quality claims also need real testing. Try it on your own prompts, brand constraints, text rendering needs, human anatomy edge cases, LoRA workflows, and hardware before assuming it replaces your current image stack.

The other caveat is scope: this is a major open image-model release, not a new general-purpose language model. For BuildrLab readers, the builder impact is strongest for product teams working with generated visuals, not every AI engineering team.

Sources

Krea 2 Technical Report: https://www.krea.ai/blog/krea-2-technical-report
Krea 2 Raw on Hugging Face: https://huggingface.co/krea/Krea-2-Raw
Krea 2 Turbo on Hugging Face: https://huggingface.co/krea/Krea-2-Turbo
Krea 2 Turbo announcement: https://www.krea.ai/blog/krea-2-turbo

Top AI Papers on Hugging Face - 2026-06-23

Y Hành Nhan — Tue, 23 Jun 2026 12:00:51 +0000

10 paper AI nổi bật nhất trên Hugging Face hôm nay: agent benchmark, long-context, reranking và mô hình đa phương thức sinh học

Hôm nay, top paper được upvote cao trên Hugging Face cho thấy một xu hướng rất rõ: AI đang dịch chuyển từ “mô hình biết trả lời” sang “hệ thống biết hành động”. Nổi bật nhất là các công trình về agent dùng công cụ, benchmark sát thực tế, trí nhớ dài hạn, long-context retrieval, và các kiến trúc chuyên biệt để tăng hiệu quả suy luận.

Dưới đây là phần tóm lược theo 4 góc nhìn cho từng paper: bài toán, ý tưởng, điểm mới, và ứng dụng thực tế.

1) PlanBench-XL: benchmark planning dài hạn cho agent dùng tool

Paper: PlanBench-XL: Evaluating Long-Horizon Planning of LLM Tool-Use Agents in Large-Scale Tool Ecosystems

Bài toán

Các LLM agent hiện có thể gọi tool, nhưng khi bước vào môi trường lớn với hàng trăm hoặc hàng nghìn công cụ, chúng thường thất bại ở các tác vụ nhiều bước, mục tiêu ẩn, và môi trường động. Benchmark cũ thường quá đơn giản hoặc không phản ánh việc agent phải vừa khám phá tool vừa lập kế hoạch.

Ý tưởng

PlanBench-XL xây dựng một benchmark để kiểm tra agent trong bối cảnh:

chỉ nhìn thấy một phần tập tool,
phải tự khám phá công cụ phù hợp,
phải giải quyết tác vụ dài hơi với nhiều bước phụ thuộc nhau,
và phải ứng phó khi môi trường thay đổi giữa chừng.

Điểm mới

Điểm mới lớn nhất là chuyển từ đánh giá “agent có ra đáp án đúng không” sang “agent có lập kế hoạch bền vững trong hệ sinh thái tool lớn không”. Benchmark còn có cơ chế chặn hoặc gây nhiễu để kiểm tra khả năng thích nghi.

Ứng dụng thực tế

Rất phù hợp cho:

trợ lý doanh nghiệp có quyền dùng nhiều API nội bộ,
agent vận hành workflow phức tạp,
trợ lý DevOps hoặc IT cần chuỗi hành động dài.

2) DataClaw0: biến dữ liệu thô đa phương thức thành dữ liệu huấn luyện hữu ích

Paper: DataClaw0: Agentic Tailoring Multimodal Data from Raw Streams

Bài toán

Dữ liệu ngoài đời là các luồng thô có entropy cao: video, audio, ảnh, văn bản, log sự kiện. Nếu đưa trực tiếp vào mô hình thì rất khó học vì dữ liệu lộn xộn, nhiễu và thiếu cấu trúc.

Ý tưởng

DataClaw0 đề xuất khái niệm Agentic Data Tailoring: dùng agent để “gọt” dữ liệu thô thành dữ liệu huấn luyện có cấu trúc hơn. Hệ thống kết hợp:

tổng hợp ngữ nghĩa sinh tạo,
các “mỏ neo sự thật” mang tính xác định,
rồi dùng SFT và GRPO để huấn luyện.

Điểm mới

Thay vì xem data preprocessing là bước thủ công bên ngoài mô hình, paper coi đó là một quá trình agentic có thể học được. Đây là hướng rất đáng chú ý vì chất lượng dữ liệu thường quyết định trần hiệu năng của mô hình nhiều hơn kiến trúc.

Ứng dụng thực tế

Chuẩn hóa dữ liệu camera, voice, tài liệu trong doanh nghiệp
Tạo dữ liệu chất lượng cao cho mô hình đa phương thức
Hỗ trợ xây pipeline “raw-to-training-data” tự động

3) EnterpriseClawBench: benchmark agent từ phiên làm việc thật trong doanh nghiệp

Paper: EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions

Bài toán

Nhiều benchmark agent hiện nay quá “sạch” và giả lập, trong khi công việc doanh nghiệp thật lại rất lộn xộn: dữ liệu thiếu nhất quán, nhiều công cụ, nhiều bước, nhiều ràng buộc ngầm.

Ý tưởng

EnterpriseClawBench xây dựng benchmark từ phiên làm việc thực tế, tạo ra 852 tác vụ có thể tái lập. Quan trọng hơn, benchmark không chỉ đo một con số tổng, mà đánh giá nhiều chiều như:

chất lượng artifact đầu ra,
khả năng chuyển giao kỹ năng,
mức độ hoàn thành quy trình.

Điểm mới

Đây là một bước tiến vì benchmark được neo vào workplace reality thay vì toy tasks. Nó cũng phản ánh đúng thực tế rằng agent giỏi không chỉ là agent trả lời đúng, mà là agent tạo ra sản phẩm hữu ích.

Ứng dụng thực tế

So sánh agent trước khi triển khai nội bộ
Đánh giá copilot cho sales, ops, analyst
Thiết kế KPI tốt hơn cho agent doanh nghiệp

4) KaLM-Reranker-V1: reranker nhanh nhưng vẫn mạnh

Paper: KaLM-Reranker-V1: Fast but Not Late Interaction for Compressed Document Reranking

Bài toán

Trong search và RAG, reranker rất quan trọng để xếp lại tài liệu sau khi retrieve. Nhưng reranker mạnh kiểu cross-encoder thường chậm, còn mô hình nhanh thì lại giảm chất lượng.

Ý tưởng

KaLM-Reranker-V1 dùng kiến trúc encoder-decoder để tách tính toán query và passage, kết hợp:

Matryoshka embedding pooling,
cơ chế cross-attention,
fine-tuning hiệu quả tham số.

Điểm mới

Paper tìm cách đứng giữa hai cực:

không hoàn toàn “late interaction” như nhiều phương pháp retrieval,
nhưng cũng không đắt đỏ như cross-encoder đầy đủ.

Kết quả là một reranker vừa nhanh vừa cạnh tranh trên các benchmark như BEIR, MIRACL, LMEB.

Ứng dụng thực tế

Tối ưu stack RAG cho chatbot doanh nghiệp
Search engine nội bộ
Hệ thống hỏi đáp tài liệu với độ trễ thấp

5) World Action Models: bức tranh tổng quan về mô hình thế giới có thể hành động

Paper: World Action Models: A Survey

Bài toán

Các mô hình “world model” đang phát triển nhanh trong robotics, embodied AI, video generation và planning. Nhưng khái niệm còn phân tán, thiếu một bản đồ tổng thể.

Ý tưởng

Survey này hệ thống hóa khái niệm World Action Models: các mô hình vừa dự đoán diễn tiến trạng thái tương lai, vừa gắn với hành động để hỗ trợ quyết định.

Điểm mới

Điểm mạnh của paper là đưa ra các trục phân tích như:

mức độ giàu biểu diễn,
gắn kết hành động đến đâu,
tính nhân quả,
tính khả thi vật lý,
khả năng triển khai.

Nó giúp cộng đồng nhìn rõ trade-off giữa độ chính xác mô phỏng và chi phí tính toán.

Ứng dụng thực tế

Thiết kế agent embodied
Robot mô phỏng trước khi hành động
Hệ thống lập kế hoạch dựa trên dự báo tương lai

6) CLI-Universe: sinh tác vụ có thể kiểm chứng cho terminal agent

Paper: CLI-Universe: Towards Verifiable Task Synthesis Engine for Terminal Agents

Bài toán

Huấn luyện agent làm việc trong terminal rất khó vì thiếu dữ liệu tác vụ chất lượng cao, có thể chạy được và chấm tự động được. Nhiều dataset terminal hiện còn nhỏ hoặc không ổn định.

Ý tưởng

CLI-Universe xây dựng một engine tổng hợp tác vụ dựa trên:

taxonomy năng lực đa chiều,
nghiên cứu có dẫn chứng,
môi trường Docker hóa,
pipeline kiểm chứng thực thi,
test rubric-gated.

Điểm mới

Điểm đặc biệt là tính verifiable: tác vụ không chỉ được viết ra mà còn có thể chạy, kiểm tra và xác minh. Đây là điều rất quan trọng nếu muốn huấn luyện terminal agent theo cách nghiêm túc.

Ứng dụng thực tế

Huấn luyện AI coding assistant
Agent tự động hóa sysadmin
Benchmark cho model thao tác CLI, bash, file system

7) EvoEmbedding: embedding động cho long-context retrieval và memory

Paper: EvoEmbedding: Evolvable Representations for Long-Context Retrieval and Agentic Memory

Bài toán

Embedding truyền thống thường là biểu diễn tĩnh. Nhưng trong ngữ cảnh dài hoặc workflow nhiều bước, thông tin mới xuất hiện liên tục, khiến vector cũ nhanh chóng lỗi thời hoặc bị “collapse” về mặt biểu diễn.

Ý tưởng

EvoEmbedding tạo ra embedding tiến hóa theo thời gian bằng cách duy trì một latent memory cập nhật liên tục. Mô hình xử lý dữ liệu tuần tự và đồng thời cập nhật biểu diễn.

Điểm mới

Thay vì coi embedding là ảnh chụp cố định của một đoạn văn, paper xem nó như một thực thể động. Điều này rất hợp với agentic workflows, nơi ký ức và ngữ cảnh thay đổi theo tương tác.

Ứng dụng thực tế

RAG ngữ cảnh dài
Memory cho autonomous agents
Trợ lý nghiên cứu cần theo dõi luồng thông tin kéo dài

8) BioMatrix: foundation model sinh học thống nhất sequence, structure, language

Paper: BioMatrix: Towards a Comprehensive Biological Foundation Model Spanning the Modality Matrix of Sequences, Structures, and Language

Bài toán

Sinh học tính toán hiện bị chia cắt theo modality: sequence, structure và mô tả ngôn ngữ tự nhiên thường được mô hình hóa riêng. Điều này hạn chế khả năng học liên thông giữa các dạng dữ liệu.

Ý tưởng

BioMatrix xây một mô hình nền tảng đa phương thức dùng kiến trúc decoder-only, đưa sequence, structure và language vào một không gian token rời rạc thống nhất.

Điểm mới

Điểm mới nằm ở tham vọng hợp nhất nhiều loại dữ liệu sinh học vào một framework duy nhất. Nếu làm tốt, mô hình có thể suy luận xuyên modality, ví dụ đi từ mô tả chức năng sang cấu trúc hoặc từ chuỗi sang giải thích ngôn ngữ.

Ứng dụng thực tế

Khám phá thuốc
Dự đoán cấu trúc/chức năng protein
Truy vấn kiến thức sinh học bằng ngôn ngữ tự nhiên

9) HydraHead: trộn Full Attention và Linear Attention ở mức head

Paper: HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridization

Bài toán

Full Attention mạnh nhưng đắt đỏ ở context dài. Linear Attention rẻ hơn nhưng có thể mất chất lượng. Câu hỏi là liệu có cần chọn một trong hai không?

Ý tưởng

HydraHead đề xuất hybridization ở mức head: một số head dùng Full Attention, số khác dùng Linear Attention. Việc chọn lựa được dẫn dắt bởi phân tích chức năng từng head, sau đó trộn bằng cơ chế scale-normalized fusion.

Điểm mới

Thay vì hybrid ở mức layer hay block, paper đi sâu hơn đến mức head, tận dụng thực tế là các attention head vốn đã có vai trò không đồng nhất. Đây là một hướng vừa mang tính kỹ thuật vừa có màu sắc interpretability.

Ứng dụng thực tế

LLM xử lý ngữ cảnh dài với chi phí thấp hơn
Mô hình production cần cân bằng tốc độ/chất lượng
Long-document QA và code understanding

10) MemSlides: agent tạo slide cá nhân hóa với memory phân cấp

Paper: MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision

Bài toán

Tạo slide bằng AI không khó, nhưng tạo slide đúng gu người dùng, giữ ổn định qua nhiều vòng chỉnh sửa, và chỉ sửa cục bộ phần được yêu cầu thì khó hơn nhiều.

Ý tưởng

MemSlides dùng memory phân cấp gồm:

long-term memory cho hồ sơ người dùng,
working memory cho ràng buộc của phiên hiện tại,
tool memory cho kinh nghiệm thực thi và tái sử dụng thao tác.

Điểm mới

Paper giải quyết bài toán personalization không chỉ bằng prompt dài hơn, mà bằng cách tổ chức trí nhớ rõ ràng. Điều này giúp agent vừa nhớ sở thích lâu dài, vừa đáp ứng yêu cầu ngắn hạn, vừa sửa đúng vùng cần sửa.

Ứng dụng thực tế

Trợ lý làm slide cho nhân sự kinh doanh, tư vấn, giáo dục
Hệ thống tạo deck theo brand guideline
AI copilot cho workflow trình bày nhiều vòng revision

Xu hướng rút ra từ 10 paper hôm nay

Nhìn tổng thể, có 4 xu hướng lớn:

1. Agent đang chuyển từ demo sang đánh giá nghiêm túc

PlanBench-XL, EnterpriseClawBench và CLI-Universe đều tập trung vào benchmark thực dụng. Điều này cho thấy cộng đồng không còn thỏa mãn với các ví dụ agent đẹp mắt, mà muốn đo được agent có thật sự làm việc được hay không.

2. Trí nhớ và ngữ cảnh dài là nút thắt trung tâm

EvoEmbedding, HydraHead và MemSlides cùng chạm vào một vấn đề: nếu AI phải làm việc dài hơi, nó cần memory tốt hơn và cơ chế xử lý context hiệu quả hơn.

3. Chất lượng dữ liệu đang trở lại vị trí trung tâm

DataClaw0 nhấn mạnh rằng dữ liệu thô không tự biến thành tri thức. Nếu agent có thể tham gia vào quá trình “gọt dữ liệu”, thì hiệu năng downstream có thể tăng đáng kể.

4. AI đang mở rộng sang các domain chuyên sâu

BioMatrix và survey về World Action Models cho thấy AI không chỉ tối ưu chatbot nữa, mà đang tiến vào:

embodied intelligence,
khoa học sự sống,
mô hình hóa thế giới để ra quyết định.

Kết luận

Nếu phải tóm gọn top paper hôm nay trong một câu, thì đó là: AI đang tiến hóa từ mô hình sinh ngôn ngữ sang hệ thống có trí nhớ, biết dùng công cụ, và được đánh giá trong môi trường gần với thực tế hơn.

Trong ngắn hạn, các paper có tác động ứng dụng mạnh nhất có lẽ là:

PlanBench-XL và EnterpriseClawBench cho đánh giá agent,
KaLM-Reranker-V1 cho hệ thống RAG/search,
CLI-Universe cho terminal agent,
EvoEmbedding và HydraHead cho bài toán long-context.

Về dài hạn, DataClaw0, World Action Models, và BioMatrix có thể mở ra các hướng rất lớn: từ data-centric AI đến embodied systems và foundation model cho khoa học.

Nếu bạn đang xây agent, RAG hoặc sản phẩm AI cho doanh nghiệp, đây là một danh sách paper rất đáng đọc vì chúng không chỉ bàn về “mô hình mạnh hơn”, mà bàn về thứ quan trọng hơn: làm sao để AI hoạt động tốt trong thế giới thật.

Top AI Papers on Hugging Face - 2026-06-22

Y Hành Nhan — Mon, 22 Jun 2026 16:35:35 +0000

10 paper AI nổi bật nhất trên Hugging Face hôm nay: từ inpainting siêu nhẹ đến benchmark đa ngôn ngữ cho LLM

Hôm nay, danh sách paper được upvote cao trên Hugging Face cho thấy một bức tranh khá rõ về xu hướng AI hiện tại: mô hình nhỏ nhưng mạnh hơn, agent/robot biết tự khám phá, đánh giá LLM thực tế hơn, và multimodal ngày càng tiến gần đến hiểu không gian 3D và thế giới vật lý.

Dưới đây là bản tổng hợp theo dạng blog, tập trung vào 4 ý cho mỗi paper:

Bài toán
Ý tưởng
Điểm mới
Ứng dụng thực tế

1) Moebius: Image Inpainting 0.2B tham số nhưng hiệu năng tầm 10B

Bài toán:

Image inpainting là bài toán điền vùng thiếu hoặc bị xoá trong ảnh sao cho kết quả tự nhiên, đúng ngữ cảnh và nhất quán với phần còn lại. Các mô hình mạnh hiện nay thường rất lớn, tốn tài nguyên và chậm khi suy luận.

Ý tưởng:

Moebius xây dựng một framework inpainting rất nhẹ, chỉ khoảng 0.2B tham số, nhưng cố gắng đạt chất lượng gần các mô hình cỡ 10B. Trọng tâm nằm ở việc kết hợp tốt giữa thông tin cục bộ của vùng lân cận và ngữ nghĩa toàn cục của toàn ảnh. Bài báo dùng khối Local-λ Mix Interaction (LλMI) để giúp mô hình vừa nhìn được chi tiết gần, vừa giữ được bố cục lớn.

Ngoài ra, nhóm tác giả còn dùng adaptive multi-granularity distillation để “chưng cất” tri thức từ mô hình lớn sang mô hình nhỏ ở nhiều mức độ biểu diễn khác nhau.

Điểm mới:

Điểm đáng chú ý nhất là họ xử lý bài toán “nhỏ mà vẫn giỏi” khá bài bản:

Thiết kế block mới để giảm nghẽn biểu diễn giữa local và global context
Chưng cất thích ứng trong latent space
Tối ưu cho parameter-efficient fine-tuning, tức là dễ tinh chỉnh trên tác vụ mới mà không cần huấn luyện toàn bộ

Ứng dụng thực tế:

Xoá vật thể khỏi ảnh
Phục chế ảnh cũ
Chỉnh sửa ảnh thương mại điện tử, bất động sản, quảng cáo
Chạy trên hạ tầng rẻ hơn hoặc gần thời gian thực

Đây là hướng rất quan trọng vì nhiều doanh nghiệp không cần mô hình “to nhất”, mà cần mô hình đủ tốt, đủ nhanh, đủ rẻ.

2) DragMesh-2: Tương tác tay máy với vật thể có khớp nối theo cách hợp lý về vật lý

Bài toán:

Robot hand manipulation vẫn rất khó, nhất là khi vật thể không phải khối cứng đơn giản mà là đồ vật có khớp nối như kéo ngăn kéo, mở nắp, xoay bản lề. Robot cần tiếp xúc đúng, giữ lực hợp lý và thao tác ổn định dù điều kiện ma sát, tải hay damping thay đổi.

Ý tưởng:

DragMesh-2 đưa ra framework tương tác tay-vật thể theo hướng contact-driven, tức là học điều khiển dựa trên động lực học tiếp xúc. Thành phần nổi bật là PICA giúp chính sách học được tính bền vững với biến thiên tải tiếp xúc ngay cả khi không có cảm biến xúc giác.

Điểm mới:

Nhắm tới articulated objects, khó hơn nhiều so với rigid objects
Học chính sách có ý thức về contact dynamics
Tăng robustness khi điều kiện vật lý thay đổi

Ứng dụng thực tế:

Robot gia dụng mở cửa, kéo hộc tủ, thao tác công tắc
Robot công nghiệp lắp ráp cơ khí
Tay máy dịch vụ trong môi trường không kiểm soát hoàn toàn

Nếu muốn robot thực sự hữu ích ngoài phòng lab, năng lực kiểu này là nền tảng bắt buộc.

3) Multi-LCB: Mở rộng LiveCodeBench sang nhiều ngôn ngữ lập trình

Bài toán:

Rất nhiều benchmark code cho LLM bị lệch sang Python, trong khi nhu cầu thực tế trải dài qua C++, Java, Go, Rust, JavaScript… Điều này gây ra ảo giác rằng một model “giỏi code”, nhưng thực chất có thể chỉ giỏi Python hoặc thậm chí bị nhiễm dữ liệu benchmark.

Ý tưởng:

Multi-LCB mở rộng LiveCodeBench thành benchmark đa ngôn ngữ, bao phủ 12 ngôn ngữ lập trình, vẫn giữ tinh thần contamination-aware evaluation — tức là cố gắng kiểm soát việc mô hình đã từng thấy bài test trong dữ liệu huấn luyện.

Điểm mới:

Không chỉ thêm ngôn ngữ, mà còn duy trì giao thức đánh giá chặt chẽ
Giúp đo khả năng sinh mã xuyên ngôn ngữ
Phơi bày hiện tượng Python overfitting

Ứng dụng thực tế:

Chọn model code phù hợp cho doanh nghiệp
Đánh giá copilot coding công bằng hơn
Nghiên cứu khả năng tổng quát hóa ngôn ngữ của LLM

Đây là paper rất có giá trị hạ tầng: không làm model mới, nhưng giúp cộng đồng đo đúng hơn, từ đó tránh tối ưu sai mục tiêu.

4) PerceptionDLM: Mô hình diffusion language cho perception vùng ảnh song song

Bài toán:

Multimodal LLM thường caption hoặc phân tích ảnh theo kiểu tuần tự, dẫn tới chậm nếu cần mô tả nhiều vùng trong ảnh. Với các tác vụ perception, tốc độ và khả năng xử lý nhiều region cùng lúc là rất quan trọng.

Ý tưởng:

PerceptionDLM đề xuất cơ chế parallel region perception cho multimodal diffusion language models. Thay vì mô tả từng vùng một, mô hình dùng structured attention masking và prompting hiệu quả để suy luận song song nhiều vùng.

Điểm mới:

Kết hợp diffusion language model với perception vùng ảnh
Thiết kế attention mask có cấu trúc để cho phép song song hóa
Tăng tốc inference nhưng vẫn giữ chất lượng caption

Ứng dụng thực tế:

Phân tích ảnh phức tạp với nhiều đối tượng
Hệ thống hỗ trợ người khiếm thị
Retail analytics, giám sát, kiểm kê tự động
Tiền xử lý cho agent thị giác cần hiểu scene nhanh

Đây là ví dụ điển hình của xu hướng tối ưu kiến trúc suy luận, thay vì chỉ tăng kích thước mô hình.

5) Playful Agentic Robot Learning: Robot học kỹ năng qua “chơi đùa”

Bài toán:

Robot thường học theo tác vụ cụ thể. Cách này hiệu quả ngắn hạn nhưng kém linh hoạt: gặp bài toán mới là phải huấn luyện lại. Câu hỏi là liệu robot có thể tự khám phá môi trường, tích luỹ kỹ năng dùng lại được hay không?

Ý tưởng:

Paper này cho robot học qua self-directed play — tự chơi, tự khám phá, tự viết/chạy các policy kiểu Code-as-Policy. Qua thời gian, robot xây dựng một skill library rồi tái sử dụng cho các tác vụ downstream.

Điểm mới:

Kết hợp embodied agent với sinh mã điều khiển
Học qua khám phá thay vì chỉ bắt chước hoặc RL theo reward hẹp
Kỹ năng học được có thể chuyển sang task mới không cần train thêm

Ứng dụng thực tế:

Robot tổng quát trong nhà
Hệ thống tự động hóa linh hoạt trong kho/xưởng
Nền tảng robot có thể thích nghi nhanh với yêu cầu mới

Ý tưởng “playful learning” rất gần với cách con người và động vật học: chơi trước, dùng sau.

6) S-Agent: Dùng công cụ không gian để kích hoạt năng lực reasoning không gian

Bài toán:

Visual language model thường mạnh ở nhận diện hoặc mô tả ảnh đơn, nhưng yếu khi phải hiểu không gian 3D liên tục theo thời gian, ví dụ ghép nhiều góc nhìn để suy ra bố cục scene.

Ý tưởng:

S-Agent bổ sung cho VLM một cơ chế temporal memory và bộ spatial tools phân cấp. Agent không chỉ “nhìn rồi trả lời”, mà còn tích lũy bằng chứng hình học 3D từ nhiều ảnh/góc nhìn theo thời gian.

Điểm mới:

Tách rõ scene memory và agent memory
Dùng công cụ không gian để hỗ trợ reasoning, thay vì trông chờ hoàn toàn vào tham số mô hình
Phù hợp cho bài toán multi-view và video spatial reasoning

Ứng dụng thực tế:

Robot điều hướng và thao tác trong môi trường lạ
AR/VR, digital twin
Hệ thống giám sát hoặc mapping từ nhiều camera

Đây là hướng rất đáng chú ý: thay vì ép VLM “tự nghĩ hết”, tác giả trang bị thêm tool-use, một chiến lược đang chứng minh hiệu quả trong agent AI.

7) DF3DV-1K: Dataset lớn cho novel view synthesis không bị nhiễu bởi distractor

Bài toán:

Trong novel view synthesis và radiance field, vật thể gây nhiễu hoặc cảnh lộn xộn có thể làm giảm chất lượng tái dựng rất mạnh. Nhưng cộng đồng lại thiếu dataset chuẩn để nghiên cứu bài toán distractor-free một cách hệ thống.

Ý tưởng:

DF3DV-1K cung cấp 1,048 scene với gần 90 nghìn ảnh, bao phủ nhiều loại distractor và chủ đề cảnh khác nhau. Bên cạnh đó có tập con DF3DV-41 để đánh giá robustness.

Điểm mới:

Dataset quy mô lớn, tập trung đúng vào vấn đề distractor
Có cả dữ liệu “sạch” và “nhiễu” để nghiên cứu đối sánh
Cho thấy fine-tune bộ tăng cường ảnh 2D dựa trên diffusion có thể cải thiện radiance field methods

Ứng dụng thực tế:

Quét 3D sản phẩm
Tạo tài sản 3D cho game, phim, commerce
Mapping và reconstruction trong môi trường thực

Trong nhiều lĩnh vực, dữ liệu tốt đôi khi quan trọng không kém mô hình tốt; đây là một ví dụ rất rõ.

8) Beyond Static Leaderboards: Leaderboard tĩnh không đủ để đánh giá LLM agent

Bài toán:

Nhiều benchmark agent hiện nay cho ra một điểm tổng hợp rồi xếp hạng model. Nhưng điểm số này có thể không phản ánh năng lực triển khai thật: thứ hạng dễ đảo, nhạy với setup, và không cho biết model có bền vững khi ra ngoài phân phối hay không.

Ý tưởng:

Paper đề xuất chuyển từ tư duy leaderboard tĩnh sang predictive validity: benchmark tốt phải dự đoán được hiệu năng trong môi trường triển khai thực tế, đặc biệt ở các thiết lập out-of-distribution.

Điểm mới:

Phê bình trực diện cách cộng đồng đang đánh giá agent
Đề xuất tiêu chí đánh giá gắn với deployability
Nhấn mạnh tính falsifiable và ổn định của benchmark

Ứng dụng thực tế:

Doanh nghiệp chọn agent đáng tin cậy hơn
Nhà nghiên cứu thiết kế benchmark khó “game” hơn
Giảm khoảng cách giữa kết quả demo và hệ thống production

Đây là paper rất quan trọng về phương pháp luận. Trong giai đoạn agent AI bùng nổ, đo sai sẽ dẫn đến xây sai.

9) FreeStyle: Sinh ảnh với điều khiển riêng style và content nhờ khai thác LoRA cộng đồng

Bài toán:

Sinh ảnh theo hai tham chiếu — một ảnh cho style, một ảnh cho content — là bài toán rất hấp dẫn nhưng khó. Mô hình dễ bị content leakage, tức là style reference vô tình kéo theo cả nội dung, hoặc ngược lại.

Ý tưởng:

FreeStyle khai thác kho LoRA cộng đồng để tạo dữ liệu style-content triplet ở quy mô lớn. Trên nền dữ liệu này, tác giả huấn luyện framework dual-reference generation với các cơ chế disentanglement như attention-level enrichment constraint và frequency-aware RoPE modulation.

Điểm mới:

“LoRA mining” như một chiến lược mở rộng dữ liệu rất thông minh
Giải quyết cụ thể vấn đề content leakage
Đề xuất benchmark và metric riêng như Content Alignment Score và Rejection Score

Ứng dụng thực tế:

Thiết kế sáng tạo, quảng cáo, concept art
Cá nhân hóa sinh ảnh theo phong cách thương hiệu
Công cụ hỗ trợ artist với kiểm soát tốt hơn

Đây là hướng rất thực dụng vì bài toán điều khiển generation ngày càng quan trọng hơn bản thân chất lượng hình ảnh thuần túy.

10) FlowBender: Huấn luyện mô hình sinh để tự sửa lỗi theo feedback

Bài toán:

Diffusion và flow models thường gặp khó khi phải thoả mãn ràng buộc chính xác, ví dụ đầu ra phải khớp cấu trúc, điều kiện hoặc mục tiêu downstream. Guidance tại thời điểm suy luận có thể giúp, nhưng thường không ổn định hoặc tốn kém.

Ý tưởng:

FlowBender đưa ra cơ chế closed-loop training: mô hình thực hiện một lượt dự đoán ban đầu, nhận feedback về sai lệch so với ràng buộc, rồi học cách refine đầu ra trong lượt tiếp theo. Nói ngắn gọn: mô hình không chỉ sinh, mà còn học cách tự sửa.

Điểm mới:

Kết hợp feedback trực tiếp vào quá trình huấn luyện
Có cả biến thể gradient-based và zero-order
Áp dụng được cho nhiều bài toán: image-to-image, restoration, 3D mesh texturing

Ứng dụng thực tế:

Hệ thống sinh ảnh có ràng buộc chặt
Chỉnh sửa ảnh tự động
Pipeline 3D yêu cầu đầu ra đúng cấu trúc hơn

Đây là xu hướng rất đáng theo dõi vì AI tương lai nhiều khả năng sẽ không chỉ “one-shot generate”, mà sẽ hoạt động theo vòng lặp generate → evaluate → correct.

Kết luận: 4 xu hướng lớn đang hiện ra

Nhìn tổng thể 10 paper này, có thể thấy 4 xu hướng chính:

Hiệu quả hóa mô hình

Moebius và PerceptionDLM cho thấy cộng đồng ngày càng quan tâm tới mô hình nhanh, nhẹ, dùng được thật, không chỉ chạy đua tham số.
Embodied/Agent AI tiến gần thực tế hơn

DragMesh-2, Playful Agentic Robot Learning và S-Agent đều nhấn mạnh chuyện AI phải tương tác với thế giới vật lý và không gian 3D, chứ không chỉ trả lời văn bản.
Đánh giá AI đang trở thành nút thắt lớn

Multi-LCB và Beyond Static Leaderboards nhắc rằng nếu benchmark kém, ta sẽ hiểu sai tiến bộ của mô hình.
Generation chuyển từ “tạo cho đẹp” sang “tạo có kiểm soát”

FreeStyle và FlowBender thể hiện rõ nhu cầu sinh nội dung nhưng phải đúng style, đúng content, đúng ràng buộc.

Nếu phải chọn các paper có tác động dài hạn nhất, mình sẽ để ý đặc biệt tới Multi-LCB, Beyond Static Leaderboards, S-Agent, và FlowBender. Lý do là chúng không chỉ cải thiện một tác vụ cụ thể, mà còn tác động tới cách chúng ta xây dựng, đánh giá và triển khai thế hệ AI tiếp theo.

Nếu bạn muốn, mình có thể làm tiếp một phiên bản bảng so sánh 10 paper theo các cột: lĩnh vực, bài toán, điểm mới, mức độ ứng dụng, và paper nào đáng đọc nhất cho researcher/kỹ sư/product.