DEV Community

Y Hành Nhan
Y Hành Nhan

Posted on

Top AI Papers on Hugging Face - 2026-06-22

10 paper AI nổi bật nhất trên Hugging Face hôm nay: từ inpainting siêu nhẹ đến benchmark mới cho AI agent

Hôm nay mình tổng hợp 10 paper đang được upvote cao nhất trên Hugging Face. Danh sách này khá thú vị vì trải dài nhiều mảng: tạo ảnh, robot, benchmark code, multimodal reasoning, 3D vision và đánh giá LLM agent.

Thay vì chỉ liệt kê, bài viết sẽ đi theo 4 câu hỏi cho mỗi paper:

  • Bài toán là gì?
  • Ý tưởng chính là gì?
  • Điểm mới nằm ở đâu?
  • Ứng dụng thực tế ra sao?

1) Moebius: mô hình inpainting 0.2B nhưng chất lượng tiệm cận hệ 10B

Paper: Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

ID: 2606.19195

Bài toán

Image inpainting là bài toán điền phần ảnh bị thiếu, bị che hoặc muốn chỉnh sửa. Vấn đề là các mô hình mạnh hiện nay thường rất lớn, nặng tài nguyên và chậm suy luận. Điều này gây khó cho triển khai thực tế trên máy yếu, ứng dụng mobile hay pipeline cần phản hồi nhanh.

Ý tưởng

Moebius hướng đến một framework cực nhẹ, chỉ khoảng 0.2B tham số, nhưng vẫn giữ chất lượng gần với các mô hình lớn hơn rất nhiều. Họ làm điều đó bằng cách cải thiện cách mô hình kết hợp:

  • ngữ cảnh cục bộ để khớp texture, biên, chi tiết;
  • ngữ nghĩa toàn cục để phần ảnh điền vào hợp logic với toàn cảnh.

Một điểm cốt lõi là block Local-λ Mix Interaction (LλMI) giúp mô hình trao đổi thông tin local-global hiệu quả hơn, tránh nghẽn biểu diễn.

Điểm mới

  • Thiết kế kiến trúc nhẹ nhưng vẫn giữ khả năng hiểu ngữ cảnh rộng.
  • Cơ chế adaptive multi-granularity distillation để chắt lọc kiến thức từ mô hình lớn sang mô hình nhỏ.
  • Tối ưu cho high-fidelity inpainting chứ không chỉ giảm tham số đơn thuần.

Ứng dụng thực tế

  • Xóa vật thể khỏi ảnh
  • Khôi phục ảnh cũ/hỏng
  • Chỉnh sửa ảnh thương mại điện tử
  • Công cụ sáng tạo nội dung chạy nhanh hơn, rẻ hơn

Moebius là tín hiệu rõ ràng rằng không phải lúc nào “to hơn” cũng tốt hơn trong generative vision.


2) DragMesh-2: robot thao tác tay-vật thể khéo léo hơn, kể cả với vật thể có khớp

Paper: DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects

ID: 2606.15133

Bài toán

Điều khiển bàn tay robot tương tác với vật thể vốn đã khó; khi vật thể có khớp như kéo, kẹp, cửa, nắp gập thì còn khó hơn. Hệ thống phải vừa hiểu hình học, vừa xử lý lực tiếp xúc và động học.

Ý tưởng

Paper đề xuất framework contact-driven: thay vì chỉ dựa vào quỹ đạo hình học, mô hình học trực tiếp từ tín hiệu liên quan đến tiếp xúc giữa tay và vật. Ngoài ra, họ đưa vào physically informed contact-aware training để policy bền vững hơn khi điều kiện vật lý thay đổi.

Một thành phần nổi bật là PICA, giúp tăng độ robust khi lực tiếp xúc, damping hay điều kiện tương tác thay đổi, ngay cả khi không có tactile feedback.

Điểm mới

  • Tập trung vào articulated objects, khó hơn đáng kể so với vật thể cứng đơn giản.
  • Huấn luyện policy nhận thức tốt hơn về tiếp xúc vật lý.
  • Tăng robust mà không cần cảm biến xúc giác chuyên dụng.

Ứng dụng thực tế

  • Robot dịch vụ mở/đóng đồ vật trong nhà
  • Robot công nghiệp thao tác với linh kiện có khớp
  • Robot hỗ trợ người già hoặc người khuyết tật trong môi trường thật

Đây là một bước tiến quan trọng nếu muốn robot “khéo tay” hơn ngoài phòng lab.


3) Multi-LCB: benchmark code đa ngôn ngữ để đo đúng năng lực LLM

Paper: Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

ID: 2606.20517

Bài toán

Nhiều benchmark code hiện nay thiên quá mạnh về Python, khiến ta khó biết một mô hình code tốt thật hay chỉ tối ưu cho một ngôn ngữ phổ biến. Ngoài ra còn có nguy cơ contamination: dữ liệu benchmark có thể đã bị mô hình thấy trong quá trình train.

Ý tưởng

Multi-LCB mở rộng LiveCodeBench sang 12 ngôn ngữ lập trình, giữ lại triết lý đánh giá contamination-aware và bài toán gần với competitive programming, nơi cần suy luận thật sự chứ không chỉ sinh code template.

Điểm mới

  • Benchmark đa ngôn ngữ quy mô lớn.
  • Kiểm soát contamination tốt hơn.
  • Phơi bày hiện tượng Python overfitting của nhiều LLM code hiện nay.

Ứng dụng thực tế

  • Chọn model phù hợp cho doanh nghiệp dùng Java, C++, Go, Rust, không chỉ Python
  • Đánh giá công bằng hơn năng lực code assistant
  • Hỗ trợ nghiên cứu về transfer learning giữa các ngôn ngữ lập trình

Paper này đặc biệt đáng chú ý vì benchmark tốt thường tác động lâu dài không kém mô hình mới.


4) PerceptionDLM: caption nhiều vùng ảnh song song bằng diffusion language model

Paper: PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

ID: 2606.19534

Bài toán

Các mô hình multimodal thường phải mô tả nhiều vùng trong ảnh. Nhưng nếu caption từng vùng tuần tự thì suy luận chậm, đặc biệt trong ứng dụng cần phản hồi thời gian thực.

Ý tưởng

PerceptionDLM khai thác parallel decoding cho bài toán perception theo vùng. Thay vì xử lý từng region độc lập theo kiểu tuần tự, mô hình dùng:

  • structured attention masking
  • efficient prompting

để mô tả nhiều vùng cùng lúc mà vẫn giữ chất lượng caption.

Điểm mới

  • Đưa tư duy xử lý song song vào multimodal diffusion language models.
  • Cân bằng tốt giữa tốc độ suy luậnchất lượng nhận thức vùng.
  • Hướng đến perception có cấu trúc hơn, thay vì chỉ hỏi-đáp ảnh tổng quát.

Ứng dụng thực tế

  • Hệ thống mô tả ảnh chi tiết cho accessibility
  • Phân tích cảnh cho robot hoặc xe tự hành
  • Truy xuất nội dung ảnh theo vùng cho tìm kiếm đa phương thức

Nếu multimodal AI muốn đi vào sản phẩm, tối ưu latency như paper này là rất quan trọng.


5) Playful Agentic Robot Learning: robot học kỹ năng bằng “chơi đùa”

Paper: Playful Agentic Robot Learning

ID: 2606.19419

Bài toán

Robot thường cần rất nhiều dữ liệu gán nhãn hoặc huấn luyện riêng cho từng tác vụ. Điều này tốn kém và kém linh hoạt. Câu hỏi là: robot có thể tự khám phá thế giới để tích lũy kỹ năng dùng lại được không?

Ý tưởng

Paper đề xuất cho robot self-directed play: tự chơi, tự thử nghiệm trong môi trường để tạo ra và lưu trữ các kỹ năng reusable. Những kỹ năng này được biểu diễn dưới dạng robot-code policies, gần với tư tưởng Code-as-Policy.

Sau đó, khi gặp tác vụ downstream, robot tận dụng thư viện kỹ năng sẵn có mà không cần train lại nhiều.

Điểm mới

  • Kết hợp agentic behavior với học kỹ năng cho robot.
  • Xây dựng skill library thông qua khám phá chủ động.
  • Chứng minh kỹ năng học từ “play” có thể chuyển sang task thật.

Ứng dụng thực tế

  • Robot gia đình học dần thói quen tương tác
  • Robot kho bãi thích nghi task mới nhanh hơn
  • Nền tảng robot general-purpose bớt phụ thuộc vào dữ liệu tác vụ chuyên biệt

Đây là hướng khá hấp dẫn vì nó gần với cách con người và động vật học kỹ năng cơ bản.


6) S-Agent: dùng tool và memory để tăng reasoning không gian

Paper: S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

ID: 2606.20515

Bài toán

Visual language model thường mạnh ở mô tả hình ảnh đơn lẻ, nhưng yếu khi cần hiểu không gian 3D liên tục từ nhiều góc nhìn hoặc video. Chúng thiếu bộ nhớ và công cụ suy luận không gian chuyên biệt.

Ý tưởng

S-Agent biến mô hình thành một “agent” có:

  • temporal memory
  • scene memory
  • agent memory
  • bộ spatial tools để suy luận hình học

Nhờ đó, hệ thống có thể tích lũy bằng chứng qua thời gian và qua nhiều view để đưa ra kết luận không gian chính xác hơn.

Điểm mới

  • Kết hợp tool use với memory cho spatial reasoning.
  • Hỗ trợ suy luận từ multi-view imagery và video.
  • Chuyển từ nhận biết tĩnh sang evidence accumulation theo thời gian.

Ứng dụng thực tế

  • Robot điều hướng trong môi trường phức tạp
  • Digital twin và phân tích scene 3D
  • Hệ thống giám sát/video understanding cần hiểu cấu trúc không gian

Paper này phản ánh xu hướng lớn: VLM không chỉ “nhìn và nói”, mà còn phải “nhớ và suy luận”.


7) DF3DV-1K: dataset lớn cho novel view synthesis không bị nhiễu bởi distractor

Paper: DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

ID: 2604.13416

Bài toán

Novel view synthesis thường gặp vấn đề khi cảnh chứa nhiều distractor: vật thể thừa, nền lộn xộn, yếu tố gây nhiễu. Tuy nhiên, thiếu dataset chuẩn để nghiên cứu bài toán “distractor-free” một cách hệ thống.

Ý tưởng

DF3DV-1K giới thiệu dataset thực gồm 1,048 scene và gần 90 nghìn ảnh, bao phủ nhiều loại distractor và theme cảnh khác nhau. Ngoài ra còn có DF3DV-41 để benchmark độ robust.

Paper cũng cho thấy việc fine-tune một diffusion-based 2D enhancer giúp cải thiện các phương pháp radiance field / 3D Gaussian Splatting trong bối cảnh này.

Điểm mới

  • Dataset quy mô lớn, nhắm đúng bài toán distractor-free NVS.
  • Có benchmark riêng để đo robustness.
  • Chỉ ra lợi ích rõ ràng của dữ liệu phù hợp trong pipeline tái dựng 3D.

Ứng dụng thực tế

  • Tạo mô hình 3D sản phẩm sạch cho e-commerce
  • AR/VR cần tái dựng cảnh ít nhiễu
  • Quét vật thể phục vụ game, thiết kế, bảo tồn số

Trong 3D vision, dữ liệu tốt thường mở ra cả một hướng nghiên cứu mới.


8) Beyond Static Leaderboards: leaderboard agent hiện nay đang đo sai điều gì?

Paper: Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

ID: 2606.19704

Bài toán

Rất nhiều benchmark agent hiện nay tổng hợp mọi thứ thành một điểm số duy nhất. Vấn đề là điểm cao trên leaderboard không đảm bảo mô hình sẽ tốt trong môi trường triển khai thật. Hơn nữa, thứ hạng có thể thiếu ổn định.

Ý tưởng

Paper lập luận rằng thay vì chỉ nhìn aggregate score, ta cần đánh giá theo predictive validity: benchmark có dự đoán được hiệu năng trong tình huống thật hay ngoài phân phối hay không?

Họ nhấn mạnh nhu cầu đánh giá agent bằng các tiêu chí:

  • gắn với triển khai thực tế,
  • kiểm tra out-of-distribution,
  • có khả năng phản biện/falsifiable.

Điểm mới

  • Chuyển trọng tâm từ leaderboard tĩnh sang giá trị dự đoán thực tế.
  • Chỉ ra rank instability là vấn đề nghiêm trọng.
  • Gợi ý khung đánh giá phù hợp hơn cho “kỷ nguyên AI agent”.

Ứng dụng thực tế

  • Thiết kế benchmark tốt hơn cho coding agent, web agent, ops agent
  • Giúp doanh nghiệp chọn mô hình đáng tin cậy hơn
  • Hạn chế tối ưu benchmark kiểu “học mẹo”

Đây là paper rất đáng đọc với bất kỳ ai đang xây benchmark hoặc ra quyết định mua model.


9) FreeStyle: điều khiển đồng thời style và content nhờ khai thác cộng đồng LoRA

Paper: FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

ID: 2606.20506

Bài toán

Sinh ảnh theo hai tham chiếu: một ảnh cho style, một ảnh cho content, là bài toán hấp dẫn nhưng khó. Mô hình dễ bị content leakage, tức style reference làm lẫn nội dung hoặc ngược lại.

Ý tưởng

FreeStyle khai thác kho community LoRA để xây tập dữ liệu lớn các bộ ba style-content-output. Từ đó huấn luyện framework dual-reference generation có cơ chế disentanglement tốt hơn.

Họ còn đưa vào các kỹ thuật như:

  • attention-level enrichment constraint
  • frequency-aware RoPE modulation

để tách tốt hơn tín hiệu style và content.

Điểm mới

  • Ý tưởng LoRA mining từ cộng đồng rất thực dụng và scalable.
  • Tập trung xử lý bài toán content leakage một cách hệ thống.
  • Đề xuất benchmark và metric như Content Alignment Score.

Ứng dụng thực tế

  • Thiết kế sáng tạo, concept art
  • Công cụ tạo ảnh theo phong cách thương hiệu
  • Ứng dụng cá nhân hóa hình ảnh trong marketing và giải trí

Paper này khá sát với nhu cầu người dùng cuối của generative AI.


10) FlowBender: mô hình sinh tự sửa lỗi bằng feedback ở lúc suy luận

Paper: FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows

ID: 2606.20404

Bài toán

Các mô hình diffusion/flow có thể tạo kết quả đẹp nhưng chưa chắc thỏa ràng buộc đầu vào, ví dụ bám đúng điều kiện, đúng cấu trúc hoặc đúng alignment. Guidance truyền thống thường chưa đủ ổn định.

Ý tưởng

FlowBender đề xuất framework closed-loop: ở thời điểm suy luận, mô hình thực hiện một lượt “look-ahead”, đo lỗi alignment, rồi dùng feedback đó cho refinement pass. Quan trọng hơn, mô hình được train để biết cách tự sửa dựa trên feedback này.

Điểm mới

  • Tư duy self-correction đưa vào conditional flow/diffusion.
  • Kết hợp huấn luyện với cơ chế feedback inference-time.
  • Áp dụng được cho nhiều tác vụ như image translation, restoration, 3D mesh texturing.

Ứng dụng thực tế

  • Chỉnh ảnh theo điều kiện chính xác hơn
  • Khôi phục ảnh ít lỗi hơn
  • Tạo texture 3D bám mô tả tốt hơn

FlowBender đại diện cho xu hướng “generative model không chỉ sinh ra, mà còn biết tự kiểm tra và sửa”.


Kết luận

Nhìn toàn bộ top 10 hôm nay, có thể thấy vài xu hướng nổi bật:

  1. Hiệu quả tính toán đang trở thành ưu tiên lớn

    Moebius và PerceptionDLM đều nhấn mạnh mô hình nhẹ hơn hoặc suy luận nhanh hơn nhưng vẫn giữ chất lượng.

  2. Robot learning đang dịch chuyển sang tính chủ động và tính vật lý

    DragMesh-2, Playful Agentic Robot Learning và S-Agent đều cho thấy robot cần không chỉ perception, mà còn hiểu tiếp xúc, không gian và tự khám phá.

  3. Benchmark và evaluation đang được xem xét lại nghiêm túc

    Multi-LCB và Beyond Static Leaderboards nhắc chúng ta rằng đo sai thì tối ưu càng mạnh càng dễ đi lệch.

  4. Generative AI đang tiến tới khả năng điều khiển chính xác hơn

    FreeStyle và FlowBender đều tập trung vào việc giảm lỗi bám điều kiện và tăng khả năng kiểm soát đầu ra.

Nếu phải chọn vài paper đáng theo dõi nhất theo tác động dài hạn, mình sẽ nghiêng về:

  • Moebius: vì hiệu quả/chi phí luôn là đòn bẩy lớn cho ứng dụng thật.
  • Multi-LCB: vì benchmark tốt có thể ảnh hưởng cả hệ sinh thái.
  • Beyond Static Leaderboards: vì đánh giá agent hiện nay đúng là đang có nhiều lỗ hổng.
  • S-Agent: vì spatial intelligence là mảnh ghép còn thiếu của AI đa phương thức.

Nếu bạn muốn, ở bước tiếp theo mình có thể làm tiếp một trong 3 kiểu sau:

  1. Viết bản ngắn hơn kiểu newsletter 5 phút đọc
  2. Làm bảng so sánh 10 paper theo lĩnh vực, độ mới, tiềm năng ứng dụng
  3. Đào sâu 3 paper quan trọng nhất thành phân tích kỹ thuật chi tiết

Top comments (0)