DEV Community

Y Hành Nhan
Y Hành Nhan

Posted on

Top AI Papers on Hugging Face - 2026-06-22

10 paper AI nổi bật nhất trên Hugging Face hôm nay: từ inpainting siêu nhẹ đến benchmark đa ngôn ngữ cho LLM

Hôm nay, danh sách paper được upvote cao trên Hugging Face cho thấy một bức tranh khá rõ về xu hướng AI hiện tại: mô hình nhỏ nhưng mạnh hơn, agent/robot biết tự khám phá, đánh giá LLM thực tế hơn, và multimodal ngày càng tiến gần đến hiểu không gian 3D và thế giới vật lý.

Dưới đây là bản tổng hợp theo dạng blog, tập trung vào 4 ý cho mỗi paper:

  • Bài toán
  • Ý tưởng
  • Điểm mới
  • Ứng dụng thực tế

1) Moebius: Image Inpainting 0.2B tham số nhưng hiệu năng tầm 10B

Bài toán:

Image inpainting là bài toán điền vùng thiếu hoặc bị xoá trong ảnh sao cho kết quả tự nhiên, đúng ngữ cảnh và nhất quán với phần còn lại. Các mô hình mạnh hiện nay thường rất lớn, tốn tài nguyên và chậm khi suy luận.

Ý tưởng:

Moebius xây dựng một framework inpainting rất nhẹ, chỉ khoảng 0.2B tham số, nhưng cố gắng đạt chất lượng gần các mô hình cỡ 10B. Trọng tâm nằm ở việc kết hợp tốt giữa thông tin cục bộ của vùng lân cận và ngữ nghĩa toàn cục của toàn ảnh. Bài báo dùng khối Local-λ Mix Interaction (LλMI) để giúp mô hình vừa nhìn được chi tiết gần, vừa giữ được bố cục lớn.

Ngoài ra, nhóm tác giả còn dùng adaptive multi-granularity distillation để “chưng cất” tri thức từ mô hình lớn sang mô hình nhỏ ở nhiều mức độ biểu diễn khác nhau.

Điểm mới:

Điểm đáng chú ý nhất là họ xử lý bài toán “nhỏ mà vẫn giỏi” khá bài bản:

  • Thiết kế block mới để giảm nghẽn biểu diễn giữa local và global context
  • Chưng cất thích ứng trong latent space
  • Tối ưu cho parameter-efficient fine-tuning, tức là dễ tinh chỉnh trên tác vụ mới mà không cần huấn luyện toàn bộ

Ứng dụng thực tế:

  • Xoá vật thể khỏi ảnh
  • Phục chế ảnh cũ
  • Chỉnh sửa ảnh thương mại điện tử, bất động sản, quảng cáo
  • Chạy trên hạ tầng rẻ hơn hoặc gần thời gian thực

Đây là hướng rất quan trọng vì nhiều doanh nghiệp không cần mô hình “to nhất”, mà cần mô hình đủ tốt, đủ nhanh, đủ rẻ.


2) DragMesh-2: Tương tác tay máy với vật thể có khớp nối theo cách hợp lý về vật lý

Bài toán:

Robot hand manipulation vẫn rất khó, nhất là khi vật thể không phải khối cứng đơn giản mà là đồ vật có khớp nối như kéo ngăn kéo, mở nắp, xoay bản lề. Robot cần tiếp xúc đúng, giữ lực hợp lý và thao tác ổn định dù điều kiện ma sát, tải hay damping thay đổi.

Ý tưởng:

DragMesh-2 đưa ra framework tương tác tay-vật thể theo hướng contact-driven, tức là học điều khiển dựa trên động lực học tiếp xúc. Thành phần nổi bật là PICA giúp chính sách học được tính bền vững với biến thiên tải tiếp xúc ngay cả khi không có cảm biến xúc giác.

Điểm mới:

  • Nhắm tới articulated objects, khó hơn nhiều so với rigid objects
  • Học chính sách có ý thức về contact dynamics
  • Tăng robustness khi điều kiện vật lý thay đổi

Ứng dụng thực tế:

  • Robot gia dụng mở cửa, kéo hộc tủ, thao tác công tắc
  • Robot công nghiệp lắp ráp cơ khí
  • Tay máy dịch vụ trong môi trường không kiểm soát hoàn toàn

Nếu muốn robot thực sự hữu ích ngoài phòng lab, năng lực kiểu này là nền tảng bắt buộc.


3) Multi-LCB: Mở rộng LiveCodeBench sang nhiều ngôn ngữ lập trình

Bài toán:

Rất nhiều benchmark code cho LLM bị lệch sang Python, trong khi nhu cầu thực tế trải dài qua C++, Java, Go, Rust, JavaScript… Điều này gây ra ảo giác rằng một model “giỏi code”, nhưng thực chất có thể chỉ giỏi Python hoặc thậm chí bị nhiễm dữ liệu benchmark.

Ý tưởng:

Multi-LCB mở rộng LiveCodeBench thành benchmark đa ngôn ngữ, bao phủ 12 ngôn ngữ lập trình, vẫn giữ tinh thần contamination-aware evaluation — tức là cố gắng kiểm soát việc mô hình đã từng thấy bài test trong dữ liệu huấn luyện.

Điểm mới:

  • Không chỉ thêm ngôn ngữ, mà còn duy trì giao thức đánh giá chặt chẽ
  • Giúp đo khả năng sinh mã xuyên ngôn ngữ
  • Phơi bày hiện tượng Python overfitting

Ứng dụng thực tế:

  • Chọn model code phù hợp cho doanh nghiệp
  • Đánh giá copilot coding công bằng hơn
  • Nghiên cứu khả năng tổng quát hóa ngôn ngữ của LLM

Đây là paper rất có giá trị hạ tầng: không làm model mới, nhưng giúp cộng đồng đo đúng hơn, từ đó tránh tối ưu sai mục tiêu.


4) PerceptionDLM: Mô hình diffusion language cho perception vùng ảnh song song

Bài toán:

Multimodal LLM thường caption hoặc phân tích ảnh theo kiểu tuần tự, dẫn tới chậm nếu cần mô tả nhiều vùng trong ảnh. Với các tác vụ perception, tốc độ và khả năng xử lý nhiều region cùng lúc là rất quan trọng.

Ý tưởng:

PerceptionDLM đề xuất cơ chế parallel region perception cho multimodal diffusion language models. Thay vì mô tả từng vùng một, mô hình dùng structured attention masking và prompting hiệu quả để suy luận song song nhiều vùng.

Điểm mới:

  • Kết hợp diffusion language model với perception vùng ảnh
  • Thiết kế attention mask có cấu trúc để cho phép song song hóa
  • Tăng tốc inference nhưng vẫn giữ chất lượng caption

Ứng dụng thực tế:

  • Phân tích ảnh phức tạp với nhiều đối tượng
  • Hệ thống hỗ trợ người khiếm thị
  • Retail analytics, giám sát, kiểm kê tự động
  • Tiền xử lý cho agent thị giác cần hiểu scene nhanh

Đây là ví dụ điển hình của xu hướng tối ưu kiến trúc suy luận, thay vì chỉ tăng kích thước mô hình.


5) Playful Agentic Robot Learning: Robot học kỹ năng qua “chơi đùa”

Bài toán:

Robot thường học theo tác vụ cụ thể. Cách này hiệu quả ngắn hạn nhưng kém linh hoạt: gặp bài toán mới là phải huấn luyện lại. Câu hỏi là liệu robot có thể tự khám phá môi trường, tích luỹ kỹ năng dùng lại được hay không?

Ý tưởng:

Paper này cho robot học qua self-directed play — tự chơi, tự khám phá, tự viết/chạy các policy kiểu Code-as-Policy. Qua thời gian, robot xây dựng một skill library rồi tái sử dụng cho các tác vụ downstream.

Điểm mới:

  • Kết hợp embodied agent với sinh mã điều khiển
  • Học qua khám phá thay vì chỉ bắt chước hoặc RL theo reward hẹp
  • Kỹ năng học được có thể chuyển sang task mới không cần train thêm

Ứng dụng thực tế:

  • Robot tổng quát trong nhà
  • Hệ thống tự động hóa linh hoạt trong kho/xưởng
  • Nền tảng robot có thể thích nghi nhanh với yêu cầu mới

Ý tưởng “playful learning” rất gần với cách con người và động vật học: chơi trước, dùng sau.


6) S-Agent: Dùng công cụ không gian để kích hoạt năng lực reasoning không gian

Bài toán:

Visual language model thường mạnh ở nhận diện hoặc mô tả ảnh đơn, nhưng yếu khi phải hiểu không gian 3D liên tục theo thời gian, ví dụ ghép nhiều góc nhìn để suy ra bố cục scene.

Ý tưởng:

S-Agent bổ sung cho VLM một cơ chế temporal memory và bộ spatial tools phân cấp. Agent không chỉ “nhìn rồi trả lời”, mà còn tích lũy bằng chứng hình học 3D từ nhiều ảnh/góc nhìn theo thời gian.

Điểm mới:

  • Tách rõ scene memoryagent memory
  • Dùng công cụ không gian để hỗ trợ reasoning, thay vì trông chờ hoàn toàn vào tham số mô hình
  • Phù hợp cho bài toán multi-view và video spatial reasoning

Ứng dụng thực tế:

  • Robot điều hướng và thao tác trong môi trường lạ
  • AR/VR, digital twin
  • Hệ thống giám sát hoặc mapping từ nhiều camera

Đây là hướng rất đáng chú ý: thay vì ép VLM “tự nghĩ hết”, tác giả trang bị thêm tool-use, một chiến lược đang chứng minh hiệu quả trong agent AI.


7) DF3DV-1K: Dataset lớn cho novel view synthesis không bị nhiễu bởi distractor

Bài toán:

Trong novel view synthesis và radiance field, vật thể gây nhiễu hoặc cảnh lộn xộn có thể làm giảm chất lượng tái dựng rất mạnh. Nhưng cộng đồng lại thiếu dataset chuẩn để nghiên cứu bài toán distractor-free một cách hệ thống.

Ý tưởng:

DF3DV-1K cung cấp 1,048 scene với gần 90 nghìn ảnh, bao phủ nhiều loại distractor và chủ đề cảnh khác nhau. Bên cạnh đó có tập con DF3DV-41 để đánh giá robustness.

Điểm mới:

  • Dataset quy mô lớn, tập trung đúng vào vấn đề distractor
  • Có cả dữ liệu “sạch” và “nhiễu” để nghiên cứu đối sánh
  • Cho thấy fine-tune bộ tăng cường ảnh 2D dựa trên diffusion có thể cải thiện radiance field methods

Ứng dụng thực tế:

  • Quét 3D sản phẩm
  • Tạo tài sản 3D cho game, phim, commerce
  • Mapping và reconstruction trong môi trường thực

Trong nhiều lĩnh vực, dữ liệu tốt đôi khi quan trọng không kém mô hình tốt; đây là một ví dụ rất rõ.


8) Beyond Static Leaderboards: Leaderboard tĩnh không đủ để đánh giá LLM agent

Bài toán:

Nhiều benchmark agent hiện nay cho ra một điểm tổng hợp rồi xếp hạng model. Nhưng điểm số này có thể không phản ánh năng lực triển khai thật: thứ hạng dễ đảo, nhạy với setup, và không cho biết model có bền vững khi ra ngoài phân phối hay không.

Ý tưởng:

Paper đề xuất chuyển từ tư duy leaderboard tĩnh sang predictive validity: benchmark tốt phải dự đoán được hiệu năng trong môi trường triển khai thực tế, đặc biệt ở các thiết lập out-of-distribution.

Điểm mới:

  • Phê bình trực diện cách cộng đồng đang đánh giá agent
  • Đề xuất tiêu chí đánh giá gắn với deployability
  • Nhấn mạnh tính falsifiable và ổn định của benchmark

Ứng dụng thực tế:

  • Doanh nghiệp chọn agent đáng tin cậy hơn
  • Nhà nghiên cứu thiết kế benchmark khó “game” hơn
  • Giảm khoảng cách giữa kết quả demo và hệ thống production

Đây là paper rất quan trọng về phương pháp luận. Trong giai đoạn agent AI bùng nổ, đo sai sẽ dẫn đến xây sai.


9) FreeStyle: Sinh ảnh với điều khiển riêng style và content nhờ khai thác LoRA cộng đồng

Bài toán:

Sinh ảnh theo hai tham chiếu — một ảnh cho style, một ảnh cho content — là bài toán rất hấp dẫn nhưng khó. Mô hình dễ bị content leakage, tức là style reference vô tình kéo theo cả nội dung, hoặc ngược lại.

Ý tưởng:

FreeStyle khai thác kho LoRA cộng đồng để tạo dữ liệu style-content triplet ở quy mô lớn. Trên nền dữ liệu này, tác giả huấn luyện framework dual-reference generation với các cơ chế disentanglement như attention-level enrichment constraintfrequency-aware RoPE modulation.

Điểm mới:

  • “LoRA mining” như một chiến lược mở rộng dữ liệu rất thông minh
  • Giải quyết cụ thể vấn đề content leakage
  • Đề xuất benchmark và metric riêng như Content Alignment ScoreRejection Score

Ứng dụng thực tế:

  • Thiết kế sáng tạo, quảng cáo, concept art
  • Cá nhân hóa sinh ảnh theo phong cách thương hiệu
  • Công cụ hỗ trợ artist với kiểm soát tốt hơn

Đây là hướng rất thực dụng vì bài toán điều khiển generation ngày càng quan trọng hơn bản thân chất lượng hình ảnh thuần túy.


10) FlowBender: Huấn luyện mô hình sinh để tự sửa lỗi theo feedback

Bài toán:

Diffusion và flow models thường gặp khó khi phải thoả mãn ràng buộc chính xác, ví dụ đầu ra phải khớp cấu trúc, điều kiện hoặc mục tiêu downstream. Guidance tại thời điểm suy luận có thể giúp, nhưng thường không ổn định hoặc tốn kém.

Ý tưởng:

FlowBender đưa ra cơ chế closed-loop training: mô hình thực hiện một lượt dự đoán ban đầu, nhận feedback về sai lệch so với ràng buộc, rồi học cách refine đầu ra trong lượt tiếp theo. Nói ngắn gọn: mô hình không chỉ sinh, mà còn học cách tự sửa.

Điểm mới:

  • Kết hợp feedback trực tiếp vào quá trình huấn luyện
  • Có cả biến thể gradient-based và zero-order
  • Áp dụng được cho nhiều bài toán: image-to-image, restoration, 3D mesh texturing

Ứng dụng thực tế:

  • Hệ thống sinh ảnh có ràng buộc chặt
  • Chỉnh sửa ảnh tự động
  • Pipeline 3D yêu cầu đầu ra đúng cấu trúc hơn

Đây là xu hướng rất đáng theo dõi vì AI tương lai nhiều khả năng sẽ không chỉ “one-shot generate”, mà sẽ hoạt động theo vòng lặp generate → evaluate → correct.


Kết luận: 4 xu hướng lớn đang hiện ra

Nhìn tổng thể 10 paper này, có thể thấy 4 xu hướng chính:

  1. Hiệu quả hóa mô hình

    Moebius và PerceptionDLM cho thấy cộng đồng ngày càng quan tâm tới mô hình nhanh, nhẹ, dùng được thật, không chỉ chạy đua tham số.

  2. Embodied/Agent AI tiến gần thực tế hơn

    DragMesh-2, Playful Agentic Robot Learning và S-Agent đều nhấn mạnh chuyện AI phải tương tác với thế giới vật lý và không gian 3D, chứ không chỉ trả lời văn bản.

  3. Đánh giá AI đang trở thành nút thắt lớn

    Multi-LCB và Beyond Static Leaderboards nhắc rằng nếu benchmark kém, ta sẽ hiểu sai tiến bộ của mô hình.

  4. Generation chuyển từ “tạo cho đẹp” sang “tạo có kiểm soát”

    FreeStyle và FlowBender thể hiện rõ nhu cầu sinh nội dung nhưng phải đúng style, đúng content, đúng ràng buộc.

Nếu phải chọn các paper có tác động dài hạn nhất, mình sẽ để ý đặc biệt tới Multi-LCB, Beyond Static Leaderboards, S-Agent, và FlowBender. Lý do là chúng không chỉ cải thiện một tác vụ cụ thể, mà còn tác động tới cách chúng ta xây dựng, đánh giá và triển khai thế hệ AI tiếp theo.

Nếu bạn muốn, mình có thể làm tiếp một phiên bản bảng so sánh 10 paper theo các cột: lĩnh vực, bài toán, điểm mới, mức độ ứng dụng, và paper nào đáng đọc nhất cho researcher/kỹ sư/product.

Top comments (0)