<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: Y Hành Nhan</title>
    <description>The latest articles on DEV Community by Y Hành Nhan (@y_hnhnhan_2f26de65ffcc4).</description>
    <link>https://dev.to/y_hnhnhan_2f26de65ffcc4</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.us-east-2.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F3997259%2Fa6b82568-1f1d-4cc2-afe7-06cf70592b11.png</url>
      <title>DEV Community: Y Hành Nhan</title>
      <link>https://dev.to/y_hnhnhan_2f26de65ffcc4</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/y_hnhnhan_2f26de65ffcc4"/>
    <language>en</language>
    <item>
      <title>Top AI Papers on Hugging Face - 2026-06-22</title>
      <dc:creator>Y Hành Nhan</dc:creator>
      <pubDate>Mon, 22 Jun 2026 16:35:35 +0000</pubDate>
      <link>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-22-120a</link>
      <guid>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-22-120a</guid>
      <description>&lt;h1&gt;
  
  
  10 paper AI nổi bật nhất trên Hugging Face hôm nay: từ inpainting siêu nhẹ đến benchmark đa ngôn ngữ cho LLM
&lt;/h1&gt;

&lt;p&gt;Hôm nay, danh sách paper được upvote cao trên Hugging Face cho thấy một bức tranh khá rõ về xu hướng AI hiện tại: &lt;strong&gt;mô hình nhỏ nhưng mạnh hơn&lt;/strong&gt;, &lt;strong&gt;agent/robot biết tự khám phá&lt;/strong&gt;, &lt;strong&gt;đánh giá LLM thực tế hơn&lt;/strong&gt;, và &lt;strong&gt;multimodal ngày càng tiến gần đến hiểu không gian 3D và thế giới vật lý&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Dưới đây là bản tổng hợp theo dạng blog, tập trung vào 4 ý cho mỗi paper:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Bài toán&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ý tưởng&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Điểm mới&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ứng dụng thực tế&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  1) Moebius: Image Inpainting 0.2B tham số nhưng hiệu năng tầm 10B
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Image inpainting là bài toán điền vùng thiếu hoặc bị xoá trong ảnh sao cho kết quả tự nhiên, đúng ngữ cảnh và nhất quán với phần còn lại. Các mô hình mạnh hiện nay thường rất lớn, tốn tài nguyên và chậm khi suy luận.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Moebius xây dựng một framework inpainting rất nhẹ, chỉ khoảng &lt;strong&gt;0.2B tham số&lt;/strong&gt;, nhưng cố gắng đạt chất lượng gần các mô hình cỡ &lt;strong&gt;10B&lt;/strong&gt;. Trọng tâm nằm ở việc kết hợp tốt giữa &lt;strong&gt;thông tin cục bộ&lt;/strong&gt; của vùng lân cận và &lt;strong&gt;ngữ nghĩa toàn cục&lt;/strong&gt; của toàn ảnh. Bài báo dùng khối &lt;strong&gt;Local-λ Mix Interaction (LλMI)&lt;/strong&gt; để giúp mô hình vừa nhìn được chi tiết gần, vừa giữ được bố cục lớn.&lt;/p&gt;

&lt;p&gt;Ngoài ra, nhóm tác giả còn dùng &lt;strong&gt;adaptive multi-granularity distillation&lt;/strong&gt; để “chưng cất” tri thức từ mô hình lớn sang mô hình nhỏ ở nhiều mức độ biểu diễn khác nhau.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm đáng chú ý nhất là họ xử lý bài toán “nhỏ mà vẫn giỏi” khá bài bản:  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Thiết kế block mới để giảm nghẽn biểu diễn giữa local và global context
&lt;/li&gt;
&lt;li&gt;Chưng cất thích ứng trong latent space
&lt;/li&gt;
&lt;li&gt;Tối ưu cho &lt;strong&gt;parameter-efficient fine-tuning&lt;/strong&gt;, tức là dễ tinh chỉnh trên tác vụ mới mà không cần huấn luyện toàn bộ&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Xoá vật thể khỏi ảnh
&lt;/li&gt;
&lt;li&gt;Phục chế ảnh cũ
&lt;/li&gt;
&lt;li&gt;Chỉnh sửa ảnh thương mại điện tử, bất động sản, quảng cáo
&lt;/li&gt;
&lt;li&gt;Chạy trên hạ tầng rẻ hơn hoặc gần thời gian thực&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là hướng rất quan trọng vì nhiều doanh nghiệp không cần mô hình “to nhất”, mà cần mô hình &lt;strong&gt;đủ tốt, đủ nhanh, đủ rẻ&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  2) DragMesh-2: Tương tác tay máy với vật thể có khớp nối theo cách hợp lý về vật lý
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Robot hand manipulation vẫn rất khó, nhất là khi vật thể không phải khối cứng đơn giản mà là &lt;strong&gt;đồ vật có khớp nối&lt;/strong&gt; như kéo ngăn kéo, mở nắp, xoay bản lề. Robot cần tiếp xúc đúng, giữ lực hợp lý và thao tác ổn định dù điều kiện ma sát, tải hay damping thay đổi.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DragMesh-2 đưa ra framework tương tác tay-vật thể theo hướng &lt;strong&gt;contact-driven&lt;/strong&gt;, tức là học điều khiển dựa trên động lực học tiếp xúc. Thành phần nổi bật là &lt;strong&gt;PICA&lt;/strong&gt; giúp chính sách học được tính bền vững với biến thiên tải tiếp xúc ngay cả khi không có cảm biến xúc giác.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Nhắm tới &lt;strong&gt;articulated objects&lt;/strong&gt;, khó hơn nhiều so với rigid objects
&lt;/li&gt;
&lt;li&gt;Học chính sách có ý thức về contact dynamics
&lt;/li&gt;
&lt;li&gt;Tăng robustness khi điều kiện vật lý thay đổi&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Robot gia dụng mở cửa, kéo hộc tủ, thao tác công tắc
&lt;/li&gt;
&lt;li&gt;Robot công nghiệp lắp ráp cơ khí
&lt;/li&gt;
&lt;li&gt;Tay máy dịch vụ trong môi trường không kiểm soát hoàn toàn&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nếu muốn robot thực sự hữu ích ngoài phòng lab, năng lực kiểu này là nền tảng bắt buộc.&lt;/p&gt;




&lt;h2&gt;
  
  
  3) Multi-LCB: Mở rộng LiveCodeBench sang nhiều ngôn ngữ lập trình
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất nhiều benchmark code cho LLM bị lệch sang &lt;strong&gt;Python&lt;/strong&gt;, trong khi nhu cầu thực tế trải dài qua C++, Java, Go, Rust, JavaScript… Điều này gây ra ảo giác rằng một model “giỏi code”, nhưng thực chất có thể chỉ giỏi Python hoặc thậm chí bị nhiễm dữ liệu benchmark.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Multi-LCB mở rộng LiveCodeBench thành benchmark &lt;strong&gt;đa ngôn ngữ&lt;/strong&gt;, bao phủ &lt;strong&gt;12 ngôn ngữ lập trình&lt;/strong&gt;, vẫn giữ tinh thần &lt;strong&gt;contamination-aware evaluation&lt;/strong&gt; — tức là cố gắng kiểm soát việc mô hình đã từng thấy bài test trong dữ liệu huấn luyện.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Không chỉ thêm ngôn ngữ, mà còn duy trì giao thức đánh giá chặt chẽ
&lt;/li&gt;
&lt;li&gt;Giúp đo &lt;strong&gt;khả năng sinh mã xuyên ngôn ngữ&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Phơi bày hiện tượng &lt;strong&gt;Python overfitting&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Chọn model code phù hợp cho doanh nghiệp
&lt;/li&gt;
&lt;li&gt;Đánh giá copilot coding công bằng hơn
&lt;/li&gt;
&lt;li&gt;Nghiên cứu khả năng tổng quát hóa ngôn ngữ của LLM&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là paper rất có giá trị hạ tầng: không làm model mới, nhưng giúp cộng đồng &lt;strong&gt;đo đúng hơn&lt;/strong&gt;, từ đó tránh tối ưu sai mục tiêu.&lt;/p&gt;




&lt;h2&gt;
  
  
  4) PerceptionDLM: Mô hình diffusion language cho perception vùng ảnh song song
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Multimodal LLM thường caption hoặc phân tích ảnh theo kiểu tuần tự, dẫn tới chậm nếu cần mô tả nhiều vùng trong ảnh. Với các tác vụ perception, tốc độ và khả năng xử lý nhiều region cùng lúc là rất quan trọng.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
PerceptionDLM đề xuất cơ chế &lt;strong&gt;parallel region perception&lt;/strong&gt; cho multimodal diffusion language models. Thay vì mô tả từng vùng một, mô hình dùng &lt;strong&gt;structured attention masking&lt;/strong&gt; và prompting hiệu quả để suy luận song song nhiều vùng.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Kết hợp diffusion language model với perception vùng ảnh
&lt;/li&gt;
&lt;li&gt;Thiết kế attention mask có cấu trúc để cho phép song song hóa
&lt;/li&gt;
&lt;li&gt;Tăng tốc inference nhưng vẫn giữ chất lượng caption&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Phân tích ảnh phức tạp với nhiều đối tượng
&lt;/li&gt;
&lt;li&gt;Hệ thống hỗ trợ người khiếm thị
&lt;/li&gt;
&lt;li&gt;Retail analytics, giám sát, kiểm kê tự động
&lt;/li&gt;
&lt;li&gt;Tiền xử lý cho agent thị giác cần hiểu scene nhanh&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là ví dụ điển hình của xu hướng tối ưu &lt;strong&gt;kiến trúc suy luận&lt;/strong&gt;, thay vì chỉ tăng kích thước mô hình.&lt;/p&gt;




&lt;h2&gt;
  
  
  5) Playful Agentic Robot Learning: Robot học kỹ năng qua “chơi đùa”
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Robot thường học theo tác vụ cụ thể. Cách này hiệu quả ngắn hạn nhưng kém linh hoạt: gặp bài toán mới là phải huấn luyện lại. Câu hỏi là liệu robot có thể tự khám phá môi trường, tích luỹ kỹ năng dùng lại được hay không?&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper này cho robot học qua &lt;strong&gt;self-directed play&lt;/strong&gt; — tự chơi, tự khám phá, tự viết/chạy các policy kiểu &lt;strong&gt;Code-as-Policy&lt;/strong&gt;. Qua thời gian, robot xây dựng một &lt;strong&gt;skill library&lt;/strong&gt; rồi tái sử dụng cho các tác vụ downstream.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Kết hợp embodied agent với sinh mã điều khiển
&lt;/li&gt;
&lt;li&gt;Học qua khám phá thay vì chỉ bắt chước hoặc RL theo reward hẹp
&lt;/li&gt;
&lt;li&gt;Kỹ năng học được có thể chuyển sang task mới &lt;strong&gt;không cần train thêm&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Robot tổng quát trong nhà
&lt;/li&gt;
&lt;li&gt;Hệ thống tự động hóa linh hoạt trong kho/xưởng
&lt;/li&gt;
&lt;li&gt;Nền tảng robot có thể thích nghi nhanh với yêu cầu mới&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Ý tưởng “playful learning” rất gần với cách con người và động vật học: chơi trước, dùng sau.&lt;/p&gt;




&lt;h2&gt;
  
  
  6) S-Agent: Dùng công cụ không gian để kích hoạt năng lực reasoning không gian
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Visual language model thường mạnh ở nhận diện hoặc mô tả ảnh đơn, nhưng yếu khi phải hiểu &lt;strong&gt;không gian 3D liên tục theo thời gian&lt;/strong&gt;, ví dụ ghép nhiều góc nhìn để suy ra bố cục scene.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
S-Agent bổ sung cho VLM một cơ chế &lt;strong&gt;temporal memory&lt;/strong&gt; và bộ &lt;strong&gt;spatial tools&lt;/strong&gt; phân cấp. Agent không chỉ “nhìn rồi trả lời”, mà còn tích lũy bằng chứng hình học 3D từ nhiều ảnh/góc nhìn theo thời gian.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Tách rõ &lt;strong&gt;scene memory&lt;/strong&gt; và &lt;strong&gt;agent memory&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Dùng công cụ không gian để hỗ trợ reasoning, thay vì trông chờ hoàn toàn vào tham số mô hình
&lt;/li&gt;
&lt;li&gt;Phù hợp cho bài toán multi-view và video spatial reasoning&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Robot điều hướng và thao tác trong môi trường lạ
&lt;/li&gt;
&lt;li&gt;AR/VR, digital twin
&lt;/li&gt;
&lt;li&gt;Hệ thống giám sát hoặc mapping từ nhiều camera&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là hướng rất đáng chú ý: thay vì ép VLM “tự nghĩ hết”, tác giả trang bị thêm &lt;strong&gt;tool-use&lt;/strong&gt;, một chiến lược đang chứng minh hiệu quả trong agent AI.&lt;/p&gt;




&lt;h2&gt;
  
  
  7) DF3DV-1K: Dataset lớn cho novel view synthesis không bị nhiễu bởi distractor
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Trong novel view synthesis và radiance field, vật thể gây nhiễu hoặc cảnh lộn xộn có thể làm giảm chất lượng tái dựng rất mạnh. Nhưng cộng đồng lại thiếu dataset chuẩn để nghiên cứu bài toán &lt;strong&gt;distractor-free&lt;/strong&gt; một cách hệ thống.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DF3DV-1K cung cấp &lt;strong&gt;1,048 scene&lt;/strong&gt; với gần &lt;strong&gt;90 nghìn ảnh&lt;/strong&gt;, bao phủ nhiều loại distractor và chủ đề cảnh khác nhau. Bên cạnh đó có tập con &lt;strong&gt;DF3DV-41&lt;/strong&gt; để đánh giá robustness.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Dataset quy mô lớn, tập trung đúng vào vấn đề distractor
&lt;/li&gt;
&lt;li&gt;Có cả dữ liệu “sạch” và “nhiễu” để nghiên cứu đối sánh
&lt;/li&gt;
&lt;li&gt;Cho thấy fine-tune bộ tăng cường ảnh 2D dựa trên diffusion có thể cải thiện radiance field methods&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Quét 3D sản phẩm
&lt;/li&gt;
&lt;li&gt;Tạo tài sản 3D cho game, phim, commerce
&lt;/li&gt;
&lt;li&gt;Mapping và reconstruction trong môi trường thực&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Trong nhiều lĩnh vực, dữ liệu tốt đôi khi quan trọng không kém mô hình tốt; đây là một ví dụ rất rõ.&lt;/p&gt;




&lt;h2&gt;
  
  
  8) Beyond Static Leaderboards: Leaderboard tĩnh không đủ để đánh giá LLM agent
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nhiều benchmark agent hiện nay cho ra một &lt;strong&gt;điểm tổng hợp&lt;/strong&gt; rồi xếp hạng model. Nhưng điểm số này có thể không phản ánh năng lực triển khai thật: thứ hạng dễ đảo, nhạy với setup, và không cho biết model có bền vững khi ra ngoài phân phối hay không.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper đề xuất chuyển từ tư duy leaderboard tĩnh sang &lt;strong&gt;predictive validity&lt;/strong&gt;: benchmark tốt phải dự đoán được hiệu năng trong môi trường triển khai thực tế, đặc biệt ở các thiết lập &lt;strong&gt;out-of-distribution&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Phê bình trực diện cách cộng đồng đang đánh giá agent
&lt;/li&gt;
&lt;li&gt;Đề xuất tiêu chí đánh giá gắn với deployability
&lt;/li&gt;
&lt;li&gt;Nhấn mạnh tính &lt;strong&gt;falsifiable&lt;/strong&gt; và ổn định của benchmark&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Doanh nghiệp chọn agent đáng tin cậy hơn
&lt;/li&gt;
&lt;li&gt;Nhà nghiên cứu thiết kế benchmark khó “game” hơn
&lt;/li&gt;
&lt;li&gt;Giảm khoảng cách giữa kết quả demo và hệ thống production&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là paper rất quan trọng về phương pháp luận. Trong giai đoạn agent AI bùng nổ, &lt;strong&gt;đo sai sẽ dẫn đến xây sai&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  9) FreeStyle: Sinh ảnh với điều khiển riêng style và content nhờ khai thác LoRA cộng đồng
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Sinh ảnh theo &lt;strong&gt;hai tham chiếu&lt;/strong&gt; — một ảnh cho style, một ảnh cho content — là bài toán rất hấp dẫn nhưng khó. Mô hình dễ bị &lt;strong&gt;content leakage&lt;/strong&gt;, tức là style reference vô tình kéo theo cả nội dung, hoặc ngược lại.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
FreeStyle khai thác kho &lt;strong&gt;LoRA cộng đồng&lt;/strong&gt; để tạo dữ liệu style-content triplet ở quy mô lớn. Trên nền dữ liệu này, tác giả huấn luyện framework dual-reference generation với các cơ chế disentanglement như &lt;strong&gt;attention-level enrichment constraint&lt;/strong&gt; và &lt;strong&gt;frequency-aware RoPE modulation&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;“LoRA mining” như một chiến lược mở rộng dữ liệu rất thông minh
&lt;/li&gt;
&lt;li&gt;Giải quyết cụ thể vấn đề content leakage
&lt;/li&gt;
&lt;li&gt;Đề xuất benchmark và metric riêng như &lt;strong&gt;Content Alignment Score&lt;/strong&gt; và &lt;strong&gt;Rejection Score&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Thiết kế sáng tạo, quảng cáo, concept art
&lt;/li&gt;
&lt;li&gt;Cá nhân hóa sinh ảnh theo phong cách thương hiệu
&lt;/li&gt;
&lt;li&gt;Công cụ hỗ trợ artist với kiểm soát tốt hơn&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là hướng rất thực dụng vì bài toán điều khiển generation ngày càng quan trọng hơn bản thân chất lượng hình ảnh thuần túy.&lt;/p&gt;




&lt;h2&gt;
  
  
  10) FlowBender: Huấn luyện mô hình sinh để tự sửa lỗi theo feedback
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Diffusion và flow models thường gặp khó khi phải thoả mãn ràng buộc chính xác, ví dụ đầu ra phải khớp cấu trúc, điều kiện hoặc mục tiêu downstream. Guidance tại thời điểm suy luận có thể giúp, nhưng thường không ổn định hoặc tốn kém.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
FlowBender đưa ra cơ chế &lt;strong&gt;closed-loop training&lt;/strong&gt;: mô hình thực hiện một lượt dự đoán ban đầu, nhận feedback về sai lệch so với ràng buộc, rồi học cách &lt;strong&gt;refine&lt;/strong&gt; đầu ra trong lượt tiếp theo. Nói ngắn gọn: mô hình không chỉ sinh, mà còn học cách &lt;strong&gt;tự sửa&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Kết hợp feedback trực tiếp vào quá trình huấn luyện
&lt;/li&gt;
&lt;li&gt;Có cả biến thể gradient-based và zero-order
&lt;/li&gt;
&lt;li&gt;Áp dụng được cho nhiều bài toán: image-to-image, restoration, 3D mesh texturing&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Hệ thống sinh ảnh có ràng buộc chặt
&lt;/li&gt;
&lt;li&gt;Chỉnh sửa ảnh tự động
&lt;/li&gt;
&lt;li&gt;Pipeline 3D yêu cầu đầu ra đúng cấu trúc hơn&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là xu hướng rất đáng theo dõi vì AI tương lai nhiều khả năng sẽ không chỉ “one-shot generate”, mà sẽ hoạt động theo vòng lặp &lt;strong&gt;generate → evaluate → correct&lt;/strong&gt;.&lt;/p&gt;




&lt;h1&gt;
  
  
  Kết luận: 4 xu hướng lớn đang hiện ra
&lt;/h1&gt;

&lt;p&gt;Nhìn tổng thể 10 paper này, có thể thấy 4 xu hướng chính:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Hiệu quả hóa mô hình&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Moebius và PerceptionDLM cho thấy cộng đồng ngày càng quan tâm tới mô hình &lt;strong&gt;nhanh, nhẹ, dùng được thật&lt;/strong&gt;, không chỉ chạy đua tham số.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Embodied/Agent AI tiến gần thực tế hơn&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DragMesh-2, Playful Agentic Robot Learning và S-Agent đều nhấn mạnh chuyện AI phải tương tác với &lt;strong&gt;thế giới vật lý và không gian 3D&lt;/strong&gt;, chứ không chỉ trả lời văn bản.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Đánh giá AI đang trở thành nút thắt lớn&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Multi-LCB và Beyond Static Leaderboards nhắc rằng nếu benchmark kém, ta sẽ hiểu sai tiến bộ của mô hình.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Generation chuyển từ “tạo cho đẹp” sang “tạo có kiểm soát”&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
FreeStyle và FlowBender thể hiện rõ nhu cầu sinh nội dung nhưng phải &lt;strong&gt;đúng style, đúng content, đúng ràng buộc&lt;/strong&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Nếu phải chọn các paper có tác động dài hạn nhất, mình sẽ để ý đặc biệt tới &lt;strong&gt;Multi-LCB&lt;/strong&gt;, &lt;strong&gt;Beyond Static Leaderboards&lt;/strong&gt;, &lt;strong&gt;S-Agent&lt;/strong&gt;, và &lt;strong&gt;FlowBender&lt;/strong&gt;. Lý do là chúng không chỉ cải thiện một tác vụ cụ thể, mà còn tác động tới cách chúng ta xây dựng, đánh giá và triển khai thế hệ AI tiếp theo.&lt;/p&gt;

&lt;p&gt;Nếu bạn muốn, mình có thể làm tiếp một phiên bản &lt;strong&gt;bảng so sánh 10 paper&lt;/strong&gt; theo các cột: lĩnh vực, bài toán, điểm mới, mức độ ứng dụng, và paper nào đáng đọc nhất cho researcher/kỹ sư/product.&lt;/p&gt;

</description>
      <category>ai</category>
      <category>machinelearning</category>
      <category>huggingface</category>
    </item>
    <item>
      <title>Top AI Papers on Hugging Face - 2026-06-22</title>
      <dc:creator>Y Hành Nhan</dc:creator>
      <pubDate>Mon, 22 Jun 2026 16:21:12 +0000</pubDate>
      <link>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-22-402b</link>
      <guid>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-22-402b</guid>
      <description>&lt;h1&gt;
  
  
  10 paper AI nổi bật nhất trên Hugging Face hôm nay: từ inpainting siêu nhẹ đến benchmark mới cho AI agent
&lt;/h1&gt;

&lt;p&gt;Hôm nay mình tổng hợp 10 paper đang được upvote cao nhất trên Hugging Face. Danh sách này khá thú vị vì trải dài nhiều mảng: tạo ảnh, robot, benchmark code, multimodal reasoning, 3D vision và đánh giá LLM agent.&lt;/p&gt;

&lt;p&gt;Thay vì chỉ liệt kê, bài viết sẽ đi theo 4 câu hỏi cho mỗi paper:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Bài toán là gì?&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ý tưởng chính là gì?&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Điểm mới nằm ở đâu?&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ứng dụng thực tế ra sao?&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  1) Moebius: mô hình inpainting 0.2B nhưng chất lượng tiệm cận hệ 10B
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance&lt;/em&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;ID:&lt;/strong&gt; 2606.19195&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Image inpainting là bài toán điền phần ảnh bị thiếu, bị che hoặc muốn chỉnh sửa. Vấn đề là các mô hình mạnh hiện nay thường rất lớn, nặng tài nguyên và chậm suy luận. Điều này gây khó cho triển khai thực tế trên máy yếu, ứng dụng mobile hay pipeline cần phản hồi nhanh.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Moebius hướng đến một framework cực nhẹ, chỉ khoảng &lt;strong&gt;0.2B tham số&lt;/strong&gt;, nhưng vẫn giữ chất lượng gần với các mô hình lớn hơn rất nhiều. Họ làm điều đó bằng cách cải thiện cách mô hình kết hợp:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;ngữ cảnh cục bộ&lt;/strong&gt; để khớp texture, biên, chi tiết;&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;ngữ nghĩa toàn cục&lt;/strong&gt; để phần ảnh điền vào hợp logic với toàn cảnh.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Một điểm cốt lõi là block &lt;strong&gt;Local-λ Mix Interaction (LλMI)&lt;/strong&gt; giúp mô hình trao đổi thông tin local-global hiệu quả hơn, tránh nghẽn biểu diễn.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Thiết kế kiến trúc nhẹ nhưng vẫn giữ khả năng hiểu ngữ cảnh rộng.&lt;/li&gt;
&lt;li&gt;Cơ chế &lt;strong&gt;adaptive multi-granularity distillation&lt;/strong&gt; để chắt lọc kiến thức từ mô hình lớn sang mô hình nhỏ.&lt;/li&gt;
&lt;li&gt;Tối ưu cho &lt;strong&gt;high-fidelity inpainting&lt;/strong&gt; chứ không chỉ giảm tham số đơn thuần.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Xóa vật thể khỏi ảnh&lt;/li&gt;
&lt;li&gt;Khôi phục ảnh cũ/hỏng&lt;/li&gt;
&lt;li&gt;Chỉnh sửa ảnh thương mại điện tử&lt;/li&gt;
&lt;li&gt;Công cụ sáng tạo nội dung chạy nhanh hơn, rẻ hơn&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Moebius là tín hiệu rõ ràng rằng không phải lúc nào “to hơn” cũng tốt hơn trong generative vision.&lt;/p&gt;




&lt;h2&gt;
  
  
  2) DragMesh-2: robot thao tác tay-vật thể khéo léo hơn, kể cả với vật thể có khớp
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects&lt;/em&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;ID:&lt;/strong&gt; 2606.15133&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Điều khiển bàn tay robot tương tác với vật thể vốn đã khó; khi vật thể có khớp như kéo, kẹp, cửa, nắp gập thì còn khó hơn. Hệ thống phải vừa hiểu hình học, vừa xử lý lực tiếp xúc và động học.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Paper đề xuất framework &lt;strong&gt;contact-driven&lt;/strong&gt;: thay vì chỉ dựa vào quỹ đạo hình học, mô hình học trực tiếp từ tín hiệu liên quan đến &lt;strong&gt;tiếp xúc&lt;/strong&gt; giữa tay và vật. Ngoài ra, họ đưa vào &lt;strong&gt;physically informed contact-aware training&lt;/strong&gt; để policy bền vững hơn khi điều kiện vật lý thay đổi.&lt;/p&gt;

&lt;p&gt;Một thành phần nổi bật là &lt;strong&gt;PICA&lt;/strong&gt;, giúp tăng độ robust khi lực tiếp xúc, damping hay điều kiện tương tác thay đổi, ngay cả khi &lt;strong&gt;không có tactile feedback&lt;/strong&gt;.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Tập trung vào &lt;strong&gt;articulated objects&lt;/strong&gt;, khó hơn đáng kể so với vật thể cứng đơn giản.&lt;/li&gt;
&lt;li&gt;Huấn luyện policy nhận thức tốt hơn về tiếp xúc vật lý.&lt;/li&gt;
&lt;li&gt;Tăng robust mà không cần cảm biến xúc giác chuyên dụng.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Robot dịch vụ mở/đóng đồ vật trong nhà&lt;/li&gt;
&lt;li&gt;Robot công nghiệp thao tác với linh kiện có khớp&lt;/li&gt;
&lt;li&gt;Robot hỗ trợ người già hoặc người khuyết tật trong môi trường thật&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là một bước tiến quan trọng nếu muốn robot “khéo tay” hơn ngoài phòng lab.&lt;/p&gt;




&lt;h2&gt;
  
  
  3) Multi-LCB: benchmark code đa ngôn ngữ để đo đúng năng lực LLM
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages&lt;/em&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;ID:&lt;/strong&gt; 2606.20517&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Nhiều benchmark code hiện nay thiên quá mạnh về &lt;strong&gt;Python&lt;/strong&gt;, khiến ta khó biết một mô hình code tốt thật hay chỉ tối ưu cho một ngôn ngữ phổ biến. Ngoài ra còn có nguy cơ &lt;strong&gt;contamination&lt;/strong&gt;: dữ liệu benchmark có thể đã bị mô hình thấy trong quá trình train.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Multi-LCB mở rộng LiveCodeBench sang &lt;strong&gt;12 ngôn ngữ lập trình&lt;/strong&gt;, giữ lại triết lý đánh giá contamination-aware và bài toán gần với competitive programming, nơi cần suy luận thật sự chứ không chỉ sinh code template.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Benchmark đa ngôn ngữ quy mô lớn.&lt;/li&gt;
&lt;li&gt;Kiểm soát contamination tốt hơn.&lt;/li&gt;
&lt;li&gt;Phơi bày hiện tượng &lt;strong&gt;Python overfitting&lt;/strong&gt; của nhiều LLM code hiện nay.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Chọn model phù hợp cho doanh nghiệp dùng Java, C++, Go, Rust, không chỉ Python&lt;/li&gt;
&lt;li&gt;Đánh giá công bằng hơn năng lực code assistant&lt;/li&gt;
&lt;li&gt;Hỗ trợ nghiên cứu về transfer learning giữa các ngôn ngữ lập trình&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Paper này đặc biệt đáng chú ý vì benchmark tốt thường tác động lâu dài không kém mô hình mới.&lt;/p&gt;




&lt;h2&gt;
  
  
  4) PerceptionDLM: caption nhiều vùng ảnh song song bằng diffusion language model
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models&lt;/em&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;ID:&lt;/strong&gt; 2606.19534&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Các mô hình multimodal thường phải mô tả nhiều vùng trong ảnh. Nhưng nếu caption từng vùng tuần tự thì suy luận chậm, đặc biệt trong ứng dụng cần phản hồi thời gian thực.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;PerceptionDLM khai thác &lt;strong&gt;parallel decoding&lt;/strong&gt; cho bài toán perception theo vùng. Thay vì xử lý từng region độc lập theo kiểu tuần tự, mô hình dùng:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;structured attention masking&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;efficient prompting&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;để mô tả nhiều vùng cùng lúc mà vẫn giữ chất lượng caption.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Đưa tư duy xử lý song song vào &lt;strong&gt;multimodal diffusion language models&lt;/strong&gt;.&lt;/li&gt;
&lt;li&gt;Cân bằng tốt giữa &lt;strong&gt;tốc độ suy luận&lt;/strong&gt; và &lt;strong&gt;chất lượng nhận thức vùng&lt;/strong&gt;.&lt;/li&gt;
&lt;li&gt;Hướng đến perception có cấu trúc hơn, thay vì chỉ hỏi-đáp ảnh tổng quát.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Hệ thống mô tả ảnh chi tiết cho accessibility&lt;/li&gt;
&lt;li&gt;Phân tích cảnh cho robot hoặc xe tự hành&lt;/li&gt;
&lt;li&gt;Truy xuất nội dung ảnh theo vùng cho tìm kiếm đa phương thức&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nếu multimodal AI muốn đi vào sản phẩm, tối ưu latency như paper này là rất quan trọng.&lt;/p&gt;




&lt;h2&gt;
  
  
  5) Playful Agentic Robot Learning: robot học kỹ năng bằng “chơi đùa”
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;Playful Agentic Robot Learning&lt;/em&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;ID:&lt;/strong&gt; 2606.19419&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Robot thường cần rất nhiều dữ liệu gán nhãn hoặc huấn luyện riêng cho từng tác vụ. Điều này tốn kém và kém linh hoạt. Câu hỏi là: robot có thể tự khám phá thế giới để tích lũy kỹ năng dùng lại được không?&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Paper đề xuất cho robot &lt;strong&gt;self-directed play&lt;/strong&gt;: tự chơi, tự thử nghiệm trong môi trường để tạo ra và lưu trữ các kỹ năng reusable. Những kỹ năng này được biểu diễn dưới dạng &lt;strong&gt;robot-code policies&lt;/strong&gt;, gần với tư tưởng &lt;strong&gt;Code-as-Policy&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Sau đó, khi gặp tác vụ downstream, robot tận dụng thư viện kỹ năng sẵn có mà không cần train lại nhiều.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Kết hợp &lt;strong&gt;agentic behavior&lt;/strong&gt; với học kỹ năng cho robot.&lt;/li&gt;
&lt;li&gt;Xây dựng &lt;strong&gt;skill library&lt;/strong&gt; thông qua khám phá chủ động.&lt;/li&gt;
&lt;li&gt;Chứng minh kỹ năng học từ “play” có thể chuyển sang task thật.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Robot gia đình học dần thói quen tương tác&lt;/li&gt;
&lt;li&gt;Robot kho bãi thích nghi task mới nhanh hơn&lt;/li&gt;
&lt;li&gt;Nền tảng robot general-purpose bớt phụ thuộc vào dữ liệu tác vụ chuyên biệt&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là hướng khá hấp dẫn vì nó gần với cách con người và động vật học kỹ năng cơ bản.&lt;/p&gt;




&lt;h2&gt;
  
  
  6) S-Agent: dùng tool và memory để tăng reasoning không gian
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence&lt;/em&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;ID:&lt;/strong&gt; 2606.20515&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Visual language model thường mạnh ở mô tả hình ảnh đơn lẻ, nhưng yếu khi cần &lt;strong&gt;hiểu không gian 3D liên tục&lt;/strong&gt; từ nhiều góc nhìn hoặc video. Chúng thiếu bộ nhớ và công cụ suy luận không gian chuyên biệt.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;S-Agent biến mô hình thành một “agent” có:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;temporal memory&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;scene memory&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;agent memory&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;bộ &lt;strong&gt;spatial tools&lt;/strong&gt; để suy luận hình học&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nhờ đó, hệ thống có thể tích lũy bằng chứng qua thời gian và qua nhiều view để đưa ra kết luận không gian chính xác hơn.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Kết hợp &lt;strong&gt;tool use&lt;/strong&gt; với &lt;strong&gt;memory&lt;/strong&gt; cho spatial reasoning.&lt;/li&gt;
&lt;li&gt;Hỗ trợ suy luận từ &lt;strong&gt;multi-view imagery&lt;/strong&gt; và video.&lt;/li&gt;
&lt;li&gt;Chuyển từ nhận biết tĩnh sang &lt;strong&gt;evidence accumulation&lt;/strong&gt; theo thời gian.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Robot điều hướng trong môi trường phức tạp&lt;/li&gt;
&lt;li&gt;Digital twin và phân tích scene 3D&lt;/li&gt;
&lt;li&gt;Hệ thống giám sát/video understanding cần hiểu cấu trúc không gian&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Paper này phản ánh xu hướng lớn: VLM không chỉ “nhìn và nói”, mà còn phải “nhớ và suy luận”.&lt;/p&gt;




&lt;h2&gt;
  
  
  7) DF3DV-1K: dataset lớn cho novel view synthesis không bị nhiễu bởi distractor
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis&lt;/em&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;ID:&lt;/strong&gt; 2604.13416&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Novel view synthesis thường gặp vấn đề khi cảnh chứa nhiều &lt;strong&gt;distractor&lt;/strong&gt;: vật thể thừa, nền lộn xộn, yếu tố gây nhiễu. Tuy nhiên, thiếu dataset chuẩn để nghiên cứu bài toán “distractor-free” một cách hệ thống.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;DF3DV-1K giới thiệu dataset thực gồm &lt;strong&gt;1,048 scene&lt;/strong&gt; và gần &lt;strong&gt;90 nghìn ảnh&lt;/strong&gt;, bao phủ nhiều loại distractor và theme cảnh khác nhau. Ngoài ra còn có &lt;strong&gt;DF3DV-41&lt;/strong&gt; để benchmark độ robust.&lt;/p&gt;

&lt;p&gt;Paper cũng cho thấy việc fine-tune một &lt;strong&gt;diffusion-based 2D enhancer&lt;/strong&gt; giúp cải thiện các phương pháp radiance field / 3D Gaussian Splatting trong bối cảnh này.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Dataset quy mô lớn, nhắm đúng bài toán distractor-free NVS.&lt;/li&gt;
&lt;li&gt;Có benchmark riêng để đo robustness.&lt;/li&gt;
&lt;li&gt;Chỉ ra lợi ích rõ ràng của dữ liệu phù hợp trong pipeline tái dựng 3D.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Tạo mô hình 3D sản phẩm sạch cho e-commerce&lt;/li&gt;
&lt;li&gt;AR/VR cần tái dựng cảnh ít nhiễu&lt;/li&gt;
&lt;li&gt;Quét vật thể phục vụ game, thiết kế, bảo tồn số&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Trong 3D vision, dữ liệu tốt thường mở ra cả một hướng nghiên cứu mới.&lt;/p&gt;




&lt;h2&gt;
  
  
  8) Beyond Static Leaderboards: leaderboard agent hiện nay đang đo sai điều gì?
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents&lt;/em&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;ID:&lt;/strong&gt; 2606.19704&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Rất nhiều benchmark agent hiện nay tổng hợp mọi thứ thành &lt;strong&gt;một điểm số duy nhất&lt;/strong&gt;. Vấn đề là điểm cao trên leaderboard không đảm bảo mô hình sẽ tốt trong môi trường triển khai thật. Hơn nữa, thứ hạng có thể thiếu ổn định.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Paper lập luận rằng thay vì chỉ nhìn &lt;strong&gt;aggregate score&lt;/strong&gt;, ta cần đánh giá theo &lt;strong&gt;predictive validity&lt;/strong&gt;: benchmark có dự đoán được hiệu năng trong tình huống thật hay ngoài phân phối hay không?&lt;/p&gt;

&lt;p&gt;Họ nhấn mạnh nhu cầu đánh giá agent bằng các tiêu chí:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;gắn với triển khai thực tế,&lt;/li&gt;
&lt;li&gt;kiểm tra &lt;strong&gt;out-of-distribution&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;có khả năng phản biện/falsifiable.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Chuyển trọng tâm từ leaderboard tĩnh sang giá trị dự đoán thực tế.&lt;/li&gt;
&lt;li&gt;Chỉ ra &lt;strong&gt;rank instability&lt;/strong&gt; là vấn đề nghiêm trọng.&lt;/li&gt;
&lt;li&gt;Gợi ý khung đánh giá phù hợp hơn cho “kỷ nguyên AI agent”.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Thiết kế benchmark tốt hơn cho coding agent, web agent, ops agent&lt;/li&gt;
&lt;li&gt;Giúp doanh nghiệp chọn mô hình đáng tin cậy hơn&lt;/li&gt;
&lt;li&gt;Hạn chế tối ưu benchmark kiểu “học mẹo”&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là paper rất đáng đọc với bất kỳ ai đang xây benchmark hoặc ra quyết định mua model.&lt;/p&gt;




&lt;h2&gt;
  
  
  9) FreeStyle: điều khiển đồng thời style và content nhờ khai thác cộng đồng LoRA
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining&lt;/em&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;ID:&lt;/strong&gt; 2606.20506&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Sinh ảnh theo &lt;strong&gt;hai tham chiếu&lt;/strong&gt;: một ảnh cho style, một ảnh cho content, là bài toán hấp dẫn nhưng khó. Mô hình dễ bị &lt;strong&gt;content leakage&lt;/strong&gt;, tức style reference làm lẫn nội dung hoặc ngược lại.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;FreeStyle khai thác kho &lt;strong&gt;community LoRA&lt;/strong&gt; để xây tập dữ liệu lớn các bộ ba style-content-output. Từ đó huấn luyện framework dual-reference generation có cơ chế disentanglement tốt hơn.&lt;/p&gt;

&lt;p&gt;Họ còn đưa vào các kỹ thuật như:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;attention-level enrichment constraint&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;frequency-aware RoPE modulation&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;để tách tốt hơn tín hiệu style và content.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Ý tưởng &lt;strong&gt;LoRA mining&lt;/strong&gt; từ cộng đồng rất thực dụng và scalable.&lt;/li&gt;
&lt;li&gt;Tập trung xử lý bài toán content leakage một cách hệ thống.&lt;/li&gt;
&lt;li&gt;Đề xuất benchmark và metric như &lt;strong&gt;Content Alignment Score&lt;/strong&gt;.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Thiết kế sáng tạo, concept art&lt;/li&gt;
&lt;li&gt;Công cụ tạo ảnh theo phong cách thương hiệu&lt;/li&gt;
&lt;li&gt;Ứng dụng cá nhân hóa hình ảnh trong marketing và giải trí&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Paper này khá sát với nhu cầu người dùng cuối của generative AI.&lt;/p&gt;




&lt;h2&gt;
  
  
  10) FlowBender: mô hình sinh tự sửa lỗi bằng feedback ở lúc suy luận
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows&lt;/em&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;ID:&lt;/strong&gt; 2606.20404&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Các mô hình diffusion/flow có thể tạo kết quả đẹp nhưng chưa chắc &lt;strong&gt;thỏa ràng buộc&lt;/strong&gt; đầu vào, ví dụ bám đúng điều kiện, đúng cấu trúc hoặc đúng alignment. Guidance truyền thống thường chưa đủ ổn định.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;FlowBender đề xuất framework &lt;strong&gt;closed-loop&lt;/strong&gt;: ở thời điểm suy luận, mô hình thực hiện một lượt “look-ahead”, đo lỗi alignment, rồi dùng feedback đó cho &lt;strong&gt;refinement pass&lt;/strong&gt;. Quan trọng hơn, mô hình được &lt;strong&gt;train để biết cách tự sửa&lt;/strong&gt; dựa trên feedback này.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Tư duy self-correction đưa vào conditional flow/diffusion.&lt;/li&gt;
&lt;li&gt;Kết hợp huấn luyện với cơ chế feedback inference-time.&lt;/li&gt;
&lt;li&gt;Áp dụng được cho nhiều tác vụ như image translation, restoration, 3D mesh texturing.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Chỉnh ảnh theo điều kiện chính xác hơn&lt;/li&gt;
&lt;li&gt;Khôi phục ảnh ít lỗi hơn&lt;/li&gt;
&lt;li&gt;Tạo texture 3D bám mô tả tốt hơn&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;FlowBender đại diện cho xu hướng “generative model không chỉ sinh ra, mà còn biết tự kiểm tra và sửa”.&lt;/p&gt;




&lt;h1&gt;
  
  
  Kết luận
&lt;/h1&gt;

&lt;p&gt;Nhìn toàn bộ top 10 hôm nay, có thể thấy vài xu hướng nổi bật:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Hiệu quả tính toán đang trở thành ưu tiên lớn&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Moebius và PerceptionDLM đều nhấn mạnh mô hình nhẹ hơn hoặc suy luận nhanh hơn nhưng vẫn giữ chất lượng.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Robot learning đang dịch chuyển sang tính chủ động và tính vật lý&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DragMesh-2, Playful Agentic Robot Learning và S-Agent đều cho thấy robot cần không chỉ perception, mà còn hiểu tiếp xúc, không gian và tự khám phá.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Benchmark và evaluation đang được xem xét lại nghiêm túc&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Multi-LCB và Beyond Static Leaderboards nhắc chúng ta rằng đo sai thì tối ưu càng mạnh càng dễ đi lệch.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Generative AI đang tiến tới khả năng điều khiển chính xác hơn&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
FreeStyle và FlowBender đều tập trung vào việc giảm lỗi bám điều kiện và tăng khả năng kiểm soát đầu ra.&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Nếu phải chọn vài paper đáng theo dõi nhất theo tác động dài hạn, mình sẽ nghiêng về:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Moebius&lt;/strong&gt;: vì hiệu quả/chi phí luôn là đòn bẩy lớn cho ứng dụng thật.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Multi-LCB&lt;/strong&gt;: vì benchmark tốt có thể ảnh hưởng cả hệ sinh thái.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Beyond Static Leaderboards&lt;/strong&gt;: vì đánh giá agent hiện nay đúng là đang có nhiều lỗ hổng.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;S-Agent&lt;/strong&gt;: vì spatial intelligence là mảnh ghép còn thiếu của AI đa phương thức.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nếu bạn muốn, ở bước tiếp theo mình có thể làm tiếp một trong 3 kiểu sau:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Viết bản ngắn hơn kiểu newsletter 5 phút đọc&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Làm bảng so sánh 10 paper theo lĩnh vực, độ mới, tiềm năng ứng dụng&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Đào sâu 3 paper quan trọng nhất thành phân tích kỹ thuật chi tiết&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;

</description>
      <category>ai</category>
      <category>machinelearning</category>
      <category>huggingface</category>
    </item>
    <item>
      <title>Top AI Papers on Hugging Face - 2026-06-22</title>
      <dc:creator>Y Hành Nhan</dc:creator>
      <pubDate>Mon, 22 Jun 2026 16:14:14 +0000</pubDate>
      <link>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-22-2f0l</link>
      <guid>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-22-2f0l</guid>
      <description>&lt;h1&gt;
  
  
  Top AI Papers on Hugging Face - 2026-06-22
&lt;/h1&gt;

&lt;p&gt;Mỗi ngày, Hugging Face lại phản ánh khá rõ “nhịp đập” của cộng đồng AI: hôm nay mọi người quan tâm điều gì, xu hướng nào đang nóng, và đâu là những ý tưởng có thể sớm đi từ paper sang sản phẩm. Danh sách top paper hôm nay rất đa dạng: từ &lt;strong&gt;image inpainting&lt;/strong&gt;, &lt;strong&gt;robot learning&lt;/strong&gt;, &lt;strong&gt;spatial reasoning&lt;/strong&gt;, &lt;strong&gt;benchmark cho code LLM&lt;/strong&gt;, đến &lt;strong&gt;đánh giá agent&lt;/strong&gt; và &lt;strong&gt;flow/diffusion tự sửa lỗi&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Dưới đây là phần tổng hợp theo góc nhìn thực dụng: &lt;strong&gt;bài toán là gì, ý tưởng chính là gì, điểm mới ở đâu, và ứng dụng thực tế ra sao&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  1) Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Image inpainting là nhiệm vụ điền phần ảnh bị thiếu hoặc bị xóa sao cho tự nhiên và nhất quán với ngữ cảnh. Vấn đề là các mô hình mạnh thường rất lớn, tốn tài nguyên và chậm khi suy luận.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Moebius xây dựng một framework inpainting rất nhẹ, chỉ khoảng &lt;strong&gt;0.2B tham số&lt;/strong&gt;, nhưng cố gắng đạt chất lượng gần với các mô hình cỡ &lt;strong&gt;10B&lt;/strong&gt;. Trọng tâm của họ là thiết kế các khối tương tác cục bộ–toàn cục để vừa giữ được chi tiết không gian, vừa nắm được ngữ nghĩa tổng thể của ảnh.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Khối &lt;strong&gt;Local-λ Mix Interaction (LλMI)&lt;/strong&gt; để kết hợp ngữ cảnh cục bộ và prior ngữ nghĩa toàn cục.
&lt;/li&gt;
&lt;li&gt;Giảm “representation bottleneck” bằng cách xử lý tương tác hiệu quả hơn.
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Adaptive multi-granularity distillation&lt;/strong&gt; để chắt lọc tri thức từ mô hình mạnh sang mô hình nhỏ.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Xóa vật thể trong ảnh sản phẩm hoặc ảnh cá nhân
&lt;/li&gt;
&lt;li&gt;Khôi phục ảnh cũ
&lt;/li&gt;
&lt;li&gt;Chỉnh sửa hậu kỳ trên thiết bị tài nguyên hạn chế
&lt;/li&gt;
&lt;li&gt;Tích hợp vào công cụ sáng tạo thời gian thực&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Moebius đáng chú ý vì nó đi đúng xu hướng hiện nay: &lt;strong&gt;thay vì chỉ chạy đua mô hình to hơn, tìm cách nén hiệu quả để đem chất lượng cao xuống mức triển khai thực tế&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  2) DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điều khiển bàn tay robot để tương tác với các vật thể có khớp nối như kéo ngăn kéo, mở cửa, vặn nắp… khó hơn nhiều so với cầm nắm vật thể cứng đơn giản. Robot phải xử lý tiếp xúc, lực, ma sát và thay đổi động học trong lúc thao tác.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DragMesh-2 học chính sách điều khiển dựa trên &lt;strong&gt;contact-driven manipulation&lt;/strong&gt;. Thay vì chỉ nhìn hình học hoặc quỹ đạo, mô hình nhấn mạnh vào động lực học tiếp xúc thực tế giữa tay và vật.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Tập trung vào &lt;strong&gt;articulated objects&lt;/strong&gt;, một lớp bài toán rất quan trọng nhưng phức tạp.
&lt;/li&gt;
&lt;li&gt;Cơ chế &lt;strong&gt;physically informed contact-aware training&lt;/strong&gt; giúp chính sách ổn định hơn.
&lt;/li&gt;
&lt;li&gt;Thành phần &lt;strong&gt;PICA&lt;/strong&gt; tăng độ bền vững khi tải tiếp xúc thay đổi, ngay cả khi không có cảm biến xúc giác.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Robot gia dụng mở cửa, kéo tủ, vận hành đồ dùng
&lt;/li&gt;
&lt;li&gt;Tự động hóa trong kho/xưởng với vật thể có bản lề/khớp
&lt;/li&gt;
&lt;li&gt;Robot hỗ trợ chăm sóc, phục hồi chức năng&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Điểm hấp dẫn của paper này là nó tiến gần hơn đến kiểu thao tác mà con người xem là “rất bình thường”, nhưng robot lại thường thất bại.&lt;/p&gt;




&lt;h2&gt;
  
  
  3) Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất nhiều benchmark code cho LLM bị lệch sang Python. Điều đó làm khó việc đánh giá năng lực lập trình thực sự của mô hình trên nhiều ngôn ngữ.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Multi-LCB mở rộng &lt;strong&gt;LiveCodeBench&lt;/strong&gt; thành benchmark đa ngôn ngữ, bao phủ &lt;strong&gt;12 ngôn ngữ lập trình&lt;/strong&gt;, đồng thời vẫn giữ cách kiểm soát contamination và giao thức đánh giá chặt chẽ.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Không còn đánh giá code-generation theo góc nhìn “Python-centric”.
&lt;/li&gt;
&lt;li&gt;Thiết kế benchmark để đo &lt;strong&gt;cross-language generalization&lt;/strong&gt;.
&lt;/li&gt;
&lt;li&gt;Nhấn mạnh nguy cơ &lt;strong&gt;language-specific contamination&lt;/strong&gt;, tức mô hình có thể vô tình “nhớ đề” ở ngôn ngữ này nhưng không ở ngôn ngữ khác.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Đánh giá copilot lập trình doanh nghiệp
&lt;/li&gt;
&lt;li&gt;So sánh LLM cho team backend, systems, mobile hoặc embedded
&lt;/li&gt;
&lt;li&gt;Chọn mô hình phù hợp nếu stack không phải Python&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là một paper quan trọng về mặt đánh giá, vì &lt;strong&gt;benchmark quyết định cách cộng đồng tối ưu mô hình&lt;/strong&gt;. Nếu chỉ đo Python, ta có thể đang tối ưu sai mục tiêu.&lt;/p&gt;




&lt;h2&gt;
  
  
  4) PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Các mô hình multimodal thường xử lý caption theo vùng ảnh khá chậm, đặc biệt khi phải mô tả nhiều region khác nhau.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
PerceptionDLM cho phép &lt;strong&gt;parallel region perception&lt;/strong&gt; trong diffusion language models, tức suy luận song song trên nhiều vùng thay vì tuần tự từng vùng một.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Structured attention masking&lt;/strong&gt; để tổ chức luồng chú ý hiệu quả
&lt;/li&gt;
&lt;li&gt;Cơ chế prompting phù hợp cho captioning đa vùng
&lt;/li&gt;
&lt;li&gt;Tăng tốc inference mà không làm giảm nhiều chất lượng mô tả&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Phân tích ảnh trong retail, an ninh, y tế
&lt;/li&gt;
&lt;li&gt;Hệ thống accessibility mô tả ảnh chi tiết
&lt;/li&gt;
&lt;li&gt;Công cụ hiểu scene cho robot hoặc tác vụ thị giác đa đối tượng&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nếu các MLLM muốn đi vào ứng dụng đòi hỏi latency thấp, những cải tiến kiểu PerceptionDLM là rất cần thiết.&lt;/p&gt;




&lt;h2&gt;
  
  
  5) Playful Agentic Robot Learning
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Robot thường học từng tác vụ riêng lẻ và cần huấn luyện lại nhiều khi đổi môi trường hoặc mục tiêu. Điều này không giống con người, vốn học kỹ năng chung thông qua chơi và khám phá.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper đề xuất cho robot &lt;strong&gt;self-directed play&lt;/strong&gt;: tự khám phá môi trường, tự tạo trải nghiệm, rồi lưu lại kỹ năng thành một &lt;strong&gt;skill library&lt;/strong&gt; để tái sử dụng cho task downstream.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Kết hợp &lt;strong&gt;Code-as-Policy&lt;/strong&gt; với embodied agent
&lt;/li&gt;
&lt;li&gt;Biến quá trình “chơi” thành nguồn dữ liệu học kỹ năng
&lt;/li&gt;
&lt;li&gt;Áp dụng kỹ năng đã học cho task mới mà &lt;strong&gt;không cần huấn luyện thêm&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Robot gia dụng học cách tương tác với vật dụng mới
&lt;/li&gt;
&lt;li&gt;Robot nghiên cứu trong môi trường mở
&lt;/li&gt;
&lt;li&gt;Giảm chi phí thu thập dữ liệu có nhãn cho robot&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là hướng đi rất đáng chú ý vì nó phản ánh tư duy ngày càng phổ biến trong robotics: &lt;strong&gt;học kỹ năng tổng quát trước, tối ưu task cụ thể sau&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  6) S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Visual language models thường mạnh ở hỏi–đáp hình ảnh đơn lẻ, nhưng yếu khi phải hiểu không gian 3D liên tục từ nhiều góc nhìn hoặc video.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
S-Agent tăng cường VLM bằng &lt;strong&gt;temporal memory&lt;/strong&gt; và bộ &lt;strong&gt;spatial tools&lt;/strong&gt; phân cấp, giúp mô hình tích lũy bằng chứng hình học theo thời gian để suy luận không gian tốt hơn.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Kết hợp &lt;strong&gt;scene memory&lt;/strong&gt; và &lt;strong&gt;agent memory&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Dùng công cụ không gian để tạo bằng chứng 3D thay vì chỉ suy luận thuần token
&lt;/li&gt;
&lt;li&gt;Hỗ trợ &lt;strong&gt;spatio-temporal evidence accumulation&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Robot điều hướng và thao tác trong không gian thật
&lt;/li&gt;
&lt;li&gt;Phân tích video giám sát, AR/VR, digital twin
&lt;/li&gt;
&lt;li&gt;Hệ thống trợ lý thị giác cần nhớ scene qua nhiều khung hình&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;S-Agent đại diện cho xu hướng lớn: &lt;strong&gt;muốn có spatial intelligence thật sự, mô hình phải biết dùng công cụ và có trí nhớ theo thời gian&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  7) DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Novel view synthesis ngoài đời thật thường bị ảnh hưởng bởi vật cản, nền rối và distractor. Tuy nhiên dataset chuẩn cho bài toán “distractor-free” còn thiếu.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DF3DV-1K xây dựng dataset quy mô lớn với &lt;strong&gt;1,048 scene&lt;/strong&gt; và gần &lt;strong&gt;90,000 ảnh&lt;/strong&gt;, bao phủ nhiều loại distractor và chủ đề cảnh khác nhau.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Tạo benchmark chuyên cho &lt;strong&gt;distractor-free radiance field research&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Có cả subset tinh chọn để đánh giá độ bền vững
&lt;/li&gt;
&lt;li&gt;Chứng minh rằng fine-tune enhancer 2D dựa trên diffusion có thể cải thiện các phương pháp radiance field&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;3D reconstruction cho e-commerce và digital asset
&lt;/li&gt;
&lt;li&gt;Quét vật thể/cảnh trong môi trường lộn xộn
&lt;/li&gt;
&lt;li&gt;AR/VR và nội dung 3D từ dữ liệu thực tế&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Trong 3D vision, dataset tốt thường có tác động rất lớn, đôi khi còn lớn hơn một kiến trúc mới.&lt;/p&gt;




&lt;h2&gt;
  
  
  8) Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Leaderboards hiện tại thường gom mọi thứ vào một điểm số tổng. Nhưng với agent, cách đo này dễ gây hiểu nhầm: thứ hạng có thể bất ổn và không dự báo tốt hiệu quả triển khai ngoài đời.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper kêu gọi chuyển từ &lt;strong&gt;static aggregate-score leaderboard&lt;/strong&gt; sang khung đánh giá dựa trên &lt;strong&gt;predictive validity&lt;/strong&gt; và khả năng hoạt động ở điều kiện &lt;strong&gt;out-of-distribution&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Chỉ ra vấn đề &lt;strong&gt;rank instability&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Nhấn mạnh các chiều đánh giá gắn với deployment
&lt;/li&gt;
&lt;li&gt;Đề xuất tiêu chí mang tính &lt;strong&gt;falsifiable&lt;/strong&gt; cho đánh giá agent&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Doanh nghiệp chọn agent cho production
&lt;/li&gt;
&lt;li&gt;Thiết kế benchmark có giá trị dự báo tốt hơn
&lt;/li&gt;
&lt;li&gt;Giảm rủi ro “leaderboard overfitting”&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là paper rất quan trọng về mặt phương pháp luận. Trong kỷ nguyên agent, &lt;strong&gt;điểm benchmark cao chưa chắc đồng nghĩa với hệ thống đáng tin khi triển khai&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  9) FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Sinh ảnh theo cả &lt;strong&gt;style reference&lt;/strong&gt; và &lt;strong&gt;content reference&lt;/strong&gt; là bài toán hấp dẫn nhưng khó, vì mô hình dễ bị “content leakage” hoặc trộn style không đúng ý.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
FreeStyle khai thác &lt;strong&gt;community LoRA mining&lt;/strong&gt; để tạo dữ liệu style-content quy mô lớn, sau đó huấn luyện framework dual-reference generation có cơ chế disentanglement tốt hơn.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Tận dụng hệ sinh thái LoRA cộng đồng làm nguồn dữ liệu và prior
&lt;/li&gt;
&lt;li&gt;Cơ chế giảm &lt;strong&gt;content leakage&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Đề xuất benchmark và metric như &lt;strong&gt;Content Alignment Score&lt;/strong&gt; và &lt;strong&gt;Rejection Score&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Thiết kế sáng tạo, concept art, quảng cáo
&lt;/li&gt;
&lt;li&gt;Tạo ảnh giữ bố cục của một ảnh nhưng mang phong cách của ảnh khác
&lt;/li&gt;
&lt;li&gt;Công cụ cá nhân hóa tạo nội dung&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Paper này nằm đúng điểm giao giữa nghiên cứu và nhu cầu người dùng sáng tạo: &lt;strong&gt;kiểm soát được cả nội dung lẫn phong cách&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  10) FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Diffusion và flow model thường gặp khó khăn trong việc thỏa mãn ràng buộc đầu ra. Guidance lúc inference giúp phần nào, nhưng thường chưa ổn định và tốn chi phí.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
FlowBender dùng &lt;strong&gt;closed-loop training&lt;/strong&gt;, huấn luyện mô hình biết tự sửa sai dựa trên feedback tại thời điểm suy luận.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Cơ chế hai bước: &lt;strong&gt;look-ahead pass&lt;/strong&gt; và &lt;strong&gt;refinement pass&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Học cách hiệu chỉnh lỗi căn chỉnh thay vì chỉ dựa vào supervision tĩnh
&lt;/li&gt;
&lt;li&gt;Có cả biến thể gradient-based và zero-order&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Image-to-image translation
&lt;/li&gt;
&lt;li&gt;Khôi phục ảnh
&lt;/li&gt;
&lt;li&gt;3D mesh texturing
&lt;/li&gt;
&lt;li&gt;Các tác vụ sinh nội dung cần bám sát điều kiện đầu vào&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;FlowBender phản ánh một xu hướng rất đáng quan tâm: &lt;strong&gt;mô hình sinh không chỉ tạo ra đầu ra, mà còn biết tự kiểm tra và tự sửa&lt;/strong&gt;.&lt;/p&gt;




&lt;h1&gt;
  
  
  Kết luận
&lt;/h1&gt;

&lt;p&gt;Top paper hôm nay cho thấy 4 xu hướng nổi bật.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Thứ nhất, hiệu quả triển khai quan trọng hơn bao giờ hết.&lt;/strong&gt; Moebius và PerceptionDLM đều tìm cách giảm chi phí mà vẫn giữ chất lượng cao.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Thứ hai, embodied AI đang dịch chuyển từ demo đơn lẻ sang năng lực tổng quát hơn.&lt;/strong&gt; DragMesh-2, Playful Agentic Robot Learning và S-Agent cùng nhắm tới robot/agent hiểu thế giới vật lý sâu hơn, nhớ lâu hơn và hành động linh hoạt hơn.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Thứ ba, cộng đồng bắt đầu nghiêm túc hơn với đánh giá.&lt;/strong&gt; Multi-LCB và paper về predictive validity cho thấy benchmark không chỉ là bảng xếp hạng, mà là cơ chế định hình cả hướng nghiên cứu.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Thứ tư, generative models đang tiến tới khả năng kiểm soát và tự hiệu chỉnh.&lt;/strong&gt; FreeStyle và FlowBender là hai ví dụ tiêu biểu.&lt;/p&gt;

&lt;p&gt;Nếu phải chọn những paper có ảnh hưởng rộng nhất về mặt dài hạn, mình sẽ để mắt đặc biệt tới &lt;strong&gt;Moebius&lt;/strong&gt;, &lt;strong&gt;Multi-LCB&lt;/strong&gt;, &lt;strong&gt;S-Agent&lt;/strong&gt;, và &lt;strong&gt;Beyond Static Leaderboards&lt;/strong&gt;. Chúng không chỉ giải một bài toán hẹp, mà còn chạm tới những câu hỏi lớn hơn: làm sao để mô hình &lt;strong&gt;nhẹ hơn&lt;/strong&gt;, &lt;strong&gt;được đánh giá đúng hơn&lt;/strong&gt;, &lt;strong&gt;hiểu không gian tốt hơn&lt;/strong&gt;, và &lt;strong&gt;đáng tin hơn khi triển khai&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Nếu bạn muốn, mình có thể tiếp tục chuyển bài này thành:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;bản ngắn kiểu newsletter 5 phút đọc&lt;/strong&gt;, hoặc
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;bản phân tích sâu từng paper kèm link arXiv/GitHub theo format bảng&lt;/strong&gt;.&lt;/li&gt;
&lt;/ol&gt;

</description>
      <category>ai</category>
      <category>machinelearning</category>
      <category>huggingface</category>
    </item>
    <item>
      <title>Test từ Dify</title>
      <dc:creator>Y Hành Nhan</dc:creator>
      <pubDate>Mon, 22 Jun 2026 16:10:14 +0000</pubDate>
      <link>https://dev.to/y_hnhnhan_2f26de65ffcc4/test-tu-dify-1n0b</link>
      <guid>https://dev.to/y_hnhnhan_2f26de65ffcc4/test-tu-dify-1n0b</guid>
      <description>&lt;h1&gt;
  
  
  Hello&lt;code&gt;n&lt;/code&gt;nBài test.
&lt;/h1&gt;

</description>
    </item>
  </channel>
</rss>
