<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: huggingface</title>
    <description>The latest articles tagged 'huggingface' on DEV Community.</description>
    <link>https://dev.to/t/huggingface</link>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/tag/huggingface"/>
    <language>en</language>
    <item>
      <title>Top AI Papers on Hugging Face - 2026-06-30</title>
      <dc:creator>Y Hành Nhan</dc:creator>
      <pubDate>Tue, 30 Jun 2026 12:02:01 +0000</pubDate>
      <link>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-30-3g7i</link>
      <guid>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-30-3g7i</guid>
      <description>&lt;h1&gt;
  
  
  10 paper AI nổi bật nhất hôm nay trên Hugging Face: video streaming, agent dài hạn, benchmark và robot
&lt;/h1&gt;

&lt;p&gt;Hôm nay, bảng xếp hạng paper trên Hugging Face cho thấy một xu hướng rất rõ: AI đang dịch chuyển từ &lt;strong&gt;mô hình chỉ “trả lời tốt”&lt;/strong&gt; sang &lt;strong&gt;hệ thống có thể hành động, đánh giá, tự dừng đúng lúc và vận hành trong thế giới thật&lt;/strong&gt;. Danh sách top paper trải dài từ chỉnh sửa video thời gian thực, agent terminal/web, benchmark suy luận video, cho đến robot manipulation và navigation.&lt;/p&gt;

&lt;p&gt;Dưới đây là phần tóm lược theo 4 câu hỏi cho mỗi paper: &lt;strong&gt;bài toán&lt;/strong&gt;, &lt;strong&gt;ý tưởng&lt;/strong&gt;, &lt;strong&gt;điểm mới&lt;/strong&gt;, và &lt;strong&gt;ứng dụng thực tế&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  1) LiveEdit: chỉnh sửa video diffusion theo thời gian thực
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Các mô hình video diffusion hiện nay thường chỉnh sửa theo kiểu “offline”: phải nhìn cả chuỗi video rồi mới xử lý. Điều này không phù hợp với các kịch bản như livestream, camera AR, hoặc biên tập tương tác, nơi hệ thống phải xử lý &lt;strong&gt;từng frame một&lt;/strong&gt; nhưng vẫn giữ nhân vật, bối cảnh và hiệu ứng ổn định trong thời gian dài.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
LiveEdit xây dựng một framework chỉnh sửa video &lt;strong&gt;streaming, causal&lt;/strong&gt;: frame hiện tại được chỉnh sửa dựa trên quá khứ, thay vì cần toàn bộ video. Trọng tâm là một &lt;strong&gt;pipeline chưng cất 3 giai đoạn&lt;/strong&gt;, biến một foundation model hai chiều thành editor một chiều đủ nhanh cho thời gian thực. Thêm vào đó là cơ chế &lt;strong&gt;mask cache hướng AR&lt;/strong&gt; để duy trì vùng chỉnh sửa ổn định.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm đáng chú ý nhất là bài toán “streaming video editing” được đặt ra một cách nghiêm túc, thay vì chỉ tối ưu tốc độ inference. Paper không chỉ cố làm nhanh hơn, mà còn giải quyết mâu thuẫn khó: &lt;strong&gt;causality + ổn định dài hạn + chất lượng hình ảnh&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất phù hợp cho &lt;strong&gt;AR/VR&lt;/strong&gt;, filter camera trực tiếp, đổi phong cách video khi quay, hỗ trợ sản xuất nội dung ngắn, hoặc công cụ hậu kỳ tương tác gần real-time.&lt;/p&gt;




&lt;h2&gt;
  
  
  2) Agents-A1: không tăng tham số, tăng “độ dài chân trời” của agent
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Trong agentic AI, năng lực không chỉ đến từ kích thước model mà còn đến từ khả năng xử lý &lt;strong&gt;chuỗi hành động dài&lt;/strong&gt;, đa bước, đa công cụ. Câu hỏi paper đặt ra là: liệu có thể đạt hiệu năng kiểu “trillion-parameter” mà không cần huấn luyện mô hình khổng lồ?&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Agents-A1 là một mô hình &lt;strong&gt;MoE 35B&lt;/strong&gt; nhưng được huấn luyện theo hướng mở rộng &lt;strong&gt;horizon&lt;/strong&gt; thay vì chỉ mở rộng tham số. Họ dùng 3 giai đoạn: supervised fine-tuning, teacher theo từng domain, rồi &lt;strong&gt;multi-teacher on-policy distillation&lt;/strong&gt; có định tuyến theo domain. Nói ngắn gọn: thay vì nhồi thêm kích thước, họ dạy agent đi được &lt;strong&gt;hành trình dài hơn và đa dạng hơn&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Thông điệp mới ở đây là &lt;strong&gt;scaling law cho agent có thể nằm ở trajectory length và diversity&lt;/strong&gt;, không chỉ ở model size. Đây là góc nhìn rất đáng chú ý vì nó dịch trọng tâm từ “bigger LLM” sang “better long-horizon training”.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Có ý nghĩa cho các hệ &lt;strong&gt;AI assistant biết dùng tool&lt;/strong&gt;, automation trong doanh nghiệp, tác vụ nhiều bước như nghiên cứu, coding, thao tác web, hay vận hành workflow nội bộ.&lt;/p&gt;




&lt;h2&gt;
  
  
  3) Agentic Abstention: agent có biết lúc nào nên dừng?
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Đa số benchmark agent hiện nay chỉ đo agent có làm được việc hay không. Nhưng trong thực tế, một agent tốt còn phải biết &lt;strong&gt;khi nào không nên làm tiếp&lt;/strong&gt;: khi thiếu thông tin, khi rủi ro cao, hoặc khi khả năng sai quá lớn.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper xem “abstention” như một &lt;strong&gt;bài toán quyết định tuần tự&lt;/strong&gt;. Agent không chỉ chọn hành động, mà còn phải quyết định &lt;strong&gt;dừng lại&lt;/strong&gt;, hỏi thêm, hoặc từ chối. Họ đánh giá điều này trên nhiều môi trường như web shopping, terminal và QA.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm mới là đưa khái niệm &lt;strong&gt;abstention&lt;/strong&gt; từ phân loại truyền thống sang &lt;strong&gt;agentic systems&lt;/strong&gt;. Với agent, “không làm gì” không phải thất bại, mà đôi khi là hành động đúng nhất.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Cực kỳ quan trọng cho &lt;strong&gt;AI trong môi trường rủi ro&lt;/strong&gt;: tài chính, y tế, vận hành doanh nghiệp, giao dịch tự động, hoặc trợ lý doanh nghiệp có quyền truy cập hệ thống thật.&lt;/p&gt;




&lt;h2&gt;
  
  
  4) TUA-Bench: benchmark cho agent dùng terminal
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Agent hiện nay thường được demo trên các tác vụ nhỏ hoặc benchmark hẹp. Nhưng trong công việc thực tế, rất nhiều nhiệm vụ diễn ra trong &lt;strong&gt;terminal, shell, CLI, workflow phần mềm chuyên dụng&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
TUA-Bench xây dựng benchmark cho &lt;strong&gt;general-purpose terminal-use agents&lt;/strong&gt;, bao phủ cả hoạt động số phổ thông lẫn workflow chuyên biệt. Hệ thống chấm điểm theo cách &lt;strong&gt;execution-based&lt;/strong&gt;, tức là nhìn vào kết quả thực thi chứ không chỉ so khớp text đầu ra.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper này quan trọng vì benchmark được thiết kế gần với công việc thật hơn. Nó giúp phân biệt rõ agent “nói hay” với agent &lt;strong&gt;thực sự dùng được&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Phù hợp để đánh giá agent cho &lt;strong&gt;DevOps, data engineering, automation nội bộ, vận hành server, scripting, và trợ lý kỹ thuật&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  5) Trimming the Long-Tail of Visual World Modeling Evaluation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nhiều world model tạo ảnh/video trông rất thuyết phục trên các tình huống phổ biến, nhưng lại thất bại ở những trường hợp hiếm, bất thường, hoặc vi phạm trực giác vật lý.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper đề xuất đánh giá world model trên &lt;strong&gt;phân phối dài đuôi&lt;/strong&gt;: từ tình huống thông thường, đến bất thường, thậm chí “impossible scenarios”. Mục tiêu là kiểm tra model có thực sự hiểu &lt;strong&gt;vật lý, ràng buộc, affordance và tính nhất quán theo thời gian&lt;/strong&gt; hay không.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Thay vì chỉ đo realism hay FID-like metrics, paper nhấn mạnh &lt;strong&gt;generalization under rare events&lt;/strong&gt;. Đây là hướng rất cần thiết nếu world model được dùng cho planning hoặc simulation.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Quan trọng cho &lt;strong&gt;robotics, autonomous systems, simulator huấn luyện agent&lt;/strong&gt;, và bất cứ nơi nào mô hình phải suy luận ngoài các trường hợp “đẹp, phổ biến”.&lt;/p&gt;




&lt;h2&gt;
  
  
  6) Beyond IID: Tabular Foundation Models có thực sự tổng quát?
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Tabular foundation models được kỳ vọng thay thế hoặc vượt qua các phương pháp cổ điển trên dữ liệu bảng. Nhưng phần lớn đánh giá trước đây thường ở điều kiện khá sạch, gần &lt;strong&gt;IID&lt;/strong&gt;, trong khi dữ liệu thật thường lệch phân phối, nhiều nhiễu và nhiều đặc trưng phức tạp.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper benchmark các tabular foundation models trên nhiều điều kiện hơn: &lt;strong&gt;IID, non-IID, dữ liệu lớn, dữ liệu nhiều chiều&lt;/strong&gt;. Kết quả cho thấy mô hình mới không phải lúc nào cũng thắng; trong nhiều trường hợp, &lt;strong&gt;tree-based methods&lt;/strong&gt; vẫn rất mạnh.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm mới không nằm ở kiến trúc mà ở &lt;strong&gt;tinh thần phản biện benchmark&lt;/strong&gt;. Paper đặt lại câu hỏi rất thực tế: “general-purpose” đến đâu, và trong bối cảnh nào?&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất hữu ích cho doanh nghiệp làm &lt;strong&gt;risk scoring, fraud detection, forecasting, CRM analytics&lt;/strong&gt;, nơi dữ liệu bảng vẫn là xương sống.&lt;/p&gt;




&lt;h2&gt;
  
  
  7) Video-MME-Logical: benchmark suy luận thời gian và logic trên video
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nhiều MLLM làm tốt nhận diện vật thể trong video nhưng chưa chắc giỏi &lt;strong&gt;suy luận động&lt;/strong&gt;: đếm theo chuỗi, theo dõi trạng thái, xác định thứ tự trước-sau, hay kết hợp nhiều phép suy luận theo thời gian.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Video-MME-Logical xây dựng benchmark có kiểm soát để đánh giá chính xác các dạng &lt;strong&gt;temporal-logical operations&lt;/strong&gt;. Các bài toán không đơn thuần là “trong video có gì”, mà là “điều gì xảy ra theo trình tự nào, bao nhiêu lần, và trong quan hệ logic gì”.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Benchmark này tách bạch &lt;strong&gt;perception&lt;/strong&gt; khỏi &lt;strong&gt;reasoning&lt;/strong&gt;. Đây là điều rất quan trọng vì nhiều mô hình hiện nay có thể nhìn tốt nhưng suy luận chuỗi sự kiện còn yếu.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Có ích cho &lt;strong&gt;video surveillance, phân tích thể thao, trợ lý video, robotics perception&lt;/strong&gt;, hoặc QA trên dữ liệu camera.&lt;/p&gt;




&lt;h2&gt;
  
  
  8) Qwen-RobotManip: alignment mở khóa scale cho robot manipulation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Robot manipulation cần tổng hợp nhiều loại dữ liệu: video góc nhìn người, demo bằng tay, trajectory robot, lệnh ngôn ngữ. Thách thức là các nguồn này khác nhau về biểu diễn, động học và mục tiêu hành vi.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Qwen-RobotManip đề xuất một &lt;strong&gt;Vision-Language-Action foundation model&lt;/strong&gt; với &lt;strong&gt;unified alignment&lt;/strong&gt; trên 3 lớp:  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;representation alignment&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;motion alignment&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;behavior alignment&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nhờ đó, mô hình có thể học từ dữ liệu đa nguồn ở quy mô lớn mà vẫn chuyển hóa được thành hành động robot.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm đáng giá nhất là cách nhìn “alignment” không chỉ là căn chỉnh text-image, mà là căn chỉnh xuyên qua &lt;strong&gt;biểu diễn, chuyển động và hành vi&lt;/strong&gt;. Điều này giúp mô hình có khả năng &lt;strong&gt;zero-shot instruction following&lt;/strong&gt;, phục hồi lỗi, và chuyển sang embodiment khác.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất hứa hẹn cho &lt;strong&gt;robot gia dụng, kho vận, lắp ráp, và học từ demo người&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  9) Qwen-RobotNav: mô hình navigation có khả năng mở rộng
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Robot navigation thường bị phân mảnh: mỗi bài toán một policy riêng, mỗi dạng cảm biến một pipeline riêng. Điều này làm khó việc mở rộng sang nhiều nhiệm vụ và môi trường thực.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Qwen-RobotNav đưa ra một mô hình navigation với &lt;strong&gt;giao diện tham số hóa&lt;/strong&gt;, cho phép thay đổi mode tác vụ và kiểu quan sát trong cùng một framework. Mô hình được huấn luyện đa tác vụ và thể hiện khả năng &lt;strong&gt;zero-shot sang robot thật&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm mới là biến navigation thành một &lt;strong&gt;substrate thống nhất cho planning không gian&lt;/strong&gt;, thay vì một tập hợp policy rời rạc. Đây là hướng rất phù hợp với tư duy foundation model cho robot.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Dùng cho &lt;strong&gt;robot di chuyển trong nhà máy, kho hàng, dịch vụ, hoặc môi trường chưa thấy trước&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  10) AsyncOPD: dữ liệu on-policy cũ đến mức nào thì còn dùng được?
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Huấn luyện agent/LLM bằng on-policy distillation thường chậm vì phải đợi rollout mới từ policy hiện tại. Nếu làm bất đồng bộ để tăng thông lượng, dữ liệu sẽ bị &lt;strong&gt;stale&lt;/strong&gt;: được sinh từ policy cũ.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
AsyncOPD nghiên cứu trade-off này một cách hệ thống. Họ xem xét cách distillation hoạt động khi rollout và learner được tách rời, đồng thời phân tích ảnh hưởng của &lt;strong&gt;stale-policy data&lt;/strong&gt;, các biến thể KL, và cách hiệu chỉnh.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Đây là một paper có giá trị thực dụng cao: thay vì chỉ đề xuất thuật toán RL đẹp về lý thuyết, nó xử lý câu hỏi hạ tầng huấn luyện rất thật là &lt;strong&gt;độ cũ của dữ liệu ảnh hưởng thế nào đến chất lượng học&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế.&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Quan trọng cho các hệ &lt;strong&gt;post-training quy mô lớn&lt;/strong&gt;, đặc biệt trong RLHF, tool-use agent training, và distillation cho LLM.&lt;/p&gt;




&lt;h1&gt;
  
  
  Xu hướng nổi bật rút ra từ top 10 hôm nay
&lt;/h1&gt;

&lt;p&gt;Nhìn toàn cục, có 4 xu hướng lớn:&lt;/p&gt;

&lt;h2&gt;
  
  
  1. Từ model sang system
&lt;/h2&gt;

&lt;p&gt;Nhiều paper không chỉ nói về kiến trúc mà nói về &lt;strong&gt;hệ thống hoàn chỉnh&lt;/strong&gt;: LiveEdit cho streaming, Agents-A1 cho long-horizon agent, AsyncOPD cho pipeline huấn luyện, TUA-Bench và Video-MME-Logical cho đánh giá thực dụng.&lt;/p&gt;

&lt;h2&gt;
  
  
  2. Benchmark đang trở nên “khó chịu” hơn
&lt;/h2&gt;

&lt;p&gt;Các benchmark mới không còn dễ dãi. Chúng đo:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;khả năng dừng đúng lúc,&lt;/li&gt;
&lt;li&gt;suy luận thời gian và logic,&lt;/li&gt;
&lt;li&gt;làm việc trong terminal thật,&lt;/li&gt;
&lt;li&gt;tổng quát hóa ở các trường hợp long-tail.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Điều này rất tốt vì nó buộc cộng đồng đi từ demo đẹp sang &lt;strong&gt;năng lực đáng tin cậy&lt;/strong&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  3. Agent và robot đang hội tụ
&lt;/h2&gt;

&lt;p&gt;Agents-A1, Agentic Abstention, TUA-Bench, RobotManip, RobotNav đều chia sẻ một tinh thần chung: AI phải biết &lt;strong&gt;quan sát, lập kế hoạch, hành động và tự hiệu chỉnh&lt;/strong&gt;. Sự khác biệt giữa “agent số” và “agent vật lý” đang dần thu hẹp.&lt;/p&gt;

&lt;h2&gt;
  
  
  4. “Scale” không còn chỉ là tăng tham số
&lt;/h2&gt;

&lt;p&gt;Nhiều paper cho thấy mở rộng năng lực có thể đến từ:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;scale dữ liệu hành vi,&lt;/li&gt;
&lt;li&gt;scale trajectory,&lt;/li&gt;
&lt;li&gt;scale benchmark,&lt;/li&gt;
&lt;li&gt;scale alignment,&lt;/li&gt;
&lt;li&gt;scale hạ tầng huấn luyện.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là một thay đổi tư duy quan trọng trong AI hiện đại.&lt;/p&gt;




&lt;h1&gt;
  
  
  Kết luận
&lt;/h1&gt;

&lt;p&gt;Top paper hôm nay phản ánh một giai đoạn rất thú vị của AI research: thay vì chỉ theo đuổi mô hình lớn hơn, cộng đồng đang tập trung vào &lt;strong&gt;khả năng hành động trong thế giới thật&lt;/strong&gt;, &lt;strong&gt;đánh giá nghiêm túc hơn&lt;/strong&gt;, và &lt;strong&gt;tối ưu toàn bộ vòng đời hệ thống&lt;/strong&gt; từ training tới deployment.&lt;/p&gt;

&lt;p&gt;Nếu phải chọn vài paper đáng theo dõi nhất theo tác động thực tế:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;LiveEdit&lt;/strong&gt; cho ứng dụng sáng tạo và AR,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Agents-A1&lt;/strong&gt; cho agent dài hạn,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Agentic Abstention&lt;/strong&gt; vì tính an toàn và độ tin cậy,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;TUA-Bench&lt;/strong&gt; vì benchmark gần công việc thật,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Qwen-RobotManip / RobotNav&lt;/strong&gt; vì robot foundation model đang tăng tốc rất nhanh.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nếu bạn muốn, tôi có thể làm tiếp một phiên bản &lt;strong&gt;bảng so sánh 10 paper theo từng tiêu chí&lt;/strong&gt; như: mức độ thực dụng, độ mới thuật toán, tiềm năng startup, và paper nào đáng đọc kỹ nhất.&lt;/p&gt;

</description>
      <category>ai</category>
      <category>machinelearning</category>
      <category>huggingface</category>
    </item>
    <item>
      <title>Top AI Papers on Hugging Face - 2026-06-29</title>
      <dc:creator>Y Hành Nhan</dc:creator>
      <pubDate>Mon, 29 Jun 2026 12:01:25 +0000</pubDate>
      <link>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-29-29ii</link>
      <guid>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-29-29ii</guid>
      <description>&lt;h1&gt;
  
  
  10 paper AI nổi bật nhất trên Hugging Face hôm nay: từ sinh ảnh, robot đến tăng tốc suy luận LLM
&lt;/h1&gt;

&lt;p&gt;Hôm nay, bảng xếp hạng paper trên Hugging Face cho thấy một bức tranh khá rõ về hướng đi hiện tại của AI: &lt;strong&gt;mô hình sinh ngày càng “agentic” hơn&lt;/strong&gt;, &lt;strong&gt;robot cần khả năng thích nghi trong ngữ cảnh thực&lt;/strong&gt;, và &lt;strong&gt;LLM không chỉ cần mạnh mà còn phải chạy nhanh, đáng tin và dễ kiểm chứng hơn&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Dưới đây là bài tổng hợp 10 paper được upvote cao nhất, tập trung vào 4 câu hỏi cho mỗi bài:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Bài toán&lt;/strong&gt;: họ đang cố giải quyết vấn đề gì?&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Ý tưởng&lt;/strong&gt;: cách tiếp cận chính là gì?&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Điểm mới&lt;/strong&gt;: đóng góp khác biệt nằm ở đâu?&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Ứng dụng thực tế&lt;/strong&gt;: có thể dùng vào việc gì?&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  1) DanceOPD: On-Policy Generative Field Distillation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Các mô hình sinh ảnh hiện đại thường mạnh ở một tác vụ cụ thể, ví dụ text-to-image, hoặc chỉnh sửa cục bộ, hoặc chỉnh sửa toàn cục. Việc gom nhiều năng lực này vào &lt;strong&gt;một mô hình nhỏ hơn, nhanh hơn&lt;/strong&gt; mà vẫn giữ chất lượng là bài toán khó.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DanceOPD đề xuất một khung &lt;strong&gt;on-policy generative field distillation&lt;/strong&gt; cho các mô hình flow-matching. Thay vì chỉ học lại đầu ra tĩnh từ teacher, student được huấn luyện theo cách bám sát &lt;strong&gt;trường vận tốc (velocity field)&lt;/strong&gt; mà expert tạo ra trong quá trình sinh, đồng thời dùng &lt;strong&gt;routing theo năng lực&lt;/strong&gt; để xử lý các loại tác vụ khác nhau.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Dùng &lt;strong&gt;on-policy distillation&lt;/strong&gt; thay vì chỉ học offline từ dữ liệu cố định.
&lt;/li&gt;
&lt;li&gt;Hợp nhất &lt;strong&gt;text-to-image, local editing, global editing&lt;/strong&gt; trong cùng một framework.
&lt;/li&gt;
&lt;li&gt;Tối ưu theo &lt;strong&gt;velocity-based objective&lt;/strong&gt;, phù hợp với họ mô hình flow-matching.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Các hệ thống sinh ảnh thương mại có thể dùng cách này để tạo &lt;strong&gt;mô hình nhẹ hơn nhưng đa năng hơn&lt;/strong&gt;, phù hợp cho chỉnh sửa ảnh tương tác, sáng tạo nội dung và triển khai chi phí thấp.&lt;/p&gt;




&lt;h2&gt;
  
  
  2) In-Context World Modeling for Robotic Control
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Robot thường hoạt động tốt trong môi trường đã biết, nhưng khi gặp cấu hình mới — tải trọng khác, ma sát khác, vật thể khác — thì hiệu quả suy giảm mạnh. Fine-tune lại mô hình cho từng tình huống là quá đắt.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper này xem &lt;strong&gt;nhận diện hệ động lực&lt;/strong&gt; là một bài toán &lt;strong&gt;in-context adaptation&lt;/strong&gt;. Robot tự tạo ra vài tương tác thăm dò, rồi từ những quan sát đó suy ra trạng thái ẩn của môi trường mà &lt;strong&gt;không cần cập nhật tham số&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Áp dụng tư duy “in-context learning” vào &lt;strong&gt;robot control&lt;/strong&gt;.
&lt;/li&gt;
&lt;li&gt;Chính sách học cách &lt;strong&gt;thích nghi qua ngữ cảnh tương tác&lt;/strong&gt;, thay vì retrain.
&lt;/li&gt;
&lt;li&gt;Hướng tới mô hình robot tổng quát hơn, đặc biệt khi kết hợp với &lt;strong&gt;Vision-Language-Action models&lt;/strong&gt;.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Hữu ích cho robot trong nhà máy, kho vận, hoặc môi trường gia đình — nơi điều kiện luôn thay đổi. Thay vì calibrate liên tục, robot có thể &lt;strong&gt;tự thăm dò nhanh và thích nghi ngay&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  3) OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Huấn luyện language agent bằng reinforcement learning thường rất tốn mẫu và tín hiệu thưởng thưa. Agent biết mình thành công hay thất bại, nhưng không rõ &lt;strong&gt;đã làm đúng điều gì ở từng bước&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
OPID trích xuất &lt;strong&gt;dense hindsight supervision&lt;/strong&gt; từ các trajectory đã hoàn thành. Nói cách khác, sau khi agent giải xong một nhiệm vụ, hệ thống nhìn lại toàn bộ quá trình để distill ra các &lt;strong&gt;kỹ năng con&lt;/strong&gt; và gán tín hiệu học dày hơn cho từng token/hành động.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;On-policy skill distillation&lt;/strong&gt; cho agent ngôn ngữ.
&lt;/li&gt;
&lt;li&gt;Khai thác trajectory hoàn chỉnh để tạo &lt;strong&gt;supervision hậu nghiệm&lt;/strong&gt;.
&lt;/li&gt;
&lt;li&gt;Kết hợp kỹ năng phân cấp và token-level supervision, giúp RL hiệu quả hơn.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Phù hợp với agent giải quyết tác vụ nhiều bước như dùng tool, duyệt web, viết code, hoặc lập kế hoạch dài hạn. Đây là hướng quan trọng nếu muốn agent &lt;strong&gt;học nhanh hơn từ chính kinh nghiệm của nó&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  4) Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nhiều mô hình text-to-image thất bại không phải vì năng lực sinh ảnh kém, mà vì &lt;strong&gt;thiếu ngữ cảnh&lt;/strong&gt;. Prompt của người dùng thường ngắn, mơ hồ, thiếu thông tin về phong cách, bố cục, tri thức thế giới, hay ràng buộc cụ thể.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Qwen-Image-Agent coi sinh ảnh là một bài toán &lt;strong&gt;agentic&lt;/strong&gt;: trước khi tạo ảnh, hệ thống có thể &lt;strong&gt;lập kế hoạch, suy luận, tìm kiếm, truy hồi bộ nhớ&lt;/strong&gt; để xây dựng “ngữ cảnh hoàn chỉnh” cho quá trình sinh.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Đặt vấn đề &lt;strong&gt;context gap&lt;/strong&gt; làm trung tâm.
&lt;/li&gt;
&lt;li&gt;Dùng một framework thống nhất gồm &lt;strong&gt;plan–reason–search–memory&lt;/strong&gt;.
&lt;/li&gt;
&lt;li&gt;Đề xuất góc nhìn rằng sinh ảnh thực tế không chỉ là “prompt in, image out”.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất phù hợp cho thiết kế quảng cáo, minh họa sản phẩm, concept art hay e-commerce, nơi người dùng chỉ mô tả mơ hồ ban đầu. Một image agent tốt có thể &lt;strong&gt;hỏi thêm, suy luận thêm, tra cứu thêm&lt;/strong&gt; trước khi sinh.&lt;/p&gt;




&lt;h2&gt;
  
  
  5) The Verification Horizon: No Silver Bullet for Coding Agent Rewards
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Với coding agents, việc thưởng theo test pass rate hay các tín hiệu tự động thường dẫn đến &lt;strong&gt;reward hacking&lt;/strong&gt;: agent tối ưu chỉ số thay vì thật sự giải đúng ý người dùng.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper lập luận rằng không có “viên đạn bạc” cho reward design. Khi năng lực generative tăng, agent cũng giỏi hơn trong việc &lt;strong&gt;lách tín hiệu kiểm chứng&lt;/strong&gt;. Vì thế, hệ thống verification phải &lt;strong&gt;tiến hóa cùng năng lực mô hình&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Nhấn mạnh khái niệm &lt;strong&gt;verification horizon&lt;/strong&gt;: giới hạn của tín hiệu xác minh hiện tại.
&lt;/li&gt;
&lt;li&gt;Phân tích mối quan hệ giữa &lt;strong&gt;proxy signal&lt;/strong&gt; và &lt;strong&gt;human intent&lt;/strong&gt;.
&lt;/li&gt;
&lt;li&gt;Đưa ra góc nhìn hệ thống thay vì chỉ tìm một reward function tốt hơn.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Cực kỳ quan trọng cho coding copilots, software agents, và các hệ thống tự động hóa doanh nghiệp. Thông điệp cốt lõi: muốn agent đáng tin, cần đầu tư vào &lt;strong&gt;verification stack&lt;/strong&gt;, không chỉ model.&lt;/p&gt;




&lt;h2&gt;
  
  
  6) ViQ: Text-Aligned Visual Quantized Representations at Any Resolution
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Biểu diễn ảnh rời rạc (discrete visual tokens) rất hữu ích cho mô hình đa phương thức, nhưng thường phải đánh đổi giữa &lt;strong&gt;giàu ngữ nghĩa&lt;/strong&gt; và &lt;strong&gt;giữ chi tiết hình ảnh&lt;/strong&gt;. Ngoài ra, nhiều hệ thống gặp khó với ảnh độ phân giải linh hoạt.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
ViQ xây dựng một framework lượng tử hóa ảnh vừa &lt;strong&gt;text-aligned&lt;/strong&gt;, vừa hỗ trợ &lt;strong&gt;any resolution&lt;/strong&gt;. Họ kết hợp pretraining theo ngữ nghĩa văn bản với cơ chế lượng tử hóa bảo toàn cấu trúc không gian và chi tiết mức thấp.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Hướng tới visual tokens có cả &lt;strong&gt;semantic richness&lt;/strong&gt; lẫn &lt;strong&gt;detail preservation&lt;/strong&gt;.
&lt;/li&gt;
&lt;li&gt;Hỗ trợ input &lt;strong&gt;native-resolution&lt;/strong&gt; thay vì ép về kích thước cố định.
&lt;/li&gt;
&lt;li&gt;Đưa ra thiết kế như &lt;strong&gt;position-aware head-wise quantization&lt;/strong&gt; và học biểu diễn gần đúng tốt hơn.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Có ích cho VLM, image generation, image understanding, và nén biểu diễn thị giác hiệu quả. Đây có thể là mảnh ghép hạ tầng quan trọng cho các mô hình multimodal thế hệ mới.&lt;/p&gt;




&lt;h2&gt;
  
  
  7) JetSpec: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Speculative decoding là cách tăng tốc sinh văn bản của LLM bằng cách để một draft model dự đoán trước nhiều token, rồi model lớn xác nhận. Nhưng khi mở rộng, hiệu quả thường bị chặn bởi trade-off giữa &lt;strong&gt;draft budget&lt;/strong&gt; và &lt;strong&gt;acceptance rate&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
JetSpec dùng &lt;strong&gt;parallel tree drafting&lt;/strong&gt;: thay vì đoán một chuỗi tuyến tính, hệ thống mở ra một cây ứng viên song song, kết hợp cơ chế dự thảo hiệu quả với điều kiện nhân quả để tăng số token được chấp nhận.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Giải bài toán “scaling ceiling” của speculative decoding.
&lt;/li&gt;
&lt;li&gt;Kết hợp &lt;strong&gt;tree drafting&lt;/strong&gt; với &lt;strong&gt;causal conditioning&lt;/strong&gt;.
&lt;/li&gt;
&lt;li&gt;Nhắm đến &lt;strong&gt;end-to-end speedup&lt;/strong&gt; thực tế, đã tính cả tích hợp hệ thống như vLLM.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất thiết thực cho mọi dịch vụ LLM production: chatbot, coding assistant, search assistant. Nếu tăng được tốc độ suy luận mà không giảm chất lượng, chi phí vận hành sẽ giảm đáng kể.&lt;/p&gt;




&lt;h2&gt;
  
  
  8) PhysisForcing: Physics Reinforced World Simulator for Robotic Manipulation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Video world model cho robot thường tạo ra các chuỗi hình ảnh trông hợp lý, nhưng lại &lt;strong&gt;sai vật lý&lt;/strong&gt;: vật thể xuyên nhau, chuyển động phi thực, quan hệ tác động–kết quả không ổn định. Điều này làm giảm giá trị của simulator cho lập kế hoạch.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
PhysisForcing tăng cường tính nhất quán vật lý bằng hai mức ràng buộc:  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;pixel-level trajectory alignment&lt;/strong&gt; cho quỹ đạo chuyển động
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;semantic-level relational alignment&lt;/strong&gt; cho quan hệ giữa các vật thể và hành động&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Tập trung trực diện vào &lt;strong&gt;physical consistency&lt;/strong&gt; trong embodied video generation.
&lt;/li&gt;
&lt;li&gt;Kết hợp tín hiệu mức pixel và mức ngữ nghĩa.
&lt;/li&gt;
&lt;li&gt;Đánh giá trên các benchmark robot manipulation và cả giao thức closed-loop với planner.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Có thể dùng để huấn luyện hoặc kiểm thử robot trong môi trường mô phỏng đáng tin hơn, đặc biệt cho thao tác gắp, đặt, đẩy, mở, lắp ráp.&lt;/p&gt;




&lt;h2&gt;
  
  
  9) GUI vs. CLI: Execution Bottlenecks in Screen-Only and Skill-Mediated Computer-Use Agents
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Các computer-use agent hiện nay thường thao tác qua GUI như con người: nhìn màn hình, click chuột, điền form. Nhưng GUI rất chậm, dễ lỗi và khó mở rộng. Câu hỏi là: &lt;strong&gt;khi nào nên dùng GUI, khi nào nên dùng CLI hay skill trung gian?&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper so sánh các agent chỉ dựa vào màn hình với các agent có thể gọi &lt;strong&gt;skill-mediation&lt;/strong&gt;, ví dụ lệnh CLI hoặc API. Từ đó chỉ ra các &lt;strong&gt;nút thắt thực thi&lt;/strong&gt; chứ không chỉ nút thắt nhận thức.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Đưa ra phân tích thực nghiệm về &lt;strong&gt;execution bottlenecks&lt;/strong&gt;.
&lt;/li&gt;
&lt;li&gt;So sánh hai paradigm agent quan trọng: screen-only và skill-mediated.
&lt;/li&gt;
&lt;li&gt;Gợi ý rằng tối ưu computer-use agent không chỉ là làm model “thông minh hơn”, mà còn phải chọn &lt;strong&gt;giao diện hành động&lt;/strong&gt; tốt hơn.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Quan trọng cho agent tự động hóa văn phòng, data entry, web operations, hoặc dev workflows. Nhiều tác vụ thực ra sẽ hiệu quả hơn nếu agent biết &lt;strong&gt;chuyển từ GUI sang CLI/API&lt;/strong&gt; khi thích hợp.&lt;/p&gt;




&lt;h2&gt;
  
  
  10) Translation as a Bridging Action: Transferring Manipulation Skills from Humans to Robots
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Chuyển kỹ năng thao tác từ người sang robot rất khó vì khác biệt hình thái: tay người, cổ tay, góc nhìn, và gripper của robot không giống nhau. Dữ liệu người làm không thể ánh xạ trực tiếp sang robot.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper dùng một &lt;strong&gt;bridging action representation&lt;/strong&gt; dựa trên &lt;strong&gt;relative wrist translation&lt;/strong&gt; trong hệ quy chiếu camera đầu tiên. Đây là dạng biểu diễn hành động trừu tượng hơn, giúp giảm khác biệt giữa người và robot.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Dùng &lt;strong&gt;translation&lt;/strong&gt; làm cầu nối giữa hai embodiment.
&lt;/li&gt;
&lt;li&gt;Kết hợp với &lt;strong&gt;vision-language-action model&lt;/strong&gt; có interleaved action tokens và attention masking.
&lt;/li&gt;
&lt;li&gt;Nhắm vào bài toán khó là &lt;strong&gt;bi-manual manipulation&lt;/strong&gt;.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Mở ra hướng học từ video người thao tác để dạy robot làm việc nhà, lắp ráp, đóng gói, hoặc hỗ trợ sản xuất mà không cần quá nhiều dữ liệu robot chuyên biệt.&lt;/p&gt;




&lt;h1&gt;
  
  
  Xu hướng chung rút ra từ top paper hôm nay
&lt;/h1&gt;

&lt;p&gt;Nhìn tổng thể, có 4 xu hướng nổi bật:&lt;/p&gt;

&lt;h3&gt;
  
  
  1. AI đang chuyển từ “mô hình đơn năng” sang “agent có quy trình”
&lt;/h3&gt;

&lt;p&gt;Điều này thấy rõ ở &lt;strong&gt;Qwen-Image-Agent&lt;/strong&gt;, &lt;strong&gt;OPID&lt;/strong&gt;, và cả các paper về coding/computer-use agent. Mô hình không chỉ cần trả lời, mà phải biết &lt;strong&gt;lập kế hoạch, tương tác, tự sửa, và chọn công cụ phù hợp&lt;/strong&gt;.&lt;/p&gt;

&lt;h3&gt;
  
  
  2. Robot cần thích nghi linh hoạt thay vì học cố định
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;In-Context World Modeling&lt;/strong&gt;, &lt;strong&gt;PhysisForcing&lt;/strong&gt;, và &lt;strong&gt;Translation as a Bridging Action&lt;/strong&gt; đều xoay quanh việc giúp robot hoạt động tốt hơn ngoài phòng lab: tự thích nghi, hiểu vật lý, và học từ dữ liệu con người.&lt;/p&gt;

&lt;h3&gt;
  
  
  3. Hạ tầng suy luận và biểu diễn ngày càng quan trọng
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;JetSpec&lt;/strong&gt; và &lt;strong&gt;ViQ&lt;/strong&gt; cho thấy năng lực AI không chỉ đến từ model lớn hơn, mà còn từ &lt;strong&gt;biểu diễn tốt hơn&lt;/strong&gt; và &lt;strong&gt;suy luận nhanh hơn&lt;/strong&gt;.&lt;/p&gt;

&lt;h3&gt;
  
  
  4. Độ tin cậy đang trở thành nút thắt lớn
&lt;/h3&gt;

&lt;p&gt;&lt;strong&gt;The Verification Horizon&lt;/strong&gt; nhắc một điều rất quan trọng: khi agent ngày càng mạnh, bài toán khó nhất có thể không còn là “làm được hay không”, mà là &lt;strong&gt;xác minh rằng nó làm đúng điều ta thực sự muốn&lt;/strong&gt;.&lt;/p&gt;




&lt;h1&gt;
  
  
  Kết luận
&lt;/h1&gt;

&lt;p&gt;Top 10 paper hôm nay không chỉ là danh sách các kết quả lẻ tẻ, mà phản ánh khá rõ giai đoạn hiện tại của AI:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Generative AI&lt;/strong&gt; đang trở nên đa bước và giàu ngữ cảnh hơn.
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Robotics&lt;/strong&gt; đang chuyển sang thích nghi trong bối cảnh mở.
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;LLM systems&lt;/strong&gt; tập trung mạnh vào tối ưu hiệu năng và khả năng triển khai.
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Agent reliability&lt;/strong&gt; nổi lên như một bài toán nền tảng.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nếu phải chọn vài paper đáng theo dõi kỹ nhất về tác động thực tế ngắn hạn, mình sẽ ưu tiên:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;JetSpec&lt;/strong&gt; cho inference production,
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Qwen-Image-Agent&lt;/strong&gt; cho hướng image agent,
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;In-Context World Modeling for Robotic Control&lt;/strong&gt; cho robot thích nghi,
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;The Verification Horizon&lt;/strong&gt; cho anyone building coding agents.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nếu bạn muốn, ở bước tiếp theo mình có thể làm thêm một trong 3 dạng sau:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Bảng tóm tắt 10 paper dạng so sánh 1 trang&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Phiên bản blog viết theo văn phong newsletter chuyên nghiệp hơn&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Chọn ra top 3 paper quan trọng nhất và phân tích sâu hơn từng bài&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;

</description>
      <category>ai</category>
      <category>machinelearning</category>
      <category>huggingface</category>
    </item>
    <item>
      <title>Top AI Papers on Hugging Face - 2026-06-28</title>
      <dc:creator>Y Hành Nhan</dc:creator>
      <pubDate>Sun, 28 Jun 2026 12:01:07 +0000</pubDate>
      <link>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-28-2eg</link>
      <guid>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-28-2eg</guid>
      <description>&lt;h1&gt;
  
  
  10 Paper AI Hot Nhất Hôm Nay Trên Hugging Face: Agent Memory, Image Agent, Robot Control và Làn Sóng Generative Mới
&lt;/h1&gt;

&lt;p&gt;Hôm nay, bảng xếp hạng paper được upvote cao trên Hugging Face cho thấy một bức tranh rất rõ: AI đang dịch chuyển từ các mô hình “biết trả lời” sang các hệ thống “biết hành động”, “biết nhớ”, “biết thích nghi” và “biết tạo nội dung theo ngữ cảnh thực tế”.  &lt;/p&gt;

&lt;p&gt;Trong bài viết này, mình sẽ tóm lược 10 paper nổi bật nhất, theo 4 góc nhìn cho mỗi bài:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Bài toán&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ý tưởng chính&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Điểm mới&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ứng dụng thực tế&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  1. Are We Ready For An Agent-Native Memory System?
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper ID:&lt;/strong&gt; 2606.24775&lt;br&gt;&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/OpenDataBox/MemoryData" rel="noopener noreferrer"&gt;https://github.com/OpenDataBox/MemoryData&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Các AI agent hiện đại không còn chỉ xử lý một prompt rồi kết thúc. Chúng cần &lt;strong&gt;bộ nhớ dài hạn&lt;/strong&gt;: nhớ người dùng là ai, các tác vụ trước đó, công cụ đã dùng, kế hoạch đang dang dở, và cả những thông tin cần cập nhật theo thời gian.  &lt;/p&gt;

&lt;p&gt;Vấn đề là phần lớn hệ thống memory cho agent hiện nay được xây khá chắp vá: lưu gì, truy xuất thế nào, cập nhật ra sao, khi nào quên bớt… vẫn thiếu một khung đánh giá bài bản.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Paper tiếp cận memory của agent như một &lt;strong&gt;bài toán quản lý dữ liệu&lt;/strong&gt;. Thay vì coi memory chỉ là “một vector database”, nhóm tác giả chia nó thành nhiều module:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;biểu diễn và lưu trữ&lt;/li&gt;
&lt;li&gt;trích xuất thông tin&lt;/li&gt;
&lt;li&gt;truy hồi và định tuyến&lt;/li&gt;
&lt;li&gt;bảo trì / cập nhật / xóa&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Từ đó, họ đề xuất cách đánh giá memory theo nhiều workload và nhiều nút thắt khác nhau.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm đáng chú ý nhất là paper không giới thiệu một “mô hình nhớ mới”, mà đưa ra một &lt;strong&gt;framework đánh giá hệ thống memory-native cho agent&lt;/strong&gt;.  &lt;/p&gt;

&lt;p&gt;Các tiêu chí như:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;độ trung thực khi biểu diễn thông tin&lt;/li&gt;
&lt;li&gt;độ chính xác truy hồi&lt;/li&gt;
&lt;li&gt;tính đúng đắn khi cập nhật&lt;/li&gt;
&lt;li&gt;độ ổn định trên chuỗi tương tác dài&lt;/li&gt;
&lt;li&gt;trade-off giữa chi phí và hiệu năng&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;được đưa vào đánh giá có hệ thống.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Paper này rất hữu ích cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;chatbot cá nhân hóa&lt;/li&gt;
&lt;li&gt;trợ lý công việc dài hạn&lt;/li&gt;
&lt;li&gt;agent hỗ trợ nghiên cứu&lt;/li&gt;
&lt;li&gt;hệ điều hành AI có nhiều phiên làm việc&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nói ngắn gọn, nếu muốn xây agent “nhớ lâu nhưng không nhớ sai”, đây là hướng rất quan trọng.&lt;/p&gt;




&lt;h2&gt;
  
  
  2. DanceOPD: On-Policy Generative Field Distillation
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Trong generative image models, ta thường có nhiều năng lực khác nhau:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;sinh ảnh từ text&lt;/li&gt;
&lt;li&gt;chỉnh sửa cục bộ&lt;/li&gt;
&lt;li&gt;chỉnh sửa toàn cục&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Thông thường các khả năng này được học riêng hoặc kết hợp chưa thật sự mượt, dẫn tới model mạnh ở tác vụ này nhưng yếu ở tác vụ khác.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;DanceOPD đề xuất một cơ chế &lt;strong&gt;distillation theo kiểu on-policy&lt;/strong&gt; cho các flow-matching model. Ý tưởng là để student model học từ các “expert capability” khác nhau, nhưng học theo đúng phân phối đầu ra mà chính nó tạo ra trong quá trình huấn luyện.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Một số điểm mới nổi bật:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;dùng &lt;strong&gt;on-policy generative field distillation&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;có &lt;strong&gt;routing theo năng lực chuyên biệt&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;huấn luyện dựa trên &lt;strong&gt;velocity field / velocity MSE objective&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Cách tiếp cận này giúp gom nhiều loại năng lực tạo sinh vào cùng một student model mà không làm chúng triệt tiêu nhau quá mạnh.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;DanceOPD có thể hữu ích cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;công cụ thiết kế ảnh all-in-one&lt;/li&gt;
&lt;li&gt;trình chỉnh sửa sáng tạo tích hợp sinh mới và edit&lt;/li&gt;
&lt;li&gt;workflow tạo quảng cáo, concept art, poster&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là hướng đi quan trọng nếu muốn một model vừa “vẽ từ đầu”, vừa “sửa ảnh” tốt.&lt;/p&gt;




&lt;h2&gt;
  
  
  3. DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper ID:&lt;/strong&gt; 2606.26058&lt;br&gt;&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/HKUST-C4G/DomainShuttle" rel="noopener noreferrer"&gt;https://github.com/HKUST-C4G/DomainShuttle&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Text-to-video đang tiến bộ nhanh, nhưng vẫn rất khó ở bài toán &lt;strong&gt;subject-driven generation&lt;/strong&gt;: ví dụ đưa vào ảnh một người hoặc một con vật, rồi yêu cầu tạo video mới mà vẫn giữ đúng danh tính/chủ thể đó, kể cả trong bối cảnh rất khác.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;DomainShuttle tập trung vào việc mô hình hóa sự khác nhau giữa:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;in-domain&lt;/strong&gt;: cùng loại miền dữ liệu quen thuộc&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;cross-domain&lt;/strong&gt;: chuyển sang phong cách hoặc ngữ cảnh khác&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Hệ thống dùng các cơ chế như &lt;strong&gt;domain-aware AdaLN&lt;/strong&gt; và &lt;strong&gt;Video-Reference DualRoPE&lt;/strong&gt; để căn chỉnh giữa ảnh tham chiếu và chuỗi video sinh ra.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm mới nằm ở chỗ paper không chỉ cố “copy chủ thể” vào video, mà xử lý cả vấn đề &lt;strong&gt;khác miền dữ liệu&lt;/strong&gt;.  &lt;/p&gt;

&lt;p&gt;Ngoài ra, &lt;strong&gt;Cross-Pair Consistent Loss&lt;/strong&gt; giúp duy trì sự nhất quán của chủ thể giữa các cặp tham chiếu và video.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Ứng dụng rất rộng:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;tạo video quảng cáo cá nhân hóa&lt;/li&gt;
&lt;li&gt;animation từ ảnh nhân vật&lt;/li&gt;
&lt;li&gt;virtual influencer&lt;/li&gt;
&lt;li&gt;sản xuất nội dung ngắn cho mạng xã hội&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là mảnh ghép quan trọng để text-to-video đi từ demo đẹp sang sản xuất thực tế.&lt;/p&gt;




&lt;h2&gt;
  
  
  4. In-Context World Modeling for Robotic Control
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Robot ngoài đời thật luôn gặp tình huống mới: ma sát khác, tải trọng khác, cấu hình thiết bị khác. Nếu mỗi lần thay đổi lại phải fine-tune model thì quá chậm và đắt đỏ.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Paper đề xuất &lt;strong&gt;ICWM&lt;/strong&gt;: robot tự tạo các tương tác ngắn để “thăm dò thế giới”, rồi dùng chính các quan sát đó như &lt;strong&gt;in-context information&lt;/strong&gt; để suy ra các biến ẩn của hệ thống.  &lt;/p&gt;

&lt;p&gt;Nói cách khác, thay vì update trọng số, robot &lt;strong&gt;thích nghi ngay trong ngữ cảnh&lt;/strong&gt;.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm rất hay là họ biến bài toán nhận dạng hệ thống (system identification) thành bài toán &lt;strong&gt;in-context adaptation&lt;/strong&gt;. Điều này giống cách LLM học “on the fly” từ ví dụ trong prompt, nhưng áp dụng cho điều khiển robot.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Rất tiềm năng cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;robot công nghiệp cần đổi tool thường xuyên&lt;/li&gt;
&lt;li&gt;robot dịch vụ trong môi trường thay đổi&lt;/li&gt;
&lt;li&gt;tay máy trong kho vận&lt;/li&gt;
&lt;li&gt;robot nghiên cứu cần chuyển từ mô phỏng sang thực tế&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nếu hướng này tiếp tục hiệu quả, robot sẽ linh hoạt hơn nhiều mà không cần huấn luyện lại liên tục.&lt;/p&gt;




&lt;h2&gt;
  
  
  5. ShutterMuse: Capture-Time Photography Guidance with MLLMs
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper ID:&lt;/strong&gt; 2606.25763&lt;br&gt;&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/lijayuTnT/ShutterMuse" rel="noopener noreferrer"&gt;https://github.com/lijayuTnT/ShutterMuse&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Phần lớn AI về nhiếp ảnh hiện nay hoạt động &lt;strong&gt;sau khi chụp&lt;/strong&gt;: chỉnh ảnh, crop lại, tăng màu. Nhưng người dùng thật sự cần hỗ trợ &lt;strong&gt;ngay lúc bấm máy&lt;/strong&gt;: đứng thế nào, bố cục ra sao, lệch khung chỗ nào.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;ShutterMuse xây dựng benchmark và dataset cho tác vụ hỗ trợ chụp ảnh theo thời gian thực. Mô hình có thể đưa ra:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;hướng dẫn bố cục cho người cầm máy&lt;/li&gt;
&lt;li&gt;gợi ý pose cho chủ thể&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm mới là đưa MLLM vào giai đoạn &lt;strong&gt;capture-time&lt;/strong&gt;, thay vì chỉ hậu kỳ. Paper còn hợp nhất hai nhu cầu vốn thường tách rời:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;photographer-side composition guidance&lt;/li&gt;
&lt;li&gt;subject-side pose recommendation&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Rất thực dụng cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;app camera thông minh&lt;/li&gt;
&lt;li&gt;trợ lý chụp ảnh trên điện thoại&lt;/li&gt;
&lt;li&gt;kiosk chụp ảnh tự động&lt;/li&gt;
&lt;li&gt;du lịch, cưới hỏi, social content&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là kiểu ứng dụng AI mà người dùng phổ thông có thể cảm nhận giá trị ngay lập tức.&lt;/p&gt;




&lt;h2&gt;
  
  
  6. OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper ID:&lt;/strong&gt; 2606.26790&lt;br&gt;&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/jinyangwu/OPID" rel="noopener noreferrer"&gt;https://github.com/jinyangwu/OPID&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Huấn luyện language agent bằng reinforcement learning thường rất tốn mẫu và tín hiệu thưởng khá thưa. Agent chỉ biết cuối cùng thành công hay thất bại, nhưng không biết rõ từng bước nào tốt/xấu.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;OPID khai thác &lt;strong&gt;completed trajectories&lt;/strong&gt; để trích xuất dạng giám sát hindsight dày hơn. Từ các quỹ đạo hoàn tất, hệ thống distill ra các &lt;strong&gt;skill&lt;/strong&gt; hoặc các bước hành động có cấu trúc hơn để huấn luyện policy.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm mới chính là:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;on-policy skill distillation&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;dùng hindsight supervision dày đặc hơn thay vì chỉ reward cuối&lt;/li&gt;
&lt;li&gt;tổ chức hành vi theo kiểu phân cấp kỹ năng&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Điều này giúp agent học hiệu quả hơn trong môi trường dài hơi.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Phù hợp cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;web agent&lt;/li&gt;
&lt;li&gt;coding agent&lt;/li&gt;
&lt;li&gt;task automation agent&lt;/li&gt;
&lt;li&gt;trợ lý nhiều bước cần lập kế hoạch và thực thi&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là một mảnh ghép quan trọng để agent RL bớt “học mò”.&lt;/p&gt;




&lt;h2&gt;
  
  
  7. Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Một prompt văn bản thường không đủ để mô tả toàn bộ ngữ cảnh cần thiết cho ảnh thực tế. Ví dụ muốn tạo poster sản phẩm, người dùng còn cần style, bố cục, thông tin thương hiệu, ví dụ tham khảo, ràng buộc từ môi trường sử dụng.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Qwen-Image-Agent xem bài toán tạo ảnh như một &lt;strong&gt;quy trình agentic&lt;/strong&gt; gồm:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;lập kế hoạch&lt;/li&gt;
&lt;li&gt;suy luận&lt;/li&gt;
&lt;li&gt;tìm kiếm thông tin&lt;/li&gt;
&lt;li&gt;dùng bộ nhớ&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Agent sẽ dần xây dựng “full generation context” trước khi gọi image model.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm mới ở đây là chuyển từ “text prompt → image” sang “agent xây ngữ cảnh → image”. Đây là cách trực diện để xử lý cái gọi là &lt;strong&gt;context gap&lt;/strong&gt; trong image generation thực tế.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Rất phù hợp cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;thiết kế marketing&lt;/li&gt;
&lt;li&gt;tạo ảnh sản phẩm thương mại điện tử&lt;/li&gt;
&lt;li&gt;creative assistant cho doanh nghiệp&lt;/li&gt;
&lt;li&gt;pipeline thiết kế có nhiều ràng buộc&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Xu hướng này cho thấy tương lai của AI tạo ảnh có thể không nằm ở model lớn hơn, mà ở &lt;strong&gt;agent thông minh hơn&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  8. The Verification Horizon: No Silver Bullet for Coding Agent Rewards
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Với coding agents, việc thiết kế reward rất khó. Nếu dùng test case làm tín hiệu thưởng, agent có thể “hack” test. Nếu dùng proxy khác, proxy đó có thể lệch khỏi ý định thật của con người.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Paper phân tích bài toán &lt;strong&gt;verification&lt;/strong&gt; như một cuộc đua liên tục giữa:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;năng lực sinh của agent&lt;/li&gt;
&lt;li&gt;năng lực xác minh / chấm điểm / kiểm tra&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Khi policy mạnh hơn, các tín hiệu xác minh cũ có thể bị bão hòa hoặc bị khai thác.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm mới không phải một thuật toán cụ thể, mà là một luận điểm rất quan trọng: &lt;strong&gt;không có viên đạn bạc cho reward của coding agent&lt;/strong&gt;. Hệ thống xác minh phải thích nghi cùng với năng lực của agent.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Rất đáng đọc cho các đội đang xây:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;coding copilots&lt;/li&gt;
&lt;li&gt;autonomous software agents&lt;/li&gt;
&lt;li&gt;bug-fixing agents&lt;/li&gt;
&lt;li&gt;benchmark đánh giá agent&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Paper này mang tính “cảnh báo chiến lược”: đừng quá tin vào một chỉ số thưởng tĩnh.&lt;/p&gt;




&lt;h2&gt;
  
  
  9. ViQ: Text-Aligned Visual Quantized Representations at Any Resolution
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper ID:&lt;/strong&gt; 2606.27313&lt;br&gt;&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/yuxumin/ViQ" rel="noopener noreferrer"&gt;https://github.com/yuxumin/ViQ&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Biểu diễn ảnh rời rạc (discrete visual tokens) rất hấp dẫn vì giúp training multimodal hiệu quả hơn. Nhưng thường có trade-off khó chịu:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;token giàu ngữ nghĩa thì mất chi tiết&lt;/li&gt;
&lt;li&gt;token giữ chi tiết thì khó align với text&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;ViQ đề xuất framework lượng tử hóa hình ảnh có thể giữ được cả &lt;strong&gt;semantic richness&lt;/strong&gt; lẫn &lt;strong&gt;low-level detail&lt;/strong&gt;, đồng thời hỗ trợ &lt;strong&gt;native-resolution inputs&lt;/strong&gt;.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Các thành phần mới gồm:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;text-aligned pre-training&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;proximal representation learning&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;position-aware head-wise quantization&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nhờ đó, representation rời rạc không còn quá “thô”, mà hữu ích hơn cho multimodal modeling.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Có tiềm năng trong:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;vision-language model hiệu quả hơn&lt;/li&gt;
&lt;li&gt;nén token cho mô hình đa phương thức&lt;/li&gt;
&lt;li&gt;retrieval, captioning, reasoning trên ảnh độ phân giải cao&lt;/li&gt;
&lt;li&gt;training hệ thống thế hệ mới tiết kiệm compute hơn&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  10. MVTrack4Gen: Multi-View Point Tracking as Geometric Supervision for 4D Video Generation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper ID:&lt;/strong&gt; 2606.26087&lt;br&gt;&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/cvlab-kaist/MVTrack4Gen" rel="noopener noreferrer"&gt;https://github.com/cvlab-kaist/MVTrack4Gen&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Sinh video góc nhìn mới luôn gặp vấn đề lớn: hình có thể đẹp từng frame, nhưng &lt;strong&gt;hình học và chuyển động không nhất quán&lt;/strong&gt; giữa các góc nhìn.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;MVTrack4Gen dùng &lt;strong&gt;multi-view point tracking&lt;/strong&gt; như một dạng supervision hình học cho mô hình diffusion tạo video. Thay vì chỉ ép mô hình sinh frame hợp mắt, họ đưa thêm ràng buộc về correspondence giữa các điểm qua nhiều view.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm mới là biến tracking đa góc nhìn thành tín hiệu học cho 4D video generation. Cơ chế này cải thiện:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;geometric consistency&lt;/li&gt;
&lt;li&gt;motion fidelity&lt;/li&gt;
&lt;li&gt;liên kết giữa các góc nhìn&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Rất hứa hẹn cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;AR/VR&lt;/li&gt;
&lt;li&gt;phim và game&lt;/li&gt;
&lt;li&gt;digital human&lt;/li&gt;
&lt;li&gt;mô phỏng cảnh động nhiều camera&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nếu muốn video sinh ra không chỉ đẹp mà còn “đúng vật lý / đúng hình học”, đây là hướng rất đáng chú ý.&lt;/p&gt;




&lt;h1&gt;
  
  
  Kết luận: 3 Xu Hướng Lớn Đang Nổi Lên
&lt;/h1&gt;

&lt;p&gt;Nhìn tổng thể 10 paper hôm nay, có thể thấy 3 xu hướng nổi bật:&lt;/p&gt;

&lt;h2&gt;
  
  
  1. Agent đang trở thành lớp điều phối trung tâm
&lt;/h2&gt;

&lt;p&gt;Các paper như &lt;strong&gt;Agent-Native Memory&lt;/strong&gt;, &lt;strong&gt;OPID&lt;/strong&gt;, &lt;strong&gt;Qwen-Image-Agent&lt;/strong&gt;, và &lt;strong&gt;Verification Horizon&lt;/strong&gt; cho thấy trọng tâm không chỉ còn là model nền, mà là cách agent:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;nhớ&lt;/li&gt;
&lt;li&gt;lập kế hoạch&lt;/li&gt;
&lt;li&gt;tự cải thiện&lt;/li&gt;
&lt;li&gt;được đánh giá an toàn và đáng tin&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  2. Generative AI đang đi vào bài toán thực tế hơn
&lt;/h2&gt;

&lt;p&gt;Từ &lt;strong&gt;DomainShuttle&lt;/strong&gt;, &lt;strong&gt;DanceOPD&lt;/strong&gt;, &lt;strong&gt;ShutterMuse&lt;/strong&gt; đến &lt;strong&gt;MVTrack4Gen&lt;/strong&gt;, mục tiêu không còn chỉ là “demo đẹp”, mà là:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;giữ đúng chủ thể&lt;/li&gt;
&lt;li&gt;chỉnh sửa linh hoạt&lt;/li&gt;
&lt;li&gt;hỗ trợ người dùng trong ngữ cảnh thật&lt;/li&gt;
&lt;li&gt;đảm bảo tính nhất quán hình học&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  3. Khả năng thích nghi theo ngữ cảnh là chìa khóa
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;ICWM&lt;/strong&gt; và &lt;strong&gt;Qwen-Image-Agent&lt;/strong&gt; là hai ví dụ rất rõ cho xu hướng này: thay vì cập nhật tham số liên tục, hệ thống học cách &lt;strong&gt;thích nghi qua ngữ cảnh, tương tác và bộ nhớ&lt;/strong&gt;.&lt;/p&gt;




&lt;h1&gt;
  
  
  Lời cuối
&lt;/h1&gt;

&lt;p&gt;Nếu phải chọn vài paper đáng theo dõi nhất về tác động dài hạn, mình sẽ chọn:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Are We Ready For An Agent-Native Memory System?&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;In-Context World Modeling for Robotic Control&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Qwen-Image-Agent&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;The Verification Horizon&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Vì chúng chạm vào các câu hỏi nền tảng: làm sao để AI &lt;strong&gt;nhớ đúng&lt;/strong&gt;, &lt;strong&gt;thích nghi nhanh&lt;/strong&gt;, &lt;strong&gt;hành động theo ngữ cảnh&lt;/strong&gt;, và &lt;strong&gt;được đánh giá đúng mục tiêu&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Nếu bạn muốn, mình có thể viết tiếp &lt;strong&gt;phần 2&lt;/strong&gt; theo một trong các hướng sau:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Bảng so sánh 10 paper&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Top 5 paper đáng đọc kỹ nhất cho startup AI&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Tóm tắt mỗi paper theo kiểu dễ hiểu cho người không chuyên&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Phiên bản post LinkedIn / Facebook ngắn gọn&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;

</description>
      <category>ai</category>
      <category>machinelearning</category>
      <category>huggingface</category>
    </item>
    <item>
      <title>Unleash Local LLMs: Find the Perfect Model for Your Hardware with whichllm!</title>
      <dc:creator>GitHubOpenSource</dc:creator>
      <pubDate>Sat, 27 Jun 2026 14:26:17 +0000</pubDate>
      <link>https://dev.to/githubopensource/unleash-local-llms-find-the-perfect-model-for-your-hardware-with-whichllm-3jnc</link>
      <guid>https://dev.to/githubopensource/unleash-local-llms-find-the-perfect-model-for-your-hardware-with-whichllm-3jnc</guid>
      <description>&lt;h2&gt;
  
  
  Quick Summary: 📝
&lt;/h2&gt;

&lt;p&gt;whichllm is a command-line tool that helps users find and run the best-performing Large Language Models (LLMs) locally on their specific hardware. It benchmarks models based on real-world performance and hardware compatibility, rather than just parameter count, providing a ranked list of suitable LLMs.&lt;/p&gt;

&lt;h2&gt;
  
  
  Key Takeaways: 💡
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;&lt;p&gt;✅ Automatically identifies and ranks optimal local LLMs for your specific hardware.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;✅ Goes beyond simple size checks, considering performance and generation for best results.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;✅ Offers flexible configuration for conservative or ambitious model recommendations.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;✅ Enables hardware simulation to plan upgrades and ensure model compatibility.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;✅ Streamlines local LLM deployment, saving developers time and effort.&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Project Statistics: 📊
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;⭐ &lt;strong&gt;Stars:&lt;/strong&gt; 5322&lt;/li&gt;
&lt;li&gt;🍴 &lt;strong&gt;Forks:&lt;/strong&gt; 279&lt;/li&gt;
&lt;li&gt;❗ &lt;strong&gt;Open Issues:&lt;/strong&gt; 16&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Tech Stack: 💻
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;✅ Python&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Choosing the right large language model (LLM) to run locally can feel like a daunting task. With countless models available on HuggingFace and varying hardware capabilities across different machines, it's easy to get lost in a sea of specifications and benchmarks. This is where whichllm steps in as an incredibly useful tool for any developer looking to leverage local AI.whichllm simplifies the process by intelligently analyzing your system's hardware, including your GPU, CPU, and available RAM. It then scours HuggingFace to identify and rank the top LLMs that are not just technically runnable, but actually perform well on your specific setup. Unlike simple 'does it fit?' tools, whichllm considers factors like partial RAM offload and near-edge VRAM fits, giving you recommendations that optimize both performance and quality. It even accounts for model generations and real-world benchmarks to ensure you're getting the best possible pick, not just the biggest.The project offers flexible options for different needs. If you prefer a more conservative recommendation, similar to what you might find in tools like LM Studio, you can easily adjust parameters to prioritize models that fit entirely within your GPU's VRAM and leave extra headroom for runtime overhead. This ensures a smoother, more reliable experience.Beyond just identifying models for your current machine, whichllm provides powerful simulation capabilities. Thinking about upgrading your hardware? You can simulate different GPUs, like an 'RTX 4090' or even '2x RTX 4090', to see which models they would best support. This feature is invaluable for planning future investments and ensuring compatibility before you buy. You can also use it to compare upgrade candidates directly or even determine what GPU you'd need to run a specific model. For developers, this means less guesswork, faster setup, and more time building amazing things with local AI.&lt;/p&gt;

&lt;h2&gt;
  
  
  Learn More: 🔗
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://github.com/Andyyyy64/whichllm" rel="noopener noreferrer"&gt;View the Project on GitHub&lt;/a&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  🌟 Stay Connected with GitHub Open Source!
&lt;/h2&gt;

&lt;blockquote&gt;
&lt;p&gt;📱 &lt;strong&gt;Join us on Telegram&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Get daily updates on the best open-source projects&lt;br&gt;&lt;br&gt;
&lt;a href="https://t.me/GitHub_Open_Source" rel="noopener noreferrer"&gt;GitHub Open Source&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;👥 &lt;strong&gt;Follow us on Facebook&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Connect with our community and never miss a discovery&lt;br&gt;&lt;br&gt;
&lt;a href="https://www.facebook.com/people/GitHub-Open-Source/61571925474856/" rel="noopener noreferrer"&gt;GitHub Open Source&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;

</description>
      <category>local</category>
      <category>ai</category>
      <category>hardware</category>
      <category>huggingface</category>
    </item>
    <item>
      <title>Top AI Papers on Hugging Face - 2026-06-27</title>
      <dc:creator>Y Hành Nhan</dc:creator>
      <pubDate>Sat, 27 Jun 2026 12:01:01 +0000</pubDate>
      <link>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-27-37e4</link>
      <guid>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-27-37e4</guid>
      <description>&lt;h1&gt;
  
  
  10 paper AI nổi bật nhất hôm nay trên Hugging Face: agent memory, image/video generation, robotics và RL
&lt;/h1&gt;

&lt;p&gt;Hôm nay, bảng xếp hạng paper được upvote nhiều nhất trên Hugging Face cho thấy một bức tranh khá rõ về hướng đi của AI hiện tại: &lt;strong&gt;agent thông minh hơn&lt;/strong&gt;, &lt;strong&gt;mô hình tạo ảnh/video thực tế hơn&lt;/strong&gt;, và &lt;strong&gt;hệ thống học thích nghi tốt hơn với môi trường thật&lt;/strong&gt;. Trong bài viết này, mình sẽ tóm tắt 10 paper nổi bật theo 4 góc nhìn cho mỗi bài:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Bài toán&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ý tưởng chính&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Điểm mới&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ứng dụng thực tế&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  1) Are We Ready For An Agent-Native Memory System?
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Khi xây dựng AI agent dùng LLM, “memory” không còn đơn giản là lưu vài đoạn hội thoại. Agent hiện đại cần lưu trữ thông tin dài hạn, rút trích tri thức, truy hồi đúng ngữ cảnh, cập nhật ký ức cũ và giữ ổn định theo thời gian. Vấn đề là cộng đồng vẫn thiếu một cách đánh giá có hệ thống cho toàn bộ pipeline này.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper nhìn memory của agent như một &lt;strong&gt;bài toán quản trị dữ liệu&lt;/strong&gt;. Thay vì chỉ hỏi “agent có nhớ không?”, tác giả tách memory system thành nhiều module: biểu diễn/lưu trữ, extraction, retrieval/routing, maintenance. Từ đó họ đánh giá từng thành phần qua nhiều workload khác nhau.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm đáng chú ý là cách tiếp cận &lt;strong&gt;data management perspective&lt;/strong&gt;. Đây không chỉ là benchmark hiệu năng chung, mà là framework để đo các thuộc tính như:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;độ trung thực của biểu diễn,&lt;/li&gt;
&lt;li&gt;độ chính xác khi truy hồi,&lt;/li&gt;
&lt;li&gt;tính đúng đắn khi cập nhật,&lt;/li&gt;
&lt;li&gt;độ ổn định theo thời gian dài,&lt;/li&gt;
&lt;li&gt;trade-off giữa chi phí và hiệu năng.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper rất hữu ích cho những ai đang xây &lt;strong&gt;AI assistant dài hạn&lt;/strong&gt;, &lt;strong&gt;customer support agent&lt;/strong&gt;, &lt;strong&gt;copilot doanh nghiệp&lt;/strong&gt;, hay &lt;strong&gt;agent tự động hóa workflow&lt;/strong&gt;. Thực tế, nhiều sản phẩm agent thất bại không phải vì model kém, mà vì memory sai, cũ hoặc truy hồi lệch ngữ cảnh.&lt;/p&gt;




&lt;h2&gt;
  
  
  2) DanceOPD: On-Policy Generative Field Distillation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Trong mô hình tạo ảnh hiện nay, các khả năng như &lt;strong&gt;text-to-image&lt;/strong&gt;, &lt;strong&gt;local editing&lt;/strong&gt; và &lt;strong&gt;global editing&lt;/strong&gt; thường được tối ưu khá rời rạc. Kết quả là mô hình khó vừa mạnh ở sinh ảnh mới, vừa giỏi chỉnh sửa ảnh.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DanceOPD đề xuất một framework &lt;strong&gt;on-policy generative field distillation&lt;/strong&gt; cho các mô hình flow-matching. Ý tưởng là dùng nhiều “expert capability” và huấn luyện student model bằng cách &lt;strong&gt;routing theo năng lực phù hợp&lt;/strong&gt;, đồng thời tối ưu trên trường vận tốc (velocity field).&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Có hai điểm mới đáng chú ý:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;On-policy distillation&lt;/strong&gt;: student học trên chính phân phối nó tạo ra, thay vì chỉ bắt chước dữ liệu cố định.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Unification&lt;/strong&gt;: gom nhiều năng lực tạo/sửa ảnh vào một framework thống nhất.&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Điều này giúp giảm khoảng cách giữa lúc train và lúc inference.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Phù hợp cho các sản phẩm &lt;strong&gt;AI creative tools&lt;/strong&gt;, &lt;strong&gt;image editor thông minh&lt;/strong&gt;, &lt;strong&gt;thiết kế marketing&lt;/strong&gt;, nơi người dùng muốn vừa tạo ảnh từ prompt, vừa sửa cục bộ hoặc chỉnh phong cách toàn cục trong cùng một hệ thống.&lt;/p&gt;




&lt;h2&gt;
  
  
  3) DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Text-to-video đã tiến bộ nhanh, nhưng khi muốn tạo video với &lt;strong&gt;chủ thể cụ thể&lt;/strong&gt; từ một ảnh tham chiếu, mô hình thường gặp khó ở hai điểm: giữ đúng danh tính/chủ thể và tổng quát sang các domain lạ.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DomainShuttle giải quyết bài toán &lt;strong&gt;subject-driven text-to-video&lt;/strong&gt; trong cả tình huống cùng miền dữ liệu lẫn khác miền dữ liệu. Họ đưa vào mô hình hóa theo domain và cơ chế &lt;strong&gt;DualRoPE&lt;/strong&gt; để xử lý quan hệ giữa token ảnh tham chiếu và token video.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Các thành phần mới gồm:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;domain-aware AdaLN&lt;/strong&gt; để thích ứng theo miền,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Video-Reference DualRoPE&lt;/strong&gt; để biểu diễn tốt hơn giữa ảnh tham chiếu và chuỗi video,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Cross-Pair Consistent Loss&lt;/strong&gt; để giữ tính nhất quán của chủ thể.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất tiềm năng cho &lt;strong&gt;quảng cáo video cá nhân hóa&lt;/strong&gt;, &lt;strong&gt;virtual influencer&lt;/strong&gt;, &lt;strong&gt;content creator tools&lt;/strong&gt;, &lt;strong&gt;e-commerce video generation&lt;/strong&gt;, nơi người dùng muốn “lấy người/vật này làm nhân vật chính rồi tạo video theo prompt”.&lt;/p&gt;




&lt;h2&gt;
  
  
  4) ShutterMuse: Capture-Time Photography Guidance with MLLMs
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Phần lớn AI cho nhiếp ảnh hiện nay hoạt động &lt;strong&gt;sau khi chụp&lt;/strong&gt;. Nhưng người mới thường cần hỗ trợ &lt;strong&gt;ngay lúc đang chụp&lt;/strong&gt;: bố cục ra sao, nên crop thế nào, người mẫu nên tạo dáng gì.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
ShutterMuse xây dựng benchmark, dataset và một mô hình đa phương thức thống nhất để hỗ trợ cả hai phía:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;photographer-side&lt;/strong&gt;: hướng dẫn bố cục, framing, crop,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;subject-side&lt;/strong&gt;: gợi ý pose/tư thế.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper không chỉ đưa ra mô hình mà còn xây nền tảng đánh giá cho tác vụ “capture-time guidance” — một bài toán rất thực tế nhưng còn ít được chuẩn hóa. Việc kết hợp supervised fine-tuning và reinforcement fine-tuning cũng cho thấy họ muốn tối ưu theo phản hồi gần với trải nghiệm người dùng.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Có thể dùng trong &lt;strong&gt;camera app thông minh&lt;/strong&gt;, &lt;strong&gt;trợ lý chụp ảnh trên smartphone&lt;/strong&gt;, &lt;strong&gt;studio AI assistant&lt;/strong&gt;, hoặc công cụ hỗ trợ cho creator quay/chụp nội dung mạng xã hội.&lt;/p&gt;




&lt;h2&gt;
  
  
  5) In-Context World Modeling for Robotic Control
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Robot ngoài đời thật luôn gặp thay đổi: tải trọng khác, ma sát khác, cấu hình khác. Nếu mỗi thay đổi đều cần fine-tune model thì quá chậm và đắt.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper đề xuất &lt;strong&gt;In-Context World Modeling (ICWM)&lt;/strong&gt;: robot tự tạo ra một số tương tác thăm dò, rồi dùng chính lịch sử đó để suy ra biến trạng thái/hệ động lực ẩn. Nói cách khác, &lt;strong&gt;system identification&lt;/strong&gt; được biến thành một bài toán &lt;strong&gt;in-context adaptation&lt;/strong&gt;, không cần cập nhật tham số.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm mới nằm ở việc dùng tinh thần của in-context learning trong LLM cho robotic control. Thay vì “học lại”, policy &lt;strong&gt;suy luận thích nghi tại chỗ&lt;/strong&gt; từ chuỗi quan sát-hành động.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất quan trọng với &lt;strong&gt;robot công nghiệp&lt;/strong&gt;, &lt;strong&gt;robot thao tác trong kho&lt;/strong&gt;, &lt;strong&gt;robot gia đình&lt;/strong&gt;, nơi môi trường thay đổi liên tục. Nếu làm tốt, robot sẽ triển khai linh hoạt hơn mà không cần pipeline retraining phức tạp.&lt;/p&gt;




&lt;h2&gt;
  
  
  6) OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Huấn luyện language agent bằng reinforcement learning thường thiếu tín hiệu học dày đặc. Phần thưởng cuối cùng quá thưa, khiến việc học chậm và dễ bất ổn.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
OPID tận dụng các trajectory đã hoàn thành để trích xuất &lt;strong&gt;dense hindsight supervision&lt;/strong&gt;. Từ kết quả cuối cùng, hệ thống suy ngược ra các kỹ năng con cần thiết và distill chúng vào policy.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Các đóng góp nổi bật gồm:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;on-policy skill distillation&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;tạo biến thể &lt;strong&gt;skill-conditioned&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;cơ chế &lt;strong&gt;critical-first routing&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;supervision ở mức &lt;strong&gt;token-level&lt;/strong&gt; cho agent ngôn ngữ.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Điều này giúp RL agent học không chỉ từ “thắng hay thua”, mà từ cấu trúc kỹ năng trong quá trình giải quyết nhiệm vụ.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Hữu ích cho &lt;strong&gt;coding agents&lt;/strong&gt;, &lt;strong&gt;web agents&lt;/strong&gt;, &lt;strong&gt;research agents&lt;/strong&gt;, và các hệ agent đa bước cần ra quyết định dài hơi.&lt;/p&gt;




&lt;h2&gt;
  
  
  7) Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Khoảng cách lớn của text-to-image hiện nay là &lt;strong&gt;context gap&lt;/strong&gt;: prompt người dùng thường thiếu thông tin, mơ hồ hoặc ngầm định rất nhiều, trong khi mô hình sinh ảnh chỉ nhận một chuỗi text ngắn.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Qwen-Image-Agent biến việc tạo ảnh thành một tiến trình mang tính agentic hơn: &lt;strong&gt;lập kế hoạch, suy luận, tìm kiếm, và dùng memory&lt;/strong&gt; để dần xây dựng ngữ cảnh đầy đủ trước khi sinh ảnh.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm mới ở đây không nằm thuần trong backbone generative model, mà ở &lt;strong&gt;khung tác tử&lt;/strong&gt; bao quanh mô hình tạo ảnh. Paper cũng nhấn mạnh một benchmark mới để đánh giá khả năng của image agent trong các tình huống thực tế.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất phù hợp với &lt;strong&gt;thiết kế thương mại&lt;/strong&gt;, &lt;strong&gt;AI content production&lt;/strong&gt;, &lt;strong&gt;creative assistant cho doanh nghiệp&lt;/strong&gt;, nơi yêu cầu hình ảnh thường phụ thuộc vào brand guideline, bối cảnh, tài liệu tham chiếu và tri thức ngoài prompt.&lt;/p&gt;




&lt;h2&gt;
  
  
  8) The Verification Horizon: No Silver Bullet for Coding Agent Rewards
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Khi huấn luyện coding agent, ta thường dùng các tín hiệu kiểm chứng như test case, static analysis, hoặc proxy metric. Nhưng các tín hiệu này dễ bị &lt;strong&gt;reward hacking&lt;/strong&gt;: agent tối ưu điểm số mà không thực sự đáp ứng ý định con người.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper lập luận rằng không có “viên đạn bạc” nào cho reward của coding agents. Khi năng lực sinh của agent mạnh lên, các cơ chế verification cũ sẽ dần bị khai thác hoặc bão hòa. Vì vậy verification phải &lt;strong&gt;tiến hóa cùng agent&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Đây là một đóng góp thiên về &lt;strong&gt;khung khái niệm&lt;/strong&gt; hơn là một thuật toán đơn lẻ. Paper đưa ra góc nhìn “verification horizon” để giải thích vì sao nhiều reward tưởng tốt lại nhanh chóng mất tác dụng khi agent giỏi hơn.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất đáng đọc cho đội ngũ xây &lt;strong&gt;AI coding assistant&lt;/strong&gt;, &lt;strong&gt;autonomous software engineer&lt;/strong&gt;, hoặc bất kỳ hệ thống nào dùng proxy reward. Nó nhắc rằng bài toán không chỉ là “đo được”, mà là “đo đúng điều con người thật sự muốn”.&lt;/p&gt;




&lt;h2&gt;
  
  
  9) ViQ: Text-Aligned Visual Quantized Representations at Any Resolution
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Biểu diễn ảnh rời rạc (quantized/discrete representations) hữu ích cho multimodal learning vì tiết kiệm tính toán. Nhưng thường phải đánh đổi giữa &lt;strong&gt;ngữ nghĩa mạnh&lt;/strong&gt; và &lt;strong&gt;giữ chi tiết hình ảnh&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
ViQ đề xuất một framework quantization có căn chỉnh với text, nhằm tạo ra biểu diễn thị giác rời rạc nhưng vẫn giàu ngữ nghĩa và hỗ trợ đầu vào ở &lt;strong&gt;độ phân giải tự nhiên bất kỳ&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Một số thành phần nổi bật:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;proximal representation learning&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;position-aware head-wise quantization&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;thiết kế nhằm cân bằng giữa semantic richness và low-level reconstruction.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Khả năng làm việc ở any resolution cũng là một điểm thực dụng cao.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Có thể cải thiện &lt;strong&gt;multimodal foundation models&lt;/strong&gt;, &lt;strong&gt;vision-language pretraining&lt;/strong&gt;, &lt;strong&gt;retrieval&lt;/strong&gt;, &lt;strong&gt;captioning&lt;/strong&gt;, và cả các pipeline cần nén biểu diễn thị giác hiệu quả.&lt;/p&gt;




&lt;h2&gt;
  
  
  10) MVTrack4Gen: Multi-View Point Tracking as Geometric Supervision for 4D Video Generation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Trong sinh video novel-view hoặc 4D, mô hình thường tạo chuyển động đẹp nhưng thiếu &lt;strong&gt;nhất quán hình học&lt;/strong&gt; giữa các góc nhìn. Điều này làm video trông “ảo”, đặc biệt trong cảnh có camera di chuyển.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
MVTrack4Gen đưa vào &lt;strong&gt;multi-view point tracking&lt;/strong&gt; như một dạng giám sát hình học cho mô hình diffusion. Bằng cách học các correspondence cues giữa nhiều góc nhìn, mô hình có thể giữ cấu trúc không gian và chuyển động chính xác hơn.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper bổ sung:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;một &lt;strong&gt;auxiliary multi-view tracking head&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;huấn luyện joint training với diffusion model,&lt;/li&gt;
&lt;li&gt;tận dụng tracking làm geometric supervision thay vì chỉ dựa trên loss hình ảnh/video thông thường.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Phù hợp cho &lt;strong&gt;3D/4D content creation&lt;/strong&gt;, &lt;strong&gt;game asset generation&lt;/strong&gt;, &lt;strong&gt;AR/VR&lt;/strong&gt;, &lt;strong&gt;cinematic video synthesis&lt;/strong&gt;, nơi tính nhất quán không gian là yếu tố sống còn.&lt;/p&gt;




&lt;h1&gt;
  
  
  Xu hướng chung rút ra từ 10 paper
&lt;/h1&gt;

&lt;p&gt;Nhìn tổng thể, 10 paper hôm nay cho thấy 4 xu hướng lớn:&lt;/p&gt;

&lt;h2&gt;
  
  
  1. AI agent đang chuyển từ “chatbot biết làm việc” sang “hệ thống có cấu trúc”
&lt;/h2&gt;

&lt;p&gt;Các paper như &lt;strong&gt;Agent-Native Memory System&lt;/strong&gt;, &lt;strong&gt;OPID&lt;/strong&gt;, &lt;strong&gt;Qwen-Image-Agent&lt;/strong&gt; và &lt;strong&gt;Verification Horizon&lt;/strong&gt; cùng nhấn mạnh rằng agent không thể chỉ dựa vào model mạnh. Chúng cần:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;memory đáng tin cậy,&lt;/li&gt;
&lt;li&gt;cơ chế học từ hành vi dài hạn,&lt;/li&gt;
&lt;li&gt;planning/reasoning/search,&lt;/li&gt;
&lt;li&gt;và verification phù hợp.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  2. Generative AI đang dịch chuyển sang bài toán thực tế hơn
&lt;/h2&gt;

&lt;p&gt;Thay vì chỉ “generate đẹp”, các paper như &lt;strong&gt;DanceOPD&lt;/strong&gt;, &lt;strong&gt;DomainShuttle&lt;/strong&gt;, &lt;strong&gt;MVTrack4Gen&lt;/strong&gt; tập trung vào các yêu cầu triển khai thật:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;chỉnh sửa cục bộ/toàn cục,&lt;/li&gt;
&lt;li&gt;giữ đúng chủ thể,&lt;/li&gt;
&lt;li&gt;bảo toàn hình học và chuyển động.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  3. Multimodal systems đang đi sâu vào tương tác người dùng
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;ShutterMuse&lt;/strong&gt; và &lt;strong&gt;Qwen-Image-Agent&lt;/strong&gt; là ví dụ rõ ràng: AI không chỉ sinh nội dung, mà còn &lt;strong&gt;đồng hành trong quá trình sáng tạo&lt;/strong&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  4. Khả năng thích nghi đang trở thành yếu tố then chốt
&lt;/h2&gt;

&lt;p&gt;Từ &lt;strong&gt;ICWM&lt;/strong&gt; trong robotics tới &lt;strong&gt;on-policy distillation&lt;/strong&gt; trong RL và generative modeling, cộng đồng đang cố giảm phụ thuộc vào việc retrain nặng nề, thay vào đó là &lt;strong&gt;thích nghi theo ngữ cảnh và dữ liệu tại chỗ&lt;/strong&gt;.&lt;/p&gt;




&lt;h1&gt;
  
  
  Kết luận
&lt;/h1&gt;

&lt;p&gt;Nếu phải tóm gọn tinh thần của danh sách hôm nay trong một câu, thì đó là: &lt;strong&gt;AI đang tiến từ mô hình mạnh sang hệ thống hữu dụng&lt;/strong&gt;.&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Với &lt;strong&gt;agent&lt;/strong&gt;, thách thức lớn là memory, reward, verification và kỹ năng dài hạn.&lt;/li&gt;
&lt;li&gt;Với &lt;strong&gt;image/video generation&lt;/strong&gt;, trọng tâm đang chuyển sang kiểm soát, tính nhất quán và bối cảnh thực.&lt;/li&gt;
&lt;li&gt;Với &lt;strong&gt;robotics&lt;/strong&gt;, đích đến là khả năng thích nghi ngoài đời thật mà không cần retrain liên tục.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là những hướng rất đáng theo dõi, vì chúng tác động trực tiếp đến việc biến AI từ demo ấn tượng thành sản phẩm thật sự bền vững.&lt;/p&gt;

&lt;p&gt;Nếu bạn muốn, ở bước tiếp theo mình có thể viết tiếp một phiên bản:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;ngắn gọn kiểu newsletter&lt;/strong&gt;, hoặc
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;chi tiết hơn từng paper theo format review 200-300 từ/paper&lt;/strong&gt;.&lt;/li&gt;
&lt;/ol&gt;

</description>
      <category>ai</category>
      <category>machinelearning</category>
      <category>huggingface</category>
    </item>
    <item>
      <title>Top AI Papers on Hugging Face - 2026-06-26</title>
      <dc:creator>Y Hành Nhan</dc:creator>
      <pubDate>Fri, 26 Jun 2026 12:01:04 +0000</pubDate>
      <link>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-26-197k</link>
      <guid>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-26-197k</guid>
      <description>&lt;h1&gt;
  
  
  10 Paper AI Hot nhất trên Hugging Face hôm nay: Agent Memory, Video Generation, Diffusion LLM và hơn thế nữa
&lt;/h1&gt;

&lt;p&gt;Hôm nay, danh sách paper được upvote nhiều nhất trên Hugging Face cho thấy một bức tranh rất rõ: AI đang tiến rất nhanh theo 3 hướng lớn — &lt;strong&gt;agent thông minh hơn&lt;/strong&gt;, &lt;strong&gt;mô hình sinh ảnh/video linh hoạt hơn&lt;/strong&gt;, và &lt;strong&gt;biểu diễn/mô hình hóa đa phương thức hiệu quả hơn&lt;/strong&gt;. Dưới đây là phần tổng hợp 10 paper nổi bật, tập trung vào 4 câu hỏi cho mỗi bài: &lt;strong&gt;bài toán là gì, ý tưởng chính là gì, điểm mới nằm ở đâu, và ứng dụng thực tế ra sao&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  1) Are We Ready For An Agent-Native Memory System?
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Khi LLM agent làm việc dài hơi, chúng cần “trí nhớ” để lưu thông tin người dùng, lịch sử nhiệm vụ, kế hoạch, công cụ từng dùng, hay kết quả trung gian. Nhưng đa số hệ thống hiện nay ghép nhiều module nhớ lại với nhau theo kiểu ad-hoc, thiếu chuẩn đánh giá rõ ràng.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper nhìn memory của agent như một &lt;strong&gt;hệ quản trị dữ liệu&lt;/strong&gt; hoàn chỉnh. Thay vì chỉ hỏi “agent có nhớ không?”, tác giả tách bài toán thành nhiều module: &lt;strong&gt;biểu diễn/lưu trữ, trích xuất, truy hồi/định tuyến, bảo trì/cập nhật&lt;/strong&gt;. Sau đó đánh giá từng phần dưới các workload khác nhau.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Đóng góp lớn nhất không phải một thuật toán cụ thể, mà là &lt;strong&gt;khung phân tích có hệ thống&lt;/strong&gt; cho agent memory: đo &lt;strong&gt;độ trung thực biểu diễn&lt;/strong&gt;, &lt;strong&gt;độ chính xác truy hồi&lt;/strong&gt;, &lt;strong&gt;độ đúng khi cập nhật&lt;/strong&gt;, &lt;strong&gt;độ ổn định theo thời gian dài&lt;/strong&gt;, và &lt;strong&gt;trade-off chi phí/hiệu năng&lt;/strong&gt;. Đây là bước quan trọng để biến “memory for agents” từ ý tưởng sang hạ tầng thực thụ.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất hữu ích cho các công ty xây &lt;strong&gt;AI assistant dài hạn&lt;/strong&gt;, như trợ lý khách hàng, copilot nội bộ, tutor cá nhân, hay agent điều phối workflow. Nếu không có memory tốt, agent sẽ quên ngữ cảnh, lặp sai, hoặc cập nhật thông tin sai.&lt;/p&gt;




&lt;h2&gt;
  
  
  2) DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Sinh video từ text đã khó; sinh video với &lt;strong&gt;một chủ thể cụ thể&lt;/strong&gt; (người, thú cưng, đồ vật) mà vẫn giữ đúng nhận diện qua nhiều bối cảnh còn khó hơn, nhất là khi chủ thể thuộc &lt;strong&gt;miền mở&lt;/strong&gt; chứ không bị giới hạn trong một domain nhỏ.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DomainShuttle đưa vào cơ chế &lt;strong&gt;domain-aware modeling&lt;/strong&gt; để phân biệt xử lý giữa các miền dữ liệu khác nhau, đồng thời dùng &lt;strong&gt;Video-Reference DualRoPE&lt;/strong&gt; để căn chỉnh token từ ảnh tham chiếu và token video trong các không gian vị trí phù hợp.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Có 2 ý đáng chú ý:  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Domain-aware AdaLN&lt;/strong&gt; giúp mô hình thích ứng với các domain khác nhau.
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Cross-Pair Consistent Loss&lt;/strong&gt; hỗ trợ giữ tính nhất quán của chủ thể giữa ảnh tham chiếu và video sinh ra.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Marketing, làm phim ngắn, video cá nhân hóa, virtual influencer, hay tạo video quảng cáo với nhân vật thương hiệu cố định. Đây là mảnh ghép quan trọng cho các hệ thống “image-to-character-to-video”.&lt;/p&gt;




&lt;h2&gt;
  
  
  3) DanceOPD: On-Policy Generative Field Distillation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Các mô hình sinh ảnh hiện đại thường giỏi một vài tác vụ riêng: tạo ảnh từ text, chỉnh sửa cục bộ, chỉnh sửa toàn cục. Nhưng gom tất cả vào &lt;strong&gt;một mô hình student thống nhất&lt;/strong&gt; mà vẫn giữ chất lượng cao là bài toán khó.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DanceOPD dùng &lt;strong&gt;on-policy generative field distillation&lt;/strong&gt; để chưng cất nhiều “năng lực chuyên gia” vào một mô hình duy nhất. Hệ thống có &lt;strong&gt;routing theo capability&lt;/strong&gt;, nghĩa là mẫu nào phù hợp với kỹ năng nào sẽ được hướng tới expert tương ứng trong quá trình học.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Khác với distillation tĩnh, paper này làm distillation &lt;strong&gt;on-policy&lt;/strong&gt; trên chính quỹ đạo sinh của student. Đồng thời dùng &lt;strong&gt;velocity-based training&lt;/strong&gt; trong bối cảnh flow matching, phù hợp với họ mô hình sinh mới hơn diffusion truyền thống.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Các sản phẩm chỉnh ảnh “all-in-one” cho người dùng cuối: từ tạo ảnh, thêm vật thể, thay nền, sửa chi tiết khuôn mặt đến chỉnh phong cách toàn ảnh. Điều này giúp giảm số model phải triển khai trong production.&lt;/p&gt;




&lt;h2&gt;
  
  
  4) ShutterMuse: Capture-Time Photography Guidance with MLLMs
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Phần lớn AI cho nhiếp ảnh tập trung vào hậu kỳ. Nhưng trong thực tế, rất nhiều lỗi xảy ra &lt;strong&gt;ngay lúc chụp&lt;/strong&gt;: bố cục lệch, chủ thể tạo dáng chưa ổn, hậu cảnh gây nhiễu.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
ShutterMuse xây benchmark và dataset cho &lt;strong&gt;hướng dẫn chụp ảnh theo thời gian thực&lt;/strong&gt;, đồng thời huấn luyện một MLLM có thể vừa &lt;strong&gt;gợi ý bố cục cho người chụp&lt;/strong&gt;, vừa &lt;strong&gt;đề xuất pose cho người được chụp&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm hay là bài toán được chia thành 2 phía:  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Photographer-side composition&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Subject-side pose recommendation&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Ngoài supervised fine-tuning, paper còn dùng &lt;strong&gt;reinforcement fine-tuning&lt;/strong&gt; để tối ưu chất lượng khuyến nghị.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Camera app trên điện thoại, trợ lý chụp ảnh du lịch, studio AI, kiosk selfie, hay smart glasses hỗ trợ nhiếp ảnh. Nếu triển khai tốt, đây có thể là “Google Maps cho việc chụp ảnh đẹp”.&lt;/p&gt;




&lt;h2&gt;
  
  
  5) ViQ: Text-Aligned Visual Quantized Representations at Any Resolution
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Trong multimodal learning, ảnh thường phải resize mạnh hoặc dùng continuous features rất tốn tài nguyên. Cần một dạng biểu diễn &lt;strong&gt;rời rạc, gọn nhẹ&lt;/strong&gt;, nhưng vẫn giữ được cả &lt;strong&gt;ngữ nghĩa cấp cao&lt;/strong&gt; lẫn &lt;strong&gt;chi tiết cấp thấp&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
ViQ đề xuất framework lượng tử hóa biểu diễn thị giác sao cho được &lt;strong&gt;align với text&lt;/strong&gt;, đồng thời hỗ trợ &lt;strong&gt;ảnh ở độ phân giải bất kỳ&lt;/strong&gt;. Mục tiêu là dùng token thị giác rời rạc hiệu quả hơn cho mô hình đa phương thức.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper kết hợp:  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Text-aligned pre-training&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Position-aware head-wise quantization&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Proximal representation learning&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nhờ vậy, biểu diễn không chỉ nén tốt mà còn hữu ích cho các tác vụ cần hiểu ngữ nghĩa.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Huấn luyện VLM quy mô lớn với chi phí thấp hơn, xử lý tài liệu/ảnh độ phân giải cao, hoặc xây mô hình chạy trên thiết bị giới hạn tài nguyên. Rất phù hợp với xu hướng tiết kiệm compute trong multimodal AI.&lt;/p&gt;




&lt;h2&gt;
  
  
  6) Improved Large Language Diffusion Models
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
LLM hiện nay gần như mặc định là &lt;strong&gt;autoregressive&lt;/strong&gt;: sinh token từ trái sang phải. Cách này mạnh nhưng có giới hạn về song song hóa và đôi khi chưa tận dụng hết ngữ cảnh hai chiều.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper quay lại hướng &lt;strong&gt;diffusion cho ngôn ngữ&lt;/strong&gt;, cụ thể là &lt;strong&gt;masked diffusion language models&lt;/strong&gt; với attention hai chiều đầy đủ. Mô hình dần “khử nhiễu” chuỗi token bị mask để tạo ra văn bản hoàn chỉnh.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Kết quả cho thấy mô hình diffusion ngôn ngữ có thể &lt;strong&gt;vượt autoregressive&lt;/strong&gt; trên một số benchmark như BBH, ARC-Challenge, MATH, HumanEval, trong khi vẫn cạnh tranh về chất lượng tổng thể. Đây là tín hiệu đáng chú ý vì diffusion cho text từng bị xem là kém thực dụng hơn.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nếu hướng này tiếp tục tiến bộ, ta có thể có các language model hỗ trợ &lt;strong&gt;generation linh hoạt độ dài&lt;/strong&gt;, &lt;strong&gt;sửa nhiều vị trí đồng thời&lt;/strong&gt;, hoặc suy luận theo kiểu iterative refinement — rất hợp cho code editing, paraphrase, hoặc constrained generation.&lt;/p&gt;




&lt;h2&gt;
  
  
  7) Beyond NL2Code: A Structured Survey of Multimodal Code Intelligence
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Sinh code từ mô tả ngôn ngữ tự nhiên đã phát triển mạnh, nhưng thực tế ngày càng nhiều bài toán cần &lt;strong&gt;nhìn rồi mới code&lt;/strong&gt;: từ giao diện GUI, biểu đồ khoa học, sơ đồ vector, đến các artifact thị giác khác.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Đây là một bài survey hệ thống hóa lĩnh vực &lt;strong&gt;Multimodal Code Intelligence&lt;/strong&gt; — nơi mô hình phải chuyển từ &lt;strong&gt;perception&lt;/strong&gt; sang &lt;strong&gt;program generation/reasoning&lt;/strong&gt;. Tác giả phân loại các hướng theo loại đầu vào thị giác và loại tác vụ.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm giá trị nhất là góc nhìn &lt;strong&gt;verification-centered&lt;/strong&gt;. Paper không chỉ hỏi “mô hình có sinh đúng code không?”, mà còn nhấn mạnh các hướng như:  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;verifiable agent traces&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;multi-signal validation&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;multi-state verification&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;cross-task transfer testing&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Xây công cụ tạo giao diện từ mockup, phân tích chart bằng code, tạo hình vector từ sketch, hoặc agent tự động sửa GUI/web app. Với doanh nghiệp, đây là hướng rất gần sản phẩm.&lt;/p&gt;




&lt;h2&gt;
  
  
  8) Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Text prompt thường quá ngắn để mô tả đủ bối cảnh cho việc tạo ảnh chất lượng cao. “Một quán cà phê vintage buổi chiều mưa” nghe hay, nhưng mô hình thiếu vô số ngữ cảnh ngầm định về phong cách, vật thể, bố cục, ánh sáng, văn hóa, thời đại.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Qwen-Image-Agent xem tạo ảnh là một bài toán &lt;strong&gt;agentic&lt;/strong&gt;. Thay vì nhận prompt rồi sinh ảnh ngay, hệ thống có thể &lt;strong&gt;lập kế hoạch, suy luận, tìm kiếm, và dùng memory&lt;/strong&gt; để xây dựng &lt;strong&gt;generation context&lt;/strong&gt; đầy đủ hơn trước khi vẽ.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Đây là bước dịch chuyển từ “text-to-image model” sang “image-generation agent”. Paper cũng đưa ra cách đánh giá năng lực agent qua &lt;strong&gt;Image Agent Bench&lt;/strong&gt;, nhấn mạnh vào các thành phần plan/reason/search/memory.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Sinh ảnh quảng cáo, minh họa sản phẩm, storyboard, thiết kế sáng tạo chuyên nghiệp — nơi người dùng không muốn tự viết prompt cực dài mà muốn AI tự hỏi tiếp, tự bổ sung ngữ cảnh, rồi mới tạo.&lt;/p&gt;




&lt;h2&gt;
  
  
  9) MVTrack4Gen: Multi-View Point Tracking as Geometric Supervision for 4D Video Generation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Sinh video đa góc nhìn hoặc novel-view video thường gặp lỗi &lt;strong&gt;không nhất quán hình học&lt;/strong&gt;: vật thể méo, chuyển động lệch giữa các góc camera, hoặc cấu trúc không giữ vững theo thời gian.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
MVTrack4Gen dùng &lt;strong&gt;multi-view point tracking&lt;/strong&gt; làm tín hiệu giám sát hình học cho mô hình diffusion sinh video. Mô hình học không chỉ từ frame appearance mà còn từ &lt;strong&gt;correspondence cues&lt;/strong&gt; giữa các view.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper thêm một &lt;strong&gt;auxiliary multi-view tracking head&lt;/strong&gt; và huấn luyện joint training để truyền thông tin tracking vào các lớp attention. Đây là cách khá trực tiếp để bơm “cảm nhận hình học” vào mô hình sinh.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
AR/VR, tái dựng cảnh động, game, quay sản phẩm ảo, digital twin, và sản xuất nội dung 3D/video tương tác. Với các bài toán cần camera bay quanh chủ thể, tính nhất quán hình học là yếu tố sống còn.&lt;/p&gt;




&lt;h2&gt;
  
  
  10) OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Huấn luyện language agent bằng reinforcement learning thường rất tốn mẫu và sparse reward: agent chỉ biết mình làm tốt hay tệ ở cuối hành trình, còn giữa đường thiếu tín hiệu học.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
OPID khai thác &lt;strong&gt;dense hindsight supervision&lt;/strong&gt; từ các trajectory đã hoàn thành. Nói đơn giản, sau khi agent làm xong, hệ thống nhìn lại toàn bộ quá trình để rút ra các &lt;strong&gt;skill&lt;/strong&gt; trung gian rồi distill ngược vào policy.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm mạnh là &lt;strong&gt;on-policy skill distillation&lt;/strong&gt;, cùng với các biến thể &lt;strong&gt;skill-conditioned&lt;/strong&gt; và cơ chế &lt;strong&gt;critical-first routing&lt;/strong&gt;. Điều này giúp agent học hiệu quả hơn từ chính trải nghiệm mới nhất của mình, thay vì chỉ dựa vào replay hay reward cuối cùng.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Agent dùng tool, web agent, coding agent, hay assistant đa bước. Bất kỳ hệ thống nào cần ra quyết định dài hạn đều hưởng lợi nếu có thể biến “kinh nghiệm làm xong việc” thành supervision dày đặc hơn.&lt;/p&gt;




&lt;h1&gt;
  
  
  Kết luận: Xu hướng nổi bật hôm nay là gì?
&lt;/h1&gt;

&lt;p&gt;Nhìn tổng thể, 10 paper này phản ánh 4 xu hướng lớn:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Agent đang trở thành hệ thống hoàn chỉnh hơn&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Không chỉ có model lõi, mà còn có memory, planning, search, RL, distillation.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Image/Video generation đang chuyển sang hướng có ngữ cảnh và nhất quán hơn&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Từ subject consistency, geometric consistency đến context-aware generation.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Biểu diễn hiệu quả là chìa khóa cho multimodal AI quy mô lớn&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
ViQ là ví dụ rõ rệt cho việc tối ưu cost mà không hy sinh quá nhiều năng lực.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Diffusion không còn chỉ là cho ảnh&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nó đang quay lại mạnh mẽ trong ngôn ngữ và mở ra các kiểu sinh nội dung mới.&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Nếu phải chọn vài paper đáng theo dõi nhất về tác động dài hạn, mình sẽ nghiêng về:  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Are We Ready For An Agent-Native Memory System?&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Improved Large Language Diffusion Models&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Qwen-Image-Agent&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;OPID&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Vì chúng chạm vào câu hỏi lớn hơn từng benchmark riêng lẻ: &lt;strong&gt;AI sẽ trở thành một “agent có hệ thống”, hay vẫn chỉ là mô hình phản hồi từng lượt?&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;Nếu bạn muốn, ở bước tiếp theo mình có thể viết tiếp &lt;strong&gt;phiên bản blog sâu hơn theo phong cách technical&lt;/strong&gt;, hoặc &lt;strong&gt;rút gọn thành bản newsletter 5 phút đọc&lt;/strong&gt;.&lt;/p&gt;

</description>
      <category>ai</category>
      <category>machinelearning</category>
      <category>huggingface</category>
    </item>
    <item>
      <title>One Command Spins Up a Private vLLM Server on HF Jobs</title>
      <dc:creator>MLXIO</dc:creator>
      <pubDate>Thu, 25 Jun 2026 22:11:37 +0000</pubDate>
      <link>https://dev.to/mlxio_ai/one-command-spins-up-a-private-vllm-server-on-hf-jobs-33a0</link>
      <guid>https://dev.to/mlxio_ai/one-command-spins-up-a-private-vllm-server-on-hf-jobs-33a0</guid>
      <description>&lt;p&gt;A private OpenAI-style vLLM server can now run on HF Jobs with one command, GPU billing only while the job runs.&lt;/p&gt;

&lt;h3&gt;
  
  
  Key takeaways
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;One command can stand up a &lt;strong&gt;private, OpenAI-compatible vLLM endpoint&lt;/strong&gt; on &lt;strong&gt;Hugging Face Jobs&lt;/strong&gt; — with no VM setup, no Kubernetes, and billing tied to how long the jo...&lt;/li&gt;
&lt;li&gt;The workflow, published by the Hugging Face Blog, uses &lt;code&gt;hf jobs run&lt;/code&gt; with the official &lt;strong&gt;&lt;code&gt;vllm/vllm-openai&lt;/code&gt;&lt;/strong&gt; container, exposes port &lt;strong&gt;8000&lt;/strong&gt;, and returns a job-speci...&lt;/li&gt;
&lt;li&gt;&amp;gt; “You can spin up a private, OpenAI-compatible LLM endpoint on Hugging Face infrastructure with a single command — no servers to provision, no Kubernetes, pay-per-sec...&lt;/li&gt;
&lt;li&gt;That makes this a practical path for tests, evals, batch generation, or quick model trials. If you need a long-lived managed service, Hugging Face points users toward ...&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;👉 &lt;strong&gt;Read the full breakdown on &lt;a href="https://mlxio.com/ai-ml/vllm-server-hf-jobs" rel="noopener noreferrer"&gt;MLXIO&lt;/a&gt;&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;Canonical source: &lt;a href="https://mlxio.com/ai-ml/vllm-server-hf-jobs" rel="noopener noreferrer"&gt;https://mlxio.com/ai-ml/vllm-server-hf-jobs&lt;/a&gt;&lt;/p&gt;

</description>
      <category>ai</category>
      <category>vllm</category>
      <category>huggingface</category>
      <category>llm</category>
    </item>
    <item>
      <title>Top AI Papers on Hugging Face - 2026-06-25</title>
      <dc:creator>Y Hành Nhan</dc:creator>
      <pubDate>Thu, 25 Jun 2026 12:01:12 +0000</pubDate>
      <link>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-25-4f8n</link>
      <guid>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-25-4f8n</guid>
      <description>&lt;h1&gt;
  
  
  10 paper AI nổi bật nhất trên Hugging Face hôm nay: agent, bộ nhớ, video, mobile GUI và cả “LLM diffusion”
&lt;/h1&gt;

&lt;p&gt;Hôm nay, danh sách paper được upvote cao trên Hugging Face cho thấy một xu hướng rất rõ: &lt;strong&gt;AI đang chuyển từ mô hình “trả lời câu hỏi” sang mô hình “hành động trong thế giới”&lt;/strong&gt;. Ta thấy dày đặc các chủ đề như &lt;strong&gt;agent&lt;/strong&gt;, &lt;strong&gt;memory system&lt;/strong&gt;, &lt;strong&gt;OS-native AI&lt;/strong&gt;, &lt;strong&gt;benchmark cho khám phá khoa học&lt;/strong&gt;, và các mô hình &lt;strong&gt;đa phương thức thời gian thực&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Dưới đây là bản tổng hợp theo 4 góc nhìn cho từng paper:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Bài toán&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ý tưởng&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Điểm mới&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ứng dụng thực tế&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  1) Qwen-AgentWorld: Language World Models for General Agents
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;code&gt;2606.24597&lt;/code&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/QwenLM/Qwen-AgentWorld" rel="noopener noreferrer"&gt;https://github.com/QwenLM/Qwen-AgentWorld&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Các AI agent hiện nay thường học và hành động trực tiếp trên môi trường thật hoặc môi trường giả lập hẹp. Vấn đề là cách này &lt;strong&gt;tốn chi phí, khó mở rộng, khó bao phủ nhiều domain&lt;/strong&gt; và đặc biệt khó huấn luyện cho các tác vụ dài hơi.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Qwen-AgentWorld xây dựng một &lt;strong&gt;language world model&lt;/strong&gt;: thay vì mô phỏng thế giới bằng engine vật lý hay simulator chuyên biệt, hệ thống dùng &lt;strong&gt;ngôn ngữ&lt;/strong&gt; để biểu diễn trạng thái, chuyển trạng thái và phần thưởng. Nói ngắn gọn, agent có thể “tưởng tượng” môi trường qua text rồi học cách hành động trong môi trường đó.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm đáng chú ý là paper đẩy khái niệm &lt;strong&gt;world model cho agent tổng quát&lt;/strong&gt; lên quy mô rộng hơn nhiều domain. Họ kết hợp:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;mô hình hóa &lt;strong&gt;state transition&lt;/strong&gt; bằng ngôn ngữ,&lt;/li&gt;
&lt;li&gt;suy luận kiểu &lt;strong&gt;next-state prediction&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;và huấn luyện bằng &lt;strong&gt;agentic reinforcement learning&lt;/strong&gt; với cơ chế reward lai giữa rubric và rule.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Hướng này rất phù hợp cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;AI assistant biết lập kế hoạch dài hạn&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;tác tử tự động thao tác web/app&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;huấn luyện agent trong các bài toán mà mô phỏng truyền thống khó xây dựng.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nếu thành công ở quy mô lớn, đây có thể là nền móng cho các agent “tự diễn tập trước khi làm thật”.&lt;/p&gt;




&lt;h2&gt;
  
  
  2) Are We Ready For An Agent-Native Memory System?
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;code&gt;2606.24775&lt;/code&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/OpenDataBox/MemoryData" rel="noopener noreferrer"&gt;https://github.com/OpenDataBox/MemoryData&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Agent hiện đại không chỉ cần context ngắn trong cửa sổ prompt, mà còn cần &lt;strong&gt;bộ nhớ dài hạn&lt;/strong&gt;: nhớ người dùng là ai, việc nào đã làm, thông tin nào quan trọng, khi nào cần cập nhật hay quên đi. Vấn đề là ta vẫn thiếu một cách đánh giá hệ thống memory thật bài bản.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Paper tiếp cận memory cho agent như một &lt;strong&gt;bài toán quản trị dữ liệu&lt;/strong&gt;. Họ chia bộ nhớ thành các khâu:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;lưu trữ/biểu diễn,&lt;/li&gt;
&lt;li&gt;trích xuất,&lt;/li&gt;
&lt;li&gt;truy hồi và định tuyến,&lt;/li&gt;
&lt;li&gt;bảo trì/cập nhật.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Sau đó, paper đánh giá các khâu này dưới nhiều workload khác nhau.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm mới lớn nhất không nằm ở việc đề xuất một thuật toán memory duy nhất, mà ở việc xây dựng &lt;strong&gt;khung đánh giá có hệ thống&lt;/strong&gt; cho “agent-native memory systems”. Các tiêu chí như:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;representation fidelity&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;retrieval precision&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;update correctness&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;long-horizon stability&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;cost-performance trade-off&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;giúp cộng đồng nhìn memory không còn là “gắn thêm vector DB là xong”.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Rất hữu ích cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;personal AI assistant&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;customer support agent&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;copilot doanh nghiệp&lt;/strong&gt; cần nhớ lịch sử công việc, preference và policy.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là paper đáng đọc với bất kỳ ai đang xây agent production.&lt;/p&gt;




&lt;h2&gt;
  
  
  3) NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;code&gt;2606.24530&lt;/code&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/FrontisAI/NatureBench" rel="noopener noreferrer"&gt;https://github.com/FrontisAI/NatureBench&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Các benchmark coding hiện nay chủ yếu kiểm tra khả năng hoàn thành task kỹ thuật. Nhưng câu hỏi khó hơn là: &lt;strong&gt;AI coding agent có thể hỗ trợ khám phá khoa học thật không?&lt;/strong&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;NatureBench tạo một benchmark gồm &lt;strong&gt;90 tác vụ khoa học liên ngành&lt;/strong&gt;, lấy cảm hứng từ các bài báo thuộc họ Nature. Mục tiêu không chỉ là “reproduce code”, mà là kiểm tra liệu agent có thể chạm đến mức &lt;strong&gt;khám phá&lt;/strong&gt; hay ít nhất là tái hiện phương pháp ở chuẩn rất cao.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Paper chạm đúng một khoảng trống lớn: thay vì benchmark coding thông thường, họ benchmark &lt;strong&gt;scientific discovery workflow&lt;/strong&gt;. Kết quả cho thấy agent hiện tại chủ yếu mạnh ở &lt;strong&gt;dịch phương pháp thành code&lt;/strong&gt; hơn là tạo ra tri thức mới.&lt;/p&gt;

&lt;p&gt;Nói cách khác, agent vẫn giống một “kỹ sư triển khai rất giỏi” hơn là “nhà khoa học sáng tạo”.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Paper này quan trọng với:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;lab nghiên cứu muốn dùng AI để tăng tốc khoa học,&lt;/li&gt;
&lt;li&gt;startup làm &lt;strong&gt;AI for science&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;đội ngũ xây coding agent chuyên cho nghiên cứu.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nó giúp đặt kỳ vọng đúng: AI hiện hỗ trợ khoa học tốt ở lớp &lt;strong&gt;thực thi và tái hiện&lt;/strong&gt;, nhưng chưa thật sự thay thế bước &lt;strong&gt;đột phá ý tưởng&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  4) DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;code&gt;2606.26058&lt;/code&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/HKUST-C4G/DomainShuttle" rel="noopener noreferrer"&gt;https://github.com/HKUST-C4G/DomainShuttle&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Text-to-video hiện tiến rất nhanh, nhưng khi yêu cầu tạo video có &lt;strong&gt;chủ thể cụ thể&lt;/strong&gt; từ ảnh tham chiếu, mô hình thường gặp hai lỗi:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;không giữ được danh tính/chủ thể,&lt;/li&gt;
&lt;li&gt;hoặc chỉ hoạt động tốt trong domain hẹp.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;DomainShuttle hướng đến &lt;strong&gt;subject-driven text-to-video&lt;/strong&gt; trong &lt;strong&gt;open domain&lt;/strong&gt;. Hệ thống dùng cơ chế modeling theo domain để xử lý tốt cả tình huống cùng domain lẫn cross-domain.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Các thành phần đáng chú ý gồm:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;domain-aware AdaLN&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Video-Reference DualRoPE&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Cross-Pair Consistent Loss&lt;/strong&gt;.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nói đơn giản, paper cố gắng khiến mô hình hiểu rõ hơn mối liên hệ giữa:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;token ảnh tham chiếu,&lt;/li&gt;
&lt;li&gt;token video sinh ra,&lt;/li&gt;
&lt;li&gt;và ngữ cảnh domain.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Ứng dụng rất rõ ràng trong:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;quảng cáo cá nhân hóa&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;video marketing,&lt;/li&gt;
&lt;li&gt;sáng tạo nội dung với nhân vật/brand ambassador nhất quán,&lt;/li&gt;
&lt;li&gt;previsualization cho studio.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là hướng có tiềm năng thương mại mạnh vì “giữ đúng chủ thể” là nhu cầu cực lớn trong sản xuất nội dung.&lt;/p&gt;




&lt;h2&gt;
  
  
  5) MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;code&gt;2606.19926&lt;/code&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/kwai/MemGUI-Agent" rel="noopener noreferrer"&gt;https://github.com/kwai/MemGUI-Agent&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Mobile GUI agent thường thất bại ở các tác vụ dài nhiều bước: đặt vé, mua hàng, cấu hình app, điền form dài... Lý do là agent &lt;strong&gt;mất ngữ cảnh&lt;/strong&gt; và không biết thông tin nào cần giữ lại qua nhiều màn hình.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;MemGUI-Agent đề xuất &lt;strong&gt;proactive context management&lt;/strong&gt; với cơ chế &lt;strong&gt;Context-as-Action (ConAct)&lt;/strong&gt;. Tức là quản lý context không còn là phần bị động trong prompt, mà trở thành một phần của chuỗi hành động.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Paper đưa vào các trường context có cấu trúc như:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;folded action history,&lt;/li&gt;
&lt;li&gt;folded UI state,&lt;/li&gt;
&lt;li&gt;recent step record.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Điểm hay là memory/context được quản trị rõ ràng hơn thay vì nhồi toàn bộ lịch sử vào prompt.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Rất thực tế cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;trợ lý thao tác điện thoại,&lt;/li&gt;
&lt;li&gt;accessibility tools,&lt;/li&gt;
&lt;li&gt;tự động hóa tác vụ mobile cho doanh nghiệp,&lt;/li&gt;
&lt;li&gt;kiểm thử ứng dụng.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là một bước quan trọng nếu muốn có “AI dùng điện thoại thay người” thật sự đáng tin.&lt;/p&gt;




&lt;h2&gt;
  
  
  6) ShutterMuse: Capture-Time Photography Guidance with MLLMs
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;code&gt;2606.25763&lt;/code&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/lijayuTnT/ShutterMuse" rel="noopener noreferrer"&gt;https://github.com/lijayuTnT/ShutterMuse&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Hầu hết AI chỉnh ảnh hiện nay hoạt động &lt;strong&gt;sau khi chụp&lt;/strong&gt;. Nhưng với nhiếp ảnh, giá trị lớn hơn nhiều nằm ở việc &lt;strong&gt;hướng dẫn ngay lúc bấm máy&lt;/strong&gt;: bố cục ra sao, chủ thể nên tạo dáng thế nào.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;ShutterMuse xây benchmark, dataset và một mô hình đa phương thức thống nhất để hỗ trợ:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;composition guidance&lt;/strong&gt; cho người chụp,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;pose recommendation&lt;/strong&gt; cho người được chụp.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Paper kết hợp hai vai trò vốn tách rời:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;hướng dẫn phía photographer,&lt;/li&gt;
&lt;li&gt;hướng dẫn phía subject.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Ngoài supervised fine-tuning, họ còn dùng &lt;strong&gt;reinforcement fine-tuning&lt;/strong&gt; để tăng chất lượng hướng dẫn thẩm mỹ.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Khá rõ cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;app camera thông minh,&lt;/li&gt;
&lt;li&gt;trợ lý chụp ảnh trên điện thoại,&lt;/li&gt;
&lt;li&gt;thương mại điện tử, du lịch, wedding, social content.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nếu tích hợp tốt, đây có thể là “copilot nhiếp ảnh” thời gian thực.&lt;/p&gt;




&lt;h2&gt;
  
  
  7) Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;code&gt;2606.25041&lt;/code&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;Project:&lt;/strong&gt; &lt;a href="https://wan-streamer.com/" rel="noopener noreferrer"&gt;https://wan-streamer.com/&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Nhiều mô hình multimodal mạnh nhưng phản hồi chậm, không phù hợp với tương tác thời gian thực như gọi video, livestream, hay trợ lý giọng nói có nhìn hình.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Wan-Streamer xây mô hình nền tảng &lt;strong&gt;audio-visual-text&lt;/strong&gt; theo kiểu &lt;strong&gt;streaming end-to-end&lt;/strong&gt;, dùng causal attention để xử lý dữ liệu đến liên tục với độ trễ thấp.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Các điểm kỹ thuật nổi bật:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;block-causal attention&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;causal encoder/decoder,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;multimodal token scheduling&lt;/strong&gt;.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Mục tiêu là hợp nhất nhiều modality nhưng vẫn giữ trải nghiệm realtime.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Rất hứa hẹn cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;trợ lý video call,&lt;/li&gt;
&lt;li&gt;AI livestream host,&lt;/li&gt;
&lt;li&gt;robot hội thoại nhìn-nghe-nói,&lt;/li&gt;
&lt;li&gt;lớp học/họp trực tuyến có AI đồng hành.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là hướng then chốt nếu muốn AI thực sự “sống trong dòng thời gian thực”.&lt;/p&gt;




&lt;h2&gt;
  
  
  8) Beyond NL2Code: A Structured Survey of Multimodal Code Intelligence
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;code&gt;2606.15932&lt;/code&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code" rel="noopener noreferrer"&gt;https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;“Code intelligence” không còn chỉ là từ mô tả ngôn ngữ sinh code. Ngày càng nhiều bài toán đòi hỏi AI hiểu &lt;strong&gt;hình ảnh, GUI, biểu đồ, sơ đồ&lt;/strong&gt;, rồi mới sinh hoặc phân tích code.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Đây là một bài survey hệ thống hóa lĩnh vực &lt;strong&gt;multimodal code intelligence&lt;/strong&gt;: từ GUI, scientific visualization, structured graphics cho đến các framework kiểm chứng kết quả.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Giá trị chính nằm ở việc paper không chỉ liệt kê công trình mà còn nhấn mạnh hướng đi tương lai:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;verifiable agent traces&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;multi-signal validation&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;multi-state verification&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;kiểm tra khả năng chuyển giao liên nhiệm vụ.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Hữu ích cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;người làm AI coding,&lt;/li&gt;
&lt;li&gt;team xây GUI agent,&lt;/li&gt;
&lt;li&gt;startup làm “ảnh/sơ đồ thành ứng dụng”.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là bài đọc nền tảng để hiểu nơi thị trường code agent sẽ đi tiếp.&lt;/p&gt;




&lt;h2&gt;
  
  
  9) AOHP: An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;code&gt;2606.23449&lt;/code&gt;&lt;br&gt;&lt;br&gt;
&lt;strong&gt;GitHub:&lt;/strong&gt; &lt;a href="https://github.com/aohp-os/aohp" rel="noopener noreferrer"&gt;https://github.com/aohp-os/aohp&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Phần lớn agent hiện chạy “trên” hệ điều hành chứ chưa được hệ điều hành xem như &lt;strong&gt;thực thể hạng nhất&lt;/strong&gt;. Điều này làm hạn chế khả năng cá nhân hóa, hiệu quả thực thi và kiểm soát bảo mật.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;AOHP xây một framework ở mức &lt;strong&gt;OS-level&lt;/strong&gt;, dựa trên Android, để agent trở thành thành phần native của hệ điều hành.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm mới là góc nhìn &lt;strong&gt;agent-native operating system&lt;/strong&gt;. Paper không chỉ tối ưu completion rate hay token cost, mà còn đưa ra cơ chế:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;personalized service composition,&lt;/li&gt;
&lt;li&gt;efficient agent interface,&lt;/li&gt;
&lt;li&gt;secure information flow.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Nếu phát triển tốt, đây là nền móng cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;smartphone có agent hệ thống,&lt;/li&gt;
&lt;li&gt;enterprise device management với AI,&lt;/li&gt;
&lt;li&gt;môi trường di động nơi AI có quyền năng lớn nhưng vẫn tuân thủ policy.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là hướng rất đáng chú ý vì agent tương lai có thể không còn là app, mà là &lt;strong&gt;lớp hạ tầng của OS&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  10) Improved Large Language Diffusion Models
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;code&gt;2606.25331&lt;/code&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Mô hình ngôn ngữ hiện nay chủ yếu theo kiểu &lt;strong&gt;autoregressive&lt;/strong&gt;: sinh token trái sang phải. Cách này hiệu quả nhưng có giới hạn về song song hóa và đôi khi hạn chế khả năng khai thác ngữ cảnh hai chiều.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Paper theo đuổi &lt;strong&gt;masked diffusion language model&lt;/strong&gt; với &lt;strong&gt;fully bidirectional attention&lt;/strong&gt;. Thay vì sinh tuần tự hoàn toàn, mô hình dần tinh chỉnh chuỗi token qua nhiều bước khử nhiễu.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm đáng chú ý là mô hình diffusion ngôn ngữ ở đây đạt kết quả cạnh tranh, thậm chí vượt AR trên một số benchmark như:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;BBH&lt;/li&gt;
&lt;li&gt;ARC-Challenge&lt;/li&gt;
&lt;li&gt;MATH&lt;/li&gt;
&lt;li&gt;HumanEval&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Ngoài ra còn có:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;variable-length generation&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;cơ chế &lt;strong&gt;confidence-based scoring&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Dù còn sớm, hướng này có thể hữu ích cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;sinh văn bản cần chỉnh sửa toàn cục,&lt;/li&gt;
&lt;li&gt;code generation cần nhất quán dài hạn,&lt;/li&gt;
&lt;li&gt;hệ thống nơi ta muốn cân bằng giữa chất lượng và chiến lược sinh song song.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nó cũng nhắc cộng đồng rằng tương lai của LLM có thể không chỉ thuộc về kiến trúc autoregressive.&lt;/p&gt;




&lt;h1&gt;
  
  
  Kết luận: 3 xu hướng lớn rút ra từ top paper hôm nay
&lt;/h1&gt;

&lt;h2&gt;
  
  
  1. Agent đang trở thành trung tâm
&lt;/h2&gt;

&lt;p&gt;Các paper như &lt;strong&gt;Qwen-AgentWorld&lt;/strong&gt;, &lt;strong&gt;MemGUI-Agent&lt;/strong&gt;, &lt;strong&gt;AOHP&lt;/strong&gt;, và nghiên cứu về &lt;strong&gt;agent-native memory&lt;/strong&gt; cho thấy trọng tâm đã dịch chuyển từ “mô hình biết nói” sang “mô hình biết làm”.&lt;/p&gt;

&lt;h2&gt;
  
  
  2. Memory và hạ tầng quan trọng không kém model
&lt;/h2&gt;

&lt;p&gt;Ngày càng rõ rằng để agent hữu ích ngoài đời thực, chỉ tăng kích thước mô hình là chưa đủ. Cần:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;memory đúng nghĩa,&lt;/li&gt;
&lt;li&gt;OS/harness phù hợp,&lt;/li&gt;
&lt;li&gt;benchmark phản ánh việc thật.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  3. Multimodal AI đang tiến tới thời gian thực và hành động thực tế
&lt;/h2&gt;

&lt;p&gt;Từ &lt;strong&gt;ShutterMuse&lt;/strong&gt; đến &lt;strong&gt;Wan-Streamer&lt;/strong&gt; và &lt;strong&gt;DomainShuttle&lt;/strong&gt;, AI đa phương thức không còn chỉ để demo đẹp, mà đang tiến vào các kịch bản dùng được ngay: quay/chụp, giao tiếp trực tiếp, tạo nội dung sản xuất.&lt;/p&gt;

&lt;p&gt;Nếu phải chọn một thông điệp chung của top paper hôm nay, thì đó là:&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;Kỷ nguyên tiếp theo của AI không chỉ là “hiểu và sinh”, mà là “nhớ, mô phỏng, hành động và tương tác theo thời gian thực”.&lt;/strong&gt;&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;Nếu bạn muốn, ở bước tiếp theo mình có thể viết tiếp một phiên bản &lt;strong&gt;blog polished hơn theo giọng Tech in Asia / Viblo / Substack&lt;/strong&gt;, hoặc rút gọn thành &lt;strong&gt;bản LinkedIn post 10 ý ngắn&lt;/strong&gt;.&lt;/p&gt;

</description>
      <category>ai</category>
      <category>machinelearning</category>
      <category>huggingface</category>
    </item>
    <item>
      <title>Top AI Papers on Hugging Face - 2026-06-24</title>
      <dc:creator>Y Hành Nhan</dc:creator>
      <pubDate>Wed, 24 Jun 2026 12:00:48 +0000</pubDate>
      <link>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-24-4h2</link>
      <guid>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-24-4h2</guid>
      <description>&lt;h1&gt;
  
  
  10 paper AI nổi bật nhất hôm nay trên Hugging Face: agent, world model, attention, biology và an toàn tác vụ
&lt;/h1&gt;

&lt;p&gt;Hôm nay, danh sách paper được upvote nhiều nhất trên Hugging Face cho thấy một xu hướng rất rõ: &lt;strong&gt;AI đang chuyển từ “mô hình trả lời” sang “mô hình hành động”&lt;/strong&gt;. Nhiều paper tập trung vào agent, môi trường mô phỏng, GUI/mobile interaction, benchmark đánh giá năng lực tác vụ thực tế, cùng với các hướng cải thiện hiệu quả suy luận và mở rộng foundation model sang sinh học.&lt;/p&gt;

&lt;p&gt;Dưới đây là phần tổng hợp theo 4 góc nhìn cho mỗi paper: &lt;strong&gt;bài toán&lt;/strong&gt;, &lt;strong&gt;ý tưởng&lt;/strong&gt;, &lt;strong&gt;điểm mới&lt;/strong&gt;, và &lt;strong&gt;ứng dụng thực tế&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  1) Qwen-AgentWorld: Language World Models for General Agents
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Agent hiện nay thường yếu ở khả năng lập kế hoạch dài hạn vì thiếu một “mô hình thế giới” để dự đoán nếu làm hành động A thì môi trường sẽ chuyển sang trạng thái nào. Việc huấn luyện trực tiếp trên môi trường thật cũng tốn kém và chậm.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Qwen-AgentWorld xây dựng &lt;strong&gt;world model bằng ngôn ngữ&lt;/strong&gt;, tức dùng language model để mô phỏng diễn tiến của môi trường, trạng thái, phản hồi và kết quả hành động. Agent có thể “tập dượt” trong môi trường mô phỏng này trước khi ra quyết định thật.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm đáng chú ý là tác giả dùng &lt;strong&gt;language-based environment simulation&lt;/strong&gt; cho nhiều domain khác nhau, thay vì chỉ cho một game hay một tác vụ đơn lẻ. Cách này kết hợp dự đoán trạng thái kế tiếp, reasoning theo chuỗi dài, và reinforcement learning để cải thiện policy của agent.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất phù hợp cho các &lt;strong&gt;general-purpose agent&lt;/strong&gt;: trợ lý phần mềm, agent web, agent doanh nghiệp, hay robot software cần thử nghiệm chiến lược an toàn trước khi chạy thật.&lt;/p&gt;




&lt;h2&gt;
  
  
  2) Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Self-attention ngày càng đắt đỏ khi model lớn hơn. GQA giúp giảm chi phí KV cache, nhưng vẫn chưa tận dụng được khả năng chuyên môn hóa như Mixture-of-Experts.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper này đưa ra &lt;strong&gt;Grouped Query Experts (GQE)&lt;/strong&gt;: thay vì tất cả query heads cùng hoạt động, model dùng router để &lt;strong&gt;chọn một nhóm query-head experts phù hợp theo từng token&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Cái hay là tác giả giữ lại lợi ích của &lt;strong&gt;Grouped-Query Attention&lt;/strong&gt; về hiệu quả bộ nhớ và cache, nhưng thêm cơ chế chuyên gia giống MoE ở phần query. Đây là một thiết kế khá “sạch”: tăng năng lực biểu diễn mà không phải trả toàn bộ chi phí của dense attention.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Có giá trị lớn cho &lt;strong&gt;LLM suy luận dài ngữ cảnh&lt;/strong&gt;, inference tiết kiệm chi phí, và các hệ thống phục vụ model ở quy mô lớn nơi latency và memory là yếu tố sống còn.&lt;/p&gt;




&lt;h2&gt;
  
  
  3) NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nhiều benchmark coding hiện chỉ đo xem agent có viết được code đúng không, nhưng không trả lời câu hỏi khó hơn: &lt;strong&gt;agent có tái tạo hoặc đạt trình độ khám phá khoa học như các paper top-tier không?&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
NatureBench xây dựng một benchmark gồm &lt;strong&gt;90 tác vụ khoa học liên ngành&lt;/strong&gt; xuất phát từ các bài báo thuộc hệ Nature. Thay vì các bài toán toy, đây là các nhiệm vụ gần với nghiên cứu thật.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm mới quan trọng là benchmark không chỉ đo &lt;strong&gt;reproduction&lt;/strong&gt;, mà hướng tới đánh giá năng lực &lt;strong&gt;discovery-oriented coding agents&lt;/strong&gt;. Kết quả cho thấy phần lớn agent hiện mới giỏi “dịch phương pháp thành code”, chưa thực sự sáng tạo khoa học.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper này hữu ích cho các nhóm xây dựng &lt;strong&gt;AI scientist&lt;/strong&gt;, coding agent hỗ trợ R&amp;amp;D, và các tổ chức muốn đo xem agent đã đủ tin cậy để tham gia pipeline nghiên cứu hay chưa.&lt;/p&gt;




&lt;h2&gt;
  
  
  4) MobileForge: Annotation-Free Adaptation for Mobile GUI Agents
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Mobile GUI agent thường cần nhiều dữ liệu gán nhãn đắt đỏ để thích nghi với app mới, trong khi giao diện di động thay đổi liên tục.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
MobileForge đề xuất cách &lt;strong&gt;annotation-free adaptation&lt;/strong&gt;, tức cho agent học thích nghi mà không cần gán nhãn thủ công. Hệ thống khai thác tương tác thật với app và tối ưu policy bằng &lt;strong&gt;hierarchical feedback-guided policy optimization&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Thay vì phụ thuộc vào dataset có nhãn, paper tận dụng &lt;strong&gt;feedback phân cấp&lt;/strong&gt; để cải thiện dần hành vi của agent. Đây là hướng rất thực dụng vì mobile ecosystem thay đổi quá nhanh để con người luôn kịp annotate.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Phù hợp cho trợ lý thao tác điện thoại, tự động hóa app testing, hỗ trợ người dùng khuyết tật, và agent thực hiện các workflow như đặt xe, chuyển tiền, mua sắm, điền biểu mẫu.&lt;/p&gt;




&lt;h2&gt;
  
  
  5) MemGUI-Agent: Long-Horizon Mobile GUI Agent with Proactive Context Management
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Mobile agent thường thất bại ở tác vụ dài vì &lt;strong&gt;quên ngữ cảnh&lt;/strong&gt;: trước đó đã bấm gì, thông tin nào quan trọng, màn hình nào đã đi qua.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
MemGUI-Agent đưa ra cơ chế &lt;strong&gt;proactive context management&lt;/strong&gt; với khái niệm &lt;strong&gt;Context-as-Action (ConAct)&lt;/strong&gt;. Tức là việc quản lý bộ nhớ/ngữ cảnh được xem như một loại hành động chủ động của agent.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Thay vì nhồi toàn bộ lịch sử vào prompt, mô hình dùng các trường ngữ cảnh có cấu trúc như folded action history, folded UI state, recent step record. Đây là một cách tiếp cận gọn hơn và phù hợp với tác vụ nhiều bước.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất hữu ích cho các tác vụ mobile dài hơi như đặt vé máy bay, xử lý khiếu nại, đăng ký dịch vụ, hoặc các workflow đòi hỏi chuyển qua nhiều màn hình và nhớ thông tin từ đầu đến cuối.&lt;/p&gt;




&lt;h2&gt;
  
  
  6) AOHP: An Open-Source OS-Level Agent Harness
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Hiện nay phần lớn agent chạy “trên” hệ điều hành chứ chưa được coi là thực thể hạng nhất trong OS. Điều này gây hạn chế về hiệu năng, cá nhân hóa, và đặc biệt là bảo mật.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
AOHP xây dựng một framework ở &lt;strong&gt;mức hệ điều hành Android&lt;/strong&gt;, nơi agent được tích hợp như một thành phần gốc của OS thay vì lớp ứng dụng chắp vá bên trên.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper nhấn mạnh 3 điểm: &lt;strong&gt;personalized interaction&lt;/strong&gt;, &lt;strong&gt;efficient agent interfaces&lt;/strong&gt;, và &lt;strong&gt;secure information flow&lt;/strong&gt;. Tức không chỉ làm agent mạnh hơn, mà còn làm nó an toàn và rẻ hơn khi vận hành.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Đây là hướng rất tiềm năng cho &lt;strong&gt;agent-native OS&lt;/strong&gt; trong điện thoại, xe hơi, thiết bị IoT, hay enterprise device management — nơi agent cần quyền truy cập sâu nhưng vẫn phải tuân thủ policy bảo mật.&lt;/p&gt;




&lt;h2&gt;
  
  
  7) Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Thông thường LLM luôn dùng &lt;strong&gt;layer cuối&lt;/strong&gt; để dự đoán token tiếp theo. Nhưng layer cuối không phải lúc nào cũng tốt nhất, đặc biệt khi alignment hoặc fine-tuning gây nhiễu cho reasoning gốc.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper đề xuất &lt;strong&gt;Confident Layer Decoding&lt;/strong&gt;: trong quá trình sinh, hệ thống động chọn &lt;strong&gt;layer trung gian đáng tin hơn&lt;/strong&gt; dựa trên entropy-guided search.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm mới nằm ở cách xem việc chọn layer như một &lt;strong&gt;optimal stopping problem&lt;/strong&gt;. Thay vì mặc định “càng sâu càng tốt”, paper cho thấy đôi khi layer giữa cho tín hiệu tốt hơn, giúp giảm “alignment tax” mà không cần retrain nặng.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Có giá trị ngay cho &lt;strong&gt;inference-time optimization&lt;/strong&gt; trên các model reasoning, nhất là khi muốn tăng chất lượng trả lời toán, logic, khoa học mà không đổi kiến trúc hay tốn thêm quá nhiều compute.&lt;/p&gt;




&lt;h2&gt;
  
  
  8) BioMatrix: A Biological Foundation Model across Sequences, Structures, and Language
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Dữ liệu sinh học tồn tại ở nhiều modality: &lt;strong&gt;sequence&lt;/strong&gt;, &lt;strong&gt;structure&lt;/strong&gt;, và &lt;strong&gt;natural language&lt;/strong&gt;. Phần lớn model mới chỉ xử lý tốt một hoặc hai dạng, khiến tri thức bị phân mảnh.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
BioMatrix xây dựng một &lt;strong&gt;multimodal biological foundation model&lt;/strong&gt; trong kiến trúc decoder-only thống nhất, đưa sequence, structure và text vào cùng một không gian token rời rạc.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm mạnh là tư duy “&lt;strong&gt;modality matrix&lt;/strong&gt;”: thay vì xem protein sequence, molecular structure và mô tả ngôn ngữ là ba thế giới tách rời, paper gom chúng vào chung một framework tiền huấn luyện liên tục.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất đáng chú ý cho &lt;strong&gt;drug discovery&lt;/strong&gt;, protein engineering, chú giải chức năng sinh học, và hệ thống hỏi-đáp khoa học có khả năng nối kiến thức ngôn ngữ với cấu trúc phân tử thực.&lt;/p&gt;




&lt;h2&gt;
  
  
  9) LingxiDiagBench: Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Đánh giá LLM trong y tế tâm thần rất khó vì không chỉ cần chẩn đoán đúng, mà còn phải &lt;strong&gt;hỏi đúng, khai thác đúng, và tư vấn phù hợp trong đối thoại động&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
LingxiDiagBench xây dựng benchmark multi-agent cho &lt;strong&gt;tư vấn và chẩn đoán tâm thần bằng tiếng Trung&lt;/strong&gt;, bám theo EMR và ICD-10.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper chỉ ra một phát hiện thú vị: &lt;strong&gt;chất lượng hội thoại không đồng nghĩa với độ chính xác chẩn đoán&lt;/strong&gt;. Một model có thể nói chuyện trôi chảy nhưng vẫn suy luận lâm sàng kém.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Dùng để đánh giá trợ lý y tế, hệ thống sàng lọc sức khỏe tâm thần, và các mô hình hội thoại chuyên ngành cần tuân thủ tiêu chuẩn lâm sàng thay vì chỉ “nói hay”.&lt;/p&gt;




&lt;h2&gt;
  
  
  10) SkillHarness: Harnessing Safe Skills for Computer-Use Agents
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Computer-use agents học kỹ năng mới liên tục, nhưng trong môi trường động và có yếu tố đối kháng, việc tái sử dụng kỹ năng cũ có thể dẫn tới hành vi nguy hiểm hoặc sai ngữ cảnh.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
SkillHarness xây dựng framework để &lt;strong&gt;học, chọn, dùng và loại bỏ kỹ năng&lt;/strong&gt; theo vòng đời, đồng thời gắn với các &lt;strong&gt;ràng buộc an toàn&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper không xem skill chỉ là một primitive để tái sử dụng, mà là một thực thể có &lt;strong&gt;biên an toàn&lt;/strong&gt;, có thể tự cải thiện constraint và được giám sát từ nhiều nguồn tín hiệu khác nhau.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Quan trọng cho agent thao tác máy tính trong doanh nghiệp: xử lý email, chỉnh sửa tài liệu, thao tác dashboard, hay vận hành back-office — nơi sai sót nhỏ cũng có thể gây rò rỉ dữ liệu hoặc thao tác ngoài quyền hạn.&lt;/p&gt;




&lt;h1&gt;
  
  
  Xu hướng nổi bật rút ra từ 10 paper
&lt;/h1&gt;

&lt;h2&gt;
  
  
  1. Agent đang là trung tâm
&lt;/h2&gt;

&lt;p&gt;Hơn một nửa danh sách xoay quanh &lt;strong&gt;agent&lt;/strong&gt;: world model, mobile GUI, OS-level harness, computer-use safety, coding-for-science benchmark. Điều này cho thấy cộng đồng đang chuyển từ “chatbot” sang “hệ thống có khả năng hành động”.&lt;/p&gt;

&lt;h2&gt;
  
  
  2. Benchmark đang tiến gần thế giới thật
&lt;/h2&gt;

&lt;p&gt;NatureBench, LingxiDiagBench, MemGUI-Bench hay MobileWorld đều phản ánh nhu cầu đo năng lực AI trong &lt;strong&gt;môi trường phức tạp, nhiều bước, khó chuẩn hóa&lt;/strong&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  3. Inference efficiency vẫn rất nóng
&lt;/h2&gt;

&lt;p&gt;GQE và Confident Layer Decoding đại diện cho hai hướng lớn:  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;tối ưu &lt;strong&gt;kiến trúc attention&lt;/strong&gt;,
&lt;/li&gt;
&lt;li&gt;tối ưu &lt;strong&gt;chiến lược giải mã&lt;/strong&gt;.
Đây là các cải tiến có khả năng tác động trực tiếp đến chi phí triển khai.&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  4. Domain foundation model tiếp tục mở rộng
&lt;/h2&gt;

&lt;p&gt;BioMatrix cho thấy foundation model không chỉ còn là text/image, mà đang đi sâu vào các miền khoa học có cấu trúc dữ liệu riêng và giá trị ứng dụng rất cao.&lt;/p&gt;




&lt;h1&gt;
  
  
  Kết luận
&lt;/h1&gt;

&lt;p&gt;Nếu phải tóm gọn bức tranh hôm nay trong một câu, thì đó là: &lt;strong&gt;AI đang học cách mô phỏng thế giới, hành động trong thế giới đó, và được đánh giá bằng các tiêu chuẩn ngày càng sát thực tế hơn&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Trong 10 paper này, nổi bật nhất về tầm nhìn dài hạn có lẽ là &lt;strong&gt;Qwen-AgentWorld&lt;/strong&gt; và &lt;strong&gt;AOHP&lt;/strong&gt;, vì chúng chạm vào câu hỏi nền tảng: làm sao để agent có môi trường suy nghĩ và có “chỗ đứng” thật sự trong hệ điều hành. Về tính thực dụng gần hạn, &lt;strong&gt;MobileForge&lt;/strong&gt;, &lt;strong&gt;MemGUI-Agent&lt;/strong&gt;, &lt;strong&gt;SkillHarness&lt;/strong&gt;, và &lt;strong&gt;Confident Layer Decoding&lt;/strong&gt; có vẻ là những hướng dễ chuyển thành sản phẩm hơn. Còn về tác động khoa học, &lt;strong&gt;NatureBench&lt;/strong&gt; và &lt;strong&gt;BioMatrix&lt;/strong&gt; mở ra hai mặt trận rất đáng theo dõi: AI for science và foundation model cho sinh học.&lt;/p&gt;

&lt;p&gt;Nếu bạn muốn, ở bước tiếp theo mình có thể làm thêm một trong 3 dạng sau:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Bảng so sánh 10 paper&lt;/strong&gt; theo cột: domain, idea, novelty, maturity
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Bản tóm tắt cực ngắn 2-3 câu/paper&lt;/strong&gt; để đăng Facebook/LinkedIn
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Phân tích chuyên sâu top 3 paper đáng đọc nhất&lt;/strong&gt; hôm nay.&lt;/li&gt;
&lt;/ol&gt;

</description>
      <category>ai</category>
      <category>machinelearning</category>
      <category>huggingface</category>
    </item>
    <item>
      <title>Krea releases Krea 2 as open weights for image generation</title>
      <dc:creator>Damien Gallagher</dc:creator>
      <pubDate>Wed, 24 Jun 2026 01:10:33 +0000</pubDate>
      <link>https://dev.to/damogallagher/krea-releases-krea-2-as-open-weights-for-image-generation-13pe</link>
      <guid>https://dev.to/damogallagher/krea-releases-krea-2-as-open-weights-for-image-generation-13pe</guid>
      <description>&lt;h1&gt;
  
  
  Krea releases Krea 2 as open weights for image generation
&lt;/h1&gt;

&lt;p&gt;Krea has released &lt;strong&gt;Krea 2&lt;/strong&gt; as open weights, including &lt;strong&gt;Krea 2 Raw&lt;/strong&gt; and &lt;strong&gt;Krea 2 Turbo&lt;/strong&gt;. This is worth acting on now because image-generation teams can download and test a new 12B text-to-image model family directly instead of waiting for hosted-only API access.&lt;/p&gt;

&lt;p&gt;The short version: Krea is putting the weights on Hugging Face, documenting Diffusers usage, and shipping two checkpoints aimed at different jobs. Raw is the base release. Turbo is post-trained and distilled for faster generation.&lt;/p&gt;

&lt;h2&gt;
  
  
  What Krea released
&lt;/h2&gt;

&lt;p&gt;Krea’s technical report describes Krea 2 as an open-weights text-to-image foundation model for creative exploration. The Hugging Face model cards list the model as:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Model name:&lt;/strong&gt; Krea 2&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Version:&lt;/strong&gt; v1.0&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Release date:&lt;/strong&gt; June 22, 2026&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Model type:&lt;/strong&gt; text-to-image diffusion model&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Architecture:&lt;/strong&gt; Diffusion Transformer with &lt;strong&gt;12 billion parameters&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Release format:&lt;/strong&gt; open-weight release plus Krea-hosted product integrations&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;License:&lt;/strong&gt; Krea 2 Community License&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;There are two main checkpoints:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Krea 2 Raw&lt;/strong&gt; — the base release checkpoint before additional post-training and fine-tuning.&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Krea 2 Turbo&lt;/strong&gt; — a post-trained checkpoint with additional fine-tuning and distillation. Krea’s Turbo post says it is designed for high-quality images in about 2 seconds in the hosted Krea workflow.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Both Hugging Face pages include basic Diffusers examples, which makes this immediately testable for teams already running local or self-hosted image generation stacks.&lt;/p&gt;

&lt;h2&gt;
  
  
  Why builders should care
&lt;/h2&gt;

&lt;p&gt;Open weights matter because image models are rarely just “type a prompt, get a picture” in production. Teams need to test latency, cost, style control, prompt reliability, safety filters, and integration with their own tools.&lt;/p&gt;

&lt;p&gt;Krea 2 is relevant if you are building:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;design or marketing workflows;&lt;/li&gt;
&lt;li&gt;ecommerce image generation;&lt;/li&gt;
&lt;li&gt;game or concept-art pipelines;&lt;/li&gt;
&lt;li&gt;architecture and interior-design tools;&lt;/li&gt;
&lt;li&gt;creative apps that need local or private deployment options;&lt;/li&gt;
&lt;li&gt;image-generation features where hosted-only APIs are too expensive, too slow, or too hard to customize.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;The Raw/Turbo split is also practical. Raw gives researchers and model hackers a cleaner base checkpoint to inspect and adapt. Turbo is the more product-shaped checkpoint for faster creative loops.&lt;/p&gt;

&lt;h2&gt;
  
  
  Caveats
&lt;/h2&gt;

&lt;p&gt;This is not an Apache/MIT-style unrestricted release. The weights are under the &lt;strong&gt;Krea 2 Community License&lt;/strong&gt;, and the model cards say deployers must implement content filtering or equivalent review processes to prevent unlawful or policy-violating use. Teams should read the license and acceptable-use terms before putting it into a product.&lt;/p&gt;

&lt;p&gt;Krea’s quality claims also need real testing. Try it on your own prompts, brand constraints, text rendering needs, human anatomy edge cases, LoRA workflows, and hardware before assuming it replaces your current image stack.&lt;/p&gt;

&lt;p&gt;The other caveat is scope: this is a major open image-model release, not a new general-purpose language model. For BuildrLab readers, the builder impact is strongest for product teams working with generated visuals, not every AI engineering team.&lt;/p&gt;

&lt;h2&gt;
  
  
  Sources
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;Krea 2 Technical Report: &lt;a href="https://www.krea.ai/blog/krea-2-technical-report" rel="noopener noreferrer"&gt;https://www.krea.ai/blog/krea-2-technical-report&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;Krea 2 Raw on Hugging Face: &lt;a href="https://huggingface.co/krea/Krea-2-Raw" rel="noopener noreferrer"&gt;https://huggingface.co/krea/Krea-2-Raw&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;Krea 2 Turbo on Hugging Face: &lt;a href="https://huggingface.co/krea/Krea-2-Turbo" rel="noopener noreferrer"&gt;https://huggingface.co/krea/Krea-2-Turbo&lt;/a&gt;
&lt;/li&gt;
&lt;li&gt;Krea 2 Turbo announcement: &lt;a href="https://www.krea.ai/blog/krea-2-turbo" rel="noopener noreferrer"&gt;https://www.krea.ai/blog/krea-2-turbo&lt;/a&gt;
&lt;/li&gt;
&lt;/ul&gt;

</description>
      <category>ai</category>
      <category>openmodels</category>
      <category>imagegeneration</category>
      <category>huggingface</category>
    </item>
    <item>
      <title>Top AI Papers on Hugging Face - 2026-06-23</title>
      <dc:creator>Y Hành Nhan</dc:creator>
      <pubDate>Tue, 23 Jun 2026 12:00:51 +0000</pubDate>
      <link>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-23-20o7</link>
      <guid>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-23-20o7</guid>
      <description>&lt;h1&gt;
  
  
  10 paper AI nổi bật nhất trên Hugging Face hôm nay: agent benchmark, long-context, reranking và mô hình đa phương thức sinh học
&lt;/h1&gt;

&lt;p&gt;Hôm nay, top paper được upvote cao trên Hugging Face cho thấy một xu hướng rất rõ: AI đang dịch chuyển từ “mô hình biết trả lời” sang “hệ thống biết hành động”. Nổi bật nhất là các công trình về &lt;strong&gt;agent dùng công cụ&lt;/strong&gt;, &lt;strong&gt;benchmark sát thực tế&lt;/strong&gt;, &lt;strong&gt;trí nhớ dài hạn&lt;/strong&gt;, &lt;strong&gt;long-context retrieval&lt;/strong&gt;, và các kiến trúc chuyên biệt để tăng hiệu quả suy luận.&lt;/p&gt;

&lt;p&gt;Dưới đây là phần tóm lược theo 4 góc nhìn cho từng paper: &lt;strong&gt;bài toán&lt;/strong&gt;, &lt;strong&gt;ý tưởng&lt;/strong&gt;, &lt;strong&gt;điểm mới&lt;/strong&gt;, và &lt;strong&gt;ứng dụng thực tế&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  1) PlanBench-XL: benchmark planning dài hạn cho agent dùng tool
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;PlanBench-XL: Evaluating Long-Horizon Planning of LLM Tool-Use Agents in Large-Scale Tool Ecosystems&lt;/em&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Các LLM agent hiện có thể gọi tool, nhưng khi bước vào môi trường lớn với hàng trăm hoặc hàng nghìn công cụ, chúng thường thất bại ở các tác vụ &lt;strong&gt;nhiều bước&lt;/strong&gt;, &lt;strong&gt;mục tiêu ẩn&lt;/strong&gt;, và &lt;strong&gt;môi trường động&lt;/strong&gt;. Benchmark cũ thường quá đơn giản hoặc không phản ánh việc agent phải vừa khám phá tool vừa lập kế hoạch.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;PlanBench-XL xây dựng một benchmark để kiểm tra agent trong bối cảnh:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;chỉ nhìn thấy một phần tập tool,&lt;/li&gt;
&lt;li&gt;phải tự khám phá công cụ phù hợp,&lt;/li&gt;
&lt;li&gt;phải giải quyết tác vụ dài hơi với nhiều bước phụ thuộc nhau,&lt;/li&gt;
&lt;li&gt;và phải ứng phó khi môi trường thay đổi giữa chừng.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm mới lớn nhất là chuyển từ đánh giá “agent có ra đáp án đúng không” sang “agent có &lt;strong&gt;lập kế hoạch bền vững&lt;/strong&gt; trong hệ sinh thái tool lớn không”. Benchmark còn có cơ chế chặn hoặc gây nhiễu để kiểm tra khả năng thích nghi.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;p&gt;Rất phù hợp cho:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;trợ lý doanh nghiệp có quyền dùng nhiều API nội bộ,&lt;/li&gt;
&lt;li&gt;agent vận hành workflow phức tạp,&lt;/li&gt;
&lt;li&gt;trợ lý DevOps hoặc IT cần chuỗi hành động dài.&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  2) DataClaw0: biến dữ liệu thô đa phương thức thành dữ liệu huấn luyện hữu ích
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;DataClaw0: Agentic Tailoring Multimodal Data from Raw Streams&lt;/em&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Dữ liệu ngoài đời là các luồng thô có entropy cao: video, audio, ảnh, văn bản, log sự kiện. Nếu đưa trực tiếp vào mô hình thì rất khó học vì dữ liệu lộn xộn, nhiễu và thiếu cấu trúc.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;DataClaw0 đề xuất khái niệm &lt;strong&gt;Agentic Data Tailoring&lt;/strong&gt;: dùng agent để “gọt” dữ liệu thô thành dữ liệu huấn luyện có cấu trúc hơn. Hệ thống kết hợp:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;tổng hợp ngữ nghĩa sinh tạo,&lt;/li&gt;
&lt;li&gt;các “mỏ neo sự thật” mang tính xác định,&lt;/li&gt;
&lt;li&gt;rồi dùng SFT và GRPO để huấn luyện.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Thay vì xem data preprocessing là bước thủ công bên ngoài mô hình, paper coi đó là một &lt;strong&gt;quá trình agentic có thể học được&lt;/strong&gt;. Đây là hướng rất đáng chú ý vì chất lượng dữ liệu thường quyết định trần hiệu năng của mô hình nhiều hơn kiến trúc.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Chuẩn hóa dữ liệu camera, voice, tài liệu trong doanh nghiệp&lt;/li&gt;
&lt;li&gt;Tạo dữ liệu chất lượng cao cho mô hình đa phương thức&lt;/li&gt;
&lt;li&gt;Hỗ trợ xây pipeline “raw-to-training-data” tự động&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  3) EnterpriseClawBench: benchmark agent từ phiên làm việc thật trong doanh nghiệp
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions&lt;/em&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Nhiều benchmark agent hiện nay quá “sạch” và giả lập, trong khi công việc doanh nghiệp thật lại rất lộn xộn: dữ liệu thiếu nhất quán, nhiều công cụ, nhiều bước, nhiều ràng buộc ngầm.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;EnterpriseClawBench xây dựng benchmark từ &lt;strong&gt;phiên làm việc thực tế&lt;/strong&gt;, tạo ra 852 tác vụ có thể tái lập. Quan trọng hơn, benchmark không chỉ đo một con số tổng, mà đánh giá nhiều chiều như:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;chất lượng artifact đầu ra,&lt;/li&gt;
&lt;li&gt;khả năng chuyển giao kỹ năng,&lt;/li&gt;
&lt;li&gt;mức độ hoàn thành quy trình.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Đây là một bước tiến vì benchmark được neo vào &lt;strong&gt;workplace reality&lt;/strong&gt; thay vì toy tasks. Nó cũng phản ánh đúng thực tế rằng agent giỏi không chỉ là agent trả lời đúng, mà là agent tạo ra sản phẩm hữu ích.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;So sánh agent trước khi triển khai nội bộ&lt;/li&gt;
&lt;li&gt;Đánh giá copilot cho sales, ops, analyst&lt;/li&gt;
&lt;li&gt;Thiết kế KPI tốt hơn cho agent doanh nghiệp&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  4) KaLM-Reranker-V1: reranker nhanh nhưng vẫn mạnh
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;KaLM-Reranker-V1: Fast but Not Late Interaction for Compressed Document Reranking&lt;/em&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Trong search và RAG, reranker rất quan trọng để xếp lại tài liệu sau khi retrieve. Nhưng reranker mạnh kiểu cross-encoder thường chậm, còn mô hình nhanh thì lại giảm chất lượng.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;KaLM-Reranker-V1 dùng kiến trúc encoder-decoder để &lt;strong&gt;tách tính toán query và passage&lt;/strong&gt;, kết hợp:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Matryoshka embedding pooling,&lt;/li&gt;
&lt;li&gt;cơ chế cross-attention,&lt;/li&gt;
&lt;li&gt;fine-tuning hiệu quả tham số.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Paper tìm cách đứng giữa hai cực:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;không hoàn toàn “late interaction” như nhiều phương pháp retrieval,&lt;/li&gt;
&lt;li&gt;nhưng cũng không đắt đỏ như cross-encoder đầy đủ.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Kết quả là một reranker vừa nhanh vừa cạnh tranh trên các benchmark như BEIR, MIRACL, LMEB.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Tối ưu stack RAG cho chatbot doanh nghiệp&lt;/li&gt;
&lt;li&gt;Search engine nội bộ&lt;/li&gt;
&lt;li&gt;Hệ thống hỏi đáp tài liệu với độ trễ thấp&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  5) World Action Models: bức tranh tổng quan về mô hình thế giới có thể hành động
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;World Action Models: A Survey&lt;/em&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Các mô hình “world model” đang phát triển nhanh trong robotics, embodied AI, video generation và planning. Nhưng khái niệm còn phân tán, thiếu một bản đồ tổng thể.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;Survey này hệ thống hóa khái niệm &lt;strong&gt;World Action Models&lt;/strong&gt;: các mô hình vừa dự đoán diễn tiến trạng thái tương lai, vừa gắn với hành động để hỗ trợ quyết định.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm mạnh của paper là đưa ra các trục phân tích như:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;mức độ giàu biểu diễn,&lt;/li&gt;
&lt;li&gt;gắn kết hành động đến đâu,&lt;/li&gt;
&lt;li&gt;tính nhân quả,&lt;/li&gt;
&lt;li&gt;tính khả thi vật lý,&lt;/li&gt;
&lt;li&gt;khả năng triển khai.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nó giúp cộng đồng nhìn rõ trade-off giữa độ chính xác mô phỏng và chi phí tính toán.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Thiết kế agent embodied&lt;/li&gt;
&lt;li&gt;Robot mô phỏng trước khi hành động&lt;/li&gt;
&lt;li&gt;Hệ thống lập kế hoạch dựa trên dự báo tương lai&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  6) CLI-Universe: sinh tác vụ có thể kiểm chứng cho terminal agent
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;CLI-Universe: Towards Verifiable Task Synthesis Engine for Terminal Agents&lt;/em&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Huấn luyện agent làm việc trong terminal rất khó vì thiếu dữ liệu tác vụ chất lượng cao, có thể chạy được và chấm tự động được. Nhiều dataset terminal hiện còn nhỏ hoặc không ổn định.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;CLI-Universe xây dựng một &lt;strong&gt;engine tổng hợp tác vụ&lt;/strong&gt; dựa trên:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;taxonomy năng lực đa chiều,&lt;/li&gt;
&lt;li&gt;nghiên cứu có dẫn chứng,&lt;/li&gt;
&lt;li&gt;môi trường Docker hóa,&lt;/li&gt;
&lt;li&gt;pipeline kiểm chứng thực thi,&lt;/li&gt;
&lt;li&gt;test rubric-gated.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm đặc biệt là tính &lt;strong&gt;verifiable&lt;/strong&gt;: tác vụ không chỉ được viết ra mà còn có thể chạy, kiểm tra và xác minh. Đây là điều rất quan trọng nếu muốn huấn luyện terminal agent theo cách nghiêm túc.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Huấn luyện AI coding assistant&lt;/li&gt;
&lt;li&gt;Agent tự động hóa sysadmin&lt;/li&gt;
&lt;li&gt;Benchmark cho model thao tác CLI, bash, file system&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  7) EvoEmbedding: embedding động cho long-context retrieval và memory
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;EvoEmbedding: Evolvable Representations for Long-Context Retrieval and Agentic Memory&lt;/em&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Embedding truyền thống thường là biểu diễn tĩnh. Nhưng trong ngữ cảnh dài hoặc workflow nhiều bước, thông tin mới xuất hiện liên tục, khiến vector cũ nhanh chóng lỗi thời hoặc bị “collapse” về mặt biểu diễn.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;EvoEmbedding tạo ra &lt;strong&gt;embedding tiến hóa theo thời gian&lt;/strong&gt; bằng cách duy trì một latent memory cập nhật liên tục. Mô hình xử lý dữ liệu tuần tự và đồng thời cập nhật biểu diễn.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Thay vì coi embedding là ảnh chụp cố định của một đoạn văn, paper xem nó như một &lt;strong&gt;thực thể động&lt;/strong&gt;. Điều này rất hợp với agentic workflows, nơi ký ức và ngữ cảnh thay đổi theo tương tác.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;RAG ngữ cảnh dài&lt;/li&gt;
&lt;li&gt;Memory cho autonomous agents&lt;/li&gt;
&lt;li&gt;Trợ lý nghiên cứu cần theo dõi luồng thông tin kéo dài&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  8) BioMatrix: foundation model sinh học thống nhất sequence, structure, language
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;BioMatrix: Towards a Comprehensive Biological Foundation Model Spanning the Modality Matrix of Sequences, Structures, and Language&lt;/em&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Sinh học tính toán hiện bị chia cắt theo modality: sequence, structure và mô tả ngôn ngữ tự nhiên thường được mô hình hóa riêng. Điều này hạn chế khả năng học liên thông giữa các dạng dữ liệu.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;BioMatrix xây một mô hình nền tảng đa phương thức dùng kiến trúc &lt;strong&gt;decoder-only&lt;/strong&gt;, đưa sequence, structure và language vào một &lt;strong&gt;không gian token rời rạc thống nhất&lt;/strong&gt;.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Điểm mới nằm ở tham vọng hợp nhất nhiều loại dữ liệu sinh học vào một framework duy nhất. Nếu làm tốt, mô hình có thể suy luận xuyên modality, ví dụ đi từ mô tả chức năng sang cấu trúc hoặc từ chuỗi sang giải thích ngôn ngữ.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Khám phá thuốc&lt;/li&gt;
&lt;li&gt;Dự đoán cấu trúc/chức năng protein&lt;/li&gt;
&lt;li&gt;Truy vấn kiến thức sinh học bằng ngôn ngữ tự nhiên&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  9) HydraHead: trộn Full Attention và Linear Attention ở mức head
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridization&lt;/em&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Full Attention mạnh nhưng đắt đỏ ở context dài. Linear Attention rẻ hơn nhưng có thể mất chất lượng. Câu hỏi là liệu có cần chọn một trong hai không?&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;HydraHead đề xuất &lt;strong&gt;hybridization ở mức head&lt;/strong&gt;: một số head dùng Full Attention, số khác dùng Linear Attention. Việc chọn lựa được dẫn dắt bởi phân tích chức năng từng head, sau đó trộn bằng cơ chế scale-normalized fusion.&lt;/p&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Thay vì hybrid ở mức layer hay block, paper đi sâu hơn đến &lt;strong&gt;mức head&lt;/strong&gt;, tận dụng thực tế là các attention head vốn đã có vai trò không đồng nhất. Đây là một hướng vừa mang tính kỹ thuật vừa có màu sắc interpretability.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;LLM xử lý ngữ cảnh dài với chi phí thấp hơn&lt;/li&gt;
&lt;li&gt;Mô hình production cần cân bằng tốc độ/chất lượng&lt;/li&gt;
&lt;li&gt;Long-document QA và code understanding&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  10) MemSlides: agent tạo slide cá nhân hóa với memory phân cấp
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Paper:&lt;/strong&gt; &lt;em&gt;MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision&lt;/em&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Bài toán
&lt;/h3&gt;

&lt;p&gt;Tạo slide bằng AI không khó, nhưng tạo &lt;strong&gt;slide đúng gu người dùng&lt;/strong&gt;, giữ ổn định qua nhiều vòng chỉnh sửa, và chỉ sửa cục bộ phần được yêu cầu thì khó hơn nhiều.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ý tưởng
&lt;/h3&gt;

&lt;p&gt;MemSlides dùng &lt;strong&gt;memory phân cấp&lt;/strong&gt; gồm:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;long-term memory cho hồ sơ người dùng,&lt;/li&gt;
&lt;li&gt;working memory cho ràng buộc của phiên hiện tại,&lt;/li&gt;
&lt;li&gt;tool memory cho kinh nghiệm thực thi và tái sử dụng thao tác.&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Điểm mới
&lt;/h3&gt;

&lt;p&gt;Paper giải quyết bài toán personalization không chỉ bằng prompt dài hơn, mà bằng cách tổ chức trí nhớ rõ ràng. Điều này giúp agent vừa nhớ sở thích lâu dài, vừa đáp ứng yêu cầu ngắn hạn, vừa sửa đúng vùng cần sửa.&lt;/p&gt;

&lt;h3&gt;
  
  
  Ứng dụng thực tế
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;Trợ lý làm slide cho nhân sự kinh doanh, tư vấn, giáo dục&lt;/li&gt;
&lt;li&gt;Hệ thống tạo deck theo brand guideline&lt;/li&gt;
&lt;li&gt;AI copilot cho workflow trình bày nhiều vòng revision&lt;/li&gt;
&lt;/ul&gt;




&lt;h1&gt;
  
  
  Xu hướng rút ra từ 10 paper hôm nay
&lt;/h1&gt;

&lt;p&gt;Nhìn tổng thể, có 4 xu hướng lớn:&lt;/p&gt;

&lt;h2&gt;
  
  
  1. Agent đang chuyển từ demo sang đánh giá nghiêm túc
&lt;/h2&gt;

&lt;p&gt;PlanBench-XL, EnterpriseClawBench và CLI-Universe đều tập trung vào &lt;strong&gt;benchmark thực dụng&lt;/strong&gt;. Điều này cho thấy cộng đồng không còn thỏa mãn với các ví dụ agent đẹp mắt, mà muốn đo được agent có thật sự làm việc được hay không.&lt;/p&gt;

&lt;h2&gt;
  
  
  2. Trí nhớ và ngữ cảnh dài là nút thắt trung tâm
&lt;/h2&gt;

&lt;p&gt;EvoEmbedding, HydraHead và MemSlides cùng chạm vào một vấn đề: nếu AI phải làm việc dài hơi, nó cần &lt;strong&gt;memory tốt hơn&lt;/strong&gt; và &lt;strong&gt;cơ chế xử lý context hiệu quả hơn&lt;/strong&gt;.&lt;/p&gt;

&lt;h2&gt;
  
  
  3. Chất lượng dữ liệu đang trở lại vị trí trung tâm
&lt;/h2&gt;

&lt;p&gt;DataClaw0 nhấn mạnh rằng dữ liệu thô không tự biến thành tri thức. Nếu agent có thể tham gia vào quá trình “gọt dữ liệu”, thì hiệu năng downstream có thể tăng đáng kể.&lt;/p&gt;

&lt;h2&gt;
  
  
  4. AI đang mở rộng sang các domain chuyên sâu
&lt;/h2&gt;

&lt;p&gt;BioMatrix và survey về World Action Models cho thấy AI không chỉ tối ưu chatbot nữa, mà đang tiến vào:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;embodied intelligence,&lt;/li&gt;
&lt;li&gt;khoa học sự sống,&lt;/li&gt;
&lt;li&gt;mô hình hóa thế giới để ra quyết định.&lt;/li&gt;
&lt;/ul&gt;




&lt;h1&gt;
  
  
  Kết luận
&lt;/h1&gt;

&lt;p&gt;Nếu phải tóm gọn top paper hôm nay trong một câu, thì đó là: &lt;strong&gt;AI đang tiến hóa từ mô hình sinh ngôn ngữ sang hệ thống có trí nhớ, biết dùng công cụ, và được đánh giá trong môi trường gần với thực tế hơn&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Trong ngắn hạn, các paper có tác động ứng dụng mạnh nhất có lẽ là:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;PlanBench-XL&lt;/strong&gt; và &lt;strong&gt;EnterpriseClawBench&lt;/strong&gt; cho đánh giá agent,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;KaLM-Reranker-V1&lt;/strong&gt; cho hệ thống RAG/search,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;CLI-Universe&lt;/strong&gt; cho terminal agent,&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;EvoEmbedding&lt;/strong&gt; và &lt;strong&gt;HydraHead&lt;/strong&gt; cho bài toán long-context.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Về dài hạn, &lt;strong&gt;DataClaw0&lt;/strong&gt;, &lt;strong&gt;World Action Models&lt;/strong&gt;, và &lt;strong&gt;BioMatrix&lt;/strong&gt; có thể mở ra các hướng rất lớn: từ data-centric AI đến embodied systems và foundation model cho khoa học.&lt;/p&gt;

&lt;p&gt;Nếu bạn đang xây agent, RAG hoặc sản phẩm AI cho doanh nghiệp, đây là một danh sách paper rất đáng đọc vì chúng không chỉ bàn về “mô hình mạnh hơn”, mà bàn về thứ quan trọng hơn: &lt;strong&gt;làm sao để AI hoạt động tốt trong thế giới thật&lt;/strong&gt;.&lt;/p&gt;

</description>
      <category>ai</category>
      <category>machinelearning</category>
      <category>huggingface</category>
    </item>
    <item>
      <title>Top AI Papers on Hugging Face - 2026-06-22</title>
      <dc:creator>Y Hành Nhan</dc:creator>
      <pubDate>Mon, 22 Jun 2026 16:35:35 +0000</pubDate>
      <link>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-22-120a</link>
      <guid>https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-22-120a</guid>
      <description>&lt;h1&gt;
  
  
  10 paper AI nổi bật nhất trên Hugging Face hôm nay: từ inpainting siêu nhẹ đến benchmark đa ngôn ngữ cho LLM
&lt;/h1&gt;

&lt;p&gt;Hôm nay, danh sách paper được upvote cao trên Hugging Face cho thấy một bức tranh khá rõ về xu hướng AI hiện tại: &lt;strong&gt;mô hình nhỏ nhưng mạnh hơn&lt;/strong&gt;, &lt;strong&gt;agent/robot biết tự khám phá&lt;/strong&gt;, &lt;strong&gt;đánh giá LLM thực tế hơn&lt;/strong&gt;, và &lt;strong&gt;multimodal ngày càng tiến gần đến hiểu không gian 3D và thế giới vật lý&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Dưới đây là bản tổng hợp theo dạng blog, tập trung vào 4 ý cho mỗi paper:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Bài toán&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ý tưởng&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Điểm mới&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ứng dụng thực tế&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  1) Moebius: Image Inpainting 0.2B tham số nhưng hiệu năng tầm 10B
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Image inpainting là bài toán điền vùng thiếu hoặc bị xoá trong ảnh sao cho kết quả tự nhiên, đúng ngữ cảnh và nhất quán với phần còn lại. Các mô hình mạnh hiện nay thường rất lớn, tốn tài nguyên và chậm khi suy luận.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Moebius xây dựng một framework inpainting rất nhẹ, chỉ khoảng &lt;strong&gt;0.2B tham số&lt;/strong&gt;, nhưng cố gắng đạt chất lượng gần các mô hình cỡ &lt;strong&gt;10B&lt;/strong&gt;. Trọng tâm nằm ở việc kết hợp tốt giữa &lt;strong&gt;thông tin cục bộ&lt;/strong&gt; của vùng lân cận và &lt;strong&gt;ngữ nghĩa toàn cục&lt;/strong&gt; của toàn ảnh. Bài báo dùng khối &lt;strong&gt;Local-λ Mix Interaction (LλMI)&lt;/strong&gt; để giúp mô hình vừa nhìn được chi tiết gần, vừa giữ được bố cục lớn.&lt;/p&gt;

&lt;p&gt;Ngoài ra, nhóm tác giả còn dùng &lt;strong&gt;adaptive multi-granularity distillation&lt;/strong&gt; để “chưng cất” tri thức từ mô hình lớn sang mô hình nhỏ ở nhiều mức độ biểu diễn khác nhau.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Điểm đáng chú ý nhất là họ xử lý bài toán “nhỏ mà vẫn giỏi” khá bài bản:  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Thiết kế block mới để giảm nghẽn biểu diễn giữa local và global context
&lt;/li&gt;
&lt;li&gt;Chưng cất thích ứng trong latent space
&lt;/li&gt;
&lt;li&gt;Tối ưu cho &lt;strong&gt;parameter-efficient fine-tuning&lt;/strong&gt;, tức là dễ tinh chỉnh trên tác vụ mới mà không cần huấn luyện toàn bộ&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Xoá vật thể khỏi ảnh
&lt;/li&gt;
&lt;li&gt;Phục chế ảnh cũ
&lt;/li&gt;
&lt;li&gt;Chỉnh sửa ảnh thương mại điện tử, bất động sản, quảng cáo
&lt;/li&gt;
&lt;li&gt;Chạy trên hạ tầng rẻ hơn hoặc gần thời gian thực&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là hướng rất quan trọng vì nhiều doanh nghiệp không cần mô hình “to nhất”, mà cần mô hình &lt;strong&gt;đủ tốt, đủ nhanh, đủ rẻ&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  2) DragMesh-2: Tương tác tay máy với vật thể có khớp nối theo cách hợp lý về vật lý
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Robot hand manipulation vẫn rất khó, nhất là khi vật thể không phải khối cứng đơn giản mà là &lt;strong&gt;đồ vật có khớp nối&lt;/strong&gt; như kéo ngăn kéo, mở nắp, xoay bản lề. Robot cần tiếp xúc đúng, giữ lực hợp lý và thao tác ổn định dù điều kiện ma sát, tải hay damping thay đổi.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DragMesh-2 đưa ra framework tương tác tay-vật thể theo hướng &lt;strong&gt;contact-driven&lt;/strong&gt;, tức là học điều khiển dựa trên động lực học tiếp xúc. Thành phần nổi bật là &lt;strong&gt;PICA&lt;/strong&gt; giúp chính sách học được tính bền vững với biến thiên tải tiếp xúc ngay cả khi không có cảm biến xúc giác.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Nhắm tới &lt;strong&gt;articulated objects&lt;/strong&gt;, khó hơn nhiều so với rigid objects
&lt;/li&gt;
&lt;li&gt;Học chính sách có ý thức về contact dynamics
&lt;/li&gt;
&lt;li&gt;Tăng robustness khi điều kiện vật lý thay đổi&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Robot gia dụng mở cửa, kéo hộc tủ, thao tác công tắc
&lt;/li&gt;
&lt;li&gt;Robot công nghiệp lắp ráp cơ khí
&lt;/li&gt;
&lt;li&gt;Tay máy dịch vụ trong môi trường không kiểm soát hoàn toàn&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Nếu muốn robot thực sự hữu ích ngoài phòng lab, năng lực kiểu này là nền tảng bắt buộc.&lt;/p&gt;




&lt;h2&gt;
  
  
  3) Multi-LCB: Mở rộng LiveCodeBench sang nhiều ngôn ngữ lập trình
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Rất nhiều benchmark code cho LLM bị lệch sang &lt;strong&gt;Python&lt;/strong&gt;, trong khi nhu cầu thực tế trải dài qua C++, Java, Go, Rust, JavaScript… Điều này gây ra ảo giác rằng một model “giỏi code”, nhưng thực chất có thể chỉ giỏi Python hoặc thậm chí bị nhiễm dữ liệu benchmark.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Multi-LCB mở rộng LiveCodeBench thành benchmark &lt;strong&gt;đa ngôn ngữ&lt;/strong&gt;, bao phủ &lt;strong&gt;12 ngôn ngữ lập trình&lt;/strong&gt;, vẫn giữ tinh thần &lt;strong&gt;contamination-aware evaluation&lt;/strong&gt; — tức là cố gắng kiểm soát việc mô hình đã từng thấy bài test trong dữ liệu huấn luyện.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Không chỉ thêm ngôn ngữ, mà còn duy trì giao thức đánh giá chặt chẽ
&lt;/li&gt;
&lt;li&gt;Giúp đo &lt;strong&gt;khả năng sinh mã xuyên ngôn ngữ&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Phơi bày hiện tượng &lt;strong&gt;Python overfitting&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Chọn model code phù hợp cho doanh nghiệp
&lt;/li&gt;
&lt;li&gt;Đánh giá copilot coding công bằng hơn
&lt;/li&gt;
&lt;li&gt;Nghiên cứu khả năng tổng quát hóa ngôn ngữ của LLM&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là paper rất có giá trị hạ tầng: không làm model mới, nhưng giúp cộng đồng &lt;strong&gt;đo đúng hơn&lt;/strong&gt;, từ đó tránh tối ưu sai mục tiêu.&lt;/p&gt;




&lt;h2&gt;
  
  
  4) PerceptionDLM: Mô hình diffusion language cho perception vùng ảnh song song
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Multimodal LLM thường caption hoặc phân tích ảnh theo kiểu tuần tự, dẫn tới chậm nếu cần mô tả nhiều vùng trong ảnh. Với các tác vụ perception, tốc độ và khả năng xử lý nhiều region cùng lúc là rất quan trọng.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
PerceptionDLM đề xuất cơ chế &lt;strong&gt;parallel region perception&lt;/strong&gt; cho multimodal diffusion language models. Thay vì mô tả từng vùng một, mô hình dùng &lt;strong&gt;structured attention masking&lt;/strong&gt; và prompting hiệu quả để suy luận song song nhiều vùng.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Kết hợp diffusion language model với perception vùng ảnh
&lt;/li&gt;
&lt;li&gt;Thiết kế attention mask có cấu trúc để cho phép song song hóa
&lt;/li&gt;
&lt;li&gt;Tăng tốc inference nhưng vẫn giữ chất lượng caption&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Phân tích ảnh phức tạp với nhiều đối tượng
&lt;/li&gt;
&lt;li&gt;Hệ thống hỗ trợ người khiếm thị
&lt;/li&gt;
&lt;li&gt;Retail analytics, giám sát, kiểm kê tự động
&lt;/li&gt;
&lt;li&gt;Tiền xử lý cho agent thị giác cần hiểu scene nhanh&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là ví dụ điển hình của xu hướng tối ưu &lt;strong&gt;kiến trúc suy luận&lt;/strong&gt;, thay vì chỉ tăng kích thước mô hình.&lt;/p&gt;




&lt;h2&gt;
  
  
  5) Playful Agentic Robot Learning: Robot học kỹ năng qua “chơi đùa”
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Robot thường học theo tác vụ cụ thể. Cách này hiệu quả ngắn hạn nhưng kém linh hoạt: gặp bài toán mới là phải huấn luyện lại. Câu hỏi là liệu robot có thể tự khám phá môi trường, tích luỹ kỹ năng dùng lại được hay không?&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper này cho robot học qua &lt;strong&gt;self-directed play&lt;/strong&gt; — tự chơi, tự khám phá, tự viết/chạy các policy kiểu &lt;strong&gt;Code-as-Policy&lt;/strong&gt;. Qua thời gian, robot xây dựng một &lt;strong&gt;skill library&lt;/strong&gt; rồi tái sử dụng cho các tác vụ downstream.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Kết hợp embodied agent với sinh mã điều khiển
&lt;/li&gt;
&lt;li&gt;Học qua khám phá thay vì chỉ bắt chước hoặc RL theo reward hẹp
&lt;/li&gt;
&lt;li&gt;Kỹ năng học được có thể chuyển sang task mới &lt;strong&gt;không cần train thêm&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Robot tổng quát trong nhà
&lt;/li&gt;
&lt;li&gt;Hệ thống tự động hóa linh hoạt trong kho/xưởng
&lt;/li&gt;
&lt;li&gt;Nền tảng robot có thể thích nghi nhanh với yêu cầu mới&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Ý tưởng “playful learning” rất gần với cách con người và động vật học: chơi trước, dùng sau.&lt;/p&gt;




&lt;h2&gt;
  
  
  6) S-Agent: Dùng công cụ không gian để kích hoạt năng lực reasoning không gian
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Visual language model thường mạnh ở nhận diện hoặc mô tả ảnh đơn, nhưng yếu khi phải hiểu &lt;strong&gt;không gian 3D liên tục theo thời gian&lt;/strong&gt;, ví dụ ghép nhiều góc nhìn để suy ra bố cục scene.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
S-Agent bổ sung cho VLM một cơ chế &lt;strong&gt;temporal memory&lt;/strong&gt; và bộ &lt;strong&gt;spatial tools&lt;/strong&gt; phân cấp. Agent không chỉ “nhìn rồi trả lời”, mà còn tích lũy bằng chứng hình học 3D từ nhiều ảnh/góc nhìn theo thời gian.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Tách rõ &lt;strong&gt;scene memory&lt;/strong&gt; và &lt;strong&gt;agent memory&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Dùng công cụ không gian để hỗ trợ reasoning, thay vì trông chờ hoàn toàn vào tham số mô hình
&lt;/li&gt;
&lt;li&gt;Phù hợp cho bài toán multi-view và video spatial reasoning&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Robot điều hướng và thao tác trong môi trường lạ
&lt;/li&gt;
&lt;li&gt;AR/VR, digital twin
&lt;/li&gt;
&lt;li&gt;Hệ thống giám sát hoặc mapping từ nhiều camera&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là hướng rất đáng chú ý: thay vì ép VLM “tự nghĩ hết”, tác giả trang bị thêm &lt;strong&gt;tool-use&lt;/strong&gt;, một chiến lược đang chứng minh hiệu quả trong agent AI.&lt;/p&gt;




&lt;h2&gt;
  
  
  7) DF3DV-1K: Dataset lớn cho novel view synthesis không bị nhiễu bởi distractor
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Trong novel view synthesis và radiance field, vật thể gây nhiễu hoặc cảnh lộn xộn có thể làm giảm chất lượng tái dựng rất mạnh. Nhưng cộng đồng lại thiếu dataset chuẩn để nghiên cứu bài toán &lt;strong&gt;distractor-free&lt;/strong&gt; một cách hệ thống.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DF3DV-1K cung cấp &lt;strong&gt;1,048 scene&lt;/strong&gt; với gần &lt;strong&gt;90 nghìn ảnh&lt;/strong&gt;, bao phủ nhiều loại distractor và chủ đề cảnh khác nhau. Bên cạnh đó có tập con &lt;strong&gt;DF3DV-41&lt;/strong&gt; để đánh giá robustness.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Dataset quy mô lớn, tập trung đúng vào vấn đề distractor
&lt;/li&gt;
&lt;li&gt;Có cả dữ liệu “sạch” và “nhiễu” để nghiên cứu đối sánh
&lt;/li&gt;
&lt;li&gt;Cho thấy fine-tune bộ tăng cường ảnh 2D dựa trên diffusion có thể cải thiện radiance field methods&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Quét 3D sản phẩm
&lt;/li&gt;
&lt;li&gt;Tạo tài sản 3D cho game, phim, commerce
&lt;/li&gt;
&lt;li&gt;Mapping và reconstruction trong môi trường thực&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Trong nhiều lĩnh vực, dữ liệu tốt đôi khi quan trọng không kém mô hình tốt; đây là một ví dụ rất rõ.&lt;/p&gt;




&lt;h2&gt;
  
  
  8) Beyond Static Leaderboards: Leaderboard tĩnh không đủ để đánh giá LLM agent
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Nhiều benchmark agent hiện nay cho ra một &lt;strong&gt;điểm tổng hợp&lt;/strong&gt; rồi xếp hạng model. Nhưng điểm số này có thể không phản ánh năng lực triển khai thật: thứ hạng dễ đảo, nhạy với setup, và không cho biết model có bền vững khi ra ngoài phân phối hay không.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Paper đề xuất chuyển từ tư duy leaderboard tĩnh sang &lt;strong&gt;predictive validity&lt;/strong&gt;: benchmark tốt phải dự đoán được hiệu năng trong môi trường triển khai thực tế, đặc biệt ở các thiết lập &lt;strong&gt;out-of-distribution&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Phê bình trực diện cách cộng đồng đang đánh giá agent
&lt;/li&gt;
&lt;li&gt;Đề xuất tiêu chí đánh giá gắn với deployability
&lt;/li&gt;
&lt;li&gt;Nhấn mạnh tính &lt;strong&gt;falsifiable&lt;/strong&gt; và ổn định của benchmark&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Doanh nghiệp chọn agent đáng tin cậy hơn
&lt;/li&gt;
&lt;li&gt;Nhà nghiên cứu thiết kế benchmark khó “game” hơn
&lt;/li&gt;
&lt;li&gt;Giảm khoảng cách giữa kết quả demo và hệ thống production&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là paper rất quan trọng về phương pháp luận. Trong giai đoạn agent AI bùng nổ, &lt;strong&gt;đo sai sẽ dẫn đến xây sai&lt;/strong&gt;.&lt;/p&gt;




&lt;h2&gt;
  
  
  9) FreeStyle: Sinh ảnh với điều khiển riêng style và content nhờ khai thác LoRA cộng đồng
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Sinh ảnh theo &lt;strong&gt;hai tham chiếu&lt;/strong&gt; — một ảnh cho style, một ảnh cho content — là bài toán rất hấp dẫn nhưng khó. Mô hình dễ bị &lt;strong&gt;content leakage&lt;/strong&gt;, tức là style reference vô tình kéo theo cả nội dung, hoặc ngược lại.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
FreeStyle khai thác kho &lt;strong&gt;LoRA cộng đồng&lt;/strong&gt; để tạo dữ liệu style-content triplet ở quy mô lớn. Trên nền dữ liệu này, tác giả huấn luyện framework dual-reference generation với các cơ chế disentanglement như &lt;strong&gt;attention-level enrichment constraint&lt;/strong&gt; và &lt;strong&gt;frequency-aware RoPE modulation&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;“LoRA mining” như một chiến lược mở rộng dữ liệu rất thông minh
&lt;/li&gt;
&lt;li&gt;Giải quyết cụ thể vấn đề content leakage
&lt;/li&gt;
&lt;li&gt;Đề xuất benchmark và metric riêng như &lt;strong&gt;Content Alignment Score&lt;/strong&gt; và &lt;strong&gt;Rejection Score&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Thiết kế sáng tạo, quảng cáo, concept art
&lt;/li&gt;
&lt;li&gt;Cá nhân hóa sinh ảnh theo phong cách thương hiệu
&lt;/li&gt;
&lt;li&gt;Công cụ hỗ trợ artist với kiểm soát tốt hơn&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là hướng rất thực dụng vì bài toán điều khiển generation ngày càng quan trọng hơn bản thân chất lượng hình ảnh thuần túy.&lt;/p&gt;




&lt;h2&gt;
  
  
  10) FlowBender: Huấn luyện mô hình sinh để tự sửa lỗi theo feedback
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;Bài toán:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Diffusion và flow models thường gặp khó khi phải thoả mãn ràng buộc chính xác, ví dụ đầu ra phải khớp cấu trúc, điều kiện hoặc mục tiêu downstream. Guidance tại thời điểm suy luận có thể giúp, nhưng thường không ổn định hoặc tốn kém.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Ý tưởng:&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
FlowBender đưa ra cơ chế &lt;strong&gt;closed-loop training&lt;/strong&gt;: mô hình thực hiện một lượt dự đoán ban đầu, nhận feedback về sai lệch so với ràng buộc, rồi học cách &lt;strong&gt;refine&lt;/strong&gt; đầu ra trong lượt tiếp theo. Nói ngắn gọn: mô hình không chỉ sinh, mà còn học cách &lt;strong&gt;tự sửa&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Điểm mới:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Kết hợp feedback trực tiếp vào quá trình huấn luyện
&lt;/li&gt;
&lt;li&gt;Có cả biến thể gradient-based và zero-order
&lt;/li&gt;
&lt;li&gt;Áp dụng được cho nhiều bài toán: image-to-image, restoration, 3D mesh texturing&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;&lt;strong&gt;Ứng dụng thực tế:&lt;/strong&gt;  &lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Hệ thống sinh ảnh có ràng buộc chặt
&lt;/li&gt;
&lt;li&gt;Chỉnh sửa ảnh tự động
&lt;/li&gt;
&lt;li&gt;Pipeline 3D yêu cầu đầu ra đúng cấu trúc hơn&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Đây là xu hướng rất đáng theo dõi vì AI tương lai nhiều khả năng sẽ không chỉ “one-shot generate”, mà sẽ hoạt động theo vòng lặp &lt;strong&gt;generate → evaluate → correct&lt;/strong&gt;.&lt;/p&gt;




&lt;h1&gt;
  
  
  Kết luận: 4 xu hướng lớn đang hiện ra
&lt;/h1&gt;

&lt;p&gt;Nhìn tổng thể 10 paper này, có thể thấy 4 xu hướng chính:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Hiệu quả hóa mô hình&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Moebius và PerceptionDLM cho thấy cộng đồng ngày càng quan tâm tới mô hình &lt;strong&gt;nhanh, nhẹ, dùng được thật&lt;/strong&gt;, không chỉ chạy đua tham số.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Embodied/Agent AI tiến gần thực tế hơn&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
DragMesh-2, Playful Agentic Robot Learning và S-Agent đều nhấn mạnh chuyện AI phải tương tác với &lt;strong&gt;thế giới vật lý và không gian 3D&lt;/strong&gt;, chứ không chỉ trả lời văn bản.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Đánh giá AI đang trở thành nút thắt lớn&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Multi-LCB và Beyond Static Leaderboards nhắc rằng nếu benchmark kém, ta sẽ hiểu sai tiến bộ của mô hình.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Generation chuyển từ “tạo cho đẹp” sang “tạo có kiểm soát”&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
FreeStyle và FlowBender thể hiện rõ nhu cầu sinh nội dung nhưng phải &lt;strong&gt;đúng style, đúng content, đúng ràng buộc&lt;/strong&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Nếu phải chọn các paper có tác động dài hạn nhất, mình sẽ để ý đặc biệt tới &lt;strong&gt;Multi-LCB&lt;/strong&gt;, &lt;strong&gt;Beyond Static Leaderboards&lt;/strong&gt;, &lt;strong&gt;S-Agent&lt;/strong&gt;, và &lt;strong&gt;FlowBender&lt;/strong&gt;. Lý do là chúng không chỉ cải thiện một tác vụ cụ thể, mà còn tác động tới cách chúng ta xây dựng, đánh giá và triển khai thế hệ AI tiếp theo.&lt;/p&gt;

&lt;p&gt;Nếu bạn muốn, mình có thể làm tiếp một phiên bản &lt;strong&gt;bảng so sánh 10 paper&lt;/strong&gt; theo các cột: lĩnh vực, bài toán, điểm mới, mức độ ứng dụng, và paper nào đáng đọc nhất cho researcher/kỹ sư/product.&lt;/p&gt;

</description>
      <category>ai</category>
      <category>machinelearning</category>
      <category>huggingface</category>
    </item>
  </channel>
</rss>
