<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: Danh Hong</title>
    <description>The latest articles on DEV Community by Danh Hong (@danh_hong_2ad24e11dd9a198).</description>
    <link>https://dev.to/danh_hong_2ad24e11dd9a198</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.us-east-2.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F3828255%2Fc655b659-7d74-4d40-b053-2c99152ed3ed.jpg</url>
      <title>DEV Community: Danh Hong</title>
      <link>https://dev.to/danh_hong_2ad24e11dd9a198</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/danh_hong_2ad24e11dd9a198"/>
    <language>en</language>
    <item>
      <title>Lịch Sử OCR và Sự Ra Đời Khái Niệm Vision-First OCR</title>
      <dc:creator>Danh Hong</dc:creator>
      <pubDate>Thu, 25 Jun 2026 02:08:28 +0000</pubDate>
      <link>https://dev.to/danh_hong_2ad24e11dd9a198/lich-su-ocr-va-su-ra-doi-khai-niem-vision-first-ocr-4f37</link>
      <guid>https://dev.to/danh_hong_2ad24e11dd9a198/lich-su-ocr-va-su-ra-doi-khai-niem-vision-first-ocr-4f37</guid>
      <description>&lt;p&gt;&lt;em&gt;Bài viết dựa trên tham luận "Mô hình OCR chuyên biệt cho văn bản Khmer hậu Angkor và chữ viết trên lá Buông" — trình bày tại Tọa đàm Đại học Trà Vinh, 28/1/2026.&lt;/em&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  Phần 1: 110 năm lịch sử OCR
&lt;/h2&gt;

&lt;p&gt;Optical Character Recognition (OCR) là một trong những bài toán lâu đời nhất trong lịch sử điện toán. Nhưng ít người biết rằng hành trình của nó khởi đầu không phải từ máy tính, mà từ một nhu cầu nhân văn: &lt;strong&gt;giúp người mù đọc sách&lt;/strong&gt;.&lt;/p&gt;

&lt;h3&gt;
  
  
  Giai đoạn 1: Cơ học và điện (1914–1960)
&lt;/h3&gt;

&lt;p&gt;Năm &lt;strong&gt;1914&lt;/strong&gt;, Emanuel Goldberg — nhà khoa học người Đức gốc Nga — phát triển máy đọc ký tự quang học đầu tiên sử dụng tế bào quang điện. Năm &lt;strong&gt;1931&lt;/strong&gt;, ông được cấp bằng sáng chế cho "Statistical Machine" — thiết bị có thể nhận dạng văn bản và phân loại tài liệu bằng ánh sáng.&lt;/p&gt;

&lt;p&gt;Năm &lt;strong&gt;1951&lt;/strong&gt;, David Shepard tại Hoa Kỳ xây dựng "Gismo" — máy OCR thương mại đầu tiên, ứng dụng để đọc mã điện báo Morse và văn bản in. Đến cuối thập niên 1950s, ngành bưu điện và ngân hàng bắt đầu thử nghiệm OCR để tự động hóa phân loại thư và đọc séc.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Năm&lt;/th&gt;
&lt;th&gt;Cột mốc&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;1914&lt;/td&gt;
&lt;td&gt;Emanuel Goldberg — máy đọc ký tự quang học đầu tiên&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;1931&lt;/td&gt;
&lt;td&gt;Statistical Machine — phân loại tài liệu bằng ánh sáng&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;1951&lt;/td&gt;
&lt;td&gt;Gismo (Shepard) — OCR thương mại đầu tiên&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;1965&lt;/td&gt;
&lt;td&gt;IBM 1287/1288 — ngành bưu chính Mỹ triển khai quy mô lớn&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h3&gt;
  
  
  Giai đoạn 2: Pattern Matching (1960–1990)
&lt;/h3&gt;

&lt;p&gt;Thập niên 1960–1980, OCR chuyển từ phần cứng chuyên dụng sang phần mềm. Kỹ thuật chủ đạo là &lt;strong&gt;template matching&lt;/strong&gt;: lưu trữ hình dạng "lý tưởng" của mỗi ký tự, rồi so sánh ký tự trong ảnh với kho mẫu.&lt;/p&gt;

&lt;p&gt;Phương pháp này hoạt động tốt với font chữ chuẩn, in rõ — nhưng sụp đổ hoàn toàn khi gặp phông chữ lạ, văn bản bị hỏng, hoặc bất kỳ ngôn ngữ nào không có cấu trúc Latin tuyến tính. Với chữ Khmer — vốn có hệ thống dấu phụ chồng nhiều tầng — template matching thực tế là vô dụng.&lt;/p&gt;

&lt;h3&gt;
  
  
  Giai đoạn 3: Thống kê và Neural Network thế hệ đầu (1990–2010)
&lt;/h3&gt;

&lt;p&gt;Bước ngoặt lớn đến khi &lt;strong&gt;Tesseract&lt;/strong&gt; — phát triển bởi Hewlett-Packard từ 1985, Google tiếp nhận năm 2006 — trở thành engine OCR mã nguồn mở phổ biến nhất thế giới. Tesseract dùng kết hợp phân tích đặc trưng hình học và mô hình ngôn ngữ N-gram.&lt;/p&gt;

&lt;p&gt;Đây là lúc một xu hướng quan trọng được thiết lập: các hệ thống OCR bắt đầu tích hợp &lt;strong&gt;mô hình ngôn ngữ&lt;/strong&gt; để "sửa" kết quả nhận dạng. Với tiếng Anh và các ngôn ngữ châu Âu có corpus lớn, cách này cải thiện đáng kể độ chính xác.&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;Tesseract — từ HP Labs đến Google (1985–2006)&lt;/strong&gt;&lt;br&gt;
Ban đầu nghiên cứu tại HP Labs Bristol từ 1985–1994. Google mã nguồn mở hóa năm 2006. Phiên bản 4.0 (2018) tích hợp LSTM và hỗ trợ hơn 100 ngôn ngữ. Dù vậy, khả năng xử lý chữ Khmer cổ vẫn rất hạn chế vì phụ thuộc nặng vào corpus hiện đại.&lt;/p&gt;
&lt;/blockquote&gt;

&lt;h3&gt;
  
  
  Giai đoạn 4: Deep Learning (2012–nay)
&lt;/h3&gt;

&lt;p&gt;Năm 2012, AlexNet thắng ImageNet — khoảnh khắc đánh dấu kỷ nguyên deep learning. Từ 2015 trở đi, CNN, RNN/LSTM, và Transformer bắt đầu thay thế hoàn toàn các phương pháp cũ.&lt;/p&gt;

&lt;p&gt;Google Vision API, Microsoft Azure OCR, Amazon Textract — tất cả đều đạt độ chính xác rất cao trên văn bản tiếng Anh, tiếng Trung, tiếng Ả Rập. Nhưng với chữ Khmer lịch sử, chúng đều thất bại vì cùng một lý do cốt lõi — điều sẽ được phân tích trong phần tiếp theo.&lt;/p&gt;




&lt;h2&gt;
  
  
  Phần 2: Vấn đề cốt lõi — Khi OCR "quá thông minh"
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Language-First OCR là gì?
&lt;/h3&gt;

&lt;p&gt;Phần lớn hệ thống OCR hiện đại hoạt động theo mô hình &lt;strong&gt;hai lớp&lt;/strong&gt;:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Lớp thị giác&lt;/strong&gt; — nhận dạng hình dạng ký tự&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Lớp ngôn ngữ&lt;/strong&gt; — hiệu chỉnh kết quả dựa vào từ điển và mô hình xác suất&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Lớp thứ hai nghe có vẻ hữu ích. Nhưng đối với văn bản lịch sử, nó là nguồn gốc của một vấn đề nghiêm trọng.&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;"OCR hiện đại (Google Lens, Cloud OCR) phụ thuộc nặng vào corpus hiện đại. Chúng tự động 'sửa' văn bản cổ về dạng hiện đại, làm mất thông tin gốc — và đây là hành vi không thể chấp nhận trong nghiên cứu lịch sử và bảo tồn di sản."&lt;/p&gt;

&lt;p&gt;— Danh Hồng, Tham luận tại Đại học Trà Vinh, 28/1/2026&lt;/p&gt;
&lt;/blockquote&gt;

&lt;h3&gt;
  
  
  Tại sao chữ Khmer hậu Angkor là phép thử khắc nghiệt nhất?
&lt;/h3&gt;

&lt;p&gt;Chữ Khmer trải qua ba giai đoạn phát triển chính:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Pre-Angkor&lt;/strong&gt;: Ảnh hưởng Brahmi-Pallava, chủ yếu ghi Sanskrit trên bia ký, chính tả ổn định và mang tính học thuật cao&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Angkor&lt;/strong&gt;: Song ngữ Khmer-Sanskrit, ít ligature hơn Pallava, spelling vẫn tương đối ổn định. Đáng lưu ý: chỉ duy nhất vua Yasovarman I (889–910) dùng chữ Devanagari — sau đó lại quay về dùng chữ Khmer&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Post-Angkor&lt;/strong&gt;: Chữ viết trở thành phương tiện phổ biến trong Phật giáo Theravada và văn học dân gian. Xảy ra hiện tượng &lt;strong&gt;"Khmer hóa spelling"&lt;/strong&gt; — điều chỉnh cách viết từ vay mượn Sanskrit/Pali theo âm đọc thực tế&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Giai đoạn hậu Angkor tạo ra thách thức cực kỳ lớn: &lt;strong&gt;một từ có thể có nhiều cách viết tùy vùng miền và thời kỳ&lt;/strong&gt;. Đây không phải lỗi — đây là đặc điểm lịch sử. Nhưng hệ thống language-first sẽ "sửa" tất cả về một dạng chuẩn duy nhất.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Bằng chứng thực nghiệm&lt;/strong&gt; — thử nghiệm trên bài hát ái quốc «ចំរៀងយោធាយាត្រា» từ thập niên 1950:&lt;br&gt;
&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fnextocr.org%2Fstatic%2Fimg%2Foriginal.jpg" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fnextocr.org%2Fstatic%2Fimg%2Foriginal.jpg" width="733" height="550"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Chính tả gốc (1950s)&lt;/th&gt;
&lt;th&gt;Language-First đọc&lt;/th&gt;
&lt;th&gt;NextOCR đọc&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;រមណិយស្ឋាន&lt;/td&gt;
&lt;td&gt;រមណីយ ស្ពាន ❌&lt;/td&gt;
&lt;td&gt;រមណិយស្ឋាន ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ប្រទុសរ៉ាយ&lt;/td&gt;
&lt;td&gt;ជ្រុះខុសអើយ ❌&lt;/td&gt;
&lt;td&gt;ប្រទុសរ៉ាយ ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ស្មគ្រ&lt;/td&gt;
&lt;td&gt;ស្មគូ ❌&lt;/td&gt;
&lt;td&gt;ស្មគ្រ ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ភូមីរណ&lt;/td&gt;
&lt;td&gt;ផ្សភូមិវណ ❌&lt;/td&gt;
&lt;td&gt;ភូមីរណ ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Kết quả: &lt;strong&gt;1 lỗi (NextOCR) vs 20 lỗi (language-first)&lt;/strong&gt; trên cùng 8 dòng văn bản.&lt;/p&gt;

&lt;p&gt;Quan trọng hơn: 20 lỗi đó không phải do nhận dạng thị giác kém — mà do lớp hiệu chỉnh ngôn ngữ áp chính tả hiện đại lên văn bản cổ, hủy hoại giá trị lịch sử.&lt;/p&gt;

&lt;h3&gt;
  
  
  Thách thức riêng của văn bản lá buông
&lt;/h3&gt;

&lt;p&gt;Ngoài vấn đề spelling, lá buông đặt ra thách thức vật lý:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Ký tự &lt;strong&gt;khắc tay&lt;/strong&gt; không đều về kích thước và khoảng cách&lt;/li&gt;
&lt;li&gt;Nền lá có &lt;strong&gt;vân, nứt, phai màu&lt;/strong&gt; qua nhiều thế kỷ&lt;/li&gt;
&lt;li&gt;Ảnh chụp thường &lt;strong&gt;cong méo&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;Nội dung chủ yếu là Khmer hậu Angkor, Pali/Sanskrit đã Khmer hóa&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Kết luận từ tham luận: &lt;em&gt;"Các hệ thống OCR phổ thông gần như không thể áp dụng."&lt;/em&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  Phần 3: Sự Ra Đời Khái Niệm Vision-First OCR tại Đại học Trà Vinh
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Bối cảnh
&lt;/h3&gt;

&lt;p&gt;Tháng 1 năm 2026, Đại học Trà Vinh tổ chức tọa đàm &lt;strong&gt;"Sách lá Buông: Bảo tồn và gìn giữ di sản văn hóa Khmer qua công nghệ số"&lt;/strong&gt; — sự kiện quy tụ:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;GS.TS Phạm Tiết Khánh&lt;/strong&gt; — Chủ tịch Hội đồng chiến lược ĐH Trà Vinh (đồng chủ tọa)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Ông Thạch Mu Ni&lt;/strong&gt; — Phó Giám đốc Sở Dân tộc và Tôn giáo tỉnh Vĩnh Long&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Thượng tọa Sơn Kene&lt;/strong&gt; — Chánh VP Hội Đoàn kết sư sãi yêu nước tỉnh Vĩnh Long&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;TS Ngô Sô Phe&lt;/strong&gt; — Hiệu trưởng Trường Ngôn ngữ-Văn hóa-Nghệ thuật Khmer Nam bộ (ĐH Trà Vinh)&lt;/li&gt;
&lt;li&gt;Đại diện &lt;strong&gt;Đại sứ quán Canada tại Việt Nam&lt;/strong&gt; (đơn vị tài trợ dự án số hóa lá buông)&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Tại đây, &lt;strong&gt;lần đầu tiên trong một diễn đàn học thuật chính thức&lt;/strong&gt;, khái niệm &lt;strong&gt;Vision-First OCR&lt;/strong&gt; được đề xuất và trình bày hệ thống — không chỉ là một giải pháp kỹ thuật đơn thuần, mà là một &lt;strong&gt;triết học thiết kế&lt;/strong&gt; riêng biệt.&lt;/p&gt;

&lt;h3&gt;
  
  
  Định nghĩa Vision-First OCR
&lt;/h3&gt;

&lt;p&gt;Vision-First OCR không phải chỉ là một kiến trúc model cụ thể. Đây là một nguyên tắc thiết kế:&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;Coi biến thể spelling là dữ liệu lịch sử cần bảo tồn, không phải lỗi cần sửa.&lt;/strong&gt;&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;Điều này đòi hỏi:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Huấn luyện trực tiếp trên ảnh thực&lt;/strong&gt; của lá buông và tài liệu lịch sử — không dùng font chữ tổng hợp&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Không áp đặt chuẩn viết hiện đại&lt;/strong&gt; — output phản ánh trực tiếp những gì có trên trang&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Không dùng từ điển hiệu chỉnh&lt;/strong&gt; — CER được đo trước post-processing, không sau&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Tối ưu cho CPU&lt;/strong&gt; — phù hợp với chùa chiền và viện nghiên cứu có hạ tầng hạn chế&lt;/li&gt;
&lt;/ol&gt;

&lt;h3&gt;
  
  
  So sánh triết học thiết kế
&lt;/h3&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Tiêu chí&lt;/th&gt;
&lt;th&gt;Language-First&lt;/th&gt;
&lt;th&gt;Vision-First (NextOCR)&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Chính tả cổ&lt;/td&gt;
&lt;td&gt;"Sửa" về chuẩn hiện đại ❌&lt;/td&gt;
&lt;td&gt;Giữ nguyên gốc ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Từ Pali/Sanskrit đã Khmer hóa&lt;/td&gt;
&lt;td&gt;Thay bằng từ có trong từ điển ❌&lt;/td&gt;
&lt;td&gt;Nhận dạng từ hình ảnh ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Văn bản lá buông&lt;/td&gt;
&lt;td&gt;Thất bại hoàn toàn ❌&lt;/td&gt;
&lt;td&gt;Huấn luyện trên dữ liệu thật ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Đo CER&lt;/td&gt;
&lt;td&gt;Sau post-processing&lt;/td&gt;
&lt;td&gt;Trước post-processing&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Triển khai&lt;/td&gt;
&lt;td&gt;Cần cloud&lt;/td&gt;
&lt;td&gt;CPU-only, on-premise ✅&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;




&lt;h2&gt;
  
  
  Phần 4: Kết Quả và Phương Pháp Luận
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Chỉ số hiệu năng
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;CER: 0.07%&lt;/strong&gt; trong điều kiện tối ưu (đo trực tiếp, không qua hiệu chỉnh từ điển)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;1 lỗi vs 20 lỗi&lt;/strong&gt; trên văn bản Khmer 1950s (8 dòng thơ)&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;20× ít lỗi hơn&lt;/strong&gt; so với hệ thống language-first truyền thống&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Điểm phương pháp luận quan trọng
&lt;/h3&gt;

&lt;p&gt;Trong cộng đồng OCR, có một thực hành phổ biến nhưng gây hiểu nhầm: &lt;strong&gt;công bố CER sau khi đã chạy qua language correction post-processing&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Cách đo này không phản ánh năng lực thực sự của mô hình thị giác — nó phản ánh năng lực của từ điển và mô hình ngôn ngữ. Với văn bản hiện đại, hai thứ này giúp ích. Với văn bản lịch sử, chúng chính là nguồn gốc của lỗi.&lt;/p&gt;

&lt;p&gt;NextOCR công bố CER &lt;strong&gt;trước&lt;/strong&gt; post-processing — số liệu phản ánh trực tiếp năng lực nhận dạng thị giác thuần túy.&lt;/p&gt;




&lt;h2&gt;
  
  
  Phần 5: Ý Nghĩa và Hướng Tương Lai
&lt;/h2&gt;

&lt;h3&gt;
  
  
  Tại sao khái niệm này ra đời ở Đồng bằng sông Cửu Long?
&lt;/h3&gt;

&lt;p&gt;Câu hỏi không chỉ là kỹ thuật: tại sao một khái niệm OCR mới lại ra đời không phải tại một hội nghị AI quốc tế, mà tại một tọa đàm bảo tồn di sản ở miền Nam Việt Nam?&lt;/p&gt;

&lt;p&gt;Vì chính &lt;strong&gt;áp lực thực tế&lt;/strong&gt; tạo ra câu hỏi đúng.&lt;/p&gt;

&lt;p&gt;Tỉnh Trà Vinh có hơn 300.000 người Khmer (chiếm ~32% dân số), 143 chùa Phật giáo Nam tông Khmer, và một kho tàng lá buông với hàng thế kỷ kiến thức y học, luật pháp, văn học, triết học Phật giáo — chưa được số hóa. Các hệ thống OCR lớn của thế giới không thể giải quyết vấn đề này, vì chúng được xây dựng cho corpus hiện đại và ngôn ngữ có tài nguyên lớn.&lt;/p&gt;

&lt;p&gt;Khi mục tiêu là &lt;strong&gt;bảo tồn trung thực&lt;/strong&gt; — không phải nhận dạng "đủ dùng" — thì câu hỏi triết học trở nên không thể tránh: &lt;em&gt;OCR nên đọc những gì thực sự có trên trang, hay những gì chúng ta nghĩ nên có?&lt;/em&gt;&lt;/p&gt;

&lt;p&gt;Vision-First OCR là câu trả lời cho câu hỏi đó.&lt;/p&gt;

&lt;h3&gt;
  
  
  Từ OCR đến Vision-Language Model lịch sử Khmer
&lt;/h3&gt;

&lt;p&gt;Như được đề xuất trong tham luận, Vision-First OCR là bước nền tảng cho mục tiêu lớn hơn: &lt;strong&gt;VLM chuyên biệt cho di sản văn bản Khmer&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Cấu trúc dữ liệu huấn luyện VLM gồm 4 lớp:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Ảnh gốc&lt;/strong&gt; — scan lá buông, bia ký, tài liệu&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Ngữ cảnh lịch sử&lt;/strong&gt; — thời kỳ, vùng địa lý, thể loại&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Văn bản OCR thô&lt;/strong&gt; (vision-first) — trung thực với spelling gốc&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Cách viết hiện đại tương ứng&lt;/strong&gt; — khi có thể xác định&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Chỉ Vision-First OCR mới có thể tạo ra lớp thứ 3 đúng cách. Đây là điểm khởi đầu không thể thay thế.&lt;/p&gt;




&lt;h2&gt;
  
  
  Kết luận
&lt;/h2&gt;

&lt;p&gt;Trong 110 năm, OCR đi từ máy quang điện cơ học đến deep learning transformer. Nhưng suốt hành trình đó, một giả định ngầm luôn tồn tại: &lt;strong&gt;mô hình ngôn ngữ giúp OCR tốt hơn&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Giả định đó đúng với văn bản hiện đại và ngôn ngữ có từ điển lớn. Nó sai với văn bản lịch sử, chữ viết thiểu số, và bất kỳ trường hợp nào mà "đúng" nghĩa là &lt;strong&gt;trung thực với gốc&lt;/strong&gt; — không phải "chuẩn theo từ điển hiện đại".&lt;/p&gt;

&lt;p&gt;Vision-First OCR ra đời từ nhận thức đó. Và nó được đặt tên lần đầu tiên không phải tại Silicon Valley hay một hội nghị AI ở Geneva, mà tại một tọa đàm về những trang lá cọ mỏng manh đang dần phai màu trong các chùa Khmer ở Đồng bằng sông Cửu Long.&lt;/p&gt;




&lt;p&gt;&lt;em&gt;Thử NextOCR trên tài liệu Khmer của bạn: &lt;a href="https://nextocr.org" rel="noopener noreferrer"&gt;nextocr.org&lt;/a&gt;&lt;/em&gt;&lt;/p&gt;

&lt;p&gt;&lt;em&gt;Developer API: &lt;a href="https://developer.nextocr.org" rel="noopener noreferrer"&gt;developer.nextocr.org&lt;/a&gt;&lt;/em&gt;&lt;/p&gt;

&lt;p&gt;&lt;em&gt;Liên hệ: &lt;a href="mailto:danhhong@gmail.com"&gt;danhhong@gmail.com&lt;/a&gt; | Telegram: t.me/hout18&lt;/em&gt;&lt;/p&gt;

</description>
      <category>ocr</category>
      <category>ai</category>
      <category>machinelearning</category>
      <category>computervision</category>
    </item>
    <item>
      <title>Why NextOCR Beats Gemini on Pre-1953 Khmer Printed Books</title>
      <dc:creator>Danh Hong</dc:creator>
      <pubDate>Wed, 24 Jun 2026 01:02:13 +0000</pubDate>
      <link>https://dev.to/danh_hong_2ad24e11dd9a198/why-nextocr-beats-gemini-on-pre-1953-khmer-printed-books-4k5</link>
      <guid>https://dev.to/danh_hong_2ad24e11dd9a198/why-nextocr-beats-gemini-on-pre-1953-khmer-printed-books-4k5</guid>
      <description>&lt;p&gt;Today we rolled out a major update to NextOCR, specifically optimized for Khmer printed books published before 1953.&lt;/p&gt;

&lt;p&gt;This new model significantly improves OCR quality on historical Khmer documents, especially degraded scans, rare glyph forms, and old orthographic conventions.&lt;/p&gt;

&lt;p&gt;As a quick demonstration, here is a page from a Khmer book printed before 1953.&lt;/p&gt;

&lt;p&gt;Despite severe scan degradation, ink noise, and historical typography, the updated model preserves both structure and readability at a surprisingly high level.&lt;/p&gt;

&lt;p&gt;This raises an interesting question:&lt;/p&gt;

&lt;p&gt;Why can a specialized OCR system outperform large multimodal models like Gemini?&lt;/p&gt;

&lt;p&gt;Many people assume larger models should automatically win.&lt;/p&gt;

&lt;p&gt;More data.&lt;br&gt;
More GPUs.&lt;br&gt;
More engineers.&lt;/p&gt;

&lt;p&gt;But our experience suggests something different.&lt;/p&gt;

&lt;h2&gt;
  
  
  Bigger AI does not automatically mean better OCR
&lt;/h2&gt;

&lt;p&gt;Google and other Big Tech companies do not lack data.&lt;/p&gt;

&lt;p&gt;In fact, they likely possess far more document data than we do.&lt;/p&gt;

&lt;p&gt;They also have world-class infrastructure and elite AI researchers.&lt;/p&gt;

&lt;p&gt;Yet historical OCR is not solved by scale alone.&lt;/p&gt;

&lt;p&gt;OCR for old Khmer books is an unusually specialized problem.&lt;/p&gt;

&lt;p&gt;The challenge is not merely text recognition.&lt;/p&gt;

&lt;p&gt;It includes:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;degraded printing quality&lt;/li&gt;
&lt;li&gt;ink bleed&lt;/li&gt;
&lt;li&gt;page skew&lt;/li&gt;
&lt;li&gt;broken glyph structures&lt;/li&gt;
&lt;li&gt;historical spelling variation&lt;/li&gt;
&lt;li&gt;dense layout ambiguity&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;These problems require more than general multimodal intelligence.&lt;/p&gt;

&lt;p&gt;They require domain-specific engineering.&lt;/p&gt;

&lt;h2&gt;
  
  
  Architecture matters
&lt;/h2&gt;

&lt;p&gt;Our latest update improves performance because of architectural refinement across the OCR pipeline.&lt;/p&gt;

&lt;p&gt;The system now performs better at:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;historical document restoration&lt;/li&gt;
&lt;li&gt;layout-aware segmentation&lt;/li&gt;
&lt;li&gt;glyph-sensitive recognition&lt;/li&gt;
&lt;li&gt;Khmer language correction&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Small architectural decisions create large downstream gains.&lt;/p&gt;

&lt;p&gt;Sometimes improving a single preprocessing stage improves final accuracy more than increasing model size.&lt;/p&gt;

&lt;p&gt;Parameter count alone does not determine OCR performance.&lt;/p&gt;

&lt;h2&gt;
  
  
  Obsession is a competitive advantage
&lt;/h2&gt;

&lt;p&gt;Architecture is only part of the story.&lt;/p&gt;

&lt;p&gt;The deeper advantage is accumulated obsession.&lt;/p&gt;

&lt;p&gt;Since 2013, OCR has been our continuous focus.&lt;/p&gt;

&lt;p&gt;Over the years we have encountered thousands of edge cases.&lt;/p&gt;

&lt;p&gt;A broken consonant.&lt;br&gt;
A merged ligature.&lt;br&gt;
A faint vowel mark.&lt;br&gt;
A scan that appears unreadable.&lt;/p&gt;

&lt;p&gt;Every failure taught us something.&lt;/p&gt;

&lt;p&gt;Over time, those lessons became engineering intuition.&lt;/p&gt;

&lt;p&gt;That intuition shaped the model.&lt;/p&gt;

&lt;p&gt;Large organizations have extraordinary talent.&lt;/p&gt;

&lt;p&gt;But they operate under roadmaps, priorities, quarterly goals, and resource allocation constraints.&lt;/p&gt;

&lt;p&gt;A solo AI builder works differently.&lt;/p&gt;

&lt;p&gt;Sometimes breakthroughs happen not during meetings, but at 2 AM.&lt;/p&gt;

&lt;p&gt;A decoding failure keeps repeating in your head.&lt;/p&gt;

&lt;p&gt;You revisit assumptions.&lt;br&gt;
You rethink the algorithm.&lt;br&gt;
You discover a better approach.&lt;/p&gt;

&lt;p&gt;That type of uninterrupted focus is difficult to scale organizationally.&lt;/p&gt;

&lt;h2&gt;
  
  
  Experience becomes part of the model
&lt;/h2&gt;

&lt;p&gt;In niche AI domains, experience is not separate from the model.&lt;/p&gt;

&lt;p&gt;Experience becomes part of the architecture.&lt;/p&gt;

&lt;p&gt;It influences:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;what data you curate&lt;/li&gt;
&lt;li&gt;what errors you prioritize&lt;/li&gt;
&lt;li&gt;what tradeoffs you accept&lt;/li&gt;
&lt;li&gt;what signals you preserve&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;This is especially true for historical OCR.&lt;/p&gt;

&lt;p&gt;The newest NextOCR release reflects more than a model update.&lt;/p&gt;

&lt;p&gt;It reflects 13 years of iteration.&lt;/p&gt;

&lt;p&gt;Big Tech has more compute.&lt;/p&gt;

&lt;p&gt;But compute alone does not solve everything.&lt;/p&gt;

&lt;p&gt;The scarcest resource in AI may not be compute.&lt;/p&gt;

&lt;p&gt;It may be sustained obsession.&lt;/p&gt;

&lt;p&gt;And in historical OCR, obsession compounds.&lt;/p&gt;




&lt;p&gt;Try the latest model: &lt;a href="https://nextocr.org" rel="noopener noreferrer"&gt;https://nextocr.org&lt;/a&gt;&lt;/p&gt;

</description>
      <category>ai</category>
      <category>gemini</category>
      <category>machinelearning</category>
      <category>showdev</category>
    </item>
    <item>
      <title>Case Study: Historical Khmer OCR (1900–1953)</title>
      <dc:creator>Danh Hong</dc:creator>
      <pubDate>Sat, 20 Jun 2026 10:51:38 +0000</pubDate>
      <link>https://dev.to/danh_hong_2ad24e11dd9a198/case-study-historical-khmer-ocr-1900-1953-193k</link>
      <guid>https://dev.to/danh_hong_2ad24e11dd9a198/case-study-historical-khmer-ocr-1900-1953-193k</guid>
      <description>&lt;p&gt;&lt;strong&gt;The Challenge&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;Historical Khmer documents often use obsolete spellings, archaic vocabulary, degraded printing, and non-standard orthography. Traditional OCR systems frequently normalize or misinterpret these texts, producing output that contains numerous semantic errors and becomes difficult to understand.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Example&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;NextOCR Raw Output (Direct OCR)&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;«កាលដែរបារាំងសែសទើពមកដល់នោះ នគរយើងកាន្តែ គូចណាស់ទៅហើ្យ នៅតែពីត្រិមខែត្រពោធិស័ត្យ៍ ទៅទល់និង ព្រែកជីកខែត្រពាម...»&lt;/p&gt;

&lt;p&gt;The OCR output contains only a few recognition errors while preserving the original historical spelling style. Despite minor mistakes, the text remains fully understandable to Khmer readers and can be automatically normalized to modern Khmer.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Modern Khmer Correction (Gemini)&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;«កាលដែរបារាំងសេសទើបមកដល់នោះ នគរយើងកាន់តែ តូចណាស់ទៅហើយ នៅតែពីត្រឹមខែត្រពោធិ៍សាត់ ទៅទល់នឹង ព្រែកជីកខែត្រពាម...»&lt;/p&gt;

&lt;p&gt;Gemini successfully converts the historical spelling into modern Khmer because the OCR output preserves the original meaning and sentence structure.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Gemini Direct OCR from Image&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;«កាលដែលបារាំងសែសទើបមកដល់នោះ ជនជាតិយើងកម្រិត គួរបំរាស់ទៅហើយ...»&lt;/p&gt;

&lt;p&gt;Although many words appear linguistically valid, numerous substitutions alter the meaning of the text. Place names, historical terms, and sentence structure are changed, making the passage difficult to understand and unsuitable for historical preservation.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Key Observation&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;The goal of historical OCR is not merely to minimize character errors.&lt;/p&gt;

&lt;p&gt;A useful historical OCR system should:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;Preserve original wording and historical spelling.&lt;/li&gt;
&lt;li&gt;Maintain semantic meaning.&lt;/li&gt;
&lt;li&gt;Produce text that can be reliably converted to modern Khmer.&lt;/li&gt;
&lt;li&gt;Avoid hallucinating modern words or replacing historical place names.&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;In this example, NextOCR produced only a few recognition errors while preserving the document's historical content and meaning. The output could be accurately normalized to modern Khmer with near-perfect results, whereas direct image-to-text extraction introduced numerous semantic distortions.&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Conclusion&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;For historical Khmer documents, preserving meaning is often more important than achieving the lowest character error rate. NextOCR's vision-first approach maintains the original textual structure, enabling reliable downstream correction and modernization while preserving the historical record.&lt;br&gt;
&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.us-east-2.amazonaws.com%2Fuploads%2Farticles%2Fgwk2dxpnk6wsulnbz8fv.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.us-east-2.amazonaws.com%2Fuploads%2Farticles%2Fgwk2dxpnk6wsulnbz8fv.png" alt=" " width="800" height="1822"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Try It Yourself&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;We encourage readers to test historical Khmer documents using the NextOCR public demo.&lt;/p&gt;

&lt;p&gt;Upload pages from old Khmer books, newspapers, or archival documents and compare the results with other OCR systems. Pay special attention not only to character accuracy, but also to whether the extracted text preserves the original meaning, historical spelling, and place names.&lt;/p&gt;

&lt;p&gt;Experience the demo at: &lt;a href="https://demo.nextocr.org" rel="noopener noreferrer"&gt;https://demo.nextocr.org&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;For historical Khmer OCR, the most important question is not "How many characters are correct?" but rather:&lt;/p&gt;

&lt;p&gt;"Can the text still be understood and faithfully preserved?"&lt;/p&gt;

</description>
    </item>
  </channel>
</rss>
