ใช้ Typhoon-OCR ดึงข้อความจาก PDF/รูปภาพด้วย Python

Typhoon-OCR จาก SCB 10X คือ LLM ที่ช่วยสกัดข้อความภาษาไทยจากไฟล์ PDF และรูปภาพได้อย่างแม่นยำ นี่คือวิธีใช้งานฉบับรวบรัดผ่าน Python และ Ollama

อ่านฉบับเต็ม...

ขั้นตอนที่ 1: ติดตั้งและรันโมเดล

เปิด Terminal แล้วรัน 2 คำสั่งนี้:

1. ติดตั้งไลบรารีที่จำเป็น:

pip install typhoon-ocr openai

2. ดาวน์โหลดและรันโมเดลผ่าน Ollama: (ต้องติดตั้ง Ollama ก่อน)

ollama run scb10x/typhoon-ocr-3b:latest

คำสั่งนี้จะเปิด API Server ที่ http://localhost:11434 ให้โดยอัตโนมัติ

ขั้นตอนที่ 2: เขียนโค้ด Python

สร้างไฟล์ Python แล้วนำโค้ดด้านล่างไปวางได้เลย

from typhoon_ocr import prepare_ocr_messages
from openai import OpenAI

# เตรียมข้อมูลจากไฟล์ PDF/Image
messages = prepare_ocr_messages(
    pdf_or_image_path="YOUR_FILE.pdf",  # <-- แก้เป็นชื่อไฟล์ของคุณ
    task_type="default"                 # "default" = ดึงข้อความ, "structure" = รักษาตาราง
    page_num=1              # Process page 1 of a PDF (default is 1, always 1 for images)
)

# เชื่อมต่อกับโมเดลที่รันบน Ollama
client = OpenAI(
    base_url="http://localhost:11434/v1", 
    api_key="not-needed"
)

# ส่งคำขอให้โมเดลทำงาน
response = client.chat.completions.create(
    model="scb10x/typhoon-ocr-3b:latest",
    messages=messages,
     max_tokens=16000,
    extra_body={
        "repetition_penalty": 1.2,
        "temperature": 0.1,
        "top_p": 0.6,
    },
)

# พิมพ์ผลลัพธ์
print(response.choices[0].message.content)

ขั้นตอนที่ 3: รันและดูผลลัพธ์

เพียงแค่แก้ pdf_or_image_path ในโค้ดให้เป็นตำแหน่งไฟล์ของคุณ แล้วสั่งรันสคริปต์ Python ผลลัพธ์ที่ได้คือข้อความที่ถูกสกัดออกมาจากไฟล์ของคุณ ง่ายและทรงพลังสำหรับงาน OCR ภาษาไทยโดยเฉพาะ!