🛰️ בניית מערכת תרגום בזמן אמת לטקסט בתמונות ובסרטונים — האתגרים שפתרנו ב-Radar
כשהתחלנו לבנות את Radar, ידענו שהאתגר הטכני הכי קשה לא יהיה מעקב אחרי ערוצי טלגרם ו-X בזמן אמת — אלא מה שנמצא בתוך התמונות והסרטונים.
רוב כלי ה-OSINT עוצרים בטקסט. Radar לא.
הנה מה שבנינו, ואיך:
OCR + תרגום על תמונות בזמן אמת
האתגר: טקסט בתמונות מגיע בפונטים שונים, רקעים עמוסים, ושפות שונות — לעיתים בתוך אותה תמונה. פיתחנו pipeline שמשלב OCR מותאם רב-שפתי עם מודל תרגום שמטפל בקונטקסט ויזואלי, לא רק בטקסט מבודד.כתוביות צרובות בסרטונים
האתגר: כתוביות hard-coded לא ניתנות לחילוץ בדרכים רגילות. השתמשנו בגישה של frame sampling חכם + OCR על פריימים קריטיים, עם deduplication כדי לא לשכפל תוכן זהה.Push Notifications בזמן אמת עם סינון לפי מילות מפתח
האתגר: latency. כשמדובר בגורמים ביטחוניים ועיתונאים, שנייה אחת מאוחר יכולה להיות שנייה אחת יקרה מדי. בנינו event-driven architecture עם message queue שמבטיח שהתראה תגיע תוך שניות ספורות מרגע הפרסום המקורי.דירוג אמינות מקורות
לא כל ערוץ טלגרם שווה. פיתחנו מודל scoring שמתבסס על היסטוריית המקור, cross-referencing עם מקורות מאומתים, ומהירות הפצה — כי לפעמים מהירות עצמה היא סימן אזהרה.
🔧 הסטאק שבחרנו:
🟢 Python לעיבוד מדיה ו-OCR
🟢 WebSocket connections לעדכוני זמן אמת
🟢 תשתית ענן לסקיילינג דינמי בזמן אירועים
🟢 מודל תרגום מותאם לעברית עם הקשר ביטחוני-חדשותי
מה שמעניין אותנו עכשיו הוא הצעד הבא: שיפור דיוק התרגום לניבים ולשפת רחוב שמופיעה בסרטוני שטח — כי זה המידע שהכי קשה לתפוס ולהבין.
אם אתה עובד על אתגרים דומים — OSINT, real-time translation, media processing — נשמח לשמוע איך אתה פותר אותם.
Replies פתוחות. בואו נדבר טכנולוגיה.
Top comments (0)