חזרה לדף הבית
כל המאמרים

כך צורבים כתוביות בעברית על וידאו בלי טעויות

ד
מאת דב, מייסד ClipRocket Studio
· קריאה של ~10 דק׳

הכלי עבד. הכתוביות נצרבו על הסרטון. ואז ראיתם את זה: שי״ן הפכה לסמ״ך. אות סופית נעלמה. מילה שלמה יצאה הפוכה.

זו לא בעיה של קובץ שגוי, לא בעיה של הגייה לא ברורה, ולא בעיה שאפשר לתקן בהגדרות. ככה מודלי AI עובדים — הם אומנו בעיקר על אנגלית, ועברית מדוברת היא שפה אחרת לגמרי. הכתב שונה. כיוון הטקסט הפוך. ואותיות סופיות — ם, ן, ך, ץ, ף — פשוט לא קיימות באנגלית, והמודל לא יודע להבדיל ביניהן לבין האותיות הרגילות.

אצלנו ב-ClipRocket Studio בנינו שכבת בקרת איכות (QC) מעל Whisper (מודל התמלול האוטומטי של OpenAI) — שני מודלי AI שעוברים על כל ציטוט ומתקנים את הטעויות הקלאסיות לפני שהכתוביות נצרבות. התוצאה: 85–99 אחוז דיוק בכתוביות בעברית. אנחנו מספר אחד בשוק בעברית, ואין לנו מתחרה רציני שמתקרב לזה.

המחשה של שורט אנכי עם שכבת בקרת איכות שסורקת ומסנכרנת כתוביות בעברית ב-ClipRocket Studio
שכבת בקרת האיכות עוברת על כל מילה ומיישרת את הכתוביות לפני שהן נצרבות על השורט — כך שמה שיוצא בעברית כבר נקי.

ארבע הטעויות שחוזרות על עצמן בכל כלי

לא טעויות אקראיות. אלה הכשלים הספציפיים שנובעים מכך שהמודל לא בנוי לעברית — וחוזרים על עצמם בעקביות, גם על קלטות סטודיו נקיות.

בלבול שי״ן וסמ״ך

סם נמכרשם נמכר

הטעות הנפוצה ביותר בעברית לא-מנוקדת. שי״ן וסמ״ך נשמעות זהה לאוזן — ומודל שלא ראה מספיק עברית כתובה לא יודע להבדיל ביניהן. על שורט של 90 שניות, זה יכול להופיע 3 עד 5 פעמים.

אותיות סופיות נשברות

עולמעולם

ם, ן, ך, ץ, ף — אלה לא קיימות באנגלית. המודל לומד עברית כרצף של תווים, ומסמן את גבול המילה לפני האות הסופית. מה שיוצא: ״שלומ״ במקום ״שלום״, ״עידנ״ במקום ״עידן״, ״צמצומ״ במקום ״צמצום״. כל צופה ישראלי מזהה את זה תוך שנייה.

יו״ד שנופל ממילים לועזיות

מסטיקהמיסטיקה

מילים שמקורן לועזי — ״מיסטיקה״, ״פסיכולוגיה״, ״אינטואיציה״ — מאבדות את היו״ד. המודל לא מזהה את הדפוס של מילים לועזיות בעברית מדוברת. בשורטס בנושאי עסקים, פסיכולוגיה, ספורט — זה קורה תכופות.

המצאת מילים שלא קיימות

המצאתמצאתי

Whisper לפעמים פשוט ממציא מילה מהאוויר — בלבול בין גוף ראשון לשני, או צירוף שלא קיים בעברית בכלל. הצופה קורא משפט שנשמע עברית אבל לא אומר כלום. זה מאבד אמון מיידי.

שכבת בקרת האיכות שלנו — מה קורה בפועל

מעל Whisper בנינו שכבה של שני מודלי AI. המודל הראשון מתקן — עובר על כל ציטוט ומיישם את החוקים שנלמדו מטעויות אמיתיות אצל לקוחות. המודל השני בודק את התיקונים של הראשון. ומעל שניהם יש שכבת ביטחון שמבטלת כל תיקון שמשנה את המילה יותר מדי — כך שלעולם לא ממציאים טקסט שלא נאמר.

מה שבאמת מבדיל אותנו: המאגר שלנו גדל כל יום. כל פעם שאנחנו תופסים טעות חדשה אצל לקוח אמיתי — מוסיפים אותה לחוקים שמונעים ממנה לחזור. זה לא קוד שנכתב פעם ונשאר. זה מערכת שהולכת ומשתפרת עם כל שורט שעובד דרכנו.

המחשה של כתוביות עברית שבורות שמתוקנות לשורות מסונכרנות ונקיות אחרי שכבת בקרת האיכות
לפני ואחרי: טקסט עברי שבור — שי״ן שהפכה לסמ״ך, אות סופית שנשברה — חוזר לשורות נקיות ומסונכרנות אחרי שני מודלי ה-AI ושכבת הביטחון.

הסיבה שבנינו את זה היא אישית. ניסיתי לצרוב כתוביות לערוץ הטיקטוק שלי עם כל כלי שהיה בשוק — ויצאו שם שגיאות. שגיאות כתיב שילד בכיתה ג' כבר לא עושה. מילים שמתפצלות לשתיים. שמות שיוצאים בצורה שאף אחד לא יזהה. לא היה אפשר לעבוד עם זה. ולכן בנינו את שכבת בקרת האיכות הזו לפני שהיה לנו ממשק, לפני שהיה לנו עורך — היא הייתה הרכיב הראשון שבנינו מאפס.

מה שעובד בפועל

טעות קלאסיתכלים גלובלייםClipRocket Studio
שי״ן / סמ״ךשגיאה חוזרתמתוקן אוטומטית
אות סופית שבורהשגיאה חוזרתמתוקן אוטומטית
יו״ד בלועזיותשגיאה חוזרתמתוקן אוטומטית
המצאת מיליםקורהנחסם על ידי שכבת הביטחון
דיוק כללימשתנה, ללא בקרת איכות85–99 אחוז

זה לא תיאורטי. בן אדם שגולל בפיד רואה כתובית שגויה תוך שנייה אחת, מרגיש ש״זה לא מדויק״, וממשיך הלאה. כתוביות מדויקות הן לא בונוס — הן חלק מהאמינות של הסרטון. מי שצופה מסיק על האיכות של כל התוכן שלכם מהמשפט הראשון.

על איך בדיוק לצרוב כתוביות אוטומטיות בעברית לשורטס — צעד אחר צעד, כולל הבדל בין SRT לצרובות — יש לנו מדריך נפרד. ועל שש הטעויות שהורגות שורטס בעברית — כולל כתוביות הפוכות וחיתוך באמצע משפט — יש פוסט שכדאי לקרוא לפני שמפרסמים.

תנו לנו לצרוב לכם כתוביות בעברית ברמה שאין לה מתחרה

30 קרדיטים חינם. בלי כרטיס אשראי. בעברית.

מעלים פרק, מקבלים שורטס עם כתוביות שעברו שני מודלי AI ושכבת ביטחון. 85–99 אחוז דיוק. אנחנו מספר אחד בשוק בעברית.

שאלות נפוצות

האם אפשר לתקן ידנית את הכתוביות שיצאו שגויות?

אפשר — אבל זה שעות. על שורט של 90 שניות מדובר ב-20 עד 40 שורות. מעל 450 שורטים שיצרנו ידנית, הבנו שהפתרון הנכון הוא למנוע את הטעות מלכתחילה. שכבת בקרת האיכות שלנו עושה בדיוק את זה: מתקנת לפני שנצרב, כך שלא תצטרכו לתקן ידנית בכלל.

כמה שגיאות כתוביות מקובלות בשורט בעברית?

בכלים גלובליים עם תמיכת עברית בסיסית, מהניסיון שלנו השגיאות חוזרות לאורך השורט — מספיק כדי שצופה ישראלי ירגיש שהטקסט לא מדויק. אצלנו ב-ClipRocket Studio אנחנו עומדים על 85–99 אחוז דיוק, כך שרוב השורטים יוצאים נקיים. בן אדם שצופה מרגיש את ההבדל מיד.

המשך קריאה