למה כתוביות בעברית יוצאות הפוכות בכלים גלובליים?

הכלים הגלובליים בנו את שכבת הכתוביות שלהם לאנגלית — ואז ״הוסיפו תמיכה בעברית״ מעל. אבל עברית היא לא אנגלית הפוכה. אלגוריתם BiDi שמטפל נכון במשפטים מעורבים — עברית עם מילים באנגלית ומספרים — דורש בנייה מאפס. אנחנו בנינו אותו ספציפית לעברית מדוברת ישראלית.

95% ומעלה זה לא 100 אחוז. מה קורה עם שאר המילים?

שמות פרטיים נדירים ומונחים מאוד טכניים הם עדיין אתגר — גם אצלנו. שכבת הביטחון שלנו מגדירה לכל תיקון מרחק לוינשטיין מקסימלי, כך שלא נמציא מילה שלא נאמרה. אנחנו מוסיפים חוקים חדשים מכל שגיאה שתופסים אצל לקוח אמיתי — המערכת ממשיכה לגדול.

האם זה עובד גם על פרק דו-לשוני — עברית ואנגלית מתחלפות?

כן, וזה בדיוק החוזקה. המצב שבו כלים גלובליים נופלים הכי קשה הוא המשפט המעורב — דובר ישראלי שאומר ״ה-ROI שלנו עלה ב-40 אחוז״. המילה הלועזית צריכה להיות בכיוון הנכון בתוך הזרם העברי. אצלנו זה עובד.

כתוביות RTL בעברית: הבעיה שאף כלי זר לא פתר

שמתם כתוביות AI על הווידאו שלכם בעברית. הטקסט יצא — אבל אחרי כמה שניות מילה באנגלית קפצה לצד הלא נכון של השורה. או שמספר נקרא מהכיוון ההפוך. הכתוביות נראות שבורות, ובן אדם שגולל בפיד מחליט אם להישאר תוך 1.5–3 שניות. הוא מרגיש את השבירה בחצי שנייה — וגולל הלאה.

זאת לא בעיה שתיסגר עם הגדרות. זה כשל מובנה. ניסינו כל כלי שהיה בשוק — OpusClip, CapCut, Submagic — ועל כולם ראינו את אותן שגיאות חוזרות. הסיבה שבנינו את ClipRocket Studio היא בדיוק בגלל זה: לא שיפרנו — בנינו מאפס.

RTL בעברית זה לא סתם ״כיוון הפוך״

כשמדברים על RTL (RTL — כיוון הטקסט מימין לשמאל) אנשים חושבים שזה פשוט: הופכים את כיוון הטקסט — גמרנו. המציאות מורכבת הרבה יותר.

בעברית מדוברת, כמעט כל משפט מכיל שילוב של שתי שפות. הדובר אומר ״ה-ROI שלנו עלה ב-40 אחוז״ — עברית עם מונח אנגלי ומספר. כל אחד מהאלמנטים האלה זז בכיוון שונה: ״ROI״ לועזי (שמאל לימין), ״שלנו עלה״ עברית (ימין לשמאל), והמספר עצמו — שוב שמאל לימין. האלגוריתם שמחליט לאן כל חלק הולך נקרא BiDi (BiDi — אלגוריתם הסידור הדו־כיווני שמסדר טקסט מעורב עברית ואנגלית). שום כלי גלובלי לא בנה אותו ספציפית לעברית מדוברת ישראלית. ולכן כולם נשברים.

המחשה של טקסט דו־כיווני: זרם עברי שזורם מימין לשמאל ומונח אנגלי שזורם משמאל לימין באותה שורה — בכל משפט עברי שמשולבת בו מילה לועזית או מספר, שני כיוונים נפגשים על אותה שורה. כלי שלא בנה את הסידור הזה לעברית — מניח את החלקים בצד הלא נכון.

מה נשבר בפועל — ארבעת הכשלים הקלאסיים

אלה לא מקרי קצה. בכל פרק שבדקנו, על כל כלי גלובלי, ראינו לפחות שלושה מארבעת הכשלים האלה חוזרים בעקביות.

מילים לועזיות ומספרים — בצד הלא נכון

האלגוריתם הגנרי דוחף את כל האלמנטים הלועזיים לצד שמאל — גם כשהם באמצע משפט עברי. בן אדם קורא: TikTok ב-50 אלף עוקבים הגענו במקום ״הגענו ל-50 אלף עוקבים ב-TikTok״. המשפט מתפרק.

אותיות סופיות כאמצעיות

מודל שאומן בעיקר על אנגלית לא מכיר את ההבדל בין מ׳ לם׳, נ׳ לן׳, כ׳ לך׳. ״שלום״ יוצא ״שלומ״, ״עידן״ יוצא ״עידנ״. בן אדם ישראלי מזהה את זה בחצי שנייה — ומיד מסיק שהתוכן נוצר ברשלנות.

בלבול שין וסמך, אותיות סמוכות

בעברית לא מנוקדת, החלפת אות אחת משנה משמעות לחלוטין. ״לוקחות״ יוצא ״לקוחות״, ״מסטול״ יוצא ״מסתול״. כלי שלא מכיר את העברית המדוברת לא מבין שיצר טעות. בן אדם שצופה — כן.

שמות פרטיים שמתעוותים — או מומצאים

שמות ישראליים פשוט לא חלק מאוצר המילים של מודל גלובלי שאומן על אנגלית. ״אבישי״ הופך ל-״אבישאי״, ״תמיר״ הופך ל-״תמר״. לפעמים אפילו מודל התמלול הטוב בעולם לעברית פשוט ממציא מילה מהאוויר — מה שנשמע כמו שם הדובר יוצא כמשהו שלא קיים בעברית בכלל.

מה בנינו ב-ClipRocket Studio — שכבת תיקון מעל מודל התמלול הטוב בעולם לעברית

לא החלפנו את מודל התמלול הטוב בעולם לעברית. בנינו מעליו.

מעל שכבת התמלול רצים אצלנו שני מודלי AI שעוברים על כל ציטוט — מודל ראשון מתקן את הטעויות, מודל שני בודק את התיקונים של הראשון. מעל שניהם פועלת שכבת ביטחון שמבטלת כל תיקון שמשנה את המילה יותר מדי לפי מרחק לוינשטיין (מרחק לוינשטיין — כמה אותיות צריך לשנות כדי להפוך מילה אחת לאחרת) — כך שלעולם לא ממציאים טקסט שלא נאמר. כל פעם שאנחנו תופסים טעות חדשה אצל לקוח אמיתי, מוסיפים אותה לחוקים שמונעים ממנה לחזור. המאגר גדל בכל שבוע.

התוצאה: 95% ומעלה דיוק סנכרון כתוביות בעברית. אין כלי בשוק שמגיע לזה בעברית — כי אין כלי אחר שבנה את שכבת התיקון הזו מאפס. בכל מה שקשור לכתוביות עבריות מדויקות, אנחנו מספר אחד.

שכבת התיקון של ClipRocket Studio: כתוביות עברית שעוברות מטקסט שבור ומפוזר לטקסט נקי ומסונכרן דרך שכבות בקרת איכות — שכבת התיקון שלנו רצה מעל מודל התמלול הטוב בעולם לעברית: שני מודלים עוברים על כל ציטוט, ושכבת ביטחון מוודאת שאף תיקון לא ממציא מילה שלא נאמרה.

למה זה משנה — בן אדם שגולל לא מחכה

בן אדם שגולל בפיד לא עוצר לנתח למה הכתוביות שבורות. תוך 1.5–3 שניות הוא כבר בווידאו הבא. כתוביות שבורות בעברית הן לא בעיה אסתטית — הן אומרות לצופה שמי שיצר את הווידאו לא טרח לבדוק את הפלט.

לפני ClipRocket Studio — מי שרצה כתוביות עבריות נקיות ערך ידנית. זה שעות של עבודה לפרק. עכשיו זה קורה אוטומטית — עם איכות שאין לה מתחרה בשוק הישראלי.

לפירוט מלא על השלבים, קראו את המדריך הפרקטי להוספת כתוביות אוטומטיות בעברית. על כל הטעויות הנפוצות שהורגות שורטס — ראו שש הטעויות שהורגות שורטס בעברית. ולהשוואה מלאה מול OpusClip — ראו OpusClip vs ClipRocket Studio: מה עדיף לפודקאסט בעברית?.

כתוביות בעברית שעובדות

30 קרדיטים חינם. כתוביות שעובדות בעברית. בלי כרטיס אשראי.

תנו ל-AI לעשות את העבודה במקומכם — בעברית, בדיוק שאתם לא צריכים לתקן ידנית. 30 קרדיטים חינם = 30 דקות וידאו.

30 קרדיטים חינם — 30 דקות וידאו לדף השירות — כתוביות בעברית