חזרה לדף הבית
כל המאמרים

כתוביות עברית הפוכות — הסיבה שזה קורה ואיך מתקנים

ד
מאת דב, מייסד ClipRocket Studio
· קריאה של ~10 דק׳

הכתוביות יצאו הפוכות. הטקסט רץ משמאל לימין, מספרים נופלים לצד הלא נכון של המשפט, ומילה באנגלית שנאמרה באמצע משפט עברי נוחתת בקצה הלא נכון של השורה. זה קרה ב-OpusClip, קרה ב-CapCut, קרה ב-Submagic. זו לא בעיה שלכם — זו בעיה מבנית של כל כלי שנבנה לאנגלית ואחר כך ״הוסיפו לו עברית״.

הסיבה היא BiDi — כיוון דו-כיווני. הפוסט הזה מסביר למה זה קורה ואיך ClipRocket Studio מתקן את זה אוטומטית, ללא מגע יד, בדיוק של 85–99 אחוז סנכרון — דרך שכבת דיוק הכתוביות שלנו.

למה הכתוביות יוצאות הפוכות — ה-BiDi הוא האשם

BiDi — Bidirectional Text — זה התקן שקובע איך מחשב מציג טקסט שמערבב כיוונים שונים. עברית: מימין לשמאל. מספרים ואנגלית: משמאל לימין. כשיש שתי שפות באותה שורה, צריך לקבל החלטה: מה הכיוון הראשי, ולאיזה צד הולכים המספרים והסימנים?

מודל AI שלא אומן ספציפית לעברית לא מסמן את הכיוון הנכון. התוצאה: גם אם הכיוון הכללי נכון, סימן אחוז, סימן מטבע או סוגר שצמודים למספר נדחפים לצד הלא נכון, ומילה באנגלית שנאמרה ב״פּוֹדקאסט״ נוחתת בקצה הלא נכון של השורה. הבן אדם שצופה רואה את זה בחצי שנייה — ובחצי שנייה נוספת הוא כבר גלל הלאה.

המחשה ויזואלית של כתוביות עברית שמתהפכות בגלל BiDi — גליפים בשורת הכתוביות נדחפים לצד הלא נכון, וסמן מתקן מיישר אותם בחזרה
BiDi לא יודע לאיזה צד שייכים המספרים והמילים הלועזיות בתוך משפט עברי — אז הם נדחפים לצד הלא נכון. זה בדיוק מה ששכבת הדיוק שלנו מיישרת בחזרה אוטומטית.

ארבעה תסמינים שמזהים ברגע

כולם קורים מאותה סיבה — מודל שלא מטפל ב-BiDi נכון. אבל לכל אחד יש צורה משלו:

מספרים וסימנים נופלים לצד הלא נכון

סימן אחוז, מטבע או סוגר נדבק לצד השגוי של המספר

מספר בודד בתוך משפט עברי יושב במקומו בלי בעיה. הצרה מתחילה ברגע שצמוד אליו סימן — אחוז, ש״ח, דולר, או סוגריים: אלגוריתם ה-BiDi דוחף את הסימן לצד הלא נכון, כי הוא לא יודע שהוא שייך להקשר העברי. הבן אדם שצופה רואה מספר עם סימן במקום מוזר, מבין שמשהו לא בסדר, ועובר הלאה.

מילה באנגלית באמצע משפט עברי — נוחתת בצד הלא נכון

מילה לועזית קופצת לקצה השגוי של השורה

זה המקום שבו כל המתחרים שלנו נכשלים. כשדובר אומר משפט עברי עם מילה באנגלית בתוכו, המילה צריכה לשבת במקומה הטבעי בתוך ההקשר העברי. מודל שלא מטפל בזה נכון מוציא אותה בצד ההפוך — משפט שנאמר נכון נראה כאילו הוקלט הפוך. אצלנו, שילוב שתי השפות באותו משפט יוצא בצד הנכון.

אות סופית שבורה

״שלומ״ במקום ״שלום״ | ״עידנ״ במקום ״עידן״

מודל תמלול גלובלי לא מבדיל בין מ׳ סופית (ם) לבין מ׳ אמצעית (מ). אותה טעות חוזרת עם נ׳, פ׳, צ׳, וכ׳ סופיות. כל מי שגדל בישראל מזהה את זה בחצי שנייה ומסיק מיד שהתוכן לא מושקע.

המצאת מילים שלא קיימות

המודל ממציא לפעמים מילה מהאוויר כשהוא לא מזהה

Whisper — מודל התמלול של OpenAI — לפעמים פשוט ממציא מילה שלא נאמרה כשהוא לא בטוח. בעברית זה קורה יותר כי אוצר המילים שלו לעברית מדוברת ישראלית חלש. שכבת ביטחון שאוסרת המצאות חייבת להיות בכל מערכת כתוביות רצינית.

איך ClipRocket Studio מתקן את זה — שכבת דיוק הכתוביות

אצלנו ב-ClipRocket Studio בנינו שכבת תיקון שפועלת מעל Whisper. לא ״תמיכה בעברית״ שנדחסה אחרי שהכלי כבר נבנה — שכבה שנכתבה ספציפית לבעיות האלה, מהשורה הראשונה.

שכבת דיוק הכתוביות של ClipRocket Studio — שני מודלי AI עוברים על כל ציטוט ושכבת ביטחון מסננת כל תיקון אגרסיבי מדי
שני מודלי AI עוברים על כל ציטוט — הראשון מתקן, השני בודק — ומעליהם שכבת ביטחון שמבטלת כל תיקון אגרסיבי מדי, כדי שלעולם לא יומצא טקסט שלא נאמר.

הארכיטקטורה: שני מודלי AI עוברים על כל ציטוט. המודל הראשון מתקן — כיוון BiDi, אותיות סופיות, מיקום מילים באנגלית בתוך משפט עברי, בלבול שי״ן וסמ״ך, גוף ראשון שהפך לשני. המודל השני בודק את התיקונים של הראשון. מעליהם שכבת ביטחון שמבטלת כל תיקון אגרסיבי מדי — כך שלעולם לא ממציאים טקסט שלא נאמר.

התוצאה: 85–99 אחוז דיוק סנכרון כתוביות — המספר הגבוה ביותר בשוק הישראלי. ויש עוד רכיב אחד שחשוב: מאגר החוקים שלנו גדל כל יום. כל פעם שאנחנו תופסים טעות חדשה אצל לקוח אמיתי, אנחנו מוסיפים אותה לחוקים. זה לא קוד שנכתב פעם — זו מערכת שהולכת ומשתפרת.

בדיקה מהירה — איך מזהים כתוביות הפוכות תוך חמש שניות

פותחים את השורט, עוצרים בשנייה הראשונה שיש בה כתובית. שלושה דברים לבדוק:

  1. מספר בכתובית — הוא צריך להיות בצד הימני של הכתובית. אם הוא משמאל — הכתוביות הפוכות.
  2. שם פרטי — האות הראשונה שלו צריכה להיות בצד הימני של המילה. אם היא משמאל — הפוך.
  3. מילה באנגלית בתוך משפט עברי — היא צריכה לשבת במקומה הטבעי בתוך ההקשר העברי. אם היא נוחתת בצד ההפוך — BiDi שבור.

אם אחד מהשלושה לא תקין — הכתוביות שבורות. קראו גם את שש הטעויות שהורגות שורטס בעברית לבדיקת שאר הרכיבים לפני הפרסום, ואת המדריך להוספת כתוביות אוטומטיות בעברית אם אתם עדיין בוחרים כלי.

אין מתחרה רציני בעברית — ואנחנו מוכיחים את זה

בנינו את ClipRocket Studio כי ניסינו את כל הכלים האחרים ופשוט לא יכולנו לעבוד איתם בעברית. OpusClip, CapCut, Submagic — כולם מוציאים כתוביות עם BiDi שבור. לא בגלל שהם כלים גרועים. בגלל שהם בנויים לאנגלית, ועברית היא לא אנגלית הפוכה.

אנחנו מספר אחד בעולם בעברית — ואין מתחרה רציני שעושה אפילו עבודה בסיסית בכיוון הנכון. ראו את ההשוואה המלאה עם OpusClip לפירוט מלא עם דוגמאות.

מספר אחד בעברית

30 קרדיטים חינם. בלי כרטיס אשראי. בעברית. בלי לבזבז שעות.

תן ל-AI לעשות את העבודה במקומך — כתוביות עבריות בכיוון הנכון, BiDi מתוקן אוטומטית, 85–99 אחוז דיוק סנכרון. 30 קרדיטים חינם = 30 דקות וידאו, ללא כרטיס אשראי.

המשך קריאה