תרגום מסורתי, עד מתי?
יום אחד בעתיד הלא רחוק, תרגום מכונה יהיה זמין, מהיר ואמין.
חוקרי התעסוקה מחלקים את כל העיסוקים ל-3, עיסוקים יצירתיים, טיפול וסיעוד ועיסוקים שבפעילותן יש חזרה (Repetition). סוג העיסוק האחרון נועד להיות מוחלף על ידי תוכנות מחשב ורובוטים. התנאי להחלפת עובד האנושי ברובוט הוא שהרובוט או התוכנה, תלמד את מכלול ההתניות ותוכל למצוא את הדרך הנכונה לביצוע הפעולה. כלומר, מה שהאדם היה עושה. כמובן, שכמו במקרה של תוכנות הניווט, גישה למאגרי ידע שונים ומעודכנים תיתן יתרון למכונה.
נדמה שיישומי המכונה בתרגום קרובים מאי-פעם. זה נכון, תרגום מכונה, שניסיונות ראשונים שלו ראינו עוד בשנות ה-80 של המאה הקודמת, השתפרו מאוד בזכות התפתחויות טכנולוגיות שונות (Big Data, Web Based App, ) ושיפורם של המודלים שעליהם נבנה עקרון התרגום, אך בינינו לבין היום הזה יש עדיין פער עצום.
לפני שכל העוסקים בתרגום ישנו את המקצועות שלהם, כדאי שנסביר קודם מהו תרגום, למה הוא משמש
מהו תרגום?
תרגום היא פעולה שבצד אחד לוקחת (Input) מידע בשפה אחת ובצד שני מוציאה (Output) מידע בשפה אחרת. לכל תרגום ישנם כללים הנובעים מעולם התוכן של אותו מידע, שימושיו ויישומיו. למשל, מייל ימי שווה לאלף ושמונה מאות מטר. המרת מידות זו היא תרגום. וכדוגמה שנייה, The cat is on the roof – החתולה נמצאת על הגג. תרגום זה מתייחס למספר פרמטרים המרכיבים את המשפט, משמעותו, תחביר (המקום והתפקיד של כל מילה במשפט) והזמנים שלו. דוגמה זו עדיין לא ניתנת ליישום על ידי מכונה משום שלא ניתן לדעת את מין החתול/ה.
פעולת המתרגם כוללת איסוף רקע על עולם התוכן שממנו המידע שעליו לתרגם, לאחר מכן פיענוח של יחידות מלל (משפטים ופסקאות) וכתיבתן בשפת היעד. פעולות התרגום כוללות התאמה של מכלולי שפה מהמקור אל היעד, כאשר קיימים פערים בין שפות במבני מכלולים אלו בתחביר, בזמנים, במבני הפעלים, במידות המקובלות ובמטבעות הלשון. למעשה, פעולת המתרגם היא להעביר אל שפת היעד את המידע כאשר עליו למסור את אותה המשמעות באופן שמידע יותאם אל בן התרבות בשפת היעד.
מה מכונות יודעות לעשות היום:
Speech to Text - ASR – זיהוי דיבור אוטומטי, הינו מנגנון שיכול באמצעות מיקרופון לעבד את המלל הנשמע ולהפוך אותו לטקסט במחשב. מנועים כאלו נפוצים מאוד בטלפונים ניידים לצורך הכתבת טקסט או למתן פקודות. בעבר מנועים אלו התבססו על ההשוואה בין טקסט שהוקלט מראש לבין טקסט שהוקרא למיקרופון והיום מנועי ASR מפרידים בין הברות (פונמות) ומסוגלים, כשאין 100% התאמה למילה מסוימת, להציע מספר מילים ולבטלן באמצעות אלימינציה לפי ההקשר למילים האחרות שנאמרו וכן, לתקן איות של מילים בהתאם לאותו ההקשר או להציע את המילים הבאות על פי אלגוריתמים בסיסיים.
MT – תרגום מכונה, כמו למשל שרות Google Translate, תלוי בכמות המידע הזמין לו (קטעי טקסט שכבר תורגמו ועובדו בין שפות) ובהשבחתו על ידי המשתמשים לאורך זמן. למכונה יש יתרון בכך שהיא מכירה המון מילים ואת התרגום שלהן, מודלים של מבני משפטים, המרת מידות וכיו"ב. ככל שניתן למכונה קטע טקסט ארוך יותר, כך התרגום יהיה מדויק יותר (מידע מתוך הטקסט משפר את התרגום של מידע ממקורות חיצוניים).
AI - בינה מלאכותית – זהו נושא מאוד רחב שבבסיסו ישנו שימוש במודלים ובאלגוריתמים על מנת למצוא תשובה אחת נכונה או קבלת החלטות דומה לזו שהאדם היה מקבל. בתחום התרגום הממוחשב מתפתח כבר כמה שנים תחום ה-NLP בסביבה ממוחשבת, שמעבד את המידע מהשפה ומתאר את המשמעות שלו. NLP הוא תחום ידע שקיים עשרות שנים, אולם העברתו אל המדיום ברשת מנגיש אותו ומאפשר לו לשרת ולשפר את התרגום. שימוש בבינה מלאכותית מסיע לתוכנת התרגום להבין את הנאמר.
לתרגום ולבינה מלאכותית ישנם עוד מרכיבים משותפים, רובם עדיין בשלבי רעיון מחקרי או קונספט. למשל, זיהוי מרכיבי ציניות בתוך שפה ולעקרם בתהליך הבנת הנאמר.