ללמוד משגיאות

שואל יוני רוזנשיין:

לאחרונה, אדם בשם קומודוהאקר – כביכול האקר איראני, מפרסם הרבה אינפורמציה (באנגלית) על פריצות (הפריצות בהחלט אמיתיות) לשרתים של חברות אבטחת מידע אמריקאיות.

יש המון ספקות בעניין הזהות שלו (אם הוא בכלל אדם אחד).

חבר רוסי שלי טוען שהוא מתבטא כמו שהרוסים היו מתבטאים עכשיו אם המלחמה הקרה לא היתה נגמרת. כלומר שהדקדוק שלו יותר מתאים לרוסית מאשר לאנגלית.

רציתי לשאול אותך אם זה נראה לך כמו משהו שאיראני היה כותב.

יוני צירף גם כמה לינקים, הנה אחד מהם.
אז ככה:

נתחיל בגילוי נאות – הרוסית שלי על הפנים. אמנם באוניברסיטה קיבלתי פטור על סמך מבחן ועבודה, והתלמידים שלי באולפן היו בטוחים שאני דוברת רוסית שוטפת אחרי שצעקתי עליהם ברוסית בכיתה עם מבטא מושלם (משפט שהתאמנתי עליו שעות אחרי ששאלתי חברה איך לומר), אבל זה עדיין לא אומר שאני יודעת רוסית או שאי פעם ידעתי. אשמח אם דוברי הרוסית שביניכם יאירו את עיניי, יאוששו או יפריכו.

קודם כול, זה שהדקדוק יותר מתאים לרוסית מאשר לאנגלית לא אומר שהוא לא מתאים לפרסית. השגיאה הבולטת ביותר אצל רוסים היא השמטת תווית היידוע (the). זה בגלל שברוסית אין תווית יידוע. אבל גם בפרסית אין. זאת שגיאה מפורסמת גם של פרסים.
בניגוד לרוסית, שבה אין בכלל קטגוריית יידוע לשם העצם, בפרסית יש קטגוריית יידוע שהיא אפילו יותר רחבה מאשר בעברית: שם העצם הוא לא סתם מיודע או לא מיודע, אלא יש שלוש דרגות שונות של חוסר יידוע (באנגלית יש שתי דרגות של חוסר יידוע: I love garlic, I love the garlic, I love a garlic – which is weird but we don't judge other people's perversions) אבל בניגוד לעברית ולאנגלית, המיודע הוא הבלתי מסומן. כלומר אין תווית יידוע. יש תווית סיתום שהיא בערך כמו a באנגלית, ודרכים תחביריות שלא כאן המקום לפרטן, להבחין בין דרגות היידוע השונות. בכל מקרה, ניסיתי למצוא מקומות שבהם הייתי מצפה ל-a/an והוא אינו מופיע, ולא מצאתי. רק היידוע מושמט, לא הסיתום. לכן זה אמנם יותר רוסית מאשר אנגלית, אבל יותר פרסית מאשר רוסית.

ביטויים נוספים שמחשידים אותו כאיראני בעיניי (רוסים – גם אם אני לא שואלת מפורשות – להערותיכם ולהארותיכם אודה):

1. he was lucky by being sitted – יש כאן שלושה דברים שונים:

א. התייחסות לשרת בתור he במקום it. בפרסית אין הבחנת זכר ונקבה בכלל, למעט מילים שאולות מערבית ומילים כמו "גבר" "אישה" "בן" "בת" שיש להן מין טבעי. בחיות, אם זה חשוב, מוסיפים "זכר" ו"נקבה" לשם החיה (למשל شیر שִׁיר = אריה, شیر ماده שִׁיר-מָאדֶה = לביאה). אבל "הוא" ו"היא" זאת אותה מילה: او. יש הבחנה בין אנושי ודומם בכינויי הגוף ("הוא/היא" לעומת "זה"), בצורן הרבים ובתחביר, אבל במדוברת גם ההבחנה הזאת הולכת ונעלמת: בכינויי הגוף ובצורן הרבים הדומם משתלט – כלומר אפשר לקרוא גם לבני אדם "זה" (آن), ולתת לבני אדם ריבוי של דוממים (ها). אבל לא להיפך. בעיניי זוהי האחדה של מין דקדוקי (כולם he) כפי שעושים דוברי פרסית.
דוברי רוסית, האם ברוסית שרת (server) הוא זכר?

ב. by being sitted – השימוש בשמות פעולה במקום במשפטים מורכבים.

ג. being sitted – התעלמו משגיאת הכתיב – השימוש בצורה being seated במקום sitting אופיינית לפרסית (نشسته بودن מתאר מצב ולא פעולה). אני יודעת שגם ברוסית יש אספקטים שונים לפועל – האם הפעולה הושלמה, האם היא עדיין נמשכת וכו'. האם דבר כזה גם יהיה אופייני לרוסית?

2. I told all – תרגום ישיר מפרסית. יש כמה מילים שמשמעותן "כל-" או "הכול", והתרגום שלהן לאנגלית הוא תלוי הקשר. everybody בהקשר הזה יהיה בדיוק אותה מילה כמו all בהקשר אחר (همه).

3. השימוש העודף ב-TOO. בפרסית هم "גם", הפך כבר לטיק דיבור. טיק דיבור הוא מילה שאומרים כדי למלא את המשפט בלי קשר למשמעות שלה, והן יכולות להשתנות מאדם לאדם וכמובן מתקופה לתקופה. דוגמאות מהעבר ומההווה, "כאילו", "כזה", "בעצם", "למעשה". כשהייתי בקורס קצינות הייתה מישהי שהעבירה סקירה של 20 דקות ואמרה 160 פעם "בעצם". אני שמתי לב שזה קורה לי עם "דרך אגב". בפרסית מכניסים هم גם כשאין צורך.

4. סדר המילים ב- just I wanted to. באנגלית נאמר I just wanted to. בפרסית יש סיומות גוף ולכן בד"כ לא אומרים מפורשות "אני", "אתה" במשפט פועלי. לכן הוא לא הפריד בין I לבין wanted. ברוסית אני יודעת שבעבר כן צריך כינוי גוף. האם "רק" יבוא לפני הכול, אחרי הפועל או בין כינוי הגוף לבין הפועל?

5. הבחור שלנו כותב i8000 Muslim, וגם one .1 Muslim soldier worth 10000 Dutch government
בפרסית, למעט מקרים מסוימים מאוד, לא מרבים שם עצם אחרי לוואי כמות. בפרט אחרי מספר. זה אומר שאם יש לי מספר או כמות, שם העצם אחריו יבוא בדרך כלל ביחיד. למשל "שני ילד", "שלושה ספר".
למיטב זכרוני ברוסית כן מרבים.
(דווקא זה שהוא משמיט את האוגד is זה כן מאפיין רוסי. כי בפרסית חייב להיות אוגד. מצד שני, אולי הוא מתייחס לזה כפועל, כמו בפרסית).

6. you see that words now?
בפרסית, כינוי הרמז (זה, הזה) מבחין בין קרוב לרחוק, אבל לא מבחין מספר. כלומר אין יחיד ורבים. לכן that words – آن لغات.

7. when there was firewalls that blocked all ports except 80 and 443 and doesn't allow Reverse or direct VNC connections
גם אני לא מבינה את התוכן, אבל כן את התחביר. זוכרים שאמרתי שיש הבדל תחבירי בין דומם ואנושי? ההבדל הוא שרשמב"א (רבים שאינו מציין בני אדם, מונח שמשמש גם בערבית) הוא בדרך כלל יחיד מבחינה תחבירית: הפועל יהיה ביחיד.

אלט-טאב: בחלוקה למינים, אם נלך לקיצוניות – זה איראני ודומם. בעלי חיים ובני אנוש שאינם איראנים מתנהגים לפעמים ככה ולפעמים ככה. למשל ישראלים מקבלים סיומת רבים של דומם, אבל הפועל יהיה ברבים. שיפט-אלט-טאב.

ב-just 16 years has been passed יש התייחסות לרשמב"א כיחיד, אבל זה מביא אותי באלגנטיות לנושא הבא:

דברים שאני לא מצליחה להסביר על סמך הפרסית, מבקשת עֶזְרוּ של דוברי רוסית:

– just 16 years has been passed – מבנה הפועל לא מעיד על חשיבה בפרסית. האם ברוסית יש מבנה כזה? (או בשפה אחרת כלשהי?)
<תוספת מאוחרת>, ותודה לתלמידיי, שהשכילו ממני: ההווה המושלם בפרסית יכול להיות גם have done וגם have been doing. מה שיש לנו כאן הוא שילוב של שתי הצורות.
אלט-טאב: המשמעות המקורית של "מכל מלמדיי השכלתי" היא – "אני הייתי יותר משכיל מכל מלמדיי".

– which have no ANY connection to internet בפרסית אמנם תהיה שלילה במשפט, אבל היא תהיה על הפועל, לא במקום הזה.

– השימוש ב-talk במקום say.

בל נשכח שיש גם שגיאות שאינן נובעות מחשיבה בשפת האם, אבל עדיין מעניין אותי לבדוק אם יכול להיות שהוא חושב בשפה אחרת.

רוצים לשמוע עוד? אני נותנת  הרצאות העשרה במגוון נושאים לחברות, לארגונים ולמסגרות פרטיות שמשלמות טוב (אם אנחנו כבר בענייני פריצות לחשבונות בנק של מדינות). העבירו את הקישור לאתר למנהלת הרווחה או התרבות הקרובה אליכם, או צרו קשר להזמנת הרצאה.

רוצים ללמוד פרסית? הנה ההזדמנות שלכם. קורס קיץ מרוכז בתל אביב ובחיפה.

15 תגובות לפוסט "ללמוד משגיאות"

  1. אורן הגיב:

    אני לא מבין כלום לא ברוסית ולא בפרסית אבל שני דברים קטנים:
    1. יכול מאוד להיות שהבחור השתמש במערכת תרגום כך שניתוח הטעויות צריך לקחת בחשבון סידרה של המרות משפה לשפה (כי אני לא בטוח שגוגל תומכים בתרגום ישיר מפרסית לערבית).
    2. יכול להיות שהשימוש במערכת תרגום נעשה בכוונה כדי להכניס טעויות ולהסתיר מאפייני כתיבה. יכול להיות שזה תורגם בכוונה משפה1 לשפה2 וכו' ובסוף לאנגלית.
    3. הניתוח שלח הוא ניתוח של שימוש במילים ומבנים דיקדוקיים. אני לא יכול להתאפק מלתת לינק למאמר ישן שלי (ACL 2007) שמתאר שיטה לזיהוי שפת המקור של הדובר (לא כולל פרסית). המסקנה (השערה) שעולה מהמחקר היא שלשפת המקור יש השפעה ברמת רצפי הצלילים (הברות, נ-גרמים של אותיות) וההשפעה הזו חזקה לא פחות ממבנים דיקדוקיים ומילים מאפיינות.
    http://staff.science.uva.nl/~otsur/papers/bigram_slaCR.3.pdf

  2. תמר הגיב:

    1. מה הקשר של ערבית? הוא כותב באנגלית.
    2. מוזר, אבל אני כבר מאמינה לכל דבר…
    3. מה שאתה אומר כבר מעניין, תן לי לקרוא ואז לבדוק את הפוסטים שלו לפי השיטה שלך. מבטיחה עדכון (פוסט משותף?)

  3. דוד פילאווין הגיב:

    כתבתי את הדברים הבאים אישית לתמר, ולבקשתה אני מעתיקם לפה:

    ‎1) "שרת" באמת "הוא" ברוסית

    2) אבל קשה לי לחשוב על ביטוי סביר מקביל ל-
    being seatted
    בכלל, לשון סביל איננה נפוצה ברוסית מדוברת. יש לזה ניחוח נורא מנופח
    [מאידך, אני לא מבין כלום בעולם המחשבים – אז לך תדע]

    3) he was lucky
    ברוסית, בתרגום קלוקל לאנגלית, היה אמור להיות משהו כמו
    to him was lucky

    4) אם רוצים להגיד שמזלו של פלוני שהוא ישב, התרגום האנגלי הקלוקל היה אמור להיות משהו כמו:
    to him was lucky that he was sitting
    בטח לא
    he was lucky by being seatted

    האמת היא שאין באנגלית תרגום קלוקל טוב מספיק לשקף את מבנה המשפט ברוסית [אבל בעברית יש — להלן].

    כי ברוסית בדרך כלל משתמשים בשם פועל סתמי בשביל לציין שלמישהו יש מזל [שוב – בשתי גרסאות – מתמשך וחד-פעמי]: ווזטי/פוֹווזטי

    כך שתרגום קלוקל באמת מדוייק היה צריך להיות משהו:

    "אליו התמזל שהוא ישב"

    5) לגבי סעיף 2: יש הבדל בהטייה ברוסית בין "לכולם" לבין "להכל", אבל אם זה רוסי שלא יודע טוב אנגלית, אז יכול להיות שהוא לא יידע איך לבטא את ההבדל הזה באנגלית

    6) אין טיק דיבור כזה, "גם", ברוסית. לעתים משתמשים במילה זו לצרכים אקספרסיביים [כמו בעברית: "גם כן, אתה.."]

    7) מבחינת סדר המילים במשפט, רוסית זו השפה הכי גמישה שאני מכיר, אפילו יותר מעברית. כמעט כל סדר מילים הוא אפשרי. אם תקחי משפט רוסי תקני ותערבבי לחלוטין את הסדר, כמעט בוודאות ייצא לך משפט תקני חדש בעל אותה משמעות בדיוק [למעט כמה מקרים בודדים, שהם לא בדיוק מילים נפרדות אלא סופיקסים כמו "לי" "דה" "ז'ה" וכדומה שכותבים אותם בתור תיבה נפרדת אבל אינם נפרדים מהמילה שלפניהם]

    8) צריך כמעט תמיד כינויי גוף. [ברוסית מדוברת לעתים משמיטים גוף שני כשזה בציווי. אבל אז זה נחשב לא מנומס, "פיקודי" כזה. כמו "שש שניות הלכת חזרת"]

    9) בכל אופן, סדר המילים הטבעי יותר יהיה "אני רק רציתי.."

    10) תמיד כשמדברים על רבים, אומרים זאת בלשון רבים. אני זוכר איך בתור ילד קטן שלמד על בני ישראל במדבר, לא הבנתי איך הם יכלו להיות שם 40 *שנה* – שאלתי: אז שנה או ארבעים שנים?

    11) לגבי סעיף 6: יש הבדל בין "זה" ו"אלו". אבל שוב, מה שכתבתי לגבי סעיף 2: אולי הוא פשוט לא מסוגל לבצע את ההבחנה הזאת באנגלית

    12) לגבי סעיף 7: לא מיניה ולא מקצתיה ברוסית – לא משתמשים אף פעם בלשון יחיד לרבים. ואין הבחנה בין חי ודומם. הכל או זכר או נקבה.

    13) אין מבנה כזה
    has been
    יש רק עבר חד-פעמי ועבר מתמשך [כמו – ישבתי/התיישבתי — רק שברוסית כמעט בכל הפעלים ההבחנה הזאת אפשרית]

    14) no any
    יכול להיות תרגום מילולי מרוסית. והמקום, כפי שאמרתי, לא משנה. אבל זה באמת המקום הכי טבעי

    15) יש הבדל בין "להגיד" ו"לדבר" ברוסית [שהוא כמו הבדל בין עבר מתמשך לעבר חד-פעמי], אבל שוב, יכול להיות שהכותב לא יודע לבצע את ההבחנה הזאת באנגלית

  4. אורן הגיב:

    1. סתם השתרבב לי ערבית. התכוונתי אנגלית. (אם הייתי מהמר אז אם יש לגוגל תרגום פרסי-אנגלי הוא עובר דרך ערבית).
    2. זה אכן מוזר, אבל אם הבחור הוא האקר אז הוא מכיר דרכים לטשטש עקבות ובטקסט, אחת הדרכים לטישטוש היא שימוש במערכת תרגום שמכניסה כך הרבה רעש ומוזרויות.

    נ.ב. נדמה לי לגוגל יש שיטה לזהות טקסטים שתורגמו על ידי גוגל. מין סוג של water marks שהם משאירים בתהליך התרגום. אני צריך לקרוא על זה עוד.

  5. אורן הגיב:

    אה, ולגבי השיטה שלי והפוסט המשותף.
    פוסט משותף – בשמחה.
    לגבי בדיקת השיטה – מדובר כאן בסטטיסטיקה ושימוש באלגוריתמי למידה. את צריכה להשיג מספיק טקסטים של פרסים (אותנטיים) שכתבו באנגלית סבירה. זה דווקא יהיה מעניין לבדוק. אפילו שווה מאמר.

  6. תמר הגיב:

    הגדר אנגלית סבירה 🙂
    אני חושדת שרבים מחברי האיראנים שכותבים באנגלית משתמשים בגוגל טרנסלייט מלכתחילה.
    למיטב ידיעתי כל התרגומים בגוגל טרנסלייט עוברים דרך אנגלית. זה כמו שבישראכרט בינלאומי כל המטבעות עוברים דרך דולר או יורו. אפילו כתבתי על זה פעם, תוך קישור אליך.
    http://www.thmrsite.com/?p=1705

  7. תמר הגיב:

    דרך אגב, לא נראה לי שהוא מתרגם בגוגל טרנסלייט.
    אין פה מצחיקויות שאופייניות לגוגל טרנסלייט ויש שגיאות כתיב לפעמים.

  8. אורן הגיב:

    אנגלית סבירה – עובר בהצלחה סבירה (לא זוכר כבר מה סף הניקוד שנחשב לטוב) במבחנים סטנדרטיים כמו TOEFL.

  9. Rill הגיב:

    שמתי לב שדוברי רוסית שמים לפעמים THE לפני שם פרטי (דבר שלא ראיתי בדוגמה כאן).
    אני לא מכיר שפות אחרות בהם יש מצב כזה. אפשר לבדוק האם בפרסומים אחרים של אותו אדם מופיעה "חתימה" כזו.

  10. […] הזה – רוסי או איראני? תמר עילם גינדין משחקת בגשש […]

  11. Jay הגיב:

    זה עשוי להיות גם דובר סינית. חלק מהטעויות בטקסט כגון BEING SITTED , בילבולים ביידוע ובמין מאפיינים גם את הסינים.

  12. עומר הגיב:

    הצעה מהפכנית: אולי הוא מדבר גם פרסית וגם רוסית, או פרסית שמאוד מושפעת מרוסית. כלומר, אולי הוא מטג'יקיסטן.

  13. תמר הגיב:

    נראה לי שתיאוריית הרוסית די הופרכה. הוא משמיט יידוע כשצריך, שאת זה גם איראנים עושים, אבל לא מוסיף יידוע כשלא צריך, שאת זה רוסים עושים ואיראנים לא.
    חוץ מזה ש"שרת" זה זכר ברוסית ובפרסית אין מין דקדוקי (מה שאומר שהם מתייחסים לדברים לפי מינים אקראיים), אין שום דבר שיטה את הכף לצד הרוסים.
    נראה לי שהפעם ידם של האיראנים על העליונה (ומי ייתן ותהיה גם במאבקם נגד הכיבוש בארצם, שנמשך כבר 32 שנים).

  14. […] לדוברים, הנה הקישור לטסקט המלא של הנאום, וללא דוברים, הנה תרגום גרוע למדיי לאנגלית (עם שגיאות שאופייניות לפרסים) […]

  15. […] אוהבת לזהות את מוצאו של הכותב לפי שגיאותיו, ובניגוד לפרסית ורוסית, ערבית ופרסית הן מספיק רחוקות כדי שלא יהיה […]

כתיבת תגובה