המבנה הפונמי של הפרסית

תקציר מנהלים: בפרסית איך שכותבים זה איך שקוראים.
אם מתייחסים למילה כאל "יחידת נשימה", או יחידה בעלת הטעמה אחת, יש בה מילים מה זה ארוכות.

והפעם קיבלתי שאלה קצת לא רגילה – על המבנה הפונמי של מילים בפרסית, בהקשר של תוכנות לזיהוי שמע.

אני קצת חוששת לפרט בנושא בשל חרדת נטישה קלה. לכן הפוסט הנוכחי הוא רק למי שמבטיח לא לבטל את הרסס או את מנוי הדואר.

הבעיה הראשונה שיש לי עם השאלה היא השאלה מהי מילה. אני חושבת שבמקרה של תוכנה, מילה היא יחידה בעלת הטעמה אחת ("יחידת נשימה"). בפרסית יש הרבה מילים ומיליות שהן יחידות גרפיות נפרדות, ונושאות משמעות משל עצמן, אבל הן קְלִיטִיות, כלומר אין להן טעם משלהן והן נשענות על המילה שלפניהן (אֶנְקְלִיטִיות) או על המילה שאחריהן (פְּרוֹקְלִיטִיוֹת). המונח קליטי בא מהשורש היווני kli "להישען", ומאותו שורש קיבלנו גם את הקליניקה, שזה מקום שנשענים בו על מיטה, את הטרקלין שיש בו שלוש ספות להישען עליהן, ואת האקלים שהוא נטייה של מזג האוויר. באנגלית incline, recline, decline כולם קשורים להישענות, או לשיפוע.

בפעלים מורכבים, למשל, יש רק הטעמה אחת (כששני המרכיבים מופיעים ביחד. כשזה מתפרק הם מילים נפרדות לכל דבר כולל הטעמה) – וזה יכול להיות גם פועל ארוך למדיי, שכתוב אפילו ב-4 יחידות גרפיות, אבל למעשה יש לו רק הטעמה אחת: למשל به نظر می رسد (אפשר לכתוב גם بنظر میرسد, הקונבנציות האורתוגרפיות עדיין גמישות) מוטעם רק על ה-ظر. קוראים את זה benazarmiresad (או  mirasad-) והמשמעות היא "נראֶה" (נראה ש-). אם נגדיר מילה (לצורך התכנות) כיחידה בעלת הטעמה אחת, הרי שמדובר פה במילה אחת בת 14 פונמות (כל אות בתעתיק היא פונמה אחת).

אלט-טאב: אני מאוד אוהבת לומר קונבנציות אורתוגרפיות גם בהרצאות שלי, כדי להמחיש שמי שלא מבין מונח צריך לשאול. בד"כ בהרצאות כולם מהנהנים בהסכמה כשאני מדברת על קונבנציות אורתוגרפיות, למרות שאף אחד לא מבין, ואז נושמים לרווחה כשאני מסבירה. הכוונה היא למוסכמות כתיב. שיפט-אלט-טאב.

קשה לי לדבר על מספר ממוצע של פונמות למילה, מכיוון שיש גם מילים קצרות, בנות שתיים-שלוש פונמות (تو to "אתה", نو no "חדש") ואני לא בקיאה בסטטיסטיקה של הלשון. עוד בעיה שלי להגדיר מספר פונמות ממוצע למילה היא שיש סיומות אנקליטיות שתפקידן תחבירי (לא מורפולוגי) והן מהוות חלק מהמילה, גם גרפית וגם אם נגדיר אותה כיחידה עם הטעמה אחת. למשל – האם שלוש הצורות הבאות ייחשבו למילים נפרדות או לצורות שונות של אותה מילה?

1. sar "הראש",

2. sari "ראש אחד a head" או "הראש ש-" (שתי סיומות הומונימיות),

3. sare "הראש של-", "הראש ה-", "בתחילת".

בשמיעה, אם מדברים מספיק לאט (או אם אתה מחשב), פרסית היא ממש קלה, בעיקר אם משווים אותה, נאמר, לאנגלית (האנגלית שלי ברמת שפת אם, אבל מספיק לא-שפת-אם כדי שאוכל לדבר אותה בכמה מבטאים שונים, לפי מי שעומד מולי). לא אשכח את הטראומה של כיתה ט', אני ישראלית בכיתה של אמריקאים והתלמידה המצטיינת בכיתה. המורה שואל מהי היחידה הקטנה ביותר של יסוד, ואני אומרת אֵייטְם ומקבלת רעמי צחוק מכל עבר. צדקתי, כמובן, אבל באמריקאית מבטאים את זה אֵאַדְם (ædm). בתהראן זה לא היה קורה, כי בפרסית איך שכותבים זה איך שקוראים.

מכירים את המילה האנגלית ghoti? אז בפרסית דבר כזה לא יכול לקרות.

שפה ללא כתב זה כמו דג ללא אופניים
שפה ללא כתב זה כמו דג ללא אופניים

מכיוון שהפרסית הכתובה היא חדשה יחסית (פרסית החלה להיכתב באותיות ערביות במאה העשירית בערך, והקונבנציות האורתוגרפיות הנוכחיות התגבשו מאוחר יותר), הכתיב עדיין משקף את ההגייה. כל אות בפרסית מייצגת פונמה אחת, חוץ מ-י' ו-ו' שיכולות להיות גם עיצור (y,v) וגם אם קריאה (u,i, לעיתים נדירות ey, ow), וכמו בעברית – אפשר לנקד אם מאוד רוצים, ואז יודעים בדיוק איך לקרוא את זה. בעצם, כמו בעברית, אם זה מנוקד אז כמעט אין הומוגרפים שהם לא הומונימים (וכמו בעברית, אם זה לא מנוקד אז יש הומוגרפים למכביר).

תשוו את זה לאנגלית, שם המילה minute יכולה להיקרא גם מִינִיט "דקה" (U שמבוטאת כ-i) וגם מַיינוּט "זעיר". קראתי עכשיו בספר Stupid History ש-ולס הדקה של שופן הוא בעצם יצירה של דקה וחצי-שתיים, אבל הוא התכוון למשמעות "קטן" (הוא מן הסתם קרא לזה Minute בצרפתית, אבל הדו-משמעות קיימת גם שם. שם זה אפילו מבוטא אותו דבר, אבל לא מדובר בהומונימים אלא במשמעויות שונות של אותה מילה בדיוק. גם דקה בעברית נקראת כך כי היא דקה).

במילים אחרות, לתנועות בפרסית כמעט אין אלופונים (ביצועים שונים לאותה תנועה), חוץ מאשר א' ארוכה לפני עיצור אפי במדוברת (ספרותית nān = מדוברת nūn, ספרותית āmad = מדוברת ūmad). תשוו את זה לאנגלית. יש לכם O. איך תבטאו? כמו ב-glove, כמו ב-pope, כמו ב-woman  או כמו ב-women? בפרסית O זה O. במקרים מסוימים, בעיקר בשאילות מערבית, יכולים להיות שני ביצועים לאותה מילה – בד"כ אחד ב-A ואחד ב-E. הניקוד, אם יש, יהיה בהתאם למה שמבטאים.

אז סיכמנו שלפחות מבחינת תנועות, מה ששומעים זה מה שיש. הלאה.

במקרה של עיצורים, הפונמות היחידות שיש להן שני אלופונים ללא חוקיות ברורה, הן غ ו- ق. שתיהן מבוטאות לפעמים כמו غ בערבית (γ) ולפעמים כמו ق בערבית (q). מלבד זאת יש אלופונים מעטים, שהם בד"כ תוצאה של סַנְדְהִי, מונח הודי שאכתוב עליו פעם פוסט שלם, ומשמעותו מפגש הגאים. בלשון המורה ללשון, מה שקורה כאן הוא אסימילציה, שזה סוג אחד של סנדהי.

ש, למשל, תיקרא בדרך כלל כ-ש, אבל לפני עיצורים קוליים, מבטאים אותה לפעמים כ-ז'. זה קורה גם בעברית: ד"ר נמרוד ברי הנפלא נתן לנו דוגמה בשיעור מבוא בשנה א' של ה-BA: הוא אמר "תעשו חשבון כמה אנשים יש פה מאשדוד", וביקש שנכתוב את זה בכתיב פונטי. כמעט כולם כתבו xešbon, ašdod (תרגמתי לתעתיק נורמלי. אנחנו כתבנו בתעתיק IPA), אבל מה שהוא באמת אמר זה xežbon, aždod.כנ"ל לגבי פֿ,  שלפני עיצורים קוליים תבוטא כ-בֿ (את המילה אפזוד افزود מבטאים אַבְזוּד. בפרסית יהודית קדומה גם כותבים כך).

אמנם בשני המקרים נוצרת הומופוניה בין האלופון הקולי לפונמה אחרת (ž ו-v בהתאמה), אבל ž היא פונמה נדירה מאוד (ולכן אם יש ž לפני עיצור קולי, רוב הסיכויים שזה האלופון הקולי של š), ואילו v אחרי תנועת a ולפני עיצור יוצרת דיפתונג ow (כלומר אילו היו כותבים אוזוד اوزود היו קוראים owzud).

אפ (اف-) היא הדרך היחידה לבטא בכתב av לפני עיצור. בסוף מילה אין דרך לכתוב av, ולפני עיצור בלתי קולי לא יהיה av כי יש הידמות בקוליות (מישהו עדיין איתי?).

הסיבה לכך שאפילו אלופונים-כתוצאה-מסנדהי הם מעטים יחסית, היא שוב – הקונבנציות האורתוגרפיות החדשות יחסית: פרסית אמצעית הייתה כתובה בכתיב היסטורי, ודברים רבים השתנו בהגייה אבל לא בכתב (קצת כמו אמריקאית, שבה איך הייתי אמורה לדעת ש-atom הוא הומופוני עם Adam). ברגע שעברו לשיטת כתיב חדשה, כתבו כמו ששומעים, וגם אחרי שעברו לשיטת הכתיב החדשה לקח כמה מאות שנים עד שגובשו קונבנציות אורתוגרפיות מחייבות.

הדבר היחיד שנשאר בכתיב ממש היסטורי הוא מילים שאולות מערבית. שם אין עניין של אלופוניה, אבל יש הרבה הומופונים במילים ערביות. כלומר בפרסית אם שומעים ת' זה ת'. יש הבדלי נישוף בסביבות פונטיות שונות, אבל נישוף אינו תכונה מבחינה בפרסית, כלומר אין זוג פונמות שונות שההבדל ביניהן הוא הבדל של נישוף בלבד.

הפרסית משתמש בא"ב הערבי, שלא כל כך מתאים לה. אז מה שהיה חסר היא הוסיפה (תודה לאל! בפרסית של המאה העשירית עדיין השתמשו רק במה שיש בערבית וזה היה מזעזע). אבל מה שמיותר היא השאירה. מילים ערביות נכתבות לפי האיות הערבי. ומכיוון שבפרסית לא קיימים כל ההבדלים של ערבית, יש, למשל, ארבעה (!) הומופונים שמבוטאים ז: ذ ، ز ، ض، ظ (בעברית שתי הראשונות התאחדו תחת ז, ושתי האחרונות תחת צ). יש גם שלוש אותיות שמבוטאות ס, ובגלל שהם כאלה אשכנזים, אז גם ה ו-ח הן הומופוניות, וגם א ו-ע. במילים פרסיות נמצא רק נציג אחד לכל קבוצת הומופונים, אבל מילים ערביות שמרו על האיות המקורי שלהם.

למרבה המזל, אמנם צריך לחפש בכמה מקומות במילון, אבל אלה מקומות מוגדרים מאוד, ולרוב נמצא את זה רק במקום אחד. מכיוון שרוב המילים בפרסית (גם אלה ששאולות מערבית) הן מספיק ארוכות, יוצא שאין הרבה מילים הומופוניות. אלא אם כן יש לכם מבטא ישראלי ואתם לא מבחינים בין אורכי תנועות.

לאחרונה אנחנו עדים שוב לשיטת כתיב חדשה: פנגליש היא פרסית באותיות לועזיות, שמשתמשים בה המון בבלוגים ובפורומים. היא הרבה יותר נפוצה מאשר עברית באותיות לועזיות, ולדעתי זה משום שאין כל כך הרבה מילים הומופוניות ולכן אין הרבה מקום להתבלבל כשמתעתקים פונטי. יש פנגליש בתעתיק מדויק, ששומרת על ההבדלים בין ההומופונים, אבל בתעתיק הנפוץ יותר Z היא Z בלי קשר לאות שבה היא נכתבת. זוג הפונמות היחידות שמבוצעות בפועל באופן שונה אבל הפנגליש לא תמיד מבחינה ביניהן, הוא A קצרה (לבטא עם חיוך) ו-A ארוכה (לבטא בפה מעוגל. מי שרוצה הדגמה, יש בסוף הסרטון של למי קראת הומופון).

אם אנחנו מחשב שמנסה לזהות שמע, מבנה ההברה הפרסי גם עושה לנו חיים קלים, כי הברה פרסית לא יכולה להתחיל בצרור עיצורים. מילים שמתחילות בצרור בעברית ובאנגלית מקבלות א' פרוסתטית – כתבתי כאן לא מזמן על אסניפ בהארי פוטר, ופרסים זקנים אומרים אֶסְמרטוט ו-אֶסְליחה, או סֶמרטוט ו-סֶליחה (יזדים אומרים סַמרטוט ו-סַליחה).

בסוף הברה אין יותר מ-2 עיצורים. אם הסונוריות בצרור עולה (כלומר העיצור השני יותר קולי מהראשון, כמו במילה چشم češm "עין" שבו m יותר קולית מ-š) בדיבור מהיר פשוט משמיטים לרוב את העיצור האחרון (כלומר מבטאים ceš). אני לא יודעת, אולי מחשב יכול לזהות איזו סגירה של השפתיים במילים כאלה.

כל הכבוד למי שהגיע עד לכאן. מסע כומתה, אני יודעת. לאות תודה והוקרה אני חוסכת מכם את הפרסומת הרגילה שיש לי בסוף כל פוסט [אתם יודעים, זאת שמופיעה בכתב נטוי ואומרת משהו כמו רוצים לשמוע עוד? אני נותנת הרצאות העשרה במגוון נושאים לחברות, ארגונים ומסגרות פרטיות שמשלמות טוב (אם כבר מדברים על נושא כלשהו שהיה בפוסט). צרו קשר דרך כאן]

נ.ב – למי שלא מכיר את המילה האנגלית ghoti – מבטאים את זה fish. יש בזה gh כמו ב-enough, תנועת o כמו ב-women, ואת ה-ti מבטאים כמו ב- motion.

7 תגובות לפוסט "המבנה הפונמי של הפרסית"

  1. ירון הגיב:

    זהו פוסט למתקדמים ולמי שממש מצוי במינוחים האקדמים הלשוניים. ובכל זאת לא ארסס את דלת ביתך בכתובות נאצה ולא אתנתק מהבלוג שלך… שיהיה שאב בח'יר , וסאלאם.

  2. יגאל הגיב:

    סבא שלי ז"ל היה משתמש הרבה ב- אֶספורט

  3. יחזקאל הגיב:

    טוב, אודה על האמת, אני די מרפרף בחלקים שאני לא כ"כ מבין ולא חשוב לי מספיק להתאמץ (למרות שהשתדלת להסביר, זה לא שאני מזלזל).

    סֶמרטוט כולנו היינו צריכים לומר, די מציק לי שאנחנו אומרים שווא נח בראש מילה ואח"כ אני צריך להסביר לבן הכמעט-חמש מה אמור להיות ומה, ברוב המקרים, קורה באמת.

    בנוגע לתעתיק לאותיות לטיניות, אצל אמיר אהרוני היו כמה פוסטים בהקשר של תעתיק כזה בערבית. כל מיני תופעות מעניינות היו שם.

    חמוד שהסברת לנו בדיוק מה חסכת מאיתנו…

    ה-נ.ב. בסוף זה הבונוס האמיתי. מזעזע לפעמים מה שעשו בשפה הזו. למדתי פעם, בעזרת חבר בישיבה, לקרוא ספרדית (לא שאספתי הרבה מילים, וגם אותן שכחתי), פשוט כיף, מה שכתוב זה מה שאומרים.

  4. ירון שהרבני הגיב:

    יש כאן אי דיוק מסוים, כבר קיימת תופעה לשונית בשם "Panglish" והיא שונה במהותה מ־"Fingilish"
    פאנגליש היא בעצם תהליך של פישוט השפה האנגלית לפי הדוברים הזרים, כלומר שעם השנים השפה האנגלית הופכת מנחלת ארה"ב לנחלת כלל הדוברים וזונחת מחוז גאוגרפי ועם כך זונחת כמה כללים בסיסיים
    ה־Fingilish (פינגיליש) בדומה ל־Arabish (ערביש) היא היכולת לבטא בעזרת אותיות לטיניות את אותו הצליל בשפת המקור
    בעברית הייתה נהוגה תקינה זהה בעבר לבל נשכח את ימיה הראשונים של תכתובת ה־SMS במכשירים לא מעוברתים ולא תומכי עברית… כיום התופעה הזאת כמעט חלפה מן העולם כי אין בה צורך עוד בשימוש יומיומי, לעומתה ניצבות הערבית והפרסית שעל אף תפוצתן (הגדולה מן העברית) הן סובלות מבעיות קשות
    על מנת להציג עברית במחשב יש צורך בפרוצדורה של היפוך צדדים (כתיבה מימין לשמאל) משימה שנראית יחסית פשוטה לכאורה… לעומת זאת בשפה הערבית יש צורך גם במנגנון שידע לזהות מתי יש לחבר אותיות ומתי אין לחבר אותן ולכן ישנן עדיין מערכות שונות שתומכות בכיוון הכתיבה הנכון אך לא במנגנון החיבור (כולם חלק מספריות ה־ICU כפי שמופיע באתר של IBM ‏- http://www-01.ibm.com/software/globalization/icu/index.jsp)

    לא נדון בפיתוחים המשותפים לנו ולידידנו הפרסים והערבים אך ניתן לומר שאנחנו נעזרים זה בזה לעתים קרובות לפתרון בעיות דו־כיווניות

    ערביש שונה מהפינגיליש בדבר נוסף, הערביש משתמשת גם במספרים לציון אותיות (כפי שניתן לראות בכתובת הבאה – http://en.wikipedia.org/wiki/Arabish)
    באופן מאוד מאוד מפתיע אני למדתי לקרוא את השפה הזאת מהאתרים הערביים ורק לאחר חיפושים מעמיקים מצאתי גם כתבה שמסבירה את פשר האותיות המופיעות כחלק מהמילים

    (עכשיו גם שמתי לב שאמיר אהרוני דיבר על התופעה אבל הדברים שכתובים כאן הן ממסקנות שהסקתי בעצמי כך שיתכן שבסיס המידע שלנו שונה)

    מקווה שהעשרתי מישהו!
    בברכה,
    ירון שהרבני

  5. ירון שהרבני הגיב:

    שכחתי להוסיף דבר מאוד חשוב
    בטבלה של האותיות בערביש שמופיעה בכתבה שבוויקיפדיה ניתן גם להבחין שהמספרים שנבחרו לייצוג של אותיות מסוימות בערבית דומים במקצת לאותיות אותן הם מייצגים (3 – ع היא דוגמה די קלסית לתופעה)

  6. בקי הגיב:

    מלים ערביות בפרסית: מזכיר מלים עבריות ביידיש. כותבים לפי העברית ומבטאים לפי היידיש, למשל שבת > "שבס".

  7. מירב הגיב:

    זה מאד מאד לא שייך לנושא, אבל אני מוכרחה להודות לך על הערת הסוגריים שלך שבה אמרת: האנגלית שלי ברמת שפת אם, אבל מספיק לא-שפת-אם כדי שאוכל לדבר אותה בכמה מבטאים שונים, לפי מי שעומד מולי.

    כי אני אף פעם לא הבנתי למה זה קורה לי, שבלי כוונה אני מתאימה את המבטא שלי באנגלית למי שאני מדברת אתו. (אני צברית אבל דוברת אנגלית מהבית, חיה כיום באנגליה ומוקפת כאן במבטאים רבים ושונים.)

    אלט-טאב 🙂

כתיבת תגובה