עיקר המחקר והפיתוח בתחום מבוססים על השפה האנגלית.
שפות הרחוקות ממנה מבנית נותרו מאחור מכיוון שמורכב ויקר יותר להתאים פיתוחים קיימים לשפות אלה.
העברית והערבית משתייכות למשפחת השפות השמיות, וכמה ממאפייניהן הלשוניים משפיעים על היכולת לאמץ פיתוחים קיימים מאנגלית או משפות דומות. אלה הבולטים שבהם:
הכתיב
בכתיבה הרגילה התנועות במילה ("ניקוד") אינן מסומנות ופיענוח המילה תלוי בהבנת ההקשר (לדוגמה אין כל דרך, אנושית או ממוחשבת, לקרוא את הרצף "ספר" מחוץ למשפט – סֵפֶר? סְפָר? סָפַר? סַפָּר? סִפֵּר?); מיליות נפוצות נכתבות כחלק בלתי נפרד מן המילה שאחריהן, ובכך מרחיבות עוד את אפשרויות הקריאה של מילים (בעברית: ב',ה',ו',כ',ל',מ',ש'), מה גם שחלקן מתלכדות עם קבוצה קטנה של אותיות שמסמנות מגוון תפקידים אחרים. למשל ה' בסוף מילה יכולה להיות חלק מנטיית הפועל (נָעֲלָה דלת), תבנית של צורת נקבה (נַעֲלָה=נכבדת) או כינוי קניין (נַעֲלָהּ=הנעל שלה).
תחביר וחלקי דיבר
בעברית ובערבית נפוצה השמטה של הקופולה (האוגד) במשפט השמני (משפט ללא פועל), שאינה מתאפשרת באנגלית. מלבד זאת שמור מקום של כבוד לצורות הבינוני שבעברית ובלהגי הערבית המדוברת יכולות לשמש כפועל, כשם עצם או כתואר ומאתגרות את ההפרדה החד-משמעית בין שמות ופעלים.
על מנת "לאמן" מודלי למידת מכונה ומודלי שפה מודרניים למשימות עיבוד שפה טבעית, נדרשים מאגרי מידע (Datasets) עצומים. בניגוד לשפות נפוצות אחרות, ישנה כמות מצומצמת של מידע נגיש בעברית, מצב אשר מהווה חסם למימוש הפוטנציאל הטכנולוגי גם עבור עברית.
האינטרס הכלכלי של התעשייה להשקיע ב-NLP בעברית (ובמידה מסוימת גם בערבית) הינו פחות ביחס לשפות נפוצות אחרות, מכיוון שמדובר בשוק קטן באופן יחסי.
עיקר המחקר והפיתוח בתחום מבוססים על השפה האנגלית.
שפות הרחוקות ממנה מבנית נותרו מאחור מכיוון שמורכב ויקר יותר להתאים פיתוחים קיימים לשפות אלה.
העברית והערבית משתייכות למשפחת השפות השמיות, וכמה ממאפייניהן הלשוניים משפיעים על היכולת לאמץ פיתוחים קיימים מאנגלית או משפות דומות. אלה הבולטים שבהם:
בכתיבה הרגילה התנועות במילה ("ניקוד") אינן מסומנות ופיענוח המילה תלוי בהבנת ההקשר (לדוגמה אין כל דרך, אנושית או ממוחשבת, לקרוא את הרצף "ספר" מחוץ למשפט – סֵפֶר? סְפָר? סָפַר? סַפָּר? סִפֵּר?); מיליות נפוצות נכתבות כחלק בלתי נפרד מן המילה שאחריהן, ובכך מרחיבות עוד את אפשרויות הקריאה של מילים (בעברית: ב',ה',ו',כ',ל',מ',ש'), מה גם שחלקן מתלכדות עם קבוצה קטנה של אותיות שמסמנות מגוון תפקידים אחרים. למשל ה' בסוף מילה יכולה להיות חלק מנטיית הפועל (נָעֲלָה דלת), תבנית של צורת נקבה (נַעֲלָה=נכבדת) או כינוי קניין (נַעֲלָהּ=הנעל שלה).
בעברית ובערבית נפוצה השמטה של הקופולה (האוגד) במשפט השמני (משפט ללא פועל), שאינה מתאפשרת באנגלית. מלבד זאת שמור מקום של כבוד לצורות הבינוני שבעברית ובלהגי הערבית המדוברת יכולות לשמש כפועל, כשם עצם או כתואר ומאתגרות את ההפרדה החד-משמעית בין שמות ופעלים.
על מנת "לאמן" מודלי למידת מכונה ומודלי שפה מודרניים למשימות עיבוד שפה טבעית, נדרשים מאגרי מידע (Datasets) עצומים. בניגוד לשפות נפוצות אחרות, ישנה כמות מצומצמת של מידע נגיש בעברית, מצב אשר מהווה חסם למימוש הפוטנציאל הטכנולוגי גם עבור עברית.
האינטרס הכלכלי של התעשייה להשקיע ב-NLP בעברית (ובמידה מסוימת גם בערבית) הינו פחות ביחס לשפות נפוצות אחרות, מכיוון שמדובר בשוק קטן באופן יחסי.