עיקרי התוכנית

  • תשתית בקוד פתוח (ככל הניתן) - כולם יכולים לקחת חלק, לתרום ולהשתמש.
  • גנריות - תשתית טכנולוגית שתאפשר התאמה למגוון רחב של משימות (ללא מיקוד בפתרון בעיה ספציפית).
  • לפרוץ את מחסום הדאטה - לקיחת אחריות על יצירת מאגרי מידע (Datasets) מתויגים ולא מתויגים והנגשתם.
  • שימושיות  - הנגשת היכולות באמצעות מדריכים, אריזה נוחה של הקוד ועוד.

אודות התוכנית

כחלק מהתפתחויות טכנולוגיות בעולמות למידת המכונה ניכרת קפיצת מדרגה משמעותית בתחום עיבוד השפה הטבעית (NLP) ויכולות מתחום המחקר האקדמי מבשילות לכדי מוצרים בעלי תפקיד משמעותי בחיי היום-יום של בני האדם ברחבי העולם (עוזרים אישיים דיגיטליים, מנועי חיפוש מתקדמים, כלים לתרגום אוטומטי בין שפות שונות ועוד).
כמצופה, אנגלית בפרט ושפות הודו-אירופאיות בכלל, מהוות את מרכז הכובד בתחום. לעומתן, עברית וערבית, השפות הרווחות במדינת ישראל, נותרו במידה רבה מאחור. אומנם בעברית החלו להפציע פיתוחים ראשונים אך שתי השפות טרם הדביקו את הפערים בתחום עיבוד השפה הטבעית. מטרתה המרכזית של תוכנית תשתיות NLP היא לצמצם את הפער הטכנולוגי הניכר בין היכולות הזמינות בתחום עיבוד השפה באנגלית ובשפות לטיניות אחרות, לבין היכולות המקבילות הקיימות עבור עברית וערבית.

אתגרים בעיבוד שפה טבעית בעברית ובערבית

עברית וערבית שפות שונות מאוד מאנגלית

עיקר המחקר והפיתוח בתחום מבוססים על השפה האנגלית.
שפות הרחוקות ממנה מבנית נותרו מאחור מכיוון שמורכב ויקר יותר להתאים פיתוחים קיימים לשפות אלה.

העברית והערבית משתייכות למשפחת השפות השמיות, וכמה ממאפייניהן הלשוניים משפיעים על היכולת לאמץ פיתוחים קיימים מאנגלית או משפות דומות. אלה הבולטים שבהם:

הכתיב
בכתיבה הרגילה התנועות במילה ("ניקוד") אינן מסומנות ופיענוח המילה תלוי בהבנת ההקשר (לדוגמה אין כל דרך, אנושית או ממוחשבת, לקרוא את הרצף "ספר" מחוץ למשפט – סֵפֶר? סְפָר? סָפַר? סַפָּר? סִפֵּר?); מיליות נפוצות נכתבות כחלק בלתי נפרד מן המילה שאחריהן, ובכך מרחיבות עוד את אפשרויות הקריאה של מילים (בעברית: ב',ה',ו',כ',ל',מ',ש'), מה גם שחלקן מתלכדות עם קבוצה קטנה של אותיות שמסמנות מגוון תפקידים אחרים. למשל ה' בסוף מילה יכולה להיות חלק מנטיית הפועל (נָעֲלָה דלת), תבנית של צורת נקבה (נַעֲלָה=נכבדת) או כינוי קניין (נַעֲלָהּ=הנעל שלה).

תחביר וחלקי דיבר
בעברית ובערבית נפוצה השמטה של הקופולה (האוגד) במשפט השמני (משפט ללא פועל), שאינה מתאפשרת באנגלית. מלבד זאת שמור מקום של כבוד לצורות הבינוני שבעברית ובלהגי הערבית המדוברת יכולות לשמש כפועל, כשם עצם או כתואר ומאתגרות את ההפרדה החד-משמעית בין שמות ופעלים.

01.

זמינות נמוכה של מידע רלוונטי בעברית

על מנת "לאמן" מודלי למידת מכונה ומודלי שפה מודרניים למשימות עיבוד שפה טבעית, נדרשים מאגרי מידע (Datasets) עצומים. בניגוד לשפות נפוצות אחרות, ישנה כמות מצומצמת של מידע נגיש בעברית, מצב אשר מהווה חסם למימוש הפוטנציאל הטכנולוגי גם עבור עברית.

02.

פוטנציאל קטן ביחס לשווקים בשפות אחרות

האינטרס הכלכלי של התעשייה להשקיע ב-NLP בעברית (ובמידה מסוימת גם בערבית) הינו פחות ביחס לשפות נפוצות אחרות, מכיוון שמדובר בשוק קטן באופן יחסי.

03.

אתגרים בעיבוד שפה טבעית בעברית ובערבית

01.

עברית וערבית שפות שונות מאוד מאנגלית

עיקר המחקר והפיתוח בתחום מבוססים על השפה האנגלית.
שפות הרחוקות ממנה מבנית נותרו מאחור מכיוון שמורכב ויקר יותר להתאים פיתוחים קיימים לשפות אלה.

העברית והערבית משתייכות למשפחת השפות השמיות, וכמה ממאפייניהן הלשוניים משפיעים על היכולת לאמץ פיתוחים קיימים מאנגלית או משפות דומות. אלה הבולטים שבהם:

הכתיב

בכתיבה הרגילה התנועות במילה ("ניקוד") אינן מסומנות ופיענוח המילה תלוי בהבנת ההקשר (לדוגמה אין כל דרך, אנושית או ממוחשבת, לקרוא את הרצף "ספר" מחוץ למשפט – סֵפֶר? סְפָר? סָפַר? סַפָּר? סִפֵּר?); מיליות נפוצות נכתבות כחלק בלתי נפרד מן המילה שאחריהן, ובכך מרחיבות עוד את אפשרויות הקריאה של מילים (בעברית: ב',ה',ו',כ',ל',מ',ש'), מה גם שחלקן מתלכדות עם קבוצה קטנה של אותיות שמסמנות מגוון תפקידים אחרים. למשל ה' בסוף מילה יכולה להיות חלק מנטיית הפועל (נָעֲלָה דלת), תבנית של צורת נקבה (נַעֲלָה=נכבדת) או כינוי קניין (נַעֲלָהּ=הנעל שלה).

מתוך דף הפייסבוק של האקדמיה ללשון העברית
תחביר וחלקי דיבר

בעברית ובערבית נפוצה השמטה של הקופולה (האוגד) במשפט השמני (משפט ללא פועל), שאינה מתאפשרת באנגלית. מלבד זאת שמור מקום של כבוד לצורות הבינוני שבעברית ובלהגי הערבית המדוברת יכולות לשמש כפועל, כשם עצם או כתואר ומאתגרות את ההפרדה החד-משמעית בין שמות ופעלים.

02.

זמינות נמוכה של מידע רלוונטי בעברית

על מנת "לאמן" מודלי למידת מכונה ומודלי שפה מודרניים למשימות עיבוד שפה טבעית, נדרשים מאגרי מידע (Datasets) עצומים. בניגוד לשפות נפוצות אחרות, ישנה כמות מצומצמת של מידע נגיש בעברית, מצב אשר מהווה חסם למימוש הפוטנציאל הטכנולוגי גם עבור עברית.

03.

פוטנציאל קטן ביחס לשווקים בשפות אחרות

האינטרס הכלכלי של התעשייה להשקיע ב-NLP בעברית (ובמידה מסוימת גם בערבית) הינו פחות ביחס לשפות נפוצות אחרות, מכיוון שמדובר בשוק קטן באופן יחסי.

מרכיבי התוכנית

יכולת מעבר משמע לטקסט בעברית ובערבית

מימוש גנרי של חבילות תשתית בקוד פתוח ל-NLP ו-UD בעברית ובערבית

אימון מודל שפה ענק בעברית ובערבית, מבוסס בלשנות שפות שמיות

פיתוח גנרי של אלגוריתמים מבוססי NLP ספציפי לשפות שמיות

יכולת מעבר משמע לטקסט בעברית ובערבית

מימוש גנרי של חבילות תשתית בקוד פתוח ל-NLP ו-UD בעברית ובערבית

אימון מודל שפה ענק בעברית ובערבית, מבוסס בלשנות שפות שמיות

פיתוח גנרי של אלגוריתמים מבוססי NLP ספציפי לשפות שמיות

עיבוד נתונים ברמת החיישנים - ממוקד בהקשרי NLP ושפות שמיות

הסברתיות והכנה על מודלי בינה מלאכותית בהקשרי מידול שפות ו-NLP

יצירה והנגשה של קורפוסים ודאטה-סטים

מודלים היסקיים ופיתוח מודלים גנריים של בחינת מודלים היסקיים

עיבוד נתונים ברמת החיישנים - ממוקד בהקשרי NLP ושפות שמיות

הסברתיות והכנה על מודלי בינה מלאכותית בהקשרי מידול שפות ו-NLP

יצירה והנגשה של קורפוסים ודאטה-סטים

מודלים היסקיים ופיתוח מודלים גנריים של בחינת מודלים היסקיים

מרכיבי התוכנית

יכולת מעבר משמע לטקסט בעברית ובערבית

מימוש גנרי של חבילות תשתית בקוד פתוח ל-NLP ו-UD בעברית ובערבית

אימון מודל שפה ענק בעברית ובערבית, מבוסס בלשנות שפות שמיות

פיתוח גנרי של אלגוריתמים מבוססי NLP ספציפי לשפות שמיות

יכולת מעבר משמע לטקסט בעברית ובערבית

מימוש גנרי של חבילות תשתית בקוד פתוח ל-NLP ו-UD בעברית ובערבית

אימון מודל שפה ענק בעברית ובערבית, מבוסס בלשנות שפות שמיות

פיתוח גנרי של אלגוריתמים מבוססי NLP ספציפי לשפות שמיות

יכולת מעבר משמע לטקסט בעברית ובערבית

מימוש גנרי של חבילות תשתית בקוד פתוח ל-NLP ו-UD בעברית ובערבית

אימון מודל שפה ענק בעברית ובערבית, מבוסס בלשנות שפות שמיות

פיתוח גנרי של אלגוריתמים מבוססי NLP ספציפי לשפות שמיות

עיבוד נתונים ברמת החיישנים - ממוקד בהקשרי NLP ושפות שמיות

הסברתיות והכנה על מודלי בינה מלאכותית בהקשרי מידול שפות ו-NLP

יצירה והנגשה של קורפוסים ודאטה-סטים

מודלים היסקיים ופיתוח מודלים גנריים של בחינת מודלים היסקיים

עיבוד נתונים ברמת החיישנים - ממוקד בהקשרי NLP ושפות שמיות

הסברתיות והכנה על מודלי בינה מלאכותית בהקשרי מידול שפות ו-NLP

יצירה והנגשה של קורפוסים ודאטה-סטים

מודלים היסקיים ופיתוח מודלים גנריים של בחינת מודלים היסקיים

מרכיבי התוכנית

יכולת מעבר משמע לטקסט בעברית ובערבית

מימוש גנרי של חבילות תשתית בקוד פתוח ל-NLP ו-UD בעברית ובערבית

אימון מודל שפה ענק בעברית ובערבית, מבוסס בלשנות שפות שמיות

פיתוח גנרי של אלגוריתמים מבוססי NLP ספציפי לשפות שמיות


יכולת מעבר משמע לטקסט בעברית ובערבית

מימוש גנרי של חבילות תשתית בקוד פתוח ל-NLP ו-UD בעברית ובערבית

אימון מודל שפה ענק בעברית ובערבית, מבוסס בלשנות שפות שמיות

פיתוח גנרי של אלגוריתמים מבוססי NLP ספציפי לשפות שמיות

עיבוד נתונים ברמת החיישנים - ממוקד בהקשרי NLP ושפות שמיות

הסברתיות והכנה על מודלי בינה מלאכותית בהקשרי מידול שפות ו-NLP


יצירה והנגשה של קורפוסים ודאטה-סטים

מודלים היסקיים ופיתוח מודלים גנריים של בחינת מודלים היסקיים

יכולת מעבר משמע לטקסט בעברית ובערבית

מימוש גנרי של חבילות תשתית בקוד פתוח ל-NLP ו-UD בעברית ובערבית

אימון מודל שפה ענק בעברית ובערבית, מבוסס בלשנות שפות שמיות

פיתוח גנרי של אלגוריתמים מבוססי NLP ספציפי לשפות שמיות

עיבוד נתונים ברמת החיישנים - ממוקד בהקשרי NLP ושפות שמיות

הסברתיות והכנה על מודלי בינה מלאכותית בהקשרי מידול שפות ו-NLP

יצירה והנגשה של קורפוסים ודאטה-סטים

מודלים היסקיים ופיתוח מודלים גנריים של בחינת מודלים היסקיים

עיבוד נתונים ברמת החיישנים - ממוקד בהקשרי NLP ושפות שמיות

הסברתיות והכנה על מודלי בינה מלאכותית בהקשרי מידול שפות ו-NLP

יצירה והנגשה של קורפוסים ודאטה-סטים

מודלים היסקיים ופיתוח מודלים גנריים של בחינת מודלים היסקיים

צוות מדעי

פרופסור רעות צרפתי

פרופ׳ רעות צרפתי עומדת בראש המעבדה הפתוחה לעיבוד שפה טבעית (The ONLP Lab) באוניברסיטת בר אילן. המחקרים שלה מתמקדים במודלים רחבי היקף לעיבוד שפה טבעית, המכסים תופעות מורפולוגיות, תחביריות וסמנטיות, ומיועדים לניתוח שפות שונות ומגוונות. פרופ׳ צרפתי היא מומחית בינלאומית למידול שפות עשירות מורפולוגית (MRLs) בכלל ולעיבוד שפה טבעית בעברית בפרט. מעבדת המחקר שלה אחראית לפיתוח והנגשת מודלים כגון NEMO, AlephBERT, YAP ומודלים תשתיתיים נוספים לשפה העברית. רעות היא מייסדת קהילת SPMRL, חברה בוועדת ההיגוי UD וכן מומחית מובילה בקהילת UniMorph. בין עבודותיה של רעות ניתן למצוא יישומים כגון תכנות שפה טבעית, ניווט בשפה טבעית, ציון אוטומטי של חיבורים, הסקה אוטומטית של אלמנטים חסרים (empty elements) ניתוח ויצירת תוכן מדיה חברתית, ועוד. המחקר של רעות ממומן על ידי האיחוד האירופי (ERC-Starting-Grant #677352), הקרן הלאומית למדע (מענק ISF #1739/26), מענק מטעם משרד המדע (MOST) ומענקי מחקר לחברי סגל בכירים (FRA) מטעם גוגל.

ד״ר כפיר בר

ד״ר כפיר בר הוא המדען הראשי של חברת Basis Technology, המפתחת כלים חישוביים לניתוח והבנת שפות טבעיות. ד״ר בר בעל נסיון של שנים רבות בבניית כלי ניתוח שפה בטכנולוגיות שונות ולשימושים מגוונים. בעברו כפיר היה בתפקידי ניהול טכנולוגי בחברת IntuView העוסקת בניתוח טקסט לצורכי בטחון פנים. הוא היה מייסד שותף של חברת קומפרנדי, שפיתחה מוצר לביסוס תובנות עסקיות מנתוני טקסט בנפח גדול. כפיר מרצה קורסי בחירה בלמידה חישובית ועיבוד שפה טבעית בחוג למדעי המחשב של המסלול האקדמי של המכללה למנהל וכמו כן באוניברסיטת רייכמן. כפיר סיים את לימודיו לתואר דוקטור בפילוסופיה (PhD) בשנת 2013 באוניברסיטת תל אביב. נושא המחקר של עבודת התזה שלו הינו שיפור תרגום מכונה מהשפה הערבית תוך שימוש בפאראפראזות.

הפרויקט שלנו ב-GitHub

GitHub היא פלטפורמת אירוח קוד לבקרת גרסאות ושיתוף פעולה שמאפשרת למספר בעלי עניין לעבוד יחד על פרויקטים מכל מקום.

ארגון ה-GitHub של התוכנית נקרא NNLP-IL ובו מתנהלת העבודה השוטפת וניהול הקשר עם הקהילה.
בין השאר, ניתן למצוא ב-GitHub אינדקס המרכז מקורות (כלים, דאטה-סטים, אנשים ועוד) לעיבוד שפה טבעית בעברית (ובהמשך גם בערבית).
יודגש כי על פי חוות הדעת שפרסם לאחרונה משרד המשפטים, שימוש בתכנים מוגנים בזכויות יוצרים לצורך למידת מכונה חוסה תחת הסדרי השימושים המותרים בדיני זכויות היוצרים.

מזמינים את כולם לקחת חלק בפרויקט ולהוסיף תכנים.