על בינה רשתית ובינה מלאכותית - סא"ל ג', רס"ן (במיל') ג' ורס"ן (במיל') ל'

טרנספורמציית ה-AI של המרכז לעיבוד וניתוח מידע ב-8200

24.01.21
סא"ל ג', רס"ן (במיל') ג' ורס"ן (במיל') ל'

פורסם לראשונה בינואר 2021

הקדמה

במאמר זה נציג את טרנספורמציית הבינה המלאכותית (AI) של המרכז לעיבוד וניתוח המידע של יחידה 8200. הביטוי המרכזי של טרנספורמציה זו הוא בהעברת אחד מארגוני הדאטא הגדולים של אחת מהמסגרות המודיעיניות הגדולות בישראל לארגון הפועל בצוותי אדם מכונה (Human Machine Team). ננתח את תנאי הפתיחה, את האתגרים ואת הטכנולוגיות ובעיקר את השינויים התפיסתיים שהניעו את השינוי בסדר גודל זה.
המרכז לעיבוד ולניתוח מידע של 8200 הוא ארגון בעל עשרות שנות ניסיון, מיקום מרכזי בקהילת המודיעין והביטחון ומומחיות במידע שמאפשרת לו להיות רלוונטי בכל מקום בו מודיעין משפיע על המציאות - מהתרעה יום-יומית במסגרת פעולות הביטחון השוטף של צה"ל, דרך ליווי מבצעים גדולים ועד לקבלת החלטות אסטרטגיות בצה"ל ובקבינט הבטחוני.
אנו חיים בעידן בו יכולות למידת מכונה (ML) משנות את העולם סביבנו. אנחנו נוהגים בצורה אחרת במכוניות שלנו, או שהמכוניות נוהגות כמעט בעצמן. אנחנו שומעים מוזיקה בצורה אחרת, מקבלים שירותי רפואה אחרים, קונים אחרת ואפילו חושבים אחרת. שינויים אלו פגשו את המרכז לעיבוד וניתוח מידע של 8200 המתמודד בשנים האחרונות עם משימות מודיעיניות שונות ומורכבות מאי פעם וכמות מידע שגדלה בצורה לא-לינארית. חיכוך בהתפתחות הטכנולוגית פורצת הדרך ביכולות החישוב, למידת המכונה ו-NLP לימדו אותנו פעם אחר פעם כי קיים פוטנציאל לחדשנות משבשת.
פוטנציאל לקפיצת מדרגה דרמטית בתפוקות במונחים של איכות ודיוק המענה לצרכים המודיעיניים והמבצעיים. במיוחד, תאפשר טרנספורמציה זו, בשילוב רכיבים נוספים, את יכולת עיבוד המידע הנחוצה לכושר ההתקפי והקטלניות בתפיסת הניצחון של צה״ל.
בעמודים הבאים נתאר את הצעדים בתהליך ההשתנות של המרכז שהעבירו את כובד העשייה מעבודה אנושית ידנית - לעשייה מבוססת אינטראקציית אדם-מכונה. בדומה לטרנספורמציות קודמות, גם הפעם מדובר בהשתנות של תפיסה, ארגון וטכנולוגיה. רק השילוב של ההשתנות בכלל מרכיבים אלה יאפשר לנו לרתום את יכולות הדיגיטל המתקדמות של צה"ל לטובת צרכיו המבצעיים.

קווים לדמותו של המרכז

המרכז לעיבוד ולניתוח מידע יושב בצומת מרכזי בתהליך המודיעיני. אנשי המרכז הם הראשונים לטפל בחומר הגלם המודיעיני, וביחוד כשהאמור במידע בשפה זרה, המרכז אמון על איתור פריטי המידע הרלוונטיים ועיבודם לכדי תוצר מודיעיני.
לשם עמידה במשימה זו, במרכז התגבשו לאורך השנים מספר בעלי תפקידים:
1. מפיקי חומרי שמע (אודיו) - אולי הראשונים והמפורסמים שבאנשי ההפקה במרכז, עוד מימי ההאזנה לבריטים ולרשתות הקשר של הירדנים טרם קום המדינה. המקצוע התפתח והשתנה בצורה דרמטית בחלוף השנים, אך המיקוד נותר בידיעת השפה המדוברת ומומחיות בחומרי אודיו.
2. מפיקי חומרי טקסט - כאשר המדיום הטקסטואלי הפך למשמעותי יותר כתווך להעברת מידע, גובש על יסוד בעל תפקיד מקביל לעולם הטקסט אשר בעל אוריינטציה לעולמות הסייבר.
3. משקלטים ומתרגמים - תוצרים אשר דרשו רמת סמך גבוהה, כלומר תמלול ותרגום ברמת המילה הבודדת, וכן מידע בעל מורכבות שפתית, טופלו על-ידי מפיקים בעלי מומחיות.
4. חוקרי מידע מובנה - האחרונים להצטרף לשורות המרכז כבעלי תפקיד מובחן, חוקרי המידע המובנה מתמחים בכריית מידע ובניתוח מגמות ואנומליות בשטף המידע.
5. אנשי בינה רשתית (ב"ר) - קב"רים ומב"רים; מנהלי מפעל ההפקה ואמונים על הנגשת תוצרים למגוון רחב של צרכנים.

נקודת הזינוק

שלושה מאפיינים של המרכז מאפשרים לו נקודת זינוק יוצאת דופן לעבר השתנות AI:

דאטה - העובדה שאנשי המרכז היו הראשונים לטפל במידע לאורך שנים מאפשרת לנו כיום לחלוש על המשאב היקר ביותר בעידן הדיגיטלי - דאטה מתויג באיכות גבוהה.

טכנולוגיות DS נשענות על שלושה מרכיבים עיקריים: אלגוריתמיקה, כח מחשוב ודאטה רלוונטי. לעיתים קרובות, היתרון התחרותי הדרמטי ביותר של ארגונים שונים הוא בדאטה שיש ברשותם. כוחו האדיר של מנוע החיפוש של גוגל נשען על כך שמליוני משתמשים ביום מלמדים אותו מה היא תוצאה טובה בעצם כך שהם מבצעים חיפושים ובוחרים בתוצאות. באופן דומה, כוחו של המרכז כגוף AI נשען על כח אדם רב ובעל מומחיות שנוגע בכל יום במגוון אדיר של פריטי מידע.

כח אדם - ארגונים רבים המנסים לעבור טרנספורמציית AI נכשלים בכך משום שאנשי הארגון מורגלים במציאות מסוימת ובמומחיות אותה טיפחו לאורך שנים, ומטבע הדברים, קיים עבורם קושי להשלים עם מידת האמון שהם צריכים לתת במכונה שמבצעת תהליכים שבעבר היו באחריותם. לנו יש יתרון משמעותי בתחום זה: הארגון שלנו מורכב באחוז גבוה מכוח אדם צעיר ויצירתי, המורגל באינטרקציית אדם-מכונה מחייהם הפרטיים, ולאור קצב התחלופה שלהם, כך יכולת הקבלה וההכלה של רעיונות שעשויים להיתפס כמהפכניים ומשבשי מציאות רבה יותר מאשר בארגונים אחרים.

סביבה דיגיטלית - יתרון שלישי טמון בכך שאנחנו חלק מיחידה ששמה הוא מילה נרדפת לחדשנות ולקידמה טכנולוגית. המוחות הטכנולוגיים הם עמיתים ושותפים מלאים לתהליך ההשתנות. 

מ-Data Science תבוא הבשורה?

בשנים האחרונות, אנו עדים ל"התפוצצות" של עולם למידת המכונה (ML) - יצירה של אלגוריתמים חדשים, מוצרים מסחריים מבוססי בינה מלאכותית, "ניצחונות" של מכונות במשחקי לוח ומחשב (AlphaGo, AlphaStar) ואף אלגוריתמים לחיזוי מבנים תלת-מימדיים של חלבונים (AlphaFold).

כיום, מערכות המלצה (Recommendation Systems) ומערכות תומכות החלטה מבוססת מידע (Data Driven Decision Making) נכנסו לעולם העסקי והחלו להשפיע באופן דרמטי על האופן שבו מקבלים החלטות בכל ארגון שיש לו גישה למידע ולמשאבי חישוב. כמו כן, טכנולוגיות שפה אנושיות (Human Language Technologies) הביאו לפריצות דרך בשנים האחרונות ביכולת להבין טקסטים אנושיים, לתמלל קטעי שמע (Speech To Text) ולזהות טקסטים בתמונות (Optical Character Recognition).

ככל שעברו השנים, כך הטכנולוגיות הנ"ל התקדמו, עד לשלב בו נחצה סף קריטי מבחינת היכולות. בשלב זה נפלה ההבנה שניתן לחולל מהפכה באופן עשיית המודיעין באמצעות טכנולוגיות מעולם ה-Machine Learning.

הפוטנציאל עבורנו היה בשמיים. על פניו, כבר אז ניתן היה לשרטט תהליכים מבצעיים בהם מכונות מאתרות גורמים בצורה אוטומטית, מנתחות דפוסים חשודים בהתנהגות שלהם, מתמללות ומתרגמות שיחות וטקסטים שלהם ומזהות את המקטעים ופרטי המידע הרלוונטיים לשאלות המודיעיניות. האמנו שאנחנו קרובים לעת שבה נפרוץ את המחסומים שהגבילו אותנו כל השנים הללו ונתחיל עידן חדש של עשייה מודיעינית שלא הייתה כמותה בעבר.

לא כל כך מהר

התפיסה הנאיבית שטכנולוגיה שתפותח ותוטל ללא אבחנה על הבעיות שלנו תייצר את השינוי, כמוה כמחשבה שמספיקה מכונית מרוץ טובה בלבד כדי לנצח בתחרויות.

הבנה זו נבעה מהתבוננות בהתפתחות של מוצרי AI בעולם העסקי - עם ההתקדמות הטכנולוגית בקרב גורמי מחקר ואקדמיה, הגיעה גם ההתפכחות של ארגונים שצברו ניסיון של מספר שנים של התנסות עם מוצרים מבוססי ML בעולם האמיתי. המציאות מלמדת אותנו שזה לא טריוויאלי לייצר מוצרים שיתנו מענה למגוון תרחישים "מחוץ למעבדה", ב-Scale רחב וישרדו את מבחן הזמן.

המסקנה הרווחת היא שלרוב, לא ניתן לקחת את האלגוריתם שפורסם לאחרונה "מהמדף" ולהטיל אותו על בעיה עסקית כפי שהוא. יש אינספור מכשולים בדרך שצריך להכיר ולדעת איך להתמודד איתם וכל צעד צריך להתבצע בצורה אחראית ומדויקת.

האתגר ליצור מוצרים רלוונטיים רק מתעצם כשמדובר בסביבה של קבלת החלטות בסיכון גבוה (High Risk Decision Making). בשונה מעולמות ה-AdTech ו-Gaming, החלטות שגויות בעולם עשיית המודיעין יכולה לעלות בחיים של אנשים.

אז איך כן עושים את זה?

ראשית, ההבנה היסודית ביותר שהגענו אליה היא שאת האנשים המצוינים שלנו, אלה שכבר שנים אנחנו אומרים שהם סוד הצלחתנו - אנחנו לא רוצים להחליף במכונות. לא את המוחות הצעירים והמבריקים שמתגייסים אלינו עם תחושת שליחות ורצון לתרום לביטחון המדינה, ולא את מוקדי הידע בעלי המומחיות שאין בשום מקום אחר. אנחנו לא רוצים להחליף את האנשים, אנחנו רוצים לתת בידיהם את הכלים שיעצימו אותם ויאפשרו להם לעשות את מה שרק הם מסוגלים לעשות. במילים אחרות, להוציא מהם את המיטב. נקודה זו, לצד הפוטנציאל העצום, מהווה סיכון שיש לנהל בצורה קפדנית כך שיכולות השפה וההבנה העמוקה ביריב ובביטויים הדיגיטליים שלו לא ידעכו.

אנחנו בונים צוותי אדם-מכונה שמאפשרים להגדיל את התפוקות (התייעלות) ולבצע קפיצת מדרגה באיכות ובדיוק המענה. המבחן אפוא של טרנספורמציית AI לא מסתיימת בשני מדדים אלו אלא גם ביכולת לייצר ערך חדש לצרכנים שלנו.

יעילות (Efficiency) - אנשינו משקיעים מדי יום זמן רב מאוד במשימות שמכונות יכולות להצליח בהן במידה רבה ושבהן לא נמצא הערך המוסף של אנשינו: שמיעת מקטע אודיו בשפה זרה מצריך הרבה יותר זמן והרבה יותר תשומות בהכשרה מאשר קריאה של אותו מידע בעברית. גם אם המכונה לא מגיעה ל100% הצלחה, כל פעולה שהמכונה מצליחה לעשות חוסכת את זמנו של האדם שיושב לצידה ומאפשרת לו לנצל את זמנו בצורה יעילה יותר לטובת אחזור מתקדם של פריט מידע רלוונטי אחר, בהיתוך בין דאטא בהקשר לטובת פיצוח השאלה המודיעינית או עיצוב של מנועים חכמים לזיהוי יעדים.

מועילות (Effectiveness) - לעיתים קרובות, עבודת המודיעין כמוה כהרכבת תצרף אינסופי. עד היום אנשינו היו מחולקים לפי מומחיות בפורמט המידע (אודיו, טקסט, חתימות גיאוגרפיות), כך שכל אחד מהם ראה והתמחה רק בחלקים בודדים מהתצרף. ההתקדמות הטכנולוגית והתפיסתית מאפשרת לנו לחלק את אנשינו לפי משימות ולא לפי סוג החומר. כל אחד רואה יותר חלקים מהתצרף, ועצם העבודה בתצורה מולטי-דיסציפלינרית ומאפשרת מענה טוב יותר לבעיות הניצבות מולנו.

ערך חדש - ישנן תופעות שבן אנוש מתקשה מאוד לזהות, אך בשילוב כלים נכונים הופכות תופעות אלו למובחנות יותר. שימוש באלגוריתמיקה לזיהוי מגמות במידע לאורך זמן ולאיתור אנומליות יכול לפתור בעיות שעד היום לא היינו מסוגלים לתת להן מענה. ביטוי נוסף לערך חדש הוא ביכולת לספק לצרכנים מוצרי דאטא אינטראקטיביים ובכך לשים סוף לעידן בו קיבלו הצרכנים רק תוצרים כתובים.

הביטוי של הערך החדש חורג מתרומתו לצרכים השוטפים של אמ"ן והפעלת הכוח הצבאית. במלחמה, הטרנספורמציה המתוארת תאפשר את יכולת עיבוד וניתוח המידע הנחוצות לתפיסת הניצחון של צה״ל. כך, מהירות היתוך ועיבוד המידע בנפחי עתק והזרקתו בהקשר המדויק לאופרציה בקצה יהוו גורם ״משנה משחק״ בחיזוק הכושר ההתקפי והקטלניות של צה״ל בשדה הקרב. האלגוריתמיקה בשילוב מומחי התוכן יאפשרו, בתורם, סגירות מעגל בין מודיעין לאופרציה כך שיכולת חשיפת האויב תישען על שיטה רובוסטית. ערך זה, שיש לממשו כחלק מתפיסת העליונות הדיגיטלית של צה''ל, משתלב בתהליכי המטרות והתמרון הרב-מימדי. כך, למשל, כוח בקצה יוכל לקבל בזמן אמת מידע מעובד ברזולוציה המתאימה לקבלת החלטות מיידית ובאופן שיטתי המותאם למערכות המבצעיות ולוויזואליזציה הנדרשת. כל זאת, תוך שניות וללא תלות בתהליכי הפקה ועיבוד אנושיים.

תהליך ההשתנות

לאור ההבנות הנ"ל, יצאנו לתהליך תכנון משותף עם מרכזי הפיתוח ביחידה, שתכליתו לייצר אקו-סיסטם חדש העושה שימוש באנליטיקות מתקדמות וב-Data Science. כך, זיהינו 3 וקטורים מרכזיים לשינוי:
1. עיצוב והטמעת טכנולוגיות שפה (HLT) לטובת העצמה והחלפה הדרגתית של תפקודים אנושיים: אחזור מידע וכן סינון והפקה באמצעות מנועי תמלול ותרגום.

2. שימוש באנליטיקות מתקדמות והקמת התארגנויות ייעודיות לעיבוד, סידור והנגשה של מידע ממגוון עולמות תוכן לטובת תהליכי ניתוח מידע ולמידת מכונה.

3. יצירת ארסנל מוצרים מבוססי למידת מכונה לטובת משימות הליבה של המרכז.

כל אחד מהווקטורים הללו גזר עיצוב של רשת ערך חדשה הכוללת הגדרת תהליכים עדכניים, תפקידנים חדשים וכן הגדרה מחודשת של תפוקות המרכז.

וקטור #1: עיצוב והטמעת טכנולוגיות שפה בליבת המרכז

בשנים האחרונות חלה פריצת דרך בהתפתחות טכנולוגיות שפה אנושיות (Human Language Technologies). באמצעות אלגוריתמיקה חדשנית בפיתוח מיטב האוניברסיטאות והחברות בעולם, מכונות יודעות לבצע מגוון משימות שעד לאחרונה היו מנת חלקן של בני אדם בלבד: הבנת שפה טבעית וביצוע משימות ע"י עוזרים אישיים דיגיטליים, תמלול סימולטני בעת צילום סרטונים, ותרגום חי בתוך מצלמת הסמארטפון שלנו לשלטים ולתפריטים במגוון שפות.

השאלה המרכזית שהתעמתנו מולה היא: למה שלא נחליף את כל התפקודים השפתיים האנושיים שלנו באלגוריתמים?
את מפיקי השמע נחליף ברכיבי Speech To Text, את מפיקי הטקסט נחליף באלגוריתמי Optical Character Recognition, את מומחי השפה נחליף בתרגום מכונה (Machine Translation) ואת כל החומרים המתורגמים נשים במקום אחד נגיש לכל דורש.
נשמע הגיוני, הלא כך?

ההתפתחות הטכנולוגית שאנחנו עדים לה אכן מרשימה, אך מוגבלת במענה שלה לעולם הבעיה שלנו בשני היבטים עיקריים:

אתגר ראשון - דאטה בהקשר הצורך המבצעי

תרגום המכונה הזמין לכל דורש בGoogle Translate מאפשר המרה של טקסטים מצרפתית לאנגלית בצורה משביעת רצון בסך הכל, וכך גם אפשר לדבר עם העוזרת הדיגיטלית של אמאזון באנגלית ולבקש ממנה להזמין כרטיסים לסרט. אולם, השפות והתרחישים שמטרידים את מערכת הביטחון של מדינה קטנה במזרח התיכון אינן בהכרח אותן בעיות העסקיות שמטרידות את ענקיות הטכנולוגיה העולמיות.

שנית, בשביל להגיע לרמת ביצועים מספקת אל מול חומר הגלם שבו אנו עוסקים, נדרשנו להביא לשולחן מספיק דאטה מתויג באיכות גבוהה שיאפשר למכונות ללמוד להתמודד עם אותם חומרים. כאמור, זהו אחד היתרונות שלנו ביציאה לדרך ואלפי שעות אדם הושקעו במשימה הזו. אלמלא היו לנו אנשים המוכשרים, אין ספק שהיינו נכשלים.
גם המכונה המתוחכמת ביותר היא חסרת ערך, אם אין מי שיספק לה דאטה איכותי ללמוד ממנו.

הבחירה להשקיע את כח האדם במשימה כמו תיוג דאטה מחייבת קבלת החלטות קשות - להשקיע היום בפירות של מחר. עשינו זאת מתוך ההבנה שהעבודה הידנית הזו תאפשר את ההשתנות לא פחות מכל האלגוריתמים הנוצצים ביותר. גם כאן, העובדה שאנו וגוף הפיתוח האלגוריתמי מהווים חלק מאותה יחידה אפשרה לנו לאסוף ולתייג את הדאטה הנכון בצורה הנכונה, דבר שהוא קשה הרבה יותר כאשר התהליכים נפרדים זה מזה.

לאור המורכבות והדינאמיות של המידע, מלאכת התיוג לא יכולה להסתיים במאמץ מרוכז אחד, לכן ביצענו את ההתאמות הנדרשות והפיתוחים הטכנולוגיים והמתודולוגיים שהפכו את משימת תיוג המידע לחלק משגרת העבודה של התפקידנים על מנת להמשיך להשתפר באופן מתמיד.

אתגר שני  - לא הכל מכניקה

בשלן חובב שיעקוב בדקדקנות אחר מתכון של שף לא יצליח להוציא מתחת ידיו מנות ברמה של מסעדת יוקרה גם אם ישתמש בחומרי גלם מובחרים וימלא אחר ההוראות בקפידה. באותו האופן, אדם שקורא תמלול של קטע אודיו שהוקלטה בין שני אנשים מארץ אחרת לא יבין את השיחה כפי שהיה מבין אותה אדם שנכח בחדר בשעת קיומה. גם אם התמלול והתרגום מושלמים, ישנם אספקטים תרבותיים ודתיים, או מידע שמועבר באופן לא מילולי דוגמת אינטונציה שמשפיעים בצורה דרמטית על הבנת מהות השיחה.

כפועל יוצא מכך, אנחנו לא מחליפים את האנשים באלגוריתמים, אלא מסדרים מחדש את בעלי התפקידים שלנו בהתאם לטכנולוגיה: רשת הערך החדשה מורכבת בראש ובראשונה מאנליסטים המשתמשים בטכנולוגיות HLT - כאלו המתמחים בעולמות אחזור המידע (Information Retrieval) וניתוח המידע (Data Analytics).
את הלינגוויסטים המשובחים שלנו אנחנו מעצימים למומחי שפה על מנת שיתנו מענה במקום בו המכונה אינה מספקת. על מומחי השפה מוטלת, בין היתר, האחריות לאמן את המכונה.


וקטור #2: שימוש באנליטיקות מתקדמות והקמת התארגנויות ייעודיות לעיבוד, סידור והנגשה של מידע

מפעלי ההפקה שלנו בנויים מצוותים רב תחומיים בצורה שמאפשרת לכל תפקידן לתת את הערך המוסף שלו בהקשר לשאלה משותפת. לאורך השנים, הצוותים המודיעיניים לא היו בנויים לטפל במגוון סוגי חומרים חדשים בצורה טבעית ועיקר העבודה התמקדה במיצוי פריטי מידע בודדים מסוגי חומר נבחרים. צורת העבודה הנ"ל אפשרה התמחות ומענה "בוטיק" עבור סוג מסוים של תרחישים, אך לא בהכרח סיפקה מענה אופטימלי עבור שאלות רוחביות יותר.

כיום, בעידן שבו זורמים למערכות מיליוני פריטי מידע מסוגים שונים מדי יום - עלינו להשתמש בכלים אנליטיים סיכומיים ו-ויזואליזציות מתאימות כדי לאתר דפוסים במידע.

במסגרת ההשתנות, עברנו מהתבוננות במופעים גיאוגרפיים בודדים של גורם מסוים ליצירה ולניתוח מפות חום (Heatmaps) של קבוצת גורמים. מניתוח ידני של קשרים בודדים בתוך קבוצת עניין, לאלגוריתמים מעולם ה-Social Network Analysis כדי לחלק את גרף הקשרים ל"קהילות" ולזהות דפוסים שצצים מתוך הניתוח. ממעבר על עשרות ומאות פריטי מידע של יעד מודיעיני בצורה ידנית ובאבחנה בסיסית, התחלנו למקד את העבודה בפריטי מידע הרלוונטיים לתאריכים בהם אותרו אנומליות בדפוסי ההתנהגות שלו באמצעות כלי ניתוח חריגות בסדרות זמן (Time Series Anomaly Detection).

גם בתוך החומרים הטקסטואליים ה"קלאסיים" - עברנו להטמיע שיטות מודרניות מעולם ה-NLP לחילוץ תובנות ודפוסים מתוך קבוצות של ידיעות, שלא דורשות מעבר ידני על פריטי מידע בודדים: סיווג (Classification) ואישכול (Clustering) של נושאים, חילוץ ישויות (Named Entity Recognition) ניתוח סנטימנט (Sentiment Analysis) ועוד.

על מנת להנגיש לכלל המשתמשים את הכלים הללו, נעשתה עבודת עומק לזיהוי תהליכי העבודה הנפוצים והמשמעותיים ביותר בצוותים (מכונים "טיפיקלים") וליצירת כלים ייעודיים עבור כל אחד מהם. הכלים "נעטפו" בצורה נוחה למשתמש וכל שעליו לעשות זה להריץ אותם עם נתונים בסיסיים עבור הקלט. מאחורי הקלעים, הוגדרו ה"חיווטים" הנכונים והלוגיקות המתקדמות ע"י קבוצת מומחים על גבי מגוון החומרים הרלוונטיים לשאלה.

כדי לוודא שימוש נכון בכלים והטמעה עמוקה של הקונספטים המתוארים לעיל, הוקם מערך הדרכות לכלל התפקידנים בצוותי החקירה בתחום ה-Data Analysis. כמו כן, על מנת לוודא שבכל צוות חקירה יהיה מומחה לתחום ה-Data Analysis - הוחלט לייצר תפקידן חדש במרכז - החק"מ (חוקר המידע).

החק"מ מאותר ומוכשר מיומו הראשון ביחידה כמומחה לניתוח מידע. הוא רוכש כלים ומתודולוגיות מתקדמות מעולם ה-Data Analysis במגוון עולמות תוכן: תשאול נתוני עתק (Big Data), עיבוד והכנת מידע (Data Preparation), ויזואליזציה של מידע, ניתוח רשתות חברתיות (SNA), ניתוח גיאו-מרחבי (Geo-Spatial Analysis) ועוד.

על מנת לתמוך את כלל התהליכים המתוארים לעיל, הוקמו במרכז "מדורי דאטה" שהכילו צוותיים ייעודיים למלאכת אוֹצְרוּת מידע (Data Curation): הצוותים מאתרים, מעבדים, מאבחנים ומנגישים את מגוון מאגרי המידע הרלוונטיים לשאלות המודיעיניות בצורה הנוחה ביותר לצריכה.

עבור אוצרי המידע נבנו כלים תומכים לאוצרי המידע שמאפשרים להם לבצע כל שלב בתהליך בצורה עצמאית (Self Service), תוך תמיכה תשתיתית של מהנדסי מידע (Data Engineers) מהמרכזים הטכנולוגיים העמיתים.

בצורה זו, יכולים התפקידנים החדשים לעבד ולמדל מידע מסוגים שונים באופן עצמאי במימדים עצומים תוך שימוש באנליטיקות ובכלים שנבנו ע"י מומחים.

כיום, לאור כניסת התכנים לכלל תכני ההכשרה במרכז, הקמת התארגנויות ה-Data Curation וכניסתו של החק"מ אל צוות החקירה - אנו מנצלים מדי יום מגוון רחב יותר של חומרים ומאתרים דפוסים חבויים בעלי ערך רב באמצעות ניתוח נתוני עתק ושימוש בכלי אנליטיקה וויזואליזציה מתקדמים.


וקטור #3: שימוש באלגוריתמי למידת מכונה

פרט חשוב שלעיתים נעלם מעיניהם של רבים הוא שגם בעת השימוש באנליטיקות מתקדמות על כמות אדירה של חומרים - האנליסט צריך לקבל החלטות כל הזמן: על אילו מאגרים לשלוף, מהן ההתניות של השאילתא, אילו עיבודים וחישובים צריך לבצע, כיצד לסנן את רשימת התשובות וכן הלאה.

הרבה מההחלטות האלה מתקבלות על בסיס אינטואיציה ו"כללי אצבע", דבר שלרוב מבטיח תוצאות לא-אופטימליות. לצד הפרדיגמה של ניתוח מפורש של מידע התפתחה פרדיגמה אחרת שצמחה בצורה דרמטית בשנים האחרונות: ניתוח מידע באמצעות אינטראקציית אדם-מכונה.

בפרדיגמת אדם-מכונה, המשתמש מחליף את הגדרת סט החוקים שלו במתן דוגמאות ומשוב אינטראקטיבי עם מכונה.
לדוגמא, במקום להגדיר את סט ההתניות שיאחזרו אובייקטים שקשורים לחוליית טרור - המשתמש מזין דוגמאות לאובייקטים מוכרים המשתייכים לחוליות טרור ומקבל בחזרה המלצות לאובייקטים שהתנהגו בצורה דומה להן. בעת קבלת ההמלצות, המשתמש יכול למשב את המכונה ולשפר את התוצאות בצורה איטרטיבית.

ההבדל בין הגדרת חוקים מפורשים בצורה ידנית לבין למידה של החוקים על בסיס דוגמאות הוא עצום. במצב הראשון, נדרש המומחה לייצר סט חוקים לכל בעיה מחדש ולתחזק אותם לאורך זמן בצורה ידנית. בתרחיש של למידת מכונה, בהינתן שנבנתה מערכת לטובת המשימה, אפשר לבצע את הפעולה "בקליק" ע"י משתמשים פשוטים באמצעות הזנת דוגמאות רלוונטיות לבעיה ולקבל בחזרה תוצאה שצפויה להיות מדויקת יותר מהעבודה הידנית של רוב המומחים. פרדיגמה זו מאפשרת לנו לגדול (Scale Up) ולתת מענה איכותי יותר למגוון תרחישים.

כאשר ניגשנו לזהות את האזורים שיכולים להרוויח הכי הרבה ממוצרים מהסוג הזה, עלו עשרות רבות של תרחישים, לכאורה שונים, בהם ניתן להשתמש במכונה כדי לשפר את התפקוד האנושי.
לאחר העמקה, גילינו משהו מעניין ביותר: כל עשרות התרחישים והפרויקטים הרצויים נכנסים בצורה מאוד טבעית ל-7 אשכולות. אותם תרחישים היו בעצם דוגמאות למופעים ספציפיים של אותם 7 "ארכיטיפים" של תהליכים עסקיים.

למרות השונות בין התרחישים השונים, רב הדומה על השונה. לאור זאת, החלטנו למקד את המאמצים בבניית מענים גנריים שישרתו מגוון רחב של תרחישים מאותו עולם בעיה. בהתאם, נחוץ היה למפות לעומק את התהליכים העסקיים העיקריים ולאתר צמתים מרכזיות בהן רכיבי למידת מכונה יאפשרו שינוי של ממש. גישה זו שונה במהות מהגישה שטוענת שיש צורך לייצר עבור כל תרחיש ספציפי פרויקט או מוצר Data Science משלו.

ההחלטה הנ"ל נבעה גם מתוך ההבנה שקיים קושי גדול לייצר ולתחזק פרויקטי Data Science רלוונטיים לאורך זמן. מתוך ההבנה הזו, החלטנו למפות את הסיבות לכך ולייצר את התנאים שיאפשרו הצלחה בפרויקטים האלה בטווח הזמן הנראה לעין ולאורך שנים.

לאחר התבוננות בתובנות מהעולם העסקי, בדגש על חומרים של חברת הייעוץ McKinsey & Co. חזרה ועלתה הטענה שרכיב מרכזי בהצלחה של פרויקט מבוסס Machine Learning הוא הימצאות גורם שמתמחה בעולם התוכן בצוות הפרויקט. לאור ההבנה הזו, הקמנו פונקציה נוספת במרכז: מומחה תוכן ל-Data Science.

מומחה התוכן אחראי על הגדרת הבעיה העסקית במונחים של בעיית אופטימיזיציה בעולם ה-ML, הגדרת המדדים העסקים (KPI), אכוונת איסוף המידע המתויג, ניתוח שגיאות (Error Analysis) ועיצוב והדרישות למוצר הרצוי.

מומחי התוכן ל-DS משולבים בצורה אינטימית עם צוותי ה-Data Science במרכזים הטכנולוגיים במטרה לייצר פתרונות מדויקים מבחינה מתודולוגית, טכנולוגית ומודיעינית. הם מגיעים מבסיסי ההפקה של היחידה ועוברים הכשרה ייעודית בתחום ה-ML בשפה שמותאמת לתפקידנים ללא תואר במדעים מדוייקים.

במסגרת הכשרתם, לומדים מומחי התוכן כיצד לאפיין בצורה מושכלת מוצרי DS מהגדרת הצורך ועד הפריסה וההטמעה במערכות. בפרט, הם לומדים לצייר את תהליך העבודה המודיעיני מתחילתו ועד סופו, על כל רבדיו השונים, ולאתר את הרכיבים שניתן ורצוי להחליף אותם עם מודלים לומדים. בנוסף, הם לומדים כיצד ניתן לייצר אינטראקציה נוחה בין אדם למכונה בצורה ברת-פרשנות (Explainable) למשתמש לטובת קבלת החלטות אחראית.

ההחלטה לייצר אוכלוסיה ייעודית שמטרתה לעצב ולייצר מוצרי Data Science מייצרת מעין פירמידה של תפקידים, כך שרק מעט מהם עוסקים בבניית המוצרים עצמם ושאר התפקידנים לומדים כיצד להשתמש במוצרים הללו בצורה אחראית ומדויקת ביחס למשימות המודיעיניות השונות.

סיכום תהליך ההשתנות

לצד הרבולוציה המתוארת כאן, קיים אתגר גדול באבולוציה המייצרת השתנות. אבולוציה זו הינה איום והזדמנות לתהליך כולו. כך, אנו עסוקים בהסבה של תפקידנים קיימים ובמינוף מומחיות לטובת רשת ערך חדשה המשלבת אדם-מכונה וזאת לצד פיתוח התפקידנים החדשים והשיטות החדשות. בהתאם אנו נעזרים בכלים מעולם ניהול השינויים האסטרטגיים (Leading Strategic Change) להתמודדות עם התנגדויות לתהליך, למשל בקרב אנליסטים אשר במשך שנים פיתחו מומחיות  להיות הטובים בתחומם וכן לטובת יצירת האמון במכונה (confidence). המבחן במרכז שלנו לאור גודל מכלוליו, מורכבותם ומגוון עולמות הבעיה עימם אנו מתמודדים, הינו אחד: השתנות שתאיץ מלמטה למעלה (bottom-up). תפיסה זו הניעה מספר פרקטיקות מרכזיות: מיסוד והעצמה של פונקציות בניין כוח (שעניינם Data Science ופרודקט) בכל מכלול ותפקידם להטמיע את ההשתנות עד לקצוות ולאפשר תהליך דינמי של רעיונות חדשים ומוצרי דאטא להעצמת התפקידנים והצרכנים; לעודד תרבות מבצעית חדשה ובדגש על גישה המאפשרת טעויות (גישה המתכתבת עם המוקפדות המקצועית המאפיינת את עבודת המרכז); וכמובן לעודד תרבות ארגונית חדשה, למשל, העברת כובד המשקל בהוקרה בטקסים שהינם חלק ממסורות המצוינות של המרכז לפרויקטים שהוכיחו ערך חדש, לאתר סוכני שינוי ובעיקר לחגוג ניצחונות קטנים שמתחילים לייצר השפעה על היחידה כולה. 

השתנות אופי המרכז

מעבר לשינויים בטכנולוגיות, במוצרים ובתפקידנים השונים, על מנת לסמל באופן עמוק את ההשתנות - גם ייעוד המרכז הותאם לאופי המודרני שלו:

"המרכז מעבד ומפיק מידע על בסיס מומחיות במחקר חתימות דיגיטליות ובשפה. המרכז מעצב, מפתח ומפעיל יכולות Data Analytics מתקדמות, מכווין מאמצי סייבר לצרכי המודיעין ומכונן שותפות מבצעית עם המפקדות להפעלת כוח".

הייעוד החדש מגלם בתוכו שינוי יסודי בליבות המרכז:
1. ממרכז "הפקה" למרכז לעיבוד ולניתוח מידע
2. ממפעל מבוסס על יכולות אנושיות למפעל מבוסס אינטראקציית אדם-מכונה
3. ממרכז המורכב בעיקר מאוכלוסייה הומנית למרכז עם יכולות אנליטיות-טכנולוגיות

מבט קדימה

במאמר זה הצגנו את אבני הדרך והתובנות המהותיות שלמדנו לאורך הדרך במסגרת טרנספורמציית ה-AI של המרכז לעיבוד ולניתוח מידע ב-8200. מבחינתנו, לא מדובר בשיפור מינורי בעבודת המרכז, אלא בהשתנות דרמטית - קפיצה לא-לינארית ביעילות, באפקטיביות וביכולת שלנו לתת מענה לשאלות מודיעיניות מורכבות.

המבחן של הטרנספורמציה, כמו כל תהליך שפוגש את המרכז לעיבוד וניתוח מידע, הינו באופן בו השותפים המחקריים והמבצעיים יפיקו ממנו תועלת. מידע לבדו לא משנה את המציאות, לא מבלי שיעובד למסקנות ותובנות, ולא מבלי שיתבצעו פעולות שונות לאורו. ההשתנות המתוארת מאפשרת לנו לזהות ולייצר ערך חדש בקהילת המודיעין: מוצרים אינטראקטיביים מבוססי דאטה, הנגשה של מידע בשירות עצמי (Self Service), מתן שירותי תיוג לחומרים ועוד. השירותים החדשים והעלייה בנפח ובקצב התוצרים הקיימים שמספק המרכז מחייבים מיומנויות חדשות בקרב האנליסטים המחקריים והאופרטיביים, כך שיוכלו לייצר תפוקות המבוססות על היתוך של מידע רב ויעמדו במשימותיהם המגוונות. נושא זה מקפל בתוכו אומנות חדשה ומהווה אתגר לשנים הקרובות. מדובר בפוטנציאל אדיר עבור קהילת המודיעין, אך גם בסיכון משמעותי שמחייב צימודיות גבוהה בין המרכז לבין צרכניו.

לבסוף, למהלך זה יש השפעה דרמטית על התרומה של המרכז לתעשייה הישראלית. כבר היום, מדי שנה משתחררים מהמרכז מאות חיילים שנכנסים לתפקידי מפתח כ-Data Analysts ומומחים בעיצוב ובאכוונת מוצרים מבוססי Data Science לטובת קבלת החלטות בארגונים. בכך מתחזקת גם מהפיכת ה-AI במדינת ישראל.

התהליך עוד לא השולם וסביר שידרוש שנים רבות של השקעה וקבלת החלטות מושכלות. לצד זאת, אנו מרגישים שהגענו לרמת בשלות גבוהה בהבנת העקרונות המנחים בבסיס התהליך ובשלבים הנדרשים ליישומו. לאור כך, אנו מאמינים שכל ארגון עם מידע, משאבים ורצון להשתנות - יכול לשאוב השראה מהתהליך שתואר במאמר ומהתובנות שגילינו לאורך הדרך.