Big Data וניתוח סמנטי

ניתוח סמנטי זו אחת הטכנולוגיות המתקדמות של text analytics.

 

לצורך הדגמה תמציתית, לקחנו כתבה מאתר חדשות ה BBC, בנושא השחיתויות בארגון פיפ"א והעברנו אותו ניתוח סמנטי.

 

מטרת הניתוח היא לאתר מושגים, קשרים בין מושגים, והצפת תובנות משמעותיות.

 

חשוב להבין שברקע לא מנוהל אף מילון – הכל מבוסס על רשת סמנטית ענקית ומוגדרת של השפה האנגלית.

תחילה – רשימת הנושאים המצויינים בכתבה:

בדוגמה ספציפית זו, הניתוח התבסס רק על domain של מודיעין וקרימינולגיה.

מיידית הוכרו מושגים כמו "שוחד", "שחיתות", "פשע" וגם ביטויים מורכבים יותר כמו "הלבנת הון".

כל מושג שכזה, מפנה לקטע הרלוונטי בכתבה, גם אם הוא נכתב שם בסגנון שונה מהביטוי עצמו.

 

למשל "ריגול וביון"

או למשל "הלבנת הון"

תחת קטגוריה של "משרדי ממשלה" הניתוח איתר קטע רלוונטי, היות ומשרד המשפטים הוזכר בו

ודוגמה נוספת - המתעניין בנעשה בשוויץ, יקבל את המסמך רק בגלל שהעיר ציריך הוזכרה בו.

המערכת עשתה tagging חכם. שימו לב ל אדון Sepp Blatter:

 

המערכת איתרה אותו גם כאשר שמו נכתב בקיצור (פשיטא) וגם כאשר ההתיחסות אליו היא בצורה עקיפה של גוף שלישי (!).

 

ואגב האדון, יש למערכת יש לא מעט מידע עליו, וכן ניתוח של קשריו במאמר עם ישויות אחרות.

בנוסף המערכת מנסה לעשות ניתוח סנטימנטים, ע"י הערכת תחושות ו"הלך רוח" (או משפטים טעונים רגשית):

 

 

אלו Use cases יכולים להיות לטכנולוגיה זו:

 

  • ארגונים המנטרים ידיעות על הלבנת הון

  • ארגונים שעוקבים אחרי מה שקורה בשוויץ

  • עתונאים שעוקבים אחרי אנשי ציבור, ועל הקשרים ביניהם.

  • הצפת קשר (שאולי לא היה ידוע קודם) בין פיפא ובין הלבנת הון.

 

בואו ניקח את זה לשווקים אחרים:

 

  • הצפה של קשרים (אפילו שאינם ידועים מראש) בין מחלות (או תופעות רפואיות) למחלות או תרופות.

  • הצפה של קשרים בין חברות (או בין חברות לאנשי כספים).

  • מהן תחושות הציבור (או התקשורת) כלפי חברה, מוצר או שירות

 

ועוד ועוד.