Bigdata

Big Data וניתוח סנטימט - מ"קקפוניה רשתית" לתובנה עסקית

(socail media data minning and sentiment analysis)

אז כולנו יודעים שה buzzword ההיסטרי היום הוא big data.

כולנו כבר מבינים שהוא כאן, וכולנו היינו בכל הכנסים ומכירים את ההברקה של Volume, Velocity and Variety .

נדלג אם כך על שלב המבוא ומכירת הרעיון.

אחד היישומים היותר מעניינים של big data הוא ניתוח "מצב הרוח" ברשתות החברתיות. מצב הרוח הוא תרגום חופשי שלי למושג המקצועי של "sentiment analysis" שהוא בעצמו תת נושא בדיסציפלינה של text analytics.

במאמר זה לא אתייחס כלל לסוגיה המורכבת של אופן החיבור למדיה החברתית, שהיא בהחלט אתגר לא פשוט, ובפרט אם מבינים את מימד ה Volume של הרשתות , ואת מימד ה Variety. מקורות הידע השונים כל כך מציבים אתגר אדיר, כי אנחנו רוצים גם להתחבר לרשתות חברתיות שונות, גם לאתרי חדשות ולטוקבקים, גם לבלוגים, גם אולי למערכות פנימיות של שירות לקוחות ועוד ועוד.

אניח כאן שהצלחנו להתחבר, ויש לנו כעת מליוני מסמכי טקסט - בפורמט חופשי לחלוטין, בלתי מובנה בעליל, לא בהכרח בעבריתתקנית, עם סלנג דנימי ועוד ועוד - ואנחנו מנסים לנצל את היכולת של הבנת מצב הרוח לצורך קידום מטרותינו העסקיות.

אז במה דברים אמורים? דוגמה קטנה - אחת מיני רבות.

נניח שאנחנו חברה שיוצאת לשוק במבצע חדש. אנחנו "מתים" לדעת, ובמיידי, מה השוק חושב ואיך הוא מגיב –
למוצר, למחירו, לאיכותו, גם למיצובו מול מתחרים, לכוונות קניה של לקוחות וכד'.

הדרכים המסורתיות הן לבצע סקר שוק, לשלוח סקרים (בטכניקות שונות), לקיים קבוצות מיקוד וכד'.

- יקר, מסורבל, צורך זמן רב...

אמצעי נוסף, שלא ניתן בכלל להשוותו לדרכים הנ"ל, הוא נבירה עמוקה ברשתות החברתיות (social media data minning), על מנת לגלות – כמעט בזמן אמת – מה הציבור חושב בנושא.

אם נוכל לעשות זאת, היתרונות ברורים: אוטומטי, מהיר, אוכולוסיה ענקית ועוד.

אציין, שאמצעי זה, יש כמובן מגבלה עיקרית מעצם הבנת פלח האוכלוסיה שפעיל ברשתות החברתיות, אך נושא זה (שנחקר רבות בשנים האחרונות) אינו מענייני במאמר זה.

אז נניח שאנחנו חברת "אלפא" ויצאנו במבצע למוצר "ויקטורי". מתחרותינו הם החברות "ביתא" ו"גמא".

נניח שהצלחנו להביא למערכת את כל הודעות הפייסבוק, והטוויטר (שהוא הרבה פחות נפוץ בארץ) שבהם מופיעה המילה "ויקטורי".

נניח שהבאנו גם את כל הטוקבקים מהאתרים הנפוצים בארץ, וכן סקרנו את כל הבלוגים העיקריים.

ונניח גם שאספנו טקסט מתוך המערכת הפנימיות שלנו (CRM) ובהן תלונות וחוות דעת של לקוחות.

כל הודעה כזו היא "מסמך".

כעת יש לנו המוני מסמכים, כתובים בטקסט חופשי לגמרי, ואנחו מנסים להבין ממנו מה ה"ציבור" חושב. האם הוא אוהב את המוצר, האם הוא שווה נפש, שונא, מלגלג, מעדיף את המתחרים וכהנה וכהנה.

"ניתוח סנטימנט" (sentiment analysis) היא השיטה בעזרתה משקללים כל מסמך, ומעריכים את עמדתו של הכותב כלפי נושא מסוים.

היות ומדובר בשפה טבעית, הנשוא סבוך מעין כמוהו. נדרשת כאן הבנה טובה של מבנה משפט, מילות מפתח ומושגים.

האלגוריתם הנאיבי נראה פשוט:

ננהל מילון של מילות תואר, נסווג אותם לפי "חיובי" , "שלילי" ו"נייטראלי" , ונבדוק בכל מסמך אילו מילים הופיעו בהקשר למוצר שלנו "ויקטורי".

ניתן "חוזק" (נניח מספר בין 1 ל 5) לכל מילה, כך למשל "נהדר" (5), יהיה חזק יותר מאשר "טוב" (2), ו"על הפנים" (5-) יהיה יותר חזק מ"רע" (2-).

נחפש את מילות התואר בהקשר של מושג מבוקש, נספור את מילות התואר המיוחסות לו, נשקלל את החוזקים, ונקבל ציון אחד המייצג את הנטייה של כותב המסמך אל המושג.

שערו שנעשה כך למליוני מסמכים.

שערו שנוכל גם לשייך את הנטיות של הכותבים לאירועים על ציר הזמן (קמפיין שעשינו, כתבה עוינת בטליויזיה, שיווק של מוצר מתחרה),

שערו שנוכל אפילו לשייך זאת למקום גיאוגרפי של הכותב, לגילו, לתחום עיסוקו, וכהנה וכהנה.

האלגוריתם הזה הוא כמובן נאיבי עד כדי כאב, אך הוא בהחלט מדגים היטב את הרעיון. אלגורתימים מתוחכמים יותר, מעדנים ומשפרים אותו ויודעים להתמודד עם בעיות סבוכות ביותר של text analysis הנובעות מעצם טבעה של שפה טבעית, דינמית, ומתפתחת:

ניתוח אמירות על דרך השלילה, למשל "אם חשבתי שויקטורי הוא מוצר נהדר – טעיתי בענק. הוא לא".
סלנג שמתעדכן כל הזמן, למשל האמירה הסלנגית "חתיכת מוצר תותח" או "מוצר חבל על הזמן", היא אמירה שלילית או חיובית?...
ניתוח של Emotion Icons.
אמירות השוואתיות, למשל "מוצר בינוני ומשעמם, אבל ביחס למוצר של חברת ביתא, הוא פשוט פגז".

ניתוח ציניות או סרקזם הוא תת נושא מרתק מאד בניתוח סנטימנטים. כותבים רבים מגיבים בצורה מושחזת, צינית וארסית לפעמים, כך שזה אתגר אמיתי להבין מהי הנטיה האמיתית שלהם.
ראו למשל את הדוגמאות הבאות (שימו לב למילות התואר הנאיביות מול הכוונה האמיתית של הכותב):

"יש לטלפון הזה פונקציות מדהימות. חבל שהן לא עובדות"
(ביקורת ב amazon על ספר) "אהבתי את העטיפה"...
"כדאי לכם מאד לשמור את פתק ההחלפה".
"רעיון אדיר. מה דעתכם להתחיל ליישם אותו?"

ניתוח סנטימנטים הוא נושא סבוך, מאתגר ומרתק. קיימים מחקרים חדשניים רבים החוקרים אלגוריתמים שונים ומשונים. הנושא חי, בועט, נושם.

היישומים של הטכנולוגיה הזו מדהימים, ואנחנו היום רק מתחילים להבין את הפוטנציאל הגלום בו.

כדי לא להשאר ברמת התאוריתית בלבד, אראה לסיום דוגמה קטנה מניתוח סנטימנטי שערכתי באחד הכלים למאמר אחד בניו יורק טיימס שמתייחס לאייפון 6 של חברת אפל. בדוגמה זו, הכלי זיהה לבדו (!) את המונחים הרלוונטיים, ולכל אחד מהם נתן ציון המבטא את נטייתו של כותב המאמר אליו.

לקריאה נוספת

Aberdeen Group 2013

Big data and Content Analytic

הכלי זיהה באופן אוטומטי 10 מושגים בתוך הטקסט.

כל מושג תויג כ"חברה" (Apple),

"מוצר" (iPhone),

"מקום" (Europe),

"אישיות" (Steve Jobs),

"משרה" (chief executive)' וכד'.

לכל מושג ניתן ציון שמבטא את הנטיה - שלילי (אדום), או חיובי (ירוק) וכן משקל לביטוי "חוזק" הנטיה.