בסקירה :
·
- · הסבר מהו חיפוש סמנטי
- · מנוע החיפוש הסמנטי הראשון פותח ע"י פרופסור אורן עציוני
- · התנסות במנוע החיפוש הסמנטי Semantic Scholar ומסקנות
- · חברות סטארט -אפ ישראליות שמפתחות כלים לחיפוש סמנטי
- · התפתחות החיפוש הסמנטי במנוע החיפוש של גוגל
- · חיפוש סמנטי מנקודת מבט מידענית
מה זה חיפוש סמנטי?
המילה סמנטי
מתייחסת למהות ולמשמעות של משהו. בהקשר של החיפוש, סמנטיקה מתייחסת למחקר המילה
והמשפט, וההיגיון מאחוריהם. חיפוש סמנטי מכוון לשיפור המענה על שאלות הגולשים
בהתייחס למשמעות ולכוונה האמיתית מאחורי השאלות שלנו, באמצעות משמעות
קונטקסטואלית. בעזרת מילים נרדפות, התאמות קונספטואליות ואלגוריתמים טבעיים מהשפה,
מנוע החיפוש שואף להציג לנו תשובות אינטראקטיביות ומגוונות, והופך מידע מובנה,
ומידע פשוט, למסד נתונים אינטואיטיבי ומותאם.
חיפוש סמנטי מכוון להבין את הכוונה של הגולש
בשאלתו, ולהגיש תשובות מותאמות אישית. גרף הידע והמידע של גוגל מובנה לצבור
מיומנות גבוהה בחיפוש הסמנטי.
אחת
הדרכים שחיפוש סמנטי עוזר לגוגל להשתפר היא באמצעות זיהוי ונטרול תוכן לא איכותי.
טכניקות דוגמת ספינרים של מאמרים, והכנסת כמות מוגזמת של מילות מפתח כבר מזמן לא
עושות את העבודה ומזוהות בקלות על ידי מערכות מתקדמות, אשר פועלות על פי עקרונות
זיהוי הפעולות הללו ונטרול התוכן בהתאם.
זה
גם אומר שמנוע החיפוש לומד אילו מילים עשויות להופיע יחד באותו עמוד באופן
סטטיסטי, וכך יוצר קורלציות סמנטיות, מה שעוזר לו גם בלחימה נגד הספאם.
בעזרת
חיפוש המבדיל ומתייחס בהתאם בין ישויות או אנשים לבין ייחוסים, מילות קישור
ותיאורים, גוגל יכולה להבין יותר טוב מה הגולש שלה מחפש לדעת.
חיפוש
סמנטי , פריצת הדרך של פרופסור אורן עציוני
מנוע
החיפוש החדשני של פרופסור אורן עציוני השוהה בארה"ב כבר שנים ונחשב בעולם
מגדולי המומחים לאיחזור מידע ולמנועי חיפוש.
"ב- 2 בנובמבר 2015 הושק מנוע החיפוש
המדעי Semantic Scholar של Allen Institute for Artificial Intelligence שב. Seattle. מדען המחשב פרוופסור אורן עציוני
בעל היסטוריה מרשימה בתחום כלי החיפוש עומד מאחורי המנוע .
מנוע החיפוש קורא, מתמצת ומסווג ממצאים מ-2 מיליון מאמרים מדעיים
שמתפרסמים מדי שנה. למעלה ממחצית מסמכים אלה מעולם לא נקראו על ידי יותר מ- 3
אנשים. המערכת סורקת מאמרים מדעיים בווב , מזהה ציטוטים
והפניות בטקסט וממפתחת את הסטים של הנתונים ושיטות המחקר
שבהם נעשה שימוש.
מאפייני Semantic Scholar
מקור
וקרדיט : המידענית טל קמינסקי רוזנברג
למאמר
המלא בבלוג של טל קמינסקי רוזנברג
הערות
הנסיין :
חברת
סטארט-אפ הישראלית Pinecone
הסטארטאפ הישראלי Pinecone, שהוקם על
ידי יוצאי אמזון, מפתח את מה שהוא מכנה מסד הנתונים הוקטורי הראשון בעולם, שמיועד
ספציפית עבור חיפוש סמנטי. "מפתחים רוצים לשפר את אפליקציות החיפוש שלהם
על ידי שימוש בחידושים האחרונים בתחום הבינה המלאכותית ולמידת מכונה (AI/ML), שבבסיסם עומדים וקטורים – אלו
יצוגים שמכילים בתוכם את המשמעות של התוכן המקורי, כך שמתקבלות תוצאות חיפוש יותר
מדויקות ורלוונטיות", מסביר בשיחה עם גיקטיים מנכ"ל החברה ואחד
מהמייסדים עידו ליברטי.
לדבריו, חיפוש באוסף של וקטורים מצריך תשתית ענן ואלגוריתמיקה של
אינדוקס שהם שונים לחלוטין ממה שקיים היום בשוק, ושפותחו לפני למעלה מעשור.
הפלטפורמה של פיינקון כוללת תשתית ויכולות אינדוקס ייעודיים לבינה מלאכותית,
המגיעה עם שירות מנוהל עבור לקוחות החברה – כך שכל מה שנותר להם לעשות זה להתחבר
ל-API.
חיפוש סמנטי במנוע החיפוש של
גוגל
עדכון
Hummingbird היה אות ההתחלה של האבולוציה
של גוגל למנוע חיפוש סמנטי.
זה
היה השינוי הגדול ביותר בעיבוד שאילתת החיפוש ובדירוג שגוגל ביצעה אי פעם, והשפיע
על למעלה מ-90% מכל החיפושים כבר בשנת 2013. Hummingbird החליף ביסודו חלק ניכר מאלגוריתמי הדירוג הקיימים.
באמצעות
Hummingbird, גוגל יכלה מיד לכלול ישויות שנרשמו ב- Knowledge
Graph לעיבוד שאילתות, דירוג והפלט של SERPs.
מקור
:
Google’s road to becoming a semantic search engine
ב2016 החלו אנשי הפיתוח של
גוגל לעבוד על שילוב מאפייני חיפוש סמנטי מעמיקים יותר במנוע החיפוש שלהם
ב2019 הופיע עדכון חדש לאלגוריתם החיפוש שלה, שנועד לשפר
את ההבנה והפענוח של שאילתות במנוע החיפוש. בחברה מגדירים זאת כ"זינוק הגדול
ביותר קדימה" בתחום החיפוש המקוון בחמש השנים האחרונות, ואף כאחד מהזינוקים
קדימה הגדולים ביותר בהיסטוריה של החיפוש המקוון כולו.
בפוסט שפירסמה גוגל, הוסבר
כי הטכנולוגיה החדשה מכונה BERT, והיא טכניקה חדשה
לעיבוד שפה טבעית המשמשת בעיקר ליכולת להבין טוב יותר את כוונתו של הגולש שהקליד
את מונח החיפוש. מדובר במודלים ממוחשבים שמעבדים מלים ביחס למלים האחרות שבאות
לפניהן ואחריהן במשפט – מה שמאפשר להתייחס לשאילתות כמשפטים שלמים בעלי משמעות ולא
סתם כאסופת מילים בודדות.
בפועל,
גוגל מסוגלת כיום להבין טוב יותר מונחי
חיפוש ללא קשר לצורת הניסוח שלהם. בכך, בין השאר, גוגל מנסה להתמודד טוב יותר עם
התופעה שבה אנשים מחפשים במנוע החיפוש שלה באמצעות רצף של מלים, ולא
בהכרח מנסחים משפטים ושאלות בשפה טבעית.
מהו עדכון MUM של גוגל?
המונח MUM הוא
קיצור של Multitask Unified Model – מודל
ריבוי משימות מאוחד. זוהי טכנולוגיה חדשה שגוגל הציגה לראשונה במאי 2021. מודל MUM עובד עם בינה מלאכותית וכלים להבנה ועיבוד של
שפה טבעית והוא עונה על שאילתות חיפוש מורכבות עם נתונים המושגים בכמה אופנים.
מודל MUM עובד ברוב השפות והוא מעבד
מידע בפורמטים שונים של מדיה כדי לספק מענה איכותי ומדויק יותר לשאילתות חיפוש.
בנוסף לטקסט, MUM גם מבין
תמונות, וידאו וקבצי אודיו. המטרה המעשית של העדכון היא לספק תשובות מדויקות
ואיכותיות יותר לשאילתות חיפוש של משתמשים, תוך כדי שמנוע החיפוש מבין טוב יותר מה
בפועל כל משתמש מחפש ורוצה לדעת.
כיצד עדכון גוגל MUM עובד?
לפי גוגל, עדכון MUM מהווה אבולוציה ההופכת את
מנוע החיפוש לחזק יותר באופן מובהק לעומת העדכון הגדול האחרון. MUM לוקח את היישום של הבנה ועיבוד של שפה טבעית
וסמנטיקה לרמה הבאה לעומת מה שהיה קיים עד להשקה שלו.
עדכון MUM משלב כמה טכנולוגיות למודל
עבודה אחד כדי להפוך חיפושי גוגל לעוד יותר מבוססי סמנטיקה והקשר (קונטקסט) ולשפר
את חוויית המשתמש. עם MUM, גוגל רוצה
לענות על שאילתות חיפוש מורכבות שעבורן מקטע נורמלי של עמוד תוצאות החיפוש אינו
מספיק – כך לתת למשתמש תשובה בחיפוש אחד במקום ביצוע כמה חיפושים כדי לדייק את
החיפוש.
המשמעות האופרטיבית של עדכון MUM הוא:
- גוגל משתמשת ב-MUM
כדי להרחיב עוד יותר את בסיס הנתונים הסמנטי, כגון
"גרף הידע" וכדי להתקדם עוד יותר לעבר המטרה של בסיס נתונים שלם
לכל הידע הקיים ברשת.
- עם
השקת MUM גוגל שואפת להפוך את החיפוש הבינלאומי והרב שפתי לטוב יותר וליצור
אחידות משופרת מבחינה כמותית ואיכותית לגבי מדדי ותוצאות חיפוש.
למשתמש
רגיל, שאינו בקי בתורת איחזור המידע, הטכנולוגיה הסמנטית החדשה של גוגל
עשויה בהחלט לעזור , אבל מידענים מפרקים מראש את השאילתא למילות חיפוש עם חיבורים
לוגיים שהם מציבים בעצמם ולוגיקה בוליאנית , ולכן מבחינתם
הטכנולוגיה החדשה של גוגל תביא פחות תועלת.
הטכנולוגיה
המקבילה של BERT כבר נוסתה עקרונית בעבר במנוע החיפוש BING של
מיקרוסופט ולא גרמה שם לפריצת דרך. נקווה שגוגל ימשיכו לשפר את
האלגוריתם החדש
אין תגובות:
הוסף רשומת תגובה