חפש בבלוג זה

יום חמישי, 13 באוקטובר 2022

חיפוש סמנטי : תמונת מצב : אוקטובר 2022


בסקירה :

·        

  • ·       הסבר מהו חיפוש סמנטי
  • ·       מנוע החיפוש הסמנטי הראשון פותח ע"י פרופסור אורן עציוני
  • ·       התנסות במנוע החיפוש הסמנטי Semantic  Scholar ומסקנות
  • ·       חברות סטארט -אפ  ישראליות שמפתחות כלים לחיפוש סמנטי
  • ·       התפתחות החיפוש הסמנטי במנוע החיפוש של גוגל
  • ·       חיפוש סמנטי מנקודת מבט מידענית
 



מה זה חיפוש סמנטי?

המילה סמנטי מתייחסת למהות ולמשמעות של משהו. בהקשר של החיפוש, סמנטיקה מתייחסת למחקר המילה והמשפט, וההיגיון מאחוריהם. חיפוש סמנטי מכוון לשיפור המענה על שאלות הגולשים בהתייחס למשמעות ולכוונה האמיתית מאחורי השאלות שלנו, באמצעות משמעות קונטקסטואלית. בעזרת מילים נרדפות, התאמות קונספטואליות ואלגוריתמים טבעיים מהשפה, מנוע החיפוש שואף להציג לנו תשובות אינטראקטיביות ומגוונות, והופך מידע מובנה, ומידע פשוט, למסד נתונים אינטואיטיבי ומותאם.

 חיפוש סמנטי מכוון להבין את הכוונה של הגולש בשאלתו, ולהגיש תשובות מותאמות אישית. גרף הידע והמידע של גוגל מובנה לצבור מיומנות גבוהה בחיפוש הסמנטי.

אחת הדרכים שחיפוש סמנטי עוזר לגוגל להשתפר היא באמצעות זיהוי ונטרול תוכן לא איכותי. טכניקות דוגמת ספינרים של מאמרים, והכנסת כמות מוגזמת של מילות מפתח כבר מזמן לא עושות את העבודה ומזוהות בקלות על ידי מערכות מתקדמות, אשר פועלות על פי עקרונות זיהוי הפעולות הללו ונטרול התוכן בהתאם.

זה גם אומר שמנוע החיפוש לומד אילו מילים עשויות להופיע יחד באותו עמוד באופן סטטיסטי, וכך יוצר קורלציות סמנטיות, מה שעוזר לו גם בלחימה נגד הספאם.

בעזרת חיפוש המבדיל ומתייחס בהתאם בין ישויות או אנשים לבין ייחוסים, מילות קישור ותיאורים, גוגל יכולה להבין יותר טוב מה הגולש שלה מחפש לדעת.

מקור

 


 חיפוש סמנטי , פריצת הדרך של פרופסור אורן עציוני

מנוע החיפוש החדשני של פרופסור אורן עציוני השוהה בארה"ב כבר שנים ונחשב בעולם מגדולי המומחים לאיחזור מידע ולמנועי חיפוש.

"ב- 2 בנובמבר 2015  הושק מנוע החיפוש המדעי Semantic Scholar של  Allen Institute  for Artificial Intelligence  שב. Seattle. מדען המחשב פרוופסור אורן עציוני בעל היסטוריה מרשימה בתחום כלי החיפוש עומד מאחורי המנוע .

מנוע החיפוש קורא, מתמצת ומסווג ממצאים מ-2 מיליון מאמרים מדעיים שמתפרסמים מדי שנה. למעלה ממחצית מסמכים אלה מעולם לא נקראו על ידי יותר מ- 3 אנשים. המערכת סורקת מאמרים מדעיים  בווב  , מזהה ציטוטים והפניות  בטקסט  וממפתחת את הסטים של  הנתונים ושיטות המחקר שבהם נעשה שימוש.

 

קישור ישיר למנוע החיפוש

 

לסקירה המלאה בעברית

 

 

מאפייני  Semantic Scholar

 צורת החיפוש של סמנטיק סקולר שונה ממנועי חיפוש אחרים ומבוססת על בינה מלאכותיתבשיטה זו מנוע החיפוש כמו "מבין" את המאמר, ודולה ממנו את מילות המפתח מבלי להיות תלוי במלים שהגדירו המחבר או המו"ל. הוא גם מסוגל למשל להבין מי מבין המאמרים המצוטטים במאמר היו חשובים למאמר, ומי צוטטו לצורך רקע בלבד.

מקור וקרדיט : המידענית טל קמינסקי רוזנברג

למאמר המלא בבלוג של טל קמינסקי רוזנברג

 

הערות הנסיין :

 בדקתי את מנוע החיפוש הסמנטי (בשבועיים האחרונים) ומצאתי כי הוא יעיל מאד לחיפושים אקדמאיים , בעיקר לראיית הרשת הסמנאטית של משפטי מפתח הקשורה מעבר לניתוח הטקסטואלי .


  

חברת סטארט-אפ הישראלית Pinecone


הסטארטאפ הישראלי Pinecone, שהוקם על ידי יוצאי אמזון, מפתח את מה שהוא מכנה מסד הנתונים הוקטורי הראשון בעולם, שמיועד ספציפית עבור חיפוש סמנטי. "מפתחים רוצים לשפר את אפליקציות החיפוש שלהם על ידי שימוש בחידושים האחרונים בתחום הבינה המלאכותית ולמידת מכונה (AI/ML), שבבסיסם עומדים וקטורים – אלו יצוגים שמכילים בתוכם את המשמעות של התוכן המקורי, כך שמתקבלות תוצאות חיפוש יותר מדויקות ורלוונטיות", מסביר בשיחה עם גיקטיים מנכ"ל החברה ואחד מהמייסדים עידו ליברטי.

לדבריו, חיפוש באוסף של וקטורים מצריך תשתית ענן ואלגוריתמיקה של אינדוקס שהם שונים לחלוטין ממה שקיים היום בשוק, ושפותחו לפני למעלה מעשור. הפלטפורמה של פיינקון כוללת תשתית ויכולות אינדוקס ייעודיים לבינה מלאכותית, המגיעה עם שירות מנוהל עבור לקוחות החברה – כך שכל מה שנותר להם לעשות זה להתחבר ל-API.

לכתבה המלאה

  

חיפוש סמנטי במנוע החיפוש של גוגל

עדכון Hummingbird היה אות ההתחלה של האבולוציה של גוגל למנוע חיפוש סמנטי.

זה היה השינוי הגדול ביותר בעיבוד שאילתת החיפוש ובדירוג שגוגל ביצעה אי פעם, והשפיע על למעלה מ-90% מכל החיפושים כבר בשנת 2013. Hummingbird החליף ביסודו חלק ניכר מאלגוריתמי הדירוג הקיימים.

באמצעות Hummingbird, גוגל יכלה מיד לכלול ישויות שנרשמו ב- Knowledge Graph לעיבוד שאילתות, דירוג והפלט של SERPs.

מקור :

Google’s road to becoming a semantic search engine

 

ב2016  החלו אנשי הפיתוח של גוגל לעבוד על שילוב מאפייני חיפוש סמנטי  מעמיקים יותר במנוע החיפוש שלהם

ב2019  הופיע עדכון חדש לאלגוריתם החיפוש שלה, שנועד לשפר את ההבנה והפענוח של שאילתות במנוע החיפוש. בחברה מגדירים זאת כ"זינוק הגדול ביותר קדימה" בתחום החיפוש המקוון בחמש השנים האחרונות, ואף כאחד מהזינוקים קדימה הגדולים ביותר בהיסטוריה של החיפוש המקוון כולו.

בפוסט שפירסמה גוגל, הוסבר כי הטכנולוגיה החדשה מכונה BERT, והיא טכניקה חדשה לעיבוד שפה טבעית המשמשת בעיקר ליכולת להבין טוב יותר את כוונתו של הגולש שהקליד את מונח החיפוש. מדובר במודלים ממוחשבים שמעבדים מלים ביחס למלים האחרות שבאות לפניהן ואחריהן במשפט – מה שמאפשר להתייחס לשאילתות כמשפטים שלמים בעלי משמעות ולא סתם כאסופת מילים בודדות.

בפועל, גוגל מסוגלת  כיום להבין טוב יותר מונחי חיפוש ללא קשר לצורת הניסוח שלהם. בכך, בין השאר, גוגל מנסה להתמודד טוב יותר עם התופעה שבה  אנשים מחפשים במנוע החיפוש שלה באמצעות רצף של מלים, ולא בהכרח מנסחים משפטים ושאלות בשפה טבעית.

 

מהו עדכון MUM של גוגל?

 


המונח MUM הוא קיצור של Multitask Unified Model – מודל ריבוי משימות מאוחד. זוהי טכנולוגיה חדשה שגוגל הציגה לראשונה במאי 2021. מודל MUM עובד עם בינה מלאכותית וכלים להבנה ועיבוד של שפה טבעית והוא עונה על שאילתות חיפוש מורכבות עם נתונים המושגים בכמה אופנים.

מודל MUM עובד ברוב השפות והוא מעבד מידע בפורמטים שונים של מדיה כדי לספק מענה איכותי ומדויק יותר לשאילתות חיפוש. בנוסף לטקסט, MUM גם מבין תמונות, וידאו וקבצי אודיו. המטרה המעשית של העדכון היא לספק תשובות מדויקות ואיכותיות יותר לשאילתות חיפוש של משתמשים, תוך כדי שמנוע החיפוש מבין טוב יותר מה בפועל כל משתמש מחפש ורוצה לדעת.

 כיצד עדכון גוגל MUM עובד?

לפי גוגל, עדכון MUM מהווה אבולוציה ההופכת את מנוע החיפוש לחזק יותר באופן מובהק לעומת העדכון הגדול האחרון. MUM לוקח את היישום של הבנה ועיבוד של שפה טבעית וסמנטיקה לרמה הבאה לעומת מה שהיה קיים עד להשקה שלו.

עדכון MUM משלב כמה טכנולוגיות למודל עבודה אחד כדי להפוך חיפושי גוגל לעוד יותר מבוססי סמנטיקה והקשר (קונטקסט) ולשפר את חוויית המשתמש. עם MUM, גוגל רוצה לענות על שאילתות חיפוש מורכבות שעבורן מקטע נורמלי של עמוד תוצאות החיפוש אינו מספיק – כך לתת למשתמש תשובה בחיפוש אחד במקום ביצוע כמה חיפושים כדי לדייק את החיפוש.

המשמעות האופרטיבית של עדכון MUM הוא:

 

  • גוגל משתמשת ב-MUM כדי להרחיב עוד יותר את בסיס הנתונים הסמנטי, כגון "גרף הידע" וכדי להתקדם עוד יותר לעבר המטרה של בסיס נתונים שלם לכל הידע הקיים ברשת.

 

  • עם השקת MUM גוגל שואפת להפוך את החיפוש הבינלאומי והרב שפתי לטוב יותר וליצור אחידות משופרת מבחינה כמותית ואיכותית לגבי מדדי ותוצאות חיפוש.

 מקור וקרדיט (קישור)


 חיפוש סמנטי מנקודת מבט מידענית

למשתמש רגיל, שאינו בקי בתורת איחזור המידע,  הטכנולוגיה הסמנטית החדשה של גוגל עשויה בהחלט לעזור , אבל מידענים מפרקים מראש את השאילתא למילות חיפוש עם חיבורים לוגיים שהם מציבים בעצמם ולוגיקה בוליאנית , ולכן  מבחינתם הטכנולוגיה החדשה של גוגל תביא פחות תועלת.

הטכנולוגיה המקבילה של BERT כבר נוסתה עקרונית  בעבר במנוע החיפוש BING  של מיקרוסופט ולא גרמה שם לפריצת דרך. נקווה שגוגל ימשיכו לשפר את האלגוריתם החדש

 


אין תגובות:

הוסף רשומת תגובה

עיתונאים לעומת בלוגרים כמקור מידע מחקרי

    מי הוא כיום בציבור עיתונאי טוב ? כיום,  עיתונאי טוב ומעניין כיום הוא בראש ובראשונה עיתונאי שיש לו מקורות שמדליפים לו (בדרך כלל מתוך ...