חפש בבלוג זה

יום שלישי, 1 במאי 2018

יעילות מנועי החיפוש הפנימיים באתרי העיתונים הישראליים ואתרי החדשות

מבוא
ניתן לראות באתר אינטרנט חדשותי בארץ ובעולם מאגר מידע עתיר ידע בלתי מובנה.
המידע אשר נצבר באתרי החדשות והעיתונות הישראליים כולל מאות אלפי פריטי מידע . ברוב המקרים , אנו מגיעים אליהם באמצעות חיפוש בגוגל . אבל מה קורה כאשר אנו רוצים למקד את החיפוש רק באתר האינטרנט המסויים כגון YNET או "וואלה" ?
מידענים מנוסים (רק שליש מהם כפי שבדקתי בזמנו ) ישתמשו בפונקציית החיפוש המתקדם של גוגל (ראו מאמר שלי) . אבל הציבור הרחב שאינו מכיר את החיפוש הטבלאי של גוגל , ינסה , מן הסתם ,להשתמש במנוע החיפוש הפנימי של האתר ב"וואלה" או בYnet .
בשבוע האחרון "התחפשנו " למחפשים מן הציבור הרחב וניסינו לחפש באתרי החדשות הישראליים באמצעות מנועי החיפוש הפנימיים שלהם .
אז , הנה התוצאות אותם דירגנו בסולם של 1-10 , כאשר 1 פירושו איחזור יעיל עם דיוק (precision) ואילו 9 וגם 10 בסולם שלנו פירושם רלוונטיות נמוכה מאד בקבלת התוצאות אחרי החיפוש באמצעות מנוע החיפוש הפנימי של האתר .
העיקרון המנחה שלנו בסקירה קצרה זו הוא חיפוש מידע עפ"י הנוסחה העקרונית של precision and recall , כלומר, קבלת סט ממצאים התואמים בדיוק לבקשת החיפוש לעומת קבלת ממצאים רבים בלתי רלוונטיים לחיפוש ( מה שמכונה בספרות המקצועית  recall  או "רעש" גבוה בתהליך החיפוש ( תהליך איחזור המידע בלשון המקצוע ) .
  
 תמונת מצב באתרי אינטרנט ישראליים מובילים

אתר וואלה
חיפשנו : רכבת מונורייל
באתר וואלה מותקן מנוע חיפוש מותאם של גוגל , כלומר האינדקסים מבוססים על אלגוריתם של גוגל והתוצאות בהתאם לכך צפויות להיות רלוונטיות אבל , מקבלים תוצאות גם מאתרי חדשות אחרים ואנו ביקשנו להתמקד רק בתכנים שהצטברו במאגרי וואלה .
7 בסולם שלנו
נראה כי מי שערך את הגדרות בזמן התאמת מנוע החיפוש של גוגל לאתר וואלה היה עייף מאד.
  אתר YNET
 באתר YNET  מותקן מנוע חיפוש ישראל מתקדם בשם  ZOOMDהנחשב כמתקדם מאד ואמור לתת פתרונות איחזור מידע טובים (ראו מאמר של שחר תמם בנושא מ2018 )  
חיפשנו : רכבת מונורייל
התוצאה : כמעט 0 ממצאים כאשר יש באתר YNET כמה וכמה כתבות טובות בנושא .
3 בדירוג שלנו
 אתר מעריב
גם באתר מעריב מותקן מנוע חיפוש ישראל מתקדם בשם  ZOOMDהנחשב כמתקדם מאד ואמור לתת פתרונות איחזור מידע טובים (ראו מאמר של שחר תמם בנושא מ2018 )  
חיפשנו : רכבת מונורייל
התוצאה : כמעט 0 ממצאים כאשר יש באתר "מעריב" כמה וכמה כתבות טובות בנושא .
3 בדירוג שלנו
עיתון "הארץ"
בעיתון "הארץ" מופעל מנוע חיפוש ותיק שפותח ע"י חברה ישראלית. (בזמנו מדובר היה על מנוע האחזורXRS  של חברת 2001 ) .
מבחינת UI (ממשק משתמש) המיקום והידידותיות של מנוע החיפוש בעיתון "הארץ" הם מעולים . יתרון נוסף של מנוע החיפוש הפנימי בעיתון "הארץ" הוא החיפוש המתקדם וחיפוש לפי הקשר .
חיפשנו : רכבת מונורייל
 התוצאה : קיבלנו  ממצאים מדוייקים על רכבות, אך מעט מאד על רכבת מונורייל. מבדיקה דרך חיפוש מתקדם בגוגל מצאנו שיש באתר עוד מאמרים ואיזכורים על רכבת מונורייל והם לא אותרו ע"י מנוע החיפוש הפנימי של עיתון "הארץ".
6 בדירוג שלנו

 חדשות מחלקה ראשונה ( האתר של יואב יצחק)
מנוע החיפוש באתר פותח ע"י צוות האתר
חיפשנו : רכבת מונורייל
התוצאה : קיבלנו פריט אחד העונה על השאילתא .
6 בדירוג שלנו

אתר גלובס
גם באתר גלובס מותקן מנוע חיפוש ישראל מתקדם בשם  ZOOMDהנחשב כמתקדם מאד ואמור לתת פתרונות איחזור מידע טובים .
ניתן למיין  התוצאות לפי תאריך או לפי רלוונטיות.
חיפשנו : רכבת מונורייל
התוצאה : קיבלנו כמה וכמה כתבות העונות בדיוק על השאילתא
 8 בדירוג שלנו

 אתר כלכליסט
לא ידוע לנו מי פיתח את מנוע החיפוש הפנימי באתר כלכליסט.
התוצאה : קיבלנו כתבה אחת העונה על השאילתא
6 בדירוג שלנו

 אתר דה-מרקר
מנוע החיפוש הפנימי באתר דה-מרקר  דומה מאד למנוע החיפוש הפנימי בעיתון "הארץ" .
חיפשנו : רכבת מונורייל
 התוצאה : 0 תוצאות
מבדיקה בגוגל מתקדם גילינו שיש למעשה בד-מרקר לפחות 10 מאמרים על רכבת מונורייל .
3 בדירוג שלנו

 ומה קורה בחו"ל ?
  לצורך השוואה מתודית בדקנו גם כמה אתרי חדשות באנגלית בעולם
אתר גארדיין
חיפשנו : Monorail
התוצאה : קיבלנו עשרות כתבות העונות בדיוק על השאילתא
9 בדירוג שלנו
 אתר ניו יורק טיימס
חיפשנו : Monorail
 מנוע החיפוש הפנימי של עיתון "הניו יורק טיימס" הוא אחד ממנועי החיפוש הותיקים שפותח עוד לפני עידן גוגל ושודרג בשנים האחרונות.
 ניתן למיין את התוצאות לפי  רלוונטיות או תאריך.
 התוצאות : קיבלנו כמה עשרות כתבות , אך הרלוונטיות לא הייתה גבוה בהכרח .
7 בדירוג שלנו

סיכום והצעות ייעול
מנועי החיפוש הפנימיים באתרי החדשות , שהיו פעם אחד מכלי ניהול המידע היעילים של אתרי החדשות והעיתונות בארץ, התדרדרו מבחינת תפקודם המידעני . התוצאות , כמעט בכולם , לא עונות על צרכי המחפש המבקש לחפש אך ורק באתר ולא בגוגל .
אז נכון כי רוב האנשים משתמשים בחיפוש גוגל בלבד , אך בכל זאת , לעתים קרובות יש צורך למקד את החיפוש רק באתר עצמו הן מבחינה מחקרית והן מבחינה מידענית.
בזמנו העיתונים החלו לתייג כתבות ( תגיות נושא) , אך המאמץ הזה דעך לפני כמה שנים . תגיות- נושא היו יכולות להפוך את החיפוש למדוייק ורלוונטי יותר כפי שראינו במנוע החיפוש הפנימי של עיתון "גארדיין" .

בגארדיין  וגם בניו יורק טיימס מוסיפים בניהול המטא-דאטא תגיות נושא/מילות מפתח לכל פריט מידע.
ההצעה הצנועה שלנו לפתרון היא לנהל באתרי החדשות בישראל את מערך המטא-דטא (תגיות-נושא, מחברים, קטגוריה וקטגוריית משנה) בצורה יותר יעילה ועקבית .
התועלת המידענית הצפויה מכך היא רבה ומשמעותית לכל סוגי המחפשים.




תגובה 1:

  1. פיתרון זמני אפשרי יכול להיות תוסף לדפדפן, שיאפשר חיפוש פנימי נוח באתר.

    יש כרגע משהו מאוד בסיסי לכרום -
    https://chrome.google.com/webstore/detail/search-the-current-site/jliolpcnkmolaaecncdfeofombdekjcp/reviews

    מניח שיש נוספים. יסייעו למקרים כאלה

    השבמחק

אגרגטורים (צוברי מידע) על כלים של בינה מלאכותית

    מאגר המק"ש ( מאגר קישורים שימושי ) " חיפוש מידע : שיטות " התעדכן היום ונוספו קישורים  מומלצים בתחומי האגרגטורים של כלים מ...