ניתן
לראות באתר אינטרנט חדשותי בארץ ובעולם מאגר מידע עתיר ידע בלתי מובנה.
המידע
אשר נצבר באתרי החדשות והעיתונות הישראליים כולל מאות אלפי פריטי מידע . ברוב
המקרים , אנו מגיעים אליהם באמצעות
חיפוש בגוגל . אבל מה קורה כאשר אנו רוצים למקד את החיפוש רק באתר האינטרנט
המסויים כגון YNET או "וואלה"
?
מידענים
מנוסים (רק שליש מהם כפי שבדקתי בזמנו ) ישתמשו בפונקציית החיפוש המתקדם של גוגל (ראו מאמר שלי) . אבל הציבור הרחב
שאינו מכיר את החיפוש הטבלאי של גוגל , ינסה , מן הסתם ,להשתמש במנוע החיפוש הפנימי
של האתר ב"וואלה" או בYnet .
בשבוע
האחרון "התחפשנו " למחפשים מן הציבור הרחב וניסינו לחפש באתרי החדשות
הישראליים באמצעות מנועי החיפוש הפנימיים שלהם .
אז
, הנה התוצאות אותם דירגנו בסולם של 1-10 , כאשר 1 פירושו איחזור יעיל עם דיוק (precision) ואילו 9 וגם 10 בסולם
שלנו פירושם רלוונטיות נמוכה מאד בקבלת התוצאות אחרי החיפוש באמצעות מנוע החיפוש הפנימי של האתר .
העיקרון המנחה שלנו בסקירה קצרה זו הוא חיפוש מידע
עפ"י הנוסחה העקרונית של precision and recall , כלומר, קבלת סט ממצאים התואמים בדיוק לבקשת החיפוש לעומת קבלת
ממצאים רבים בלתי רלוונטיים לחיפוש ( מה שמכונה בספרות המקצועית recall או "רעש" גבוה בתהליך החיפוש ( תהליך
איחזור המידע בלשון המקצוע ) .
תמונת מצב באתרי אינטרנט ישראליים מובילים
חיפשנו
: רכבת מונורייל
באתר
וואלה מותקן מנוע חיפוש מותאם של גוגל , כלומר האינדקסים מבוססים על אלגוריתם של
גוגל והתוצאות בהתאם לכך צפויות להיות רלוונטיות אבל , מקבלים תוצאות גם מאתרי
חדשות אחרים ואנו ביקשנו להתמקד רק בתכנים שהצטברו במאגרי וואלה .
7
בסולם שלנו
נראה
כי מי שערך את הגדרות בזמן התאמת מנוע החיפוש של גוגל לאתר וואלה היה עייף מאד.
באתר YNET מותקן מנוע חיפוש ישראל מתקדם בשם ZOOMDהנחשב
כמתקדם מאד ואמור לתת פתרונות איחזור מידע טובים (ראו
מאמר של שחר תמם בנושא מ2018 )
חיפשנו
: רכבת מונורייל
התוצאה
: כמעט 0 ממצאים כאשר יש באתר YNET כמה וכמה כתבות טובות
בנושא .
3
בדירוג שלנו
גם
באתר מעריב מותקן מנוע חיפוש ישראל מתקדם בשם ZOOMDהנחשב
כמתקדם מאד ואמור לתת פתרונות איחזור מידע טובים (ראו
מאמר של שחר תמם בנושא מ2018 )
חיפשנו
: רכבת מונורייל
התוצאה
: כמעט 0 ממצאים כאשר יש באתר "מעריב" כמה וכמה כתבות טובות בנושא .
3
בדירוג שלנו
בעיתון
"הארץ" מופעל מנוע חיפוש ותיק שפותח ע"י חברה ישראלית. (בזמנו
מדובר היה על מנוע
האחזורXRS של חברת 2001 ) .
מבחינת UI (ממשק משתמש) המיקום והידידותיות של מנוע החיפוש בעיתון
"הארץ" הם מעולים . יתרון נוסף של מנוע החיפוש הפנימי בעיתון
"הארץ" הוא החיפוש המתקדם וחיפוש לפי הקשר .
חיפשנו
: רכבת מונורייל
התוצאה : קיבלנו ממצאים מדוייקים על רכבות, אך מעט מאד על רכבת
מונורייל. מבדיקה דרך חיפוש מתקדם בגוגל מצאנו שיש באתר עוד מאמרים ואיזכורים על
רכבת מונורייל והם לא אותרו ע"י מנוע החיפוש הפנימי של עיתון
"הארץ".
6
בדירוג שלנו
מנוע
החיפוש באתר פותח ע"י צוות האתר
חיפשנו
: רכבת מונורייל
התוצאה
: קיבלנו פריט אחד העונה על השאילתא .
6
בדירוג שלנו
גם באתר גלובס מותקן מנוע חיפוש ישראל מתקדם בשם ZOOMDהנחשב
כמתקדם מאד ואמור לתת פתרונות איחזור מידע טובים .
ניתן
למיין התוצאות לפי תאריך או לפי
רלוונטיות.
חיפשנו
: רכבת מונורייל
התוצאה
: קיבלנו כמה וכמה כתבות העונות בדיוק על השאילתא
8 בדירוג שלנו
לא
ידוע לנו מי פיתח את מנוע החיפוש הפנימי באתר כלכליסט.
התוצאה
: קיבלנו כתבה אחת העונה על השאילתא
6
בדירוג שלנו
מנוע
החיפוש הפנימי באתר דה-מרקר דומה מאד
למנוע החיפוש הפנימי בעיתון "הארץ" .
חיפשנו
: רכבת מונורייל
התוצאה : 0 תוצאות
מבדיקה
בגוגל מתקדם גילינו שיש למעשה בד-מרקר לפחות 10 מאמרים על רכבת מונורייל .
3
בדירוג שלנו
ומה קורה בחו"ל ?
לצורך השוואה מתודית בדקנו גם כמה אתרי חדשות
באנגלית בעולם
חיפשנו : Monorail
התוצאה : קיבלנו עשרות כתבות העונות בדיוק על השאילתא
9 בדירוג שלנו
חיפשנו : Monorail
מנוע החיפוש הפנימי של עיתון "הניו יורק טיימס"
הוא אחד ממנועי החיפוש הותיקים שפותח עוד לפני עידן גוגל ושודרג בשנים האחרונות.
ניתן למיין את התוצאות לפי רלוונטיות או תאריך.
התוצאות :
קיבלנו כמה עשרות כתבות , אך הרלוונטיות לא הייתה גבוה בהכרח .
7 בדירוג שלנו
סיכום והצעות ייעול
מנועי החיפוש הפנימיים באתרי החדשות , שהיו פעם אחד מכלי
ניהול המידע היעילים של אתרי החדשות והעיתונות בארץ, התדרדרו מבחינת תפקודם
המידעני . התוצאות , כמעט בכולם , לא עונות על צרכי המחפש המבקש לחפש אך ורק באתר
ולא בגוגל .
אז נכון כי רוב האנשים משתמשים בחיפוש גוגל בלבד , אך
בכל זאת , לעתים קרובות יש צורך למקד את החיפוש רק באתר עצמו הן מבחינה מחקרית והן
מבחינה מידענית.
בזמנו העיתונים החלו לתייג כתבות ( תגיות נושא) , אך המאמץ הזה דעך לפני כמה שנים . תגיות- נושא היו
יכולות להפוך את החיפוש למדוייק ורלוונטי יותר כפי שראינו במנוע החיפוש הפנימי של
עיתון "גארדיין" .
בגארדיין וגם בניו יורק טיימס מוסיפים בניהול המטא-דאטא תגיות נושא/מילות מפתח לכל פריט מידע.
בגארדיין וגם בניו יורק טיימס מוסיפים בניהול המטא-דאטא תגיות נושא/מילות מפתח לכל פריט מידע.
ההצעה הצנועה שלנו לפתרון היא לנהל באתרי החדשות בישראל את מערך המטא-דטא
(תגיות-נושא, מחברים, קטגוריה וקטגוריית משנה) בצורה יותר יעילה ועקבית .
התועלת המידענית הצפויה מכך היא רבה ומשמעותית לכל סוגי
המחפשים.
פיתרון זמני אפשרי יכול להיות תוסף לדפדפן, שיאפשר חיפוש פנימי נוח באתר.
השבמחקיש כרגע משהו מאוד בסיסי לכרום -
https://chrome.google.com/webstore/detail/search-the-current-site/jliolpcnkmolaaecncdfeofombdekjcp/reviews
מניח שיש נוספים. יסייעו למקרים כאלה