חפש בבלוג זה

יום ראשון, 13 במאי 2018

ההבנייה מחדש של מאגרי המידע בבית התפוצות : הערכה בשנית


במשך 30 שנה צבר בית התפוצות אוצר של ידע מפתיע, נדיר ומסקרן: מעל 5 מיליון איש בעצי משפחה, מאות אלפי צילומים וסרטים, קבצי מוזיקה יהודית מהעבר וההווה, פירושים ומקורות של עשרות אלפי שמות משפחה, ומידע על אלפי קהילות יהודיות ברחבי הגלובוס. ובקיצור, כל מה שמרכיב את הסיפור של העם היהודי.
כמי שעבד בזמנו כמידען במכון שילוח באוניברסיטת תל אביב , אני זוכר כי בית התפוצות היו בשנת 1979 החלוצים האמיתיים של פיתוח מאגרי מידע ממוחשבים בישראל. 
בעזרת חברת  תוכנה בשם 2001 הם הקימו בזמנו מאגר מידע פרמטרי יעיל מאד על מחשב מיני מסוג  PDP . התוכנה לאיתור היסטוריה של שמות משפחה יהודיים היתה בזמנו המתקדמת ביותר בישראל .  במשך שנים היינו צריכים להגיע למחשב המיני של בית התפוצות ולערוך שם את החיפושים המומחשבים.
עברו חלפו עשרות שנים , האינטרנט בכלל וגוגל בפרט הגיעו לחיינו והנה גיליתי לאחרונה כי בית התפוצות ומאגרי המידע ההיסטוריים שלו  כבר לא נשארו מאחור והם במרחק נגיעה!!
הם כעת בעיצומו של מהלך וניסיון לשדרג את כל מערכת מאגרי המידע שלהם לאינטרנט והשדרוג , גם אם עדיין בעבודה נמשכת, הוא בהחלט הפתעה לטובה הן מבחינה מידענית והן מבחינת מימשק  המשתמש (User Interface  או  בקיצור  UI).
הם עובדים על הפרוייקט הזה באינטרנט כבר שלוש שנים והתוצאות מרשימות בהחלט.
איחזור המידע ( חיפוש)
החיפוש הוא מאד אינטואיטיבי וידידותי . ניתן לחפש שם משפחה ולהצליב למקום או מדינה .
מקבלים רשימת תוצאות הניתנות למיון בכמה וכמה ערוצים :
  • מקומות
  • תמונות
  • אנשים ( עצי משפחה)
  • וידאו
  • אישים
  • שמות משפחה

סינון עפ"י שדות
ניתן לבצע סינון נוסף ולהוסיף שדות  כגון :
  • שם פרטי
  • שם משפחה
  • מקום לידה
  • מקום נישואין 
  • שנת לידה

בכל מהלך החיפוש והסינון  במאגרי בית התפוצות  המחודשים ממשק המשתמש נשאר ידידותי , מרווח ואינטואיטיבי למדי.
 חווית המשתמש כאן היא גבוהה ביחס למאגרי מידע היסטוריים דומים בחו"ל ועל כך יבואו על הברכה צוות המיזם המתוקשב הזה בבית התפוצות.
בערך הנבחר במהלך החיפוש מקבלים ערכי נושא קשורים ותוספת זו היא בהחלט מעשירה את המחפש והקורא.
לא רק איחזור מידע אלא גם ניהול מידע
ארכיטקטורת החיפוש וניהול המידע נועדו להקל על המשתמש לשמור פריטי מידע בתת-מאגר משלו הנקרא "הסיפור שלי" .  ניתן להוסיף ולצבור צילומים , מידע על עיירות , משפחות ועוד כהנה וכהנה .
ניתן לצבור בקלות פריטי מידע לדף  מידע שלכם שיצרתם שם בעצמכם וניתן לגשת אליו מכל מחשב ולחזור ולצבור עוד ממצאים שחיפשתם ומצאתם.
הנה דוגמא של "הדף שלי" ( "הסיפור שלי " ) שיצרתי במערכת של אתר באינטרנט של בית התפוצות .


יום שלישי, 1 במאי 2018

יעילות מנועי החיפוש הפנימיים באתרי העיתונים הישראליים ואתרי החדשות

מבוא
ניתן לראות באתר אינטרנט חדשותי בארץ ובעולם מאגר מידע עתיר ידע בלתי מובנה.
המידע אשר נצבר באתרי החדשות והעיתונות הישראליים כולל מאות אלפי פריטי מידע . ברוב המקרים , אנו מגיעים אליהם באמצעות חיפוש בגוגל . אבל מה קורה כאשר אנו רוצים למקד את החיפוש רק באתר האינטרנט המסויים כגון YNET או "וואלה" ?
מידענים מנוסים (רק שליש מהם כפי שבדקתי בזמנו ) ישתמשו בפונקציית החיפוש המתקדם של גוגל (ראו מאמר שלי) . אבל הציבור הרחב שאינו מכיר את החיפוש הטבלאי של גוגל , ינסה , מן הסתם ,להשתמש במנוע החיפוש הפנימי של האתר ב"וואלה" או בYnet .
בשבוע האחרון "התחפשנו " למחפשים מן הציבור הרחב וניסינו לחפש באתרי החדשות הישראליים באמצעות מנועי החיפוש הפנימיים שלהם .
אז , הנה התוצאות אותם דירגנו בסולם של 1-10 , כאשר 1 פירושו איחזור יעיל עם דיוק (precision) ואילו 9 וגם 10 בסולם שלנו פירושם רלוונטיות נמוכה מאד בקבלת התוצאות אחרי החיפוש באמצעות מנוע החיפוש הפנימי של האתר .
העיקרון המנחה שלנו בסקירה קצרה זו הוא חיפוש מידע עפ"י הנוסחה העקרונית של precision and recall , כלומר, קבלת סט ממצאים התואמים בדיוק לבקשת החיפוש לעומת קבלת ממצאים רבים בלתי רלוונטיים לחיפוש ( מה שמכונה בספרות המקצועית  recall  או "רעש" גבוה בתהליך החיפוש ( תהליך איחזור המידע בלשון המקצוע ) .
  
 תמונת מצב באתרי אינטרנט ישראליים מובילים

אתר וואלה
חיפשנו : רכבת מונורייל
באתר וואלה מותקן מנוע חיפוש מותאם של גוגל , כלומר האינדקסים מבוססים על אלגוריתם של גוגל והתוצאות בהתאם לכך צפויות להיות רלוונטיות אבל , מקבלים תוצאות גם מאתרי חדשות אחרים ואנו ביקשנו להתמקד רק בתכנים שהצטברו במאגרי וואלה .
7 בסולם שלנו
נראה כי מי שערך את הגדרות בזמן התאמת מנוע החיפוש של גוגל לאתר וואלה היה עייף מאד.
  אתר YNET
 באתר YNET  מותקן מנוע חיפוש ישראל מתקדם בשם  ZOOMDהנחשב כמתקדם מאד ואמור לתת פתרונות איחזור מידע טובים (ראו מאמר של שחר תמם בנושא מ2018 )  
חיפשנו : רכבת מונורייל
התוצאה : כמעט 0 ממצאים כאשר יש באתר YNET כמה וכמה כתבות טובות בנושא .
3 בדירוג שלנו
 אתר מעריב
גם באתר מעריב מותקן מנוע חיפוש ישראל מתקדם בשם  ZOOMDהנחשב כמתקדם מאד ואמור לתת פתרונות איחזור מידע טובים (ראו מאמר של שחר תמם בנושא מ2018 )  
חיפשנו : רכבת מונורייל
התוצאה : כמעט 0 ממצאים כאשר יש באתר "מעריב" כמה וכמה כתבות טובות בנושא .
3 בדירוג שלנו
עיתון "הארץ"
בעיתון "הארץ" מופעל מנוע חיפוש ותיק שפותח ע"י חברה ישראלית. (בזמנו מדובר היה על מנוע האחזורXRS  של חברת 2001 ) .
מבחינת UI (ממשק משתמש) המיקום והידידותיות של מנוע החיפוש בעיתון "הארץ" הם מעולים . יתרון נוסף של מנוע החיפוש הפנימי בעיתון "הארץ" הוא החיפוש המתקדם וחיפוש לפי הקשר .
חיפשנו : רכבת מונורייל
 התוצאה : קיבלנו  ממצאים מדוייקים על רכבות, אך מעט מאד על רכבת מונורייל. מבדיקה דרך חיפוש מתקדם בגוגל מצאנו שיש באתר עוד מאמרים ואיזכורים על רכבת מונורייל והם לא אותרו ע"י מנוע החיפוש הפנימי של עיתון "הארץ".
6 בדירוג שלנו

 חדשות מחלקה ראשונה ( האתר של יואב יצחק)
מנוע החיפוש באתר פותח ע"י צוות האתר
חיפשנו : רכבת מונורייל
התוצאה : קיבלנו פריט אחד העונה על השאילתא .
6 בדירוג שלנו

אתר גלובס
גם באתר גלובס מותקן מנוע חיפוש ישראל מתקדם בשם  ZOOMDהנחשב כמתקדם מאד ואמור לתת פתרונות איחזור מידע טובים .
ניתן למיין  התוצאות לפי תאריך או לפי רלוונטיות.
חיפשנו : רכבת מונורייל
התוצאה : קיבלנו כמה וכמה כתבות העונות בדיוק על השאילתא
 8 בדירוג שלנו

 אתר כלכליסט
לא ידוע לנו מי פיתח את מנוע החיפוש הפנימי באתר כלכליסט.
התוצאה : קיבלנו כתבה אחת העונה על השאילתא
6 בדירוג שלנו

 אתר דה-מרקר
מנוע החיפוש הפנימי באתר דה-מרקר  דומה מאד למנוע החיפוש הפנימי בעיתון "הארץ" .
חיפשנו : רכבת מונורייל
 התוצאה : 0 תוצאות
מבדיקה בגוגל מתקדם גילינו שיש למעשה בד-מרקר לפחות 10 מאמרים על רכבת מונורייל .
3 בדירוג שלנו

 ומה קורה בחו"ל ?
  לצורך השוואה מתודית בדקנו גם כמה אתרי חדשות באנגלית בעולם
אתר גארדיין
חיפשנו : Monorail
התוצאה : קיבלנו עשרות כתבות העונות בדיוק על השאילתא
9 בדירוג שלנו
 אתר ניו יורק טיימס
חיפשנו : Monorail
 מנוע החיפוש הפנימי של עיתון "הניו יורק טיימס" הוא אחד ממנועי החיפוש הותיקים שפותח עוד לפני עידן גוגל ושודרג בשנים האחרונות.
 ניתן למיין את התוצאות לפי  רלוונטיות או תאריך.
 התוצאות : קיבלנו כמה עשרות כתבות , אך הרלוונטיות לא הייתה גבוה בהכרח .
7 בדירוג שלנו

סיכום והצעות ייעול
מנועי החיפוש הפנימיים באתרי החדשות , שהיו פעם אחד מכלי ניהול המידע היעילים של אתרי החדשות והעיתונות בארץ, התדרדרו מבחינת תפקודם המידעני . התוצאות , כמעט בכולם , לא עונות על צרכי המחפש המבקש לחפש אך ורק באתר ולא בגוגל .
אז נכון כי רוב האנשים משתמשים בחיפוש גוגל בלבד , אך בכל זאת , לעתים קרובות יש צורך למקד את החיפוש רק באתר עצמו הן מבחינה מחקרית והן מבחינה מידענית.
בזמנו העיתונים החלו לתייג כתבות ( תגיות נושא) , אך המאמץ הזה דעך לפני כמה שנים . תגיות- נושא היו יכולות להפוך את החיפוש למדוייק ורלוונטי יותר כפי שראינו במנוע החיפוש הפנימי של עיתון "גארדיין" .

בגארדיין  וגם בניו יורק טיימס מוסיפים בניהול המטא-דאטא תגיות נושא/מילות מפתח לכל פריט מידע.
ההצעה הצנועה שלנו לפתרון היא לנהל באתרי החדשות בישראל את מערך המטא-דטא (תגיות-נושא, מחברים, קטגוריה וקטגוריית משנה) בצורה יותר יעילה ועקבית .
התועלת המידענית הצפויה מכך היא רבה ומשמעותית לכל סוגי המחפשים.




יום שלישי, 24 באפריל 2018

השיפורים בגוגל סקולר 2017-2018 : מבט כולל ופרטני


השיפורים במנוע החיפוש האקדמי Google Scholar בשנתיים האחרונות הם בתחומי מימשק המשתמש , שיפורי הUI הפכו את מימשק החיפוש של הגוגל סקולר לידידותי יותר בחיפוש במכשירים ניידים ובטאבלטים .

השימושיות של שמירת מאמרים מועדפים ששמרתם לתוך "הספרייה שלי " השתפרה מאד .

הרבה יותר קל לשמור מאמרים מעניינים ולצבור אותם ב"ספריה שלי "  My library) ). למעשה , אתם מנהלים מאגר משלכם, בהנחה שנכנסתם לגוגל סקולר עם שם המשתמש והסיסמה שלכם בגוגל. כמו כן , ניתן לחפש עתה במיקוד רק על מאגר המאמרים שלכם "בספריה שלי" .

  במנגנון של "הספריה שלי" ניתן גם להוסיף תגיות/מילות מפתח בעברית או באנגלית ולתייג את המאמרים על פי אחת מהתגיות שיצרתם ובחרתם.


הרחבת איסוף מקורות המידע של גוגל סקולר

גוגל סקולר מכסה עתה יותר דו"חות ופרסומים בתחום הנקרא  Grey literature.
הכוונה לתחום האפור של פרסומים, עלוני מידע וספרים היוצאים לאור ע"י חברות, ארגונים וגורמים מחוץ לשוק המדעי האקדמי הרשמי . היקף הכיסוי  של גוגל סקולר במרחב האפור מגיע למיליוני פריטי מידע וחלקן בעל ערך לא מבוטל גם למחקר.

כאן יש לגוגל סקולר יתרון לעומת מאגרי המידע האקדמאיים בתשלום שמכסים יותר כתבי עת אקדמיים ופחות Grey literature.

 גוגל סוקלר מתרחב גם בתחומי הפרסומים האקדמים ברשתות מחקר: התרחב הכיסוי של מאמרים ועבודות מחקר מרשתות המחקר האקדמאיות כגון ResearchGate  ורשתות מחקר באוניברסיטאות. היתרון כאן הוא שבמקרים לא מעטים מקבלים גם את הטקסט המלא.

הולך ומתהדק שיתוף הפעולה בין גוגל סקולר ובין מאגרי מאמרים כגון JSTOR. התוצאה היקף כיסוי מעמיק של מאמרים אקדמיים.

עדכוני מידע על מאמרים חדשים ( Alerts)



שופרה השימושיות של קבלת עדכונים על מאמרים חדשים בתחומי העניין המוגדרים שלך או המחקר שלך.

מקבלים בתיבת  המייל שאתם בוחרים לקט שבועי של מאמרים חדשים ומאוד מעודכנים. שירות עדכון זה פועל היטב ובאופן שיטתי , הרבה יותר יעיל בהשוואה למאגרי המידע המקוונים במנוי בספריות האוניברסיטאות.



האינדקסים של גוגל -תדירות עדכון

גוגל סקולר מעדכנים את האינדוקס של מאמרים חדשים שגילו במרחב האינטרנט בתדירות גבוהה יותר. כל יומיים מתעדכנים כל רשתות "הדייג" ומערכי האיסוף והאינדקסים שנפרסו באינטרנט , ולכן מקבלים בחיפוש בגוגל סקולר מאמרים מעודכנים יותר בהשוואה למאגרי המידע האקדמאיים במנוי הנמצאים לרוב בספריות האוניברסיטה.

 צילום : מסך החיפוש המתקדם בגוגל סקולר 

דבר הנסיין :

אני משתמש בגוגל סקולר בעיקר לצורך גילוי מאמרים ומחקרים חדשים ומעודכנים (Information Discovery) בתחומי העניין והעיסוק שלי (למידה מרחוק, ניהול מידע, מידענות חקרנית).


יש לי  כ-4 פרופילים אותם הגדרתי  בקלות במערכת גוגל סקולר.  כל שבוע אני מקבל במייל רשימת מאמרים וספרים חדשים בכל אחד מהנושאים בנפרד.  את המאמרים המעניינים אני שומר וצובר ב"ספריה שלי" , כך שאני מנהל אוסף פריטי מידע מבוקר שלי בלבד אליו אני יכול לחזור בכל רגע, מכל מחשב,  וגם לחפש בו.

בכל הנוגע לחיפושים רטרוספקטיבים בנושא מוגדר , אני מעדיף להשתמש במאגרי המידע המקוונים במנוי  כגון  EBSCOhost או ProQuest Central .

הסיבה לכך היא המיפתוח המבוקר והמיון במאגרים מקוונים אלו ויותר מכך היכולת לבצע חיתוכים והצלבות בלוגיקה בוליאנית. אבל בכל הנוגע לאיסוף מעודכן , מה שנקרא Information Discovery אין תחליף לגוגל סקולר.


ראו גם :

Gali Halevi Henk Moed Judit Bar-Ilan. "Suitability of Google Scholar as a source of scientific information and as a source of data for scientific evaluation—Review of the Literature ",Journal of Informetrics ,Volume 11, Issue 3August 2017, Pages 823-834




יום ראשון, 15 באפריל 2018

מאות אלפי תמונות בפלטטפורה מקוונת חדשה ביד ושם- מידע והערכה


פלטפורמת YVNG -
DATABASE  מאד עוצמתי ויעיל המופעל לאחרונה ב"יד ושם"

בראיון לאנשים ומחשבים אמר מיכאל ליבר, ראש אגף טכנולוגיות מידע ביד ושם
לפני חג הפסח האחרון,  "העלינו גרסה חדשה של מאגר התצלומים שלנו לתשתית המכונה YVNG – הדור הבא של יד ושם, דו-משמעות להיבט הטכנולוגי והגיל. בנינו את הפלטפורמות שלנו בראייה של חוויית המשתמש של הדור הצעיר, כפי שהוא רגיל בשימוש באתרים אחרים, כי זה הדור החשוב לנו. עם כל הצער שבדבר, דור הניצולים הולך ומתמעט, ואנחנו מביטים קדימה ורוצים להיות רלוונטיים לדור הצעיר".
לפלטפורמה החדשה הועלו 350 אלף תצלומים, מתוך כחצי מיליון תצלומים שיש למוסד בכלל, שכן לא לכל התצלומים יש זכויות יוצרים להנגשה ברשת.
לדבריו, "אנו מנהלים משא ומתן עם ארכיונים נוספים בעולם, על מנת להנגיש כמה שיותר מידע – כתוב, מצולם ומוסרט. ככל שהארכיונים מחו"ל מתרשמים מהפלטפורמה שלנו, מהשימושיות ומהידידותיות שלה – כך גדל הרצון לשתף עימנו פעולה".
דבר הנסיין
 ערכתי כמה וכמה חיפושים בפלפטפורמה החדשה של יד ושם והתרשמתי מאד מיכולותיה באיחזור מידע .
ערכתי חיפוש על העיר לובלין וקיבלתי צילומים העונים בדיוק על שאילת החיפוש תוך אפשרות להצר או להרחיב את החיפוש באופראטורים בוליאניים (  and , or   ). 
בנוסף הוצגו בצד רשימת התגיות הקשורות לנושא .
אין ספק כי מדובר במיזם מתקדם מאד מנקודת מבט מידענית וגם מבחינת  אפשרויות החיפוש.
 יישר כוח לעושים במלאכה ב"יד ושם ". 


לייעל את הזמן שלכם: אתרים ויישומים מועילים למעקב חדשותי באינטרנט: כמה המלצות

    הקדמה צובר חדשות ( ( News Aggregator מאפשר לכם, בעקרון  ולמעשה , לראות לא מעט דיווחים חדשותיים חשובים בצורה ובמתכונת שחוסכים לכם הרבה ...