חפש בבלוג זה

יום שלישי, 15 ביולי 2025

השוואה בין פלטפורמות מבוססות AI מבחינת יכולות איסוף מקורות המידע

 


מאת : עמי סלנט , מידען ואיש חינוך

 

בתחום המידענות , שאני נמנה עליו , נהוג לבחון  את היעילות של כל מאגר מידע , מסד נתונים  ו digital dashboards  עפ"י  4 גורמי יעילות : איסוף המידע , עיבוד המידע , אינטגרציה והפצה.

אין ספק,  כי לצ'אטבוטים מבוססי AI  כגון CHAT-GPT, ג'ימיני של גוגל, קלאוד  ופרפלקסיטי יש יעילות גבוהה ביותר מבחינת עיבוד המידע והאינטגרציה , אבל מה קורה מבחינת יכולות האיסוף המידע שלהם ?

הגיע הזמן לבחון את איכות איסוף המידע של הפלטפורמות מבוססות AI  , כי יש לכך השלכות מבחינת העבודה השוטפת של אנשי המקצוע בתחומי דעת ומחקר שונים.

 מבוא

לפני שניתן לצטט, לסכם או להציג את התוכן שלך באחת הפלטפורמות  כגון CHAT-GPT  יש לגלות אותו, וזה מתחיל בהפעלת צוברי המידע , הCRWALERS.  הכוונה לתוכנות איסוף  שסורקות אתרים ואוספות מהן מידע.

ועכשיו נבחן לעומק כל אחד מהצ'אטבוטים מבוססי AI  מבחינת יכולותיו של איסוף המידע ונראה מי עבר , בסופו של דבר את המבחן ?



המועמד הראשון בבחינה הוא ChatGPT שפותח על ידי חברת OpenAI

 ChatGPT שפותח על ידי OpenAI, לומד מכמות עצומה של נתונים כדי להבין ולייצר טקסט דמוי אנוש. שיטות איסוף המידע שלו דומות בבסיסן למודלי שפה גדולים אחרים, אך OpenAI מפרטת כמה מקורות עיקריים:

1.   מידע זמין לציבור באינטרנט:

o        Web Scraping/Crawling בדומה למנועי חיפוש, OpenAI משתמשת בטכניקות של איסוף מידע מהאינטרנט

o        (Web Scraping / Crawling) זה כולל אתרים, בלוגים, פורומים, ויקיפדיה, מאמרי חדשות, ספרים דיגיטליים ועוד.

o       מגוון עצום של טקסטים: הנתונים הללו כוללים מגוון רחב של נושאים, סגנונות וז'אנרים, מה שמאפשר למודל ללמוד את ניואנסים של השפה, עובדות, מושגים, ואף סרקזם והומור.

2.   מידע שמתקבל באמצעות שיתופי פעולה עם צדדים שלישיים:

o       OpenAI  משתפת פעולה עם גורמים שונים כדי לקבל גישה למאגרי נתונים מורשים או מוגנים. זה יכול לכלול מאגרי מידע אקדמיים, פרסומים מקצועיים, או נתונים ספציפיים 

אבל לCHATGPT יש גם חסרון והוא התלות באינדקסים של מנוע החיפוש בינג ( מיקרוסופט) .... אינדקס בינג מצומצם יותר בהשוואה לאינדקסים של גוגל ,  מכיוון ש-ChatGPT שואב מידע בעיקר מבינג.

מאגר מידע מוגבל - בהשוואה לגוגל, המאגר קטן יותר ומכיל פחות מידע היסטורי..


 המועמד השני בבחינה הוא ג'ימיני של גוגל


מבחינת איסוף מקורות המידע יש  לג'ימיני של גוגל יתרון , "אינדקס החיפוש של גוגל הוא עצום ורב ומכיל מאות מיליארדי דפי אינטרנט וגודלו הרבה יותר מ-100,000,000 גיגה-בייט."

הוא מצטיין בחילוץ מידע שימושי מנפחים גדולים של טקסט לא מובנה, ויכול להתמודד עם דפים שמשנים את המבנה שלהם לעיתים קרובות (לדוגמה, באתרי מסחר אלקטרוני).

הוא יכול לשלב מידע בזמן אמת מחיפוש Google עם מקורות נתונים פנימיים אחרים, מה שמעיד על היכולת להבנות את תשובותיו במידע עדכני.

 לתוכנות ה CRAWLER  של גוגל וג'ימיני של גוגל אפשר לקרוא להם גם "זחלנים" (Crawlers) "  או "עכבישים (Spiders)   הם בעצם מזדחלים ברחבי האינטרנט ומדווחים לגוגל את מה שהם מגלים בדרך.

"הזחלנים" האלה מסתובבים חופשי באינטרנט, עוברים מדף לדף, סוקרים אותם ושולחים לגוגל את המידע לתיוק. התיוק הזה נקרא "לאנדקס" או "אינדוקסמאנגלית  to index

"העכבישים"  למעשה עוקבים אחרי קישורים פנימיים וחיצוניים, מוצאים ועוד ועוד דפי אינטרנט וככה האינדקס של גוגל גדל כל הזמן.

 בגוגל יש כיום למעלה מ-140 טריליון דפים מאונדקסים!

חשוב להבין ש"הזחלנים" (CRAWLER) האלה לא רואים את האתרים והדפים השונים כמו שאנחנו רואים אותם באופן ויזואלי דרך הדפדפן. הם בעצם מסתכלים מתחת למכסה המנוע של האתר וקוראים את קוד  HTML   שממנו הדפים בנויים.

לאחרונה, גוגל הציגה  תוכנות איסוף וצבירת המידע מסוג  CRAWLERS ממוקדות יותר כמו Google-CloudVertexBot ו-Google-Extended

תוכנות CRAWLERS אלה מתוכננות לאסוף נתונים ספציפיים לצורך אימון מודלי AI,

ג'מיני משולב באופן עמוק עם מוצרי גוגל אחרים כמו Google   Search ו-Google Workspace כולל Docs ו-Sheets. זה מאפשר לו לגשת למידע רלוונטי ולעבד אותו מתוך הקשר של שימושים יומיומיים של משתמשים  (לדוגמה, סיכום מיילים, עזרים לניתוח נתונים בSheets.

לסיכום, שיטת איסוף המידע של גוגל עבור ג'מיני היא רב-שכבתית. היא מתבססת על תוכנת  האיסוף ה Crawler שלה של האינטרנט, אך גם משתמשת בCRAWLERS  ייעודיים לאיסוף נתונים ספציפיים לאימון מודלי AI,  

היא שואבת ומשלבת מידע ממוצרי גוגל אחרים .

היכולת המולטימודלית של ג'מיני גם מאפשרת לו לעבד מגוון רחב של סוגי נתונים מעבר לטקסט בלבד.

לאחרונה ג'מיני של גוגל החלה להשתמש גם  במאמרים מ-  Google Scholar, ויש אינטגרציה הולכת וגוברת בין השניים.

יכולות הגישה של ג'ימיני למאמרים אקדמיים

  • מצב Deep Research: ג'ימיני יכול לחפש ולמצוא ציטוטים ותכנים ממאמרים אקדמיים חופשיים הזמינים באינטרנט, במיוחד במצב Deep Research. אם תבקש במפורש מקורות אקדמיים, הוא יכול להשתמש בגוגל סקולר כדי לאתר מאמרים רלוונטיים ולשלב אותם בדוחות מחקר.
  • עיבוד נתונים ממאמרים: ג'ימיני מסוגל לקרוא, לסנן ולחלץ נתונים ממאות אלפי מאמרים מדעיים, כולל הוספת ציטוטים והערותלדוגמה, הוא יכול לסנן 200,000 מאמרים ל-250 רלוונטיים ולחלץ מידע מרכזי תוך זמן קצר.

 ג'ימיני אינו מחפש אוטומטית בכל מאגר גוגל סקולר אלא רק אם תבקש זאת.

 

המועמד השלישי בבחינה הוא Perplexity AI   



Perplexity AI  מבדלת את עצמה ממודלי שפה גדולים (LLMs) אחרים ומנועי חיפוש מסורתיים בכך שהיא פועלת כ"מנוע תשובות" (Answer Engine) עם התמקדות חזקה בשקיפות ציטוטים ומידע עדכני. שיטת איסוף המידע שלה משלבת מספר טכניקות:

איסוף  וחילוץ  מידע אינטרנטי בזמן אמת Real-Time Web Crawling

o       PerplexityBot: -  זו תוכנת האיסוף , ה-CRAWLER  האוטומטי העיקרי של Perplexity. היא  סורקת את האינטרנט באופן שיטתי כדי לאנדקס תוכן אתרים עבור תוצאות החיפוש של Perplexity AI וכן לאימון מודלי ה-AI שלה. בניגוד למנועי חיפוש מסורתיים שמסתמכים על אינדקס קיים, Perplexity מבצעת חיפוש אקטיבי בזמן אמת כדי למצוא את המידע הרלוונטי והעדכני ביותר לשאלת המשתמש.

מקורות מידע מגוונים:

פלטפורמת  Perplexity AI סורקת מגוון רחב של מקורות מהימנים, כולל מאמרים, אתרים, כתבי עת אקדמיים, עיתונים, בלוגים ופידים חיים של נתונים. יש לה גם מצבי חיפוש ספציפיים (לדוגמה, "Academic" למאמרים אקדמיים, "Writing", "Math & Coding" ועוד) שמכוונים את איסוף המידע למקורות הרלוונטיים לאותו תחום.

החידוש העיקרי הוא בשימוש בטכניקת Retrieval-Augmented  Generation (RAG). במקום להסתמך רק על הידע "הקפוא" שאומן על מודלי השפה, Perplexity שולפת מידע רלוונטי ממקורות מהימנים באינטרנט בזמן אמת (באמצעות הקרואלרים שלה) לפני שהיא מייצרת את התשובה. זה מבטיח שהתשובה מבוססת על נתונים עדכניים ומאושרים.

היתרון העצום  של  פלטפורמת  Perplexity AI

ציון מקורות מידע (Source Citations) ולא בהכרח היקף איסוף המידע

  • אחד המאפיינים הבולטים של Perplexity הוא שהיא מספקת ציטוטים ברורים (footnotes) עם קישורים למקורות המידע שעליהם היא מתבססת בכל תשובה. זה מאפשר למשתמשים לאמת את המידע ולצלול עמוק יותר לנושא. זה מצביע על תהליך מובנה של זיהוי, הערכה ואזכור מקורות במהלך איסוף ועיבוד המידע.

אבל כמו כל  הצ'אטבוטים  מבוססי  AI  , גם פלטפורמת Perplexity AI מוגבלת יחסית מבחינת גישה לאתרי אינטרנט מאחורי חומת תשלום .

כך לדוגמא , בכל חיפוש שלי בפלטפורמת Perplexity AI אני לא מקבל גישה למקורות מידע בעיתוני " הארץ" , דה-מרקר , ניו יורק טיימס , טקדין ומאגרים אקדמיים כגון PROQUEST

לסיכום, שיטת איסוף המידע של Perplexity AI שונה ממנועי חיפוש רגילים בכך שהיא לא רק מספקת רשימת קישורים, אלא משתמשת בקרואלינג אינטרנטי בזמן אמת ובטכנולוגיית RAG מתקדמת כדי לספק תשובות ישירות, מדויקות, מעודכנות ומצוטטות ממגוון רחב של מקורות מהימנים. הדגש על שקיפות וציטוטים הוא מרכיב מרכזי שמבדיל אותה ממתחרות רבות.

 המועמד  הרביעי בבחינה הוא Grok מודל השפה הגדול של xAI (חברת הבינה המלאכותית של אילון מאסק),

 

 Grok מודל השפה הגדול של xAI (חברת הבינה המלאכותית של אילון מאסק), מבדל את עצמו בעיקר ביכולת הגישה למידע בזמן אמת, ובפרט לפלטפורמת X (לשעבר טוויטר). הנה פירוט שיטות איסוף המידע שלו:

1.    נתוני אימון ראשוניים (Pre-training Data):

o       כמו רוב מודלי השפה הגדולים, Grok עבר אימון ראשוני על קורפוס נרחב של מידע זמין לציבור באינטרנט. זה כולל נתוני דפי אינטרנט גולמיים, תמציות מטה-דאטה, ותמציות טקסט מהאינטרנט. מטרת האימון הזה היא ללמד את המודל את השפה, דפוסים לשוניים, עובדות כלליות, ולהבין שאילתות אנושיות.

2.    גישה למידע בזמן אמת (Real-Time Data Access):

o       פלטפורמת X , לשעבר טוויטר: זהו המאפיין  הבולט והייחודי ביותר מבחינת איסוף המידע  של GROK

o        הוא מתוכנן לגשת באופן ישיר למידע בזמן אמת מפוסטים ציבוריים ב-X (טוויטר). המשמעות היא ש-Grok יכול לנתח מגמות, חדשות מתפרצות, ופעילות משתמשים בפלטפורמה כפי שהם מתרחשים בזמן אמיתי . יכולת זו מאפשרת לו לספק מידע עדכני ביותר, בניגוד למודלים אחרים שאומנו על נתונים ש"קפאו" בנקודת זמן מסוימת.

o       חיפוש באינטרנט בזמן אמת Real-Time Web Search:  בנוסף לחיפוש בטוויטר - Grok יכול לבצע חיפושי אינטרנט בזמן אמת כדי לאחזר מידע מעודכן מאתרים אחרים. יכולת זו משתלבת עם מודל השפה שלו כדי לספק תשובות מבוססות על הנתונים העדכניים ביותר הזמינים.

 

המועמד החמישי בבחינה הוא Claude  מודל השפה של חברת Anthropic, 

אחרון אחרון בסקירה הוא Claude  מודל השפה של חברת Anthropic, שהוא החלש ביותר מבחינת יכולות איסוף המידע .

איסוף המידע של CLAUDE :

  מידע זמין לציבור באינטרנט: כמו רוב מודלי השפה הגדולים, Claude מאומן על קורפוס עצום של נתונים טקסטואליים וקוד מהאינטרנט. זה כולל מאמרים, ספרים, אתרים, קוד תוכנה, ועוד.

  מאגרי נתונים ברישיון מצד שלישי: Anthropic רוכשת גישה למאגרי נתונים מיוחדים או מורשים מצדדים שלישיים, מה שמספק למודל ידע מגוון ועמוק יותר בתחומים ספציפיים.

   תוכנת האיסוף  , הCRAWLER  של   חברת  Anthropic  היא  ClaudeBot  הפועלת  כדי לסרוק את האינטרנט ולאסוף נתונים לאימון מודלי ה-AI שלה. חשוב לציין שעלתה ביקורת מסוימת לגבי האופן שבו ClaudeBot מתייחס לקבצי robots.txt של אתרים, והשפעתו על עומס האתרים. בכל מקרה,  פלטפורמת CLAUDE חלשה למדי מבחינת יכולות איסוף מידע באינטרנט.

Claude does not independently crawl the web or retrieve real-time page data directly. Instead, it seems that Claude relies on Brave Search's indexed and cached results


 סיכום והמלצות 


שתי הפלטפורמות המובילות מבחינת איסוף מידע ( ולמעשה גם מבחינת עיבוד המידע ) הם Perplexity AI ובאותה שורה גם  ג'מיני של גוגל  (במיוחד מאז החלה האינטגרציה של ג'ימיני עם גוגל סקולר ).

  עם זאת, יש לזכור כי בכל הצ'אטבוטים  מבוססי  AI  יש  חסרון מבחינת גישה לאתרי אינטרנט מאחורי חומת תשלום .

כך לדוגמא , בכל חיפוש שלי  בצ'אבוטים הנ"ל אני לא מקבל גישה למקורות מידע בעיתוני  אקונומיסט הבריטי  , " הארץ" , דה-מרקר , ניו יורק טיימס , טקדין ומאגרים אקדמיים כגון PROQUEST .

חשוב לציין כי בעוד ג'מיני  או perplexity יכולים להשתמש,  מדי פעם , במאמרים ובמידע אקדמי, ספריות אוניברסיטאיות ומאגרי מידע ייעודיים כמו Omni או Web of Science עדיין נחשבים יעילים יותר לחיפוש מקורות אקדמיים מהימנים ומקיפים, במיוחד עבור כתבי עת מבוססי מנוי. 

ג'מיני או   perplexity שימושים במיוחד בשלבי מחקר מוקדמים, לחשיבה וסיכום נושאים מורכבים.


תגובה 1:

  1. עמי, אין עליך! אתה אחד יחיד ומיוחד. שאפו ענק.

    השבמחק

השוואה בין פלטפורמות מבוססות AI מבחינת יכולות איסוף מקורות המידע

  מאת : עמי סלנט , מידען ואיש חינוך   בתחום המידענות , שאני נמנה עליו , נהוג לבחון   את היעילות של כל מאגר מידע , מסד נתונים   ו digital ...