בתחום המידענות , שאני נמנה עליו , נהוג לבחון את היעילות של כל מאגר מידע , מסד נתונים ו digital dashboards עפ"י 4 גורמי יעילות : איסוף המידע , עיבוד המידע , אינטגרציה והפצה.
אין ספק, כי לצ'אטבוטים
מבוססי AI כגון CHAT-GPT,
ג'ימיני של גוגל, קלאוד ופרפלקסיטי יש
יעילות גבוהה ביותר מבחינת עיבוד המידע והאינטגרציה , אבל מה קורה מבחינת יכולות האיסוף המידע שלהם ?
הגיע הזמן לבחון את איכות איסוף המידע של הפלטפורמות מבוססות
AI , כי יש לכך השלכות מבחינת העבודה
השוטפת של אנשי המקצוע בתחומי דעת ומחקר שונים.
מבוא
לפני שניתן
לצטט, לסכם או להציג את התוכן שלך באחת הפלטפורמות כגון CHAT-GPT יש לגלות אותו,
וזה מתחיל בהפעלת צוברי המידע , הCRWALERS. הכוונה לתוכנות איסוף שסורקות אתרים ואוספות מהן מידע.
ועכשיו
נבחן לעומק כל אחד מהצ'אטבוטים מבוססי AI מבחינת יכולותיו של איסוף המידע ונראה מי עבר ,
בסופו של דבר את המבחן ?
המועמד הראשון בבחינה הוא ChatGPT שפותח על ידי חברת OpenAI
ChatGPT שפותח על ידי OpenAI, לומד
מכמות עצומה של נתונים כדי להבין ולייצר טקסט דמוי אנוש. שיטות איסוף המידע שלו
דומות בבסיסן למודלי שפה גדולים אחרים, אך
OpenAI מפרטת כמה מקורות עיקריים:
1.
מידע
זמין לציבור באינטרנט:
o
Web Scraping/Crawling בדומה
למנועי חיפוש, OpenAI משתמשת
בטכניקות של איסוף מידע מהאינטרנט
o
(Web Scraping / Crawling) זה
כולל אתרים, בלוגים, פורומים, ויקיפדיה, מאמרי חדשות, ספרים דיגיטליים ועוד.
o
מגוון
עצום של טקסטים: הנתונים
הללו כוללים מגוון רחב של נושאים, סגנונות וז'אנרים, מה שמאפשר למודל ללמוד את
ניואנסים של השפה, עובדות, מושגים, ואף סרקזם והומור.
2.
מידע
שמתקבל באמצעות שיתופי פעולה עם צדדים שלישיים:
o OpenAI משתפת פעולה עם גורמים שונים כדי לקבל גישה למאגרי נתונים מורשים או מוגנים. זה יכול לכלול מאגרי מידע אקדמיים, פרסומים מקצועיים, או נתונים ספציפיים
אבל לCHATGPT יש גם חסרון והוא התלות באינדקסים של מנוע החיפוש בינג (
מיקרוסופט) .... אינדקס בינג מצומצם יותר
בהשוואה לאינדקסים של גוגל , מכיוון ש-ChatGPT שואב מידע בעיקר מבינג.
מאגר מידע מוגבל - בהשוואה
לגוגל, המאגר קטן יותר ומכיל פחות מידע היסטורי..
מבחינת איסוף מקורות המידע יש לג'ימיני של גוגל יתרון , "אינדקס
החיפוש של גוגל הוא עצום ורב ומכיל מאות מיליארדי דפי אינטרנט וגודלו הרבה
יותר מ-100,000,000 גיגה-בייט."
הוא מצטיין בחילוץ מידע שימושי מנפחים גדולים של טקסט לא
מובנה, ויכול להתמודד עם דפים שמשנים את המבנה שלהם לעיתים קרובות (לדוגמה, באתרי
מסחר אלקטרוני).
הוא יכול לשלב מידע בזמן אמת מחיפוש Google עם מקורות נתונים פנימיים
אחרים, מה שמעיד על היכולת להבנות את תשובותיו במידע עדכני.
לתוכנות ה CRAWLER של גוגל וג'ימיני של גוגל
אפשר לקרוא להם גם "זחלנים" (Crawlers) " או
"עכבישים (Spiders) הם
בעצם מזדחלים ברחבי האינטרנט ומדווחים לגוגל את מה שהם מגלים בדרך.
"הזחלנים" האלה מסתובבים חופשי
באינטרנט, עוברים מדף לדף, סוקרים אותם ושולחים לגוגל את המידע לתיוק. התיוק הזה
נקרא "לאנדקס" או "אינדוקס" מאנגלית to index
"העכבישים" למעשה עוקבים אחרי קישורים פנימיים וחיצוניים,
מוצאים ועוד ועוד דפי אינטרנט וככה האינדקס של גוגל גדל כל הזמן.
* בגוגל
יש כיום למעלה מ-140 טריליון דפים מאונדקסים!
חשוב להבין ש"הזחלנים" (CRAWLER) האלה לא רואים את האתרים והדפים השונים כמו שאנחנו רואים אותם
באופן ויזואלי דרך הדפדפן. הם בעצם מסתכלים מתחת למכסה המנוע של האתר וקוראים את
קוד HTML שממנו
הדפים בנויים.
לאחרונה, גוגל הציגה תוכנות איסוף וצבירת המידע מסוג CRAWLERS ממוקדות יותר כמו
Google-CloudVertexBot ו-Google-Extended
תוכנות CRAWLERS אלה מתוכננות לאסוף נתונים ספציפיים לצורך אימון
מודלי AI,
ג'מיני משולב באופן עמוק עם מוצרי גוגל אחרים כמו Google Search
ו-Google
Workspace כולל
Docs ו-Sheets.
זה מאפשר לו לגשת למידע רלוונטי ולעבד אותו מתוך
הקשר של שימושים יומיומיים של משתמשים
(לדוגמה,
סיכום מיילים, עזרים לניתוח נתונים בSheets.
לסיכום, שיטת איסוף המידע של גוגל עבור
ג'מיני היא רב-שכבתית. היא מתבססת על תוכנת
האיסוף ה Crawler שלה
של האינטרנט, אך גם משתמשת בCRAWLERS ייעודיים לאיסוף
נתונים ספציפיים לאימון מודלי AI,
היא שואבת ומשלבת
מידע ממוצרי גוגל אחרים .
היכולת המולטימודלית של ג'מיני גם
מאפשרת לו לעבד מגוון רחב של סוגי נתונים מעבר לטקסט בלבד.
לאחרונה ג'מיני של
גוגל החלה להשתמש גם במאמרים מ- Google Scholar, ויש אינטגרציה הולכת וגוברת בין השניים.
יכולות הגישה של ג'ימיני למאמרים אקדמיים
- מצב Deep Research: ג'ימיני
יכול לחפש ולמצוא ציטוטים ותכנים ממאמרים אקדמיים חופשיים הזמינים באינטרנט,
במיוחד במצב Deep Research. אם
תבקש במפורש מקורות אקדמיים, הוא יכול להשתמש בגוגל סקולר כדי לאתר מאמרים
רלוונטיים ולשלב אותם בדוחות מחקר.
- עיבוד נתונים ממאמרים: ג'ימיני מסוגל לקרוא,
לסנן ולחלץ נתונים ממאות אלפי מאמרים מדעיים, כולל הוספת ציטוטים והערות. לדוגמה, הוא יכול לסנן
200,000 מאמרים ל-250 רלוונטיים ולחלץ מידע מרכזי תוך זמן קצר.
המועמד השלישי בבחינה הוא Perplexity AI
Perplexity AI
מבדלת
את עצמה ממודלי שפה גדולים (LLMs) אחרים
ומנועי חיפוש מסורתיים בכך שהיא פועלת כ"מנוע תשובות" (Answer Engine) עם
התמקדות חזקה בשקיפות ציטוטים ומידע עדכני. שיטת
איסוף המידע שלה משלבת מספר טכניקות:
איסוף וחילוץ
מידע אינטרנטי בזמן אמת Real-Time
Web Crawling
o
PerplexityBot:
-
זו תוכנת
האיסוף , ה-CRAWLER האוטומטי העיקרי של Perplexity. היא סורקת את האינטרנט באופן שיטתי כדי לאנדקס תוכן
אתרים עבור תוצאות החיפוש של Perplexity AI וכן
לאימון מודלי ה-AI שלה.
בניגוד למנועי חיפוש מסורתיים שמסתמכים על אינדקס קיים,
Perplexity מבצעת חיפוש אקטיבי בזמן אמת כדי למצוא את
המידע הרלוונטי והעדכני ביותר לשאלת המשתמש.
מקורות מידע מגוונים:
פלטפורמת Perplexity AI סורקת
מגוון רחב של מקורות מהימנים, כולל מאמרים, אתרים, כתבי עת אקדמיים, עיתונים,
בלוגים ופידים חיים של נתונים. יש לה גם מצבי חיפוש ספציפיים (לדוגמה, "Academic" למאמרים
אקדמיים, "Writing", "Math &
Coding" ועוד) שמכוונים את איסוף המידע למקורות
הרלוונטיים לאותו תחום.
החידוש העיקרי הוא בשימוש בטכניקת Retrieval-Augmented
Generation
(RAG). במקום להסתמך רק על הידע "הקפוא"
שאומן על מודלי השפה, Perplexity שולפת
מידע רלוונטי ממקורות מהימנים באינטרנט בזמן אמת (באמצעות הקרואלרים שלה) לפני
שהיא מייצרת את התשובה. זה מבטיח שהתשובה מבוססת על נתונים עדכניים ומאושרים.
היתרון העצום של פלטפורמת Perplexity AI
ציון מקורות מידע (Source Citations)☹ ולא בהכרח היקף איסוף המידע
- אחד
המאפיינים הבולטים של Perplexity הוא שהיא מספקת ציטוטים ברורים (footnotes) עם קישורים למקורות המידע שעליהם היא מתבססת בכל תשובה. זה מאפשר
למשתמשים לאמת את המידע ולצלול עמוק יותר לנושא. זה מצביע על תהליך מובנה של
זיהוי, הערכה ואזכור מקורות במהלך איסוף ועיבוד המידע.
אבל כמו כל הצ'אטבוטים מבוססי
AI , גם פלטפורמת Perplexity AI מוגבלת
יחסית מבחינת גישה לאתרי אינטרנט מאחורי חומת תשלום .
כך לדוגמא , בכל חיפוש שלי בפלטפורמת Perplexity AI אני
לא מקבל גישה למקורות מידע בעיתוני " הארץ" , דה-מרקר , ניו יורק טיימס ,
טקדין ומאגרים אקדמיים כגון PROQUEST
לסיכום, שיטת איסוף
המידע של Perplexity AI
שונה ממנועי חיפוש רגילים בכך שהיא לא רק מספקת
רשימת קישורים, אלא משתמשת בקרואלינג אינטרנטי בזמן אמת ובטכנולוגיית RAG מתקדמת כדי לספק תשובות
ישירות, מדויקות, מעודכנות ומצוטטות ממגוון רחב של מקורות מהימנים. הדגש על שקיפות
וציטוטים הוא מרכיב מרכזי שמבדיל אותה ממתחרות רבות.
Grok מודל השפה הגדול של xAI (חברת הבינה המלאכותית של אילון מאסק), מבדל
את עצמו בעיקר ביכולת הגישה למידע בזמן אמת, ובפרט לפלטפורמת X (לשעבר טוויטר). הנה פירוט שיטות איסוף המידע
שלו:
1.
נתוני
אימון ראשוניים (Pre-training Data):
o כמו רוב מודלי השפה הגדולים, Grok עבר אימון ראשוני על קורפוס נרחב של
מידע זמין לציבור באינטרנט. זה כולל נתוני דפי
אינטרנט גולמיים, תמציות מטה-דאטה, ותמציות טקסט מהאינטרנט. מטרת האימון הזה היא
ללמד את המודל את השפה, דפוסים לשוניים, עובדות כלליות, ולהבין שאילתות אנושיות.
2.
גישה
למידע בזמן אמת (Real-Time Data Access):
o פלטפורמת X , לשעבר טוויטר: זהו המאפיין הבולט והייחודי ביותר מבחינת איסוף המידע של GROK
o
הוא מתוכנן לגשת באופן ישיר
למידע בזמן אמת מפוסטים ציבוריים ב-X (טוויטר).
המשמעות היא ש-Grok יכול
לנתח מגמות, חדשות מתפרצות, ופעילות משתמשים בפלטפורמה כפי שהם מתרחשים בזמן אמיתי
. יכולת זו מאפשרת לו לספק
מידע עדכני ביותר, בניגוד למודלים אחרים שאומנו על נתונים ש"קפאו"
בנקודת זמן מסוימת.
o
חיפוש
באינטרנט בזמן אמת Real-Time
Web Search: בנוסף לחיפוש בטוויטר - Grok יכול
לבצע חיפושי אינטרנט בזמן אמת כדי לאחזר מידע מעודכן מאתרים אחרים. יכולת זו
משתלבת עם מודל השפה שלו כדי לספק תשובות מבוססות על הנתונים העדכניים ביותר
הזמינים.
המועמד החמישי בבחינה הוא Claude מודל השפה של
חברת
Anthropic,
אחרון אחרון בסקירה הוא Claude מודל השפה של
חברת
Anthropic, שהוא החלש ביותר מבחינת
יכולות איסוף המידע .
איסוף המידע של CLAUDE
:
מידע
זמין לציבור באינטרנט: כמו
רוב מודלי השפה הגדולים, Claude מאומן
על קורפוס עצום של נתונים טקסטואליים וקוד מהאינטרנט. זה כולל מאמרים, ספרים,
אתרים, קוד תוכנה, ועוד.
מאגרי
נתונים ברישיון מצד שלישי: Anthropic רוכשת
גישה למאגרי נתונים מיוחדים או מורשים מצדדים שלישיים, מה שמספק למודל ידע מגוון
ועמוק יותר בתחומים ספציפיים.
תוכנת האיסוף , הCRAWLER של חברת Anthropic היא
ClaudeBot
הפועלת כדי לסרוק את האינטרנט ולאסוף נתונים לאימון
מודלי ה-AI שלה.
חשוב לציין שעלתה ביקורת מסוימת לגבי האופן שבו
ClaudeBot מתייחס לקבצי
robots.txt של אתרים, והשפעתו על עומס האתרים. בכל מקרה, פלטפורמת CLAUDE חלשה למדי מבחינת יכולות איסוף מידע באינטרנט.
Claude does not independently crawl the web or retrieve real-time page data directly. Instead, it seems that Claude relies on Brave Search's indexed and cached results
שתי
הפלטפורמות המובילות מבחינת איסוף מידע ( ולמעשה גם מבחינת עיבוד המידע ) הם Perplexity
AI
ובאותה שורה גם ג'מיני של גוגל (במיוחד מאז החלה האינטגרציה של ג'ימיני עם גוגל
סקולר ).
עם זאת, יש לזכור כי בכל הצ'אטבוטים מבוססי
AI יש חסרון מבחינת גישה לאתרי אינטרנט מאחורי חומת
תשלום .
כך לדוגמא
, בכל חיפוש שלי בצ'אבוטים הנ"ל אני לא מקבל גישה למקורות מידע
בעיתוני אקונומיסט הבריטי , " הארץ" , דה-מרקר , ניו יורק טיימס
, טקדין ומאגרים אקדמיים כגון PROQUEST
.
חשוב לציין כי בעוד ג'מיני או perplexity יכולים להשתמש, מדי פעם , במאמרים ובמידע אקדמי, ספריות אוניברסיטאיות ומאגרי מידע ייעודיים כמו Omni או Web of Science עדיין נחשבים יעילים יותר לחיפוש מקורות אקדמיים מהימנים ומקיפים, במיוחד עבור כתבי עת מבוססי מנוי.
ג'מיני או perplexity שימושים
במיוחד בשלבי מחקר מוקדמים, לחשיבה וסיכום נושאים מורכבים.
עמי, אין עליך! אתה אחד יחיד ומיוחד. שאפו ענק.
השבמחק