חפש בבלוג זה

יום רביעי, 27 באוגוסט 2025

בעיית עומק והיקף מקורות המידע של ChatGPT

 


מאת: עמי סלנט , מידען

 

תקציר

מזה כשנתיים אני בודק לעומק וחוקר את סוגיית איסוף מקורות המידע ע"י  הצ'אטבוטים  מבוססי AI  ומצאתי כי המקורות העיקריים שמהם דולים הצ'אטבוטים  מבוססי   AI , במיוחד , ChatGPT את התשובות הם בראש ובראשונה : Reddit  , ויקיפדיה, יוטיוב, וגוגל

לעומת זאת ,  Perplexity מרחיבים כל הזמן את היקף מקורות המידע והתחילו לכסות גם מחקרים אקדמיים לאחרונה .

עם זאת , iGemin  של גוגל במיוחד במצב  Deep research   זמין במנוי  Gemini Advanced,  יכול לחפש ולנתח מאמרים אקדמיים זמינים באופן חופשי ברשת.

הנושא של איחזור מידע בכלי AI  מעניין אותי במיוחד כי אני עוסק בפיתוח ועדכון מאגרי מידע כבר 30 שנה ( ראו לדוגמא)  וגם לימדתי על כך באוניברסיטת בר אילן במחלקה ללימודי מידע .

 

תוכן העניינים

חלק א' : המחקר של ג'וש בליסקאל מ-Profound

חלק ב' : "chat GPT query reasoning extractor",

חלק ג' : הכנת הפרומפט בChatGPT לחיפוש מחקרים

חלק ג' :  איחזור מידע במנוע Perplexity

חלק ד' : היקף ועומק מקורות המידע ב Google Gemini

  


חלק א' : המחקר של ג'וש בליסקאל מ-Profound

 

המספרים  והנתונים החשובים:

ג'וש בליסקאל מ-Profound חקר מיליארד ציטוטים ב-ChatGPT ומיליון ביקורי הפניות במגוון תחומים. ממצאיו פוקחים עיניים:

·       מספר הציטוטים  ב-Reddit עלה ב-87% מאז סוף יולי, וכעת מהווה למעלה מ-10% מכלל הציטוטים.

 

·       מספר הציטוטים בוויקיפדיה זינק ב-62% ביולי,  יחד, ויקיפדיה, Reddit ו-TechRadar שולטות ב-22% מכלל הציטוטים ב-ChatGPT - עלייה של 53% בחודש אחד בלבד.

 

·       בינתיים, אתרים ממותגים, סוג האתרים שעסקים תלויים בהם ללידים והמרות, מאבדים גובה במהירות.

 

מדוע  זה קורה?

במבט ראשון, אולי תחשבו שזה קשור ל-GPT-5, שהושק בתחילת אוגוסט. אבל הנתונים מספרים סיפור אחר.

הקונסולידציה לכיוון כמה מקורות  מידע "שמספקים תשובות תחילה" החלה שבועות קודם לכן.

זה מצביע על כך ש-OpenAI ביצעה התאמה מכוונת של מערכת אחזור המידע כדי להעדיף פלטפורמות ואתרים ש:

 

עונים ישירות על שאילתות משתמשים.

 

מספקים  מידע שאושר על ידי הקהילה/קבוצה או מידע אנציקלופדי.

 

דורשים פחות סינון כדי להציג תגובות שימושיות ואמינות.

 

אתרי רדיט  Reddit וויקיפדיה מתאימים לתבנית  האיסוף הזו בצורה מושלמת. הם מקיפים מדי , עם הבנייה מראש שיוצרים שם סביב תשובות ישירות.

התמונה הגדולה

זה לא רק עניין של ציטוטים  של מקורות מידע ב-ChatGPT. זה עניין של איך חיפוש מבוסס בינה מלאכותית יעצב מחדש את האינטרנט.

חשבו על זה:

אם מערכות בינה מלאכותית מעדיפות סוג של מקורות מידע  "שמספקים תשובות תחילה", הרבה אתרים רציניים ומעמיקים לא יכנסו כלל למערכות איחזור המידע של הצ'אטבוטים מבוססי AI  כגון ChatGPT.

זהו אותו מסלול התפתחות שראינו עם גוגל לאורך השנים. זוכרים את הרגע שבו מילות מפתח נתנו מענה ? ואז הגיעה עלייתם של E-A-T (מומחיות, סמכותיות, אמינות). (Expertise, Authoritativeness, Trustworthiness) ועכשיו בינה מלאכותית דוחפת את זה הלאה , אבל לצערנו , למסלול צר יותר, ונותנת עדיפות למקורות שעונים מיד בעיקר על שאלות , לא בהכרח השראה למומחיות !

מקור המידע :

Shane Barker
August 26, 2025

קישור

   מקור מידע 2

AI Platform Citation Patterns: How ChatGPT, Google AI ...

 

חלק ב' : "chat GPT query reasoning extractor",

הכלי פותח כדי לספק שקיפות מאחורי הקלעים, כולל חילוץ של שאילתות מבוססות, הסברים פנימיים על סיבת החיפוש, וכעת גם כותרות, כתובות URL ותקצירים של דפי אינטרנט שניגשו אליהם..

הכלי מציג את המידע במסך חדש ומעוצב. הוא כולל כפתורי העתקה לכל פריט ולכלל התוכן,

 למידע נוסף

ברגע שאני לוחץ על אותו "chat GPT query reasoning extractor", שימו לב מה קורה: אני מקבל פה עכשיו חלון שמראה לי את כל האתרים, ה-URL-ים הספציפיים, שבאותו חיפוש שעשיתי (במקרה הזה שהוא יצא לרשת), במקרה הזה אלו החיפושים ש-GPT עשה, ואלו האתרים שהוא מצא כרלוונטיים לקחת מהם את המידע (מקור, אנידור חקק) .

כדי לכוון את "ChatGPT Query Reasoning Extractor" הכלי שמחלץ שאילתות חיפוש פנימיות והיגיון  חיפוש מ-ChatGPT להתמקד במקורות אקדמיים בלבד, חשוב להבין שהכלי עצמו אינו מבצע חיפושים – הוא רק חושף את מה ש-ChatGPT עושה מאחורי הקלעים. לכן, ההתאמה מתבצעת דרך כתיבת פרומפטים (הנחיות) מדויקים ב-ChatGPT, שמכריחים אותו להשתמש במקורות אקדמיים.

הנחיות שימוש



 חלק ג' : הכנת הפרומפט בChatGPT לחיפוש מחקרים

 

  • ציין סוגי מקורות אקדמיים: כתוב פרומפט שמגביל את החיפוש למקורות אקדמיים כמו מאמרים peer-reviewed, מחקרים מדעיים, דוחות מאוניברסיטאות או ארגונים כמו WHO/UN. 
  • לדוגמה:
    "
    חפש מידע על [נושא, לדוגמה: שינויי אקלים] רק ממקורות אקדמיים peer-reviewed, כגון מאמרים מ-Google Scholar, PubMed או כתבי עת מדעיים. אל תשתמש במקורות לא אקדמיים כמו בלוגים או חדשות כלליות. ספק ציטוטים וקישורים."

מקור

 

חלק ג' :  איחזור מידע במנוע Perplexity



Perplexity היא, בראש ובראשונה,  פלטפורמת חיפוש אשר ממצאי החיפוש שלה  עוברים עיבוד שיטתי על ידי בינה מלאכותית כמענה לשאילתות משתמשים.

Perplexity AI  מכסה מקורות אינטרנט, אקדמיים ומדיה חברתית נרחבים למדי .

המיקוד האינטרנטי  ב Perplexity מחפש באתרי אינטרנט...

... והמיקוד האקדמי מחפש מקורות אקדמיים, ניתן גם לציין אתר לחיפוש, כגון PubMed.

 

·        Academic ModeEnables targeted searches of peer-reviewed papers, journals, and scholarly databases like PubMed.

 

הגדרות המיקוד האקדמי בפלטפורמת  Perplexity

Academic

·        Academic Mode: Enables targeted searches of peer-reviewed papers, journals, and scholarly databases like PubMed.

 

מקורות המידע לחלק ב' :

 

Can perplexity find scientific information? What kinds?

 

How does Perplexity evaluate information sources?

 

Harnessing Perplexity AI for Research and Effective Source Identification

Bryony Drought

 

חלק ד' : היקף ועומק מקורות המידע ב Google Gemini



הצ'אטבוט  Google Gemini בכתובת gemini.google מסוגל לכסות מקורות מידע מחקריים אקדמיים

יכולות הכיסוי העיקריות

IGemin במיוחד במצב   deep research  זמין במנוי Gemini Advanced, יכול לחפש ולנתח מאמרים אקדמיים זמינים באופן חופשי ברשת. הוא מסוגל לסנתז מידע ממקורות כמו מאמרים מדעיים פתוחים, דוחות מחקריים ותכנים אקדמיים אחרים שנמצאים באינטרנט הפתוח. זה כולל חיפוש אוטומטי במאות אתרים, יצירת דוחות מפורטים עם ציטוטים ומקורות (מקור)

שימושים מחקריים: הכלי תוכנן כעוזר מחקר אישי, שמפרק נושאים מורכבים, מחפש מידע עדכני ומספק סיכומים. לדוגמה, הוא יכול להפיק דוחות על נושאים אקדמיים, להשוות מחקרים או לספק הסברים מבוססי מקורות. זה שימושי במיוחד לסטודנטים, חוקרים ומורים



עד כמה ג'מיני מעודכן במאמרים מדעיים שפורסמו בשנים האחרונות?


יכולות העדכון

  • חיפוש בזמן אמת: ג'מיני, במיוחד במצב Deep Research זמין במנוי Advanced, יכול לגשת למידע עדכני מהרשת, כולל מאמרים מדעיים חופשיים שפורסמו לאחרונה. הוא מסנתז מידע ממקורות כמו Google Scholar, PubMed (אם פתוחים) ומאגרים ציבוריים, ומספק דוחות עם ציטוטים של מקורות המידע . לדוגמה, במחקרים רפואיים משנת 2025, ג'מיני 1.5 Pro השיג ציונים גבוהים (82%–84%) בשאלות מבוססות מאמרים עדכניים ממקורות כמו כתבי עת רפואיים ( מקור) .
  • ביצועים במחקרים:  במבחנים על ידע רפואי ומדעי, ג'מיני הוכיח יכולת טובה לענות על שאלות מבוססות מאמרים משנים האחרונות (2020–2025), עם דיוק של 60%–81% בתחומים כמו רפואה, סביבה וטכנולוגיה. הוא משלב מידע ממאמרים עדכניים כדי לייצר סקירות, אך נוטה להעדיף מאמרים בעלי ציטוטים רבים ( מקור המידע) .
  • תדירות עדכונים: המודל  שדל ג'ימיני מתעדכן באופן שוטף על ידי גוגל, עם גרסאות חדשות כמו Gemini 2.0 (משנת 2025) שמשפרות גישה לנתונים עדכניים. זה מאפשר לו להתמודד עם נושאים חדשים, כמו התקדמות ב-AI או שינויי אקלים, מבלי להסתמך רק על נתוני אימון ישנים.

האם אפשר לכוון את חיפוש ג'מיני רק למקורות אקדמיים ולפרט את זהותם?



  • שימוש בפרומפטים מדויקים: כתוב הנחיות מפורשות בפרומפט, כמו: "חפש מידע על [נושא] רק ממקורות אקדמיים כמו PubMed, Google Scholar, arXiv או כתבי עת peer-reviewed. אל תשתמש במקורות לא אקדמיים כמו בלוגים או אתרי חדשות. ספק דוח עם ציטוטים מלאים, כולל שמות המחברים, כותרת המאמר, כתב העת, שנת פרסום וקישורים". זה מכריח את המודל להגביל את החיפוש.
  • אתם צריכים לציין לג'ימיני לכלול רק מאמרים מ-PubMed, MDPI, Researchgate וכו'. וזה בדרך כלל עובד היטב.
  • מצב Deep Research הפעילו את המצב הזה לשאלות מורכבות. ג'מיני יציג תוכנית חיפוש ראשונית, שתוכלו לשנות כדי להתמקד במקורות אקדמיים (למשל, "הוסף חיפוש רק במאגרים כמו PubMed Central או MDPI.
  • לאחר מכן, הוא ייצר דוח מפורט עם ציטוטים, כולל פרטי זהות המקורות כמו שמות כתבי עת, מחברים וקישורים.

מגבלות

  • אין גישה למאגרים בתשלום:  Gemini אינו יכול לגשת לכתבי עת אקדמיים או מאגרי נתונים שדורשים מנוי (כגון מאמרים מאחורי חומת תשלום). הוא מוגבל למקורות חופשיים בלבד, מה שאומר שהוא לא מחליף כלים ייעודיים כמו Google Scholar, Omni  או מאגרי ספריות אקדמיות.
  • דיוק הציטוטים: Gemini  יכול להפיק ציטוטים של מקורות מידע , אך הם עלולים להכיל שגיאות או לערבב בין ציטוטים נכונים לשגויים, גם במצב Deep Research  חשוב לאמת את המקורות  ע"י הצלבת חיפוש באופן ידני (מקור)..

המלצות לשימוש

  • למחקר ראשוני השתמשו ב-Deep Research לסקירה מהירה של נושאים, כמו ניתוח השפעות שינויי אקלים או השוואת מחקרים.
  • גישה : Deep Research זמין במנוי Gemini Advanced (חינם לשנה ראשונה לסטודנטים עד 6 באוקטובר 2025). אם אתם משתמשים בגרסה החינמית, הכיסוי מוגבל יותר.

 ראו גם :

Generating credible referenced medical research: A comparative study of openAI's GPT-4 and Google's gemini

Computers in Biology and Medicine

קישור למאמר שהתפרסם בפברואר 2025

  המחברים , כולם רופאים בכירים בארה"ב ובישראל  

Mahmud Omar, Saleh Nassar , Kareem Hijazi , Benjamin S. Glicksberg Girish N. Nadkarni Eyal Klang 

 

 

 


אין תגובות:

הוסף רשומת תגובה

בעיית עומק והיקף מקורות המידע של ChatGPT

  מאת: עמי סלנט , מידען   תקציר מזה כשנתיים אני בודק לעומק וחוקר את סוגיית איסוף מקורות המידע ע"י   הצ'אטבוטים   מבוססי AI   ...