חפש בבלוג זה

יום שלישי, 1 ביולי 2025

האם ספרים משמשים לאימון ע"י צ'אטובטים מבוססי בינה מלאכותית AI ?

 



 
לאחרונה,  גם  ספרים משמשים כחלק מהאימון של צ'אטבוטים מבוססי
AI .

עדיפות ניתנת לאימון ספרי עיון .

מודלי שפה גדולים (LLMs) המפעילים צ'אטבוטים כמו ChatGPT וכיום Gemini, Claude ועוד, עוברים אימון על כמויות אדירות של טקסט כדי ללמוד דפוסי שפה, דקדוק, ידע כללי, והבנת הקשר. ספרים הם חלק משמעותי ממערכי הנתונים הללו, וזאת מכמה סיבות:

  • עושר לשוני ותחבירי: ספרים כתובים לרוב בצורה מוקפדת ועשירה מבחינה לשונית ותחבירית, ומספקים למודלים דוגמאות רבות למבנים מורכבים של משפטים ורעיונות.
  • ידע רחב ועמוק: ספרים מכסים מגוון עצום של נושאים – היסטוריה, מדע, ספרות, פילוסופיה ועוד. אימון על ספרים מאפשר לצ'אטבוטים לרכוש ידע עמוק בתחומים רבים ולענות על שאלות מגוונות.
  • הקשר ורצף: בניגוד לטקסטים קצרים או מפורקים, ספרים מספקים הקשר ורצף נרטיבי, מה שמסייע למודלים ללמוד כיצד רעיונות מתפתחים וכיצד מידע מתקשר זה לזה לאורך זמן.
  • נתונים באיכות גבוהה: באופן כללי, טקסטים מספרים נחשבים לאיכותיים יותר מבחינת עריכה, דיוק ועקביות בהשוואה לחלקים מסוימים מהאינטרנט.
  • בהחלט! ספרי עיון הם מקור נתונים חשוב במיוחד לאימון צ'אטבוטים מבוססי AI, ואף קריטיים במובנים מסוימים.

  • מדוע ספרי עיון חשובים במיוחד?
  • דיוק ומהימנות: ספרי עיון (אנציקלופדיות, ספרי לימוד, מחקרים אקדמיים, מדריכים מקצועיים) נכתבים לרוב על ידי מומחים בתחומם, עוברים תהליכי עריכה וביקורת קפדניים, ומכילים מידע מדויק ומהימן. זהו יתרון עצום עבור אימון AI, שכן הוא מאפשר למודל ללמוד ידע עובדתי מדויק ולהימנע מהזיות (hallucinations) או הפצת מידע שגוי.
  • ידע ספציפי ומעמיק: ספרי עיון מתמקדים בתחומים ספציפיים ומספקים מידע מעמיק ומפורט. אימון על ספרים כאלה מאפשר לצ'אטבוט לפתח מומחיות בתחומים מסוימים, ולענות על שאלות מורכבות ונישתיות בדיוק רב.
  • מבנה לוגי וארגון: ספרי עיון מאורגנים לרוב בצורה לוגית וברורה, עם כותרות, תתי-כותרות, אינדקסים, וטקסטים מובנים. מבנה זה מסייע למודל להבין את הקשרים בין פיסות מידע שונות ולשלוף מידע רלוונטי בצורה יעילה יותר.
  • הבנת מושגים מורכבים: ספרי עיון מסבירים מושגים מורכבים, תיאוריות ורעיונות בצורה שיטתית. חשיפה לטקסטים כאלה מאפשרת לצ'אטבוט לפתח הבנה עמוקה יותר של נושאים אלו, ולנסח הסברים ברורים ומקיפים.
  • הפחתת הטיה (Bias): בעוד שהאינטרנט כולל מגוון רחב של דעות ותכנים, חלקם עשויים להיות מוטים או להכיל מידע לא מדויק. ספרי עיון, במיוחד אלה שעוברים ביקורת עמיתים, יכולים לסייע בהפחתת הטיות מסוימות במערך הנתונים של האימון.
  • למעשה, ספרי עיון הם אבן יסוד בבניית בסיס ידע חזק ומהימן עבור צ'אטבוטים מבוססי AI, ומאפשרים להם לספק תשובות אינפורמטיביות, מבוססות עובדות ומדויקות למגוון רחב של שאלות.
  •  

השפעה על התוכן:

  • המידע מהספרים עוזר לצ'אטבוטים להבין הקשרים, לענות על שאלות, לגבש ידע עובדתי ולייצר טקסט

זהו תחום מתפתח במהירות עם השלכות משפטיות, אתיות וכלכליות משמעותיות.

 

איך זה עובד:

  • הספרים עוברים עיבוד ממוחשב כדי ללמד את המודל של הבינה המלאכותית  אודות דפוסי שפה, מבנה משפטים, ידע עובדתי ורעיונות

אילו ספרים:

  • ספרים ברשות הציבור (שזכויות היוצרים שלהם פגו)
  • טקסטים שזמינים באופן חופשי באינטרנט
  • במקרים מסוימים - ספרים מוגני זכויות יוצרים, מה שיוצר מחלוקות משפטיות

סוגיות זכויות יוצרים:

  • יש ויכוחים משפטיים בנושא השימוש בחומר מוגן זכויות יוצרים לאימון  AI
  • חברות טכנולוגיה טוענות לשימוש הוגן, בעוד סופרים ומוציאים לאור מתנגדים

·        בתי משפט שונים ברחבי העולם, ובכלל זה בארה"ב, דנים בסוגיות אלו, כאשר ישנן פסיקות ראשוניות שקובעות כי אימון מודלי AI על ספרים מוגנים בזכויות יוצרים יכול להיחשב כ"שימוש הוגן" (Fair Use). יחד עם זאת, הנושא עדיין רחוק מלהיות מוכרע ונתון לפרשנויות משפטיות שונות.

מקור המידע

מקור מידע 2 

ראו גם:

Roey Tzezana

משתמשים בקלוד? מיליוני ספרים צורחים בקול - ומתים!

נו, בערך. במשפט שנערך בימים אלו כנגד אנתרופיק (החברה מאחורי קלוד), התגלה שהיא רכשה מיליוני ספרים פיזיים, פירקה אותם עמוד-עמוד, סרקה את הטקסט וזרקה את הספר לפח. למה? כדי לאמן את קלוד.

לפני שאתם מזדעזעים, צריך שיהיה ברור שכנראה שגם חברות אחרות משתמשות בשיטות דומות. למרות שכדאי לציין לטובה את גוגל, שדווקא היא השתמשה במצלמות מיוחדות שלא מחייבות להרוס את הספרים הפיזיים.

בכל מקרה, דווקא השיטה הזו של אנתרופיק עומדת לטובתה בבית המשפט. השופט הכריע שמדובר בשימוש הוגן (fair use) בספרים למטרות אימון: אנתרופיק רכשה אותם, 'קראה' אותם, ואז נפטרה מהם כך שאי-אפשר לקרוא אותם שוב. וכן, המנוע שלה עכשיו חכם יותר בזכות אותם ספרים, אבל, ובכן, את זה אפשר לומר גם לגבי קוראים אנושיים.

אפשר להבין את אנתרופיק, שהייתה צריכה להדביק את הקצב מול  OpenAI וצ'אט-GPT שלה. ועדיין, הלב כואב על מיליוני ספרים פיזיים שנהרסו לטובת ההתקדמות הזו.

וכפי שמסכם את העניין צ'אט-GPT עצמו 

"להשמיד מיליוני ספרים פיזיים רק כדי לאמן מודל AI זה בזבוז שערורייתי, חסר אחריות ומוסרי באופן מקומם. לא הגיוני שחברה שמתיימרת לקדם ידע ותרבות תשחית ספרים פיזיים באופן שיטתי, במיוחד כשהיו לה אלטרנטיבות. עצם הרעיון שסורקים ואז זורקים לפח מראה על זלזול מוחלט בערך התרבותי, הסביבתי וההיסטורי של הספרים עצמם. העובדה שזה חוקי לא הופכת את זה ללגיטימי או מקובל."

מקור המידע

https://tinyurl.com/2p9j7m2p


אין תגובות:

הוסף רשומת תגובה

גוגל משתמשת בספרייה של 20 מיליארד סרטונים של יוטיוב כדי לאמן את מודלי הבינה המלאכותית שלה.

  יוטיוברים (יוצרי תוכן ביוטיוב)  מופתעים מכך שגוגל משתמשת בסרטונים שלהם כדי לאמן מודלים של בינה מלאכותית.   "על פי דיווח של CNBC ,...