ארכיב האינטרנט יתעלם מרובוטס.טקסט

הפורטל המשפטי לאינטרנט, סייבר וטכנולוגיית מידע

אתר האינטרנט של עו"ד חיים רביה העומד בראש קבוצת האינטרנט, הסייבר וזכויות היוצרים של פרל כהן צדק לצר ברץ. פועל מ־1996

ארכיב האינטרנט - או, כמו שהוא ידוע יותר, מכונת היה-היה (Wayback Machine) - החליט להתעלם מ-robots.txt. רובוטס.טקסט הוא קובץ המורה למנועי חיפוש אילו איזורים באתר לא לסרוק ולאנדקס. מנהל אתר יכול ליישם אותו מאלף ואחת סיבות - מפני שיש חומר רגיש באיזורים הללו, מפני שהם בבניה, מפני שיש שם קבצים גדולים או בגלל שאינו רוצה שמנועי חיפוש ישמרו גרסאות-עבר של התוכן. חלק ממנועי החיפוש מכבדים robots.txt (מי אמר גוגל ראשון?!) וחלק לא.

Archive.org הוא אתר ענק המשמש לאירכוב חלקים מאתרי Web, אחת לכמה זמן. באופן זה הוא משמר תמונות חטופות (snapshots) של האינטרנט בנקודות זמן שונות. כעת הוא מודיע בבלוג שלו, שהחליט לא לכבד יותר את ההוראות של קבצי robots.txt מפני שלשיטתו הם מיועדים למנועי חיפוש ולא לארכיונים. הוא מנמק זאת בשתי סיבות -

מטרת האתר היא ליצור תמונת-מראה שלמה של אתרי אינטרנט, כולל תכנים כפולים שיש בהם וקבצים גדולים.
שימוש ב-robots.txt להחריג ממנועי חיפוש דומיינים שהיו פעילים וחדלו לאכסן אתרים, גורם לכך שאותם אתרים נעלמים לגמרי גם מהארכיב שהוא מנהל.

לדברי הפירסום, לפני חודשים אחדים הם הודיעו שיתעלמו מהוראות הקובץ באתרי ממשל וצבא אמריקאים, והתגובות החיוביות מעודדות אותם להמשיך עם זה הלאה.

הפורטל המשפטי לאינטרנט, סייבר וטכנולוגיית מידע

ארכיב האינטרנט יתעלם מרובוטס.טקסט

אולי יעניין אותך גם

משטרת דטרויט מגבילה שימוש בזיהוי פנים

מטא תשהה את השקת פרויקט Meta AI באירופה

כניסה