יום שני, 18 בספטמבר 2006

מסע למרתפי ספריית הקונגרס


אחרי הפגישה המרתקת עם אליזבת וקווין פנינו לפגישה עם צמד נוסף מאזור אחר של הספריה: בארי וולר וסו מאנוס. בארי מנהל פרויקטים במחלקה ליוזמות אסטרטגיות של ספריית הקונגרס,ד"ר להנדסת מחשבים בהכשרתו ובעברו מרצה באוניברסיטה בתחומי מידע ובעל רקע בניהול בניה של ספריות דיגיטאליות. סו מנהלת אוספים דיגיטליים בספריית הקונגרס ומוסיקאית בזמנה החופשי. בארי אדם מבוגר יחסית נראה קרוב לגיל הפרישה מלא אנרגיות וחביבות יוצאת דופן,הציג את עצמו בפניו מייד כצוללן והבהיר שמבחינתו מטרת הביקור היא יצירת בסיס לצלילה בישראל.
הפגישה עם בארי חזקה את הרושם שקיבלנו בפגישה עם אליזבת וקווין של הספריה כגוף כבד,שמרני המתקשה להסתגל לרוחות החדשות המנשבות.
התחלנו את פגישה בסיור במרתפי הסריקה של הספריה. היקפי הדיגיטציה העצומים שבוצעו בספריה הזו הביאו אותנו לצפות לאולמות מתועשים עם ציוד מתקדם. בפועל מדובר במתחם בן חדרים ספורים. בחדרים פזורות מצלמות בודדות בעלות יכולת להפיק צילומים בגודל 1:1 עד להיקפים של כרזות גדולות, ציוד תאורה טוב וכמה סורקים מקצועיים. העבודה איטית יחסית וכוללת מלבד סריקת ספרים גם סריקה של עיתונים,כתבי ידי תמונות כרזות וכדומה. עיקר גאוותם על איכות הסריקה ולא על הכמות. הם מגיעים לקצב שנע בין 100- 200 ספרים בחודש שזה בערך אלפית ממה שעושים גוגל באותה משך של זמן. הדגש בכל אופן הספריית הקונגרס הוא על סריקת חומרים שיש לשמר אותם והם אכן עובדים בזהירות ונותנים כבוד אישי למקורות הנסרקים.
יש להם קשרים וגם פרויקט במימון וביצוע של גוגל ובארי מעיד שהאיכות שגוגל מוכנים לקבל נמוכה ביחס לסטנדרטים של ספריית הקונגרס, וכי הם דרשו מהם לבצע תיקונים בתוצר ועל הרקע הזה. היו להם ויכוחים ואכן הרמה של גוגל מאוד השתפרה בתגובה לדרישות של הספרייה. בסך הכל הוא מלא התפעלות מקצב העבודה של גוגל ומאיכות שמתקבלת.. בכל מה שקשור לפיענוח
Ocr
שהוא אחד מתחומי ההתמחות של בארי ,הוא מציין שגוגל מגיעים לאיכות טובה מספיק עבור חיפוש בתוך הטקסט.
כתבי יד נשלחים בדרך להקלדה כי הפיענוח שלהם קשה ולעיתים בלתי אפשרי.
בארי מציין שחלק גדול מהקשיים שלהם בעבודה נובע מכך שהם צמודים לטכנולוגיות ישנות וחלק ניכר מהמאגר נסרק ונבנה בטכנולוגיות מיושנות. אחד האתגרים הוא יצירת הבחנה אוטומטית ללא עבודה ידנית בין תמונות,מפות וטקסטים.
באוספים החדשים התמונות מקבלות סמל מיוחד במטה דטה המבחין אותם מטקסטים ומאפשר לשלוף אותם בחיפוש בנפרד. באוספים הישנים הכל נעשה ידנית. (אגב –בקשרים שיצרנו עם אוליב בישראל למדנו שיש להם כבר את היכולת הזו)
יש לו ציפיות רבות מהתקדמות שתחול לדבריו בתחום של זיהוי תמונה אולם הוא צופה שיעברו עוד כעשר שנים עד שהמחקר בתחום זה יבשיל. כרגע יש למפתח מדיה ידנית.
הם מתבססים במיפתוח על קטלוג הספריה ברוב המקרים,יש פריטים שדורשים קטלוג נוסף. בארי די מיואש מהקצב האיטי בו הדברים מתקדמים בספריה ומהשמרנות הגדולה. אם הדבר היה תלוי בו הוא היה יוצר שינוי רדיקלי בנושא המטה דטה. המטה דטה הנוכחי תובע זמן בהיקפים מטורפים ובשורה התחתונה מציע מידע לא שימושי ואף מזיק לתלמידים. לדבריו לספריית הקונגרס אין די כח אדם ומשאבים כדי לעמוד בסטנדרטים השמרניים שלה בתחום זה. בעיניו אפשר בהחלט להתבסס על עזרת הציבור במיפתוח דרך תגים וכדומה.
בארי שמע על תוכנת ה
Content dm
המדוברת כל כך בקרב האנשים שפגשנו בסיאטל,הוא שמע שמדובר במנגנון טוב אך יקר ותובעני להטמעה.



Library of Congress Launches Global "Rare Book" Digitization Project with Google Donation


Internet Librarian
2006: Advance Program - Monday, October 23rd

אין תגובות: