হারিয়ে যাচ্ছে কোটি কোটি ওয়েবপেইজ

অনলাইন ডেস্ক

প্রকাশিত: ১৮:৫৬, ১৮ সেপ্টেম্বর ২০২৪

হারিয়ে যাচ্ছে ওয়েবপেইজ

ওয়েবের বিভিন্ন তথ্য সুরক্ষিত রাখার গরজ খুব কম সংখ্যক কোম্পানির মধ্যেই দেখা যায়। আর এর মধ্যে যোগ হয়েছে নতুন এক ঝুঁকি যা ইন্টারনেটের ইতিহাসকেই হুমকির মুখে ফেলছে।

সাম্প্রতিক গবেষণা বলছে, ২০১৩ সাল থেকে ২০২৩ সালের মধ্যে পোস্ট করা এক চতুর্থাংশ ওয়েব পেইজই স্রেফ নেই হয়ে গেছে। প্রশ্ন হচ্ছে, এই ধরনের ওয়েব পেইজ সংরক্ষণ করা সম্ভব কি না।

আজ আমরা হাজার বছর আগের ইতিহাস খুঁজে পাই। খৃষ্টপূর্ব যুগে পম্পেই নগরীর বাসিন্দাদের জীবনাচারণ কেমন ছিল সে বর্ণনা মেলে প্যাপিরাস, মোজাইক ও মোমের ট্যাবলেটে, যেগুলো সংরক্ষিত আছে বিভিন্ন জাদুঘরে। মধ্যযুগীয় ল্যাটিন ভাষা জানা থাকলে চলে যেতে পারেন ইউকে ন্যাশনাল আর্কাইভের সবচেয়ে পুরোনো নথি অর্থাৎ ‘ডুমসডে বুক’ পড়ার জন্য। যেখানে একাদশ শতকে ইংল্যান্ডের নর্থাম্বারল্যান্ড কাউন্টিতে কতগুলো গবাদি পশু পালিত হতো, সেসব গল্প চলে আসবে চোখের সামনে। এ ছাড়া, বিভিন্ন চিঠি ও উপন্যাস থেকে ভিক্টোরিয়ান যুগের সামাজিক জীবন ও তৎকালীন লোকজন কাদের ভালোবাসত বা ঘৃণা করত, তারও খোঁজ পাওয়া যায়।

কিন্তু, শত বছর পর এই একুশ শতকে আমাদের ইতিহাসের কী অবস্থা হবে? এই যুগের বেশিরভাগ তথ্যই জমা হচ্ছে ডিজিটাল উপায়ে, যার সম্ভবত সবচেয়ে বড় তথ্যভাণ্ডার হচ্ছে কোটি কোটি ওয়েবসাইট। আর সেটাই হারিয়ে যাচ্ছে বলে উঠে এসেছে গবেষণায়।

এরইমধ্যে একটি দল এ ডিজিটাল ধংসলীলাকে ঠেকানোর চেষ্টা করছে। যার মধ্যে রয়েছে অনেক স্বেচ্ছাসেবী সংগঠন যারা সামান্য প্রাতিষ্ঠানিক সহায়তার বিনিময়ে এই কাজটি করে চলেছে।

ওয়েবের বিভিন্ন তথ্য সংগ্রহের বেলায় সবচেয়ে সমার্থক হচ্ছে স্যান ফ্রান্সিসকোভিত্তিক অলাভজনক সংস্থা ‘ইন্টারনেট আর্কাইভ’, যা ১৯৯৬ সালে ব্যক্তিগত পছন্দের এক প্রকল্প হিসেবে শুরু করেন ইন্টারনেটের পথিকৃৎ ব্রিউস্টার কাল।

এর মাধ্যমে সংগঠনটি এমন এক বিষয় নিয়ে কাজ শুরু করে, যা সর্বকালের সবচেয়ে উচ্চাভিলাষী ডিজিটাল আর্কাইভিং প্রকল্প হিসেবে বিবেচিত। এর মধ্যে রয়েছে ৮৬ হাজার ছয়শ কোটি ওয়েব পেইজ, এক কোটি ছয় লাখ সিনেমা ও টেলিভিশন প্রোগ্রামের ভিডিও’সহ অনেক কিছু।

সারা বিশ্বে ছড়িয়ে ছিটিয়ে থাকা কিছু ডেটা সেন্টারে ইন্টারনেট আর্কাইভের বিভিন্ন সংগ্রহ ও কয়েকটি অনুরূপ সংগঠনের ডিজিটাল স্মৃতিই এখন তথ্য সংরক্ষণের একমাত্র পথ বলে প্রতিবেদনে লিখেছে বিবিসি।

“আপনি কী খুঁজছেন তার ওপর নির্ভর করলে, ইন্টারনেট আর্কাইভের সংগ্রহ এতটাই পুঙ্খানুপুঙ্খ যে কখনও কখনও একে সামগ্রিক ওয়েবের সবচেয়ে বড় রেকর্ডও মনে হয়।”

এই অবস্থা নিয়ে বিবিসির সঙ্গে কথা বলেন মার্ক গ্রেহাম। তিনি ইন্টারনেট আর্কাইভের ওয়েব্যাক মেশিন বিভাগের পরিচালক। ওয়েব্যাক মেশিনের কাজ হচ্ছে পরবর্তী প্রজন্মের জন্য বিভিন্ন ওয়েবসাইটের স্ন্যাপশট সংরক্ষণ করা। ইন্টারনেট থেকে ওয়েব পেইজ হারিয়ে যাওয়া নিয়ে গ্রেহাম বলেছেন, “ঝুঁকি কিন্তু অনেক বড়। প্রযুক্তিগত ব্যর্থতা আছে, প্রাতিষ্ঠানিক ব্যর্থতাও আছে। বাজার থেকে হারিয়ে যাচ্ছে বিভিন্ন কোম্পানি। বিভিন্ন সংবাদ সংস্থাকে অন্যান্য সংবাদ সংস্থা খেয়ে ফেলছে। আর এ প্রবণতা ক্রমশ বেড়েই চলেছে।”

তিনি আরও বলেন, অনলাইনে কনটেন্ট দেওয়ার ক্ষেত্রে অসংখ্য প্রণোদনা থাকলেও খুব বেশিরভাগ কোম্পানিই তা দীর্ঘ মেয়াদে ধরে রাখতে পারে না।

ইতিহাসকে বাঁচিয়ে রাখা

ওয়াশিংটনভিত্তিক থিংক ট্যাংক ‘পিউ রিসার্চ সেন্টার’-এর সাম্প্রতিক এক গবেষণায় উঠে এসেছে, ২০১৩ সাল থেকে ২০২৩ সালের মাঝামাঝি সময়ে ছিল এমন এক চতুর্থাংশ ওয়েব পেইজই হারিয়ে গেছে। ফলে, ডিজিটাল ইতিহাস অদৃশ্য হয়ে যাওয়ার বিষয়েও প্রশ্ন উঠেছে এতে।

গবেষকদের তথ্য অনুসারে, ওয়েব পেইজ যত পুরোনো, এই সমস্যার তীব্রতাও তত বেশি। এজন্য পিউ ২০১৩ সালে সক্রিয় ছিল কিন্তু বর্তমানে অকার্যকর হয়ে গেছে, এমন ৩৮ শতাংশ ওয়েব পেইজে প্রবেশের চেষ্টা করেছে। তবে, কেবল পুরোনো ওয়েব পেইজ নয়, বরং ২০২৩ সালের কোনো এক সময় প্রকাশিত ওয়েব পেইজের আট শতাংশই এখন আর নেই।

এটা কেবল ইতিহাসপ্রেমী ও ইন্টারনেট আসক্তদের জন্য সমস্যা নয়। গবেষণা অনুসারে, প্রতি পাঁচটির মধ্যে একটি সরকারি ওয়েবসাইটে অন্তত একটি করে ‘ব্রোকেন লিংক’ থাকে। এই ব্রোকেন লিংক হচ্ছে ওয়েবসাইটের কানা গলি।

উইকিপিডিয়ায় থাকা বিভিন্ন নিবন্ধের রেফারেন্সে অর্ধেকের বেশিতে ব্রোকেন লিংক খুঁজে পেয়েছে পিউ। এর মানে দাঁড়ায়, অনলাইন মুক্ত বিশ্বকোষে থাকা বিভিন্ন তথ্যের ব্যাক আপ প্রমাণ ধীরে ধীরে বিচ্ছিন্ন হয়ে যাচ্ছে।

সাফল্য আত্মতৃপ্তির জন্ম দেয়

আর্কাইভের বিভিন্ন সর্বজনীন নথি বর্তমান যুগের নিত্যদিনের বিভিন্ন রেকর্ড সংগ্রহে সহায়তা করে। এ ছাড়া, উইকিপিডিয়ায় মূল ওয়েবসাইটের পরিবর্তে ইন্টারনেট আর্কাইভের ওয়েব্যাক মেশিন থেকে বিভিন্ন উদ্ধৃতি তুলে ধরাও একটি রেওয়াজ হয়ে উঠেছে।

সংগঠনটি ডিজিটাল যুগের পূর্ববর্তী মিডিয়ার বিশাল তথ্যও সংগ্রহ করে। এর মধ্যে রয়েছে ১৯৭৭ সালের জনপ্রিয় কমেডি সিরিজ ‘ফার্নউড ২ নাইট’, যা কোনো স্ট্রিমিং সেবায় না থাকলেও ইন্টারনেট আর্কাইভে বিনামূল্যেই দেখা যায়।

বিভিন্ন বই, সাময়িকী ও ওয়েবসাইট ইন্টারনেট আর্কাইভে থাকা এমন বইগুলোর উদ্ধৃতি দিয়ে থাকে, যেগুলো কোনো লাইব্রেরির শেলফে রাখা বইয়ে নেই। এমনকি মানুষের জন্যেও সংরক্ষণের টুল হিসেবে কাজ করে এটি, যেখানে সংগঠনটির সার্ভারে যে কেউই বিভিন্ন ভিডিও, ওয়েবসাইট’সহ নানা তথ্য আপলোড করতে পারেন।

“কয়েক বছর পরপরই নতুন কোনো প্ল্যাটফর্মের আবির্ভাব ঘটে। আর সঙ্গেসঙ্গেই বিভিন্ন আর্থিক শক্তি ঝটপট এর ওপর ঝাপিয়ে পড়ে।” বলছেন যুক্তরাজ্য-ভিত্তিক সংগঠন ও অলাভজনক সংস্থা ‘ডিজিটাল প্রিজারভেশন কোয়ালিশন’র রেজিস্ট্রি টেকনিকাল আর্কিটেক্ট অ্যান্ড্রু জ্যাকসন।

“এটা তথ্য চুরিরও বড় এক উৎস।”

তিনি আরও যোগ করেন, গুগল ও অন্যান্য সার্চ ইঞ্জিন বিভিন্ন ইউআরএল স্থিতিশীল রাখতে সক্রিয় প্রণোদনা দেওয়ার সুবিধা রাখলেও, তা প্রযুক্তিগতভাবে খুবই জটিল।

“প্রতিবারই নতুন কোনো কোম্পানি নিজেদের ওয়েবসাইট নতুন করে সাজায়, সেক্ষেত্রে নতুন ইউআরএল কি সময়ের সঙ্গে সঙ্গে একই থাকে কি না, তা নিয়ে কাজ করতে হয়।”