
ছবি: সংগৃহীত
কৃত্রিম বুদ্ধিমত্তার জগতে একটি নিঃশব্দ, অথচ গভীর পরিবর্তন ঘটে চলেছে। এটি চোখধাঁধানো চ্যাটবট কিংবা চমকপ্রদ ছবি তৈরি করার যন্ত্র নয়, বরং মেশিন শিক্ষার এক পরিশীলিত উপায়— রিইনফোর্সমেন্ট লার্নিং— যা বর্তমানে বুদ্ধিমত্তার নতুন ধারা গঠনে মুখ্য ভূমিকা পালন করছে।
রিইনফোর্সমেন্ট লার্নিং হলো এমন এক শেখার প্রক্রিয়া, যেখানে একটি যন্ত্র পরিবেশের সঙ্গে মিথস্ক্রিয়ার মাধ্যমে নিজেই শিখে ফেলে কোন কাজ করলে পুরস্কার পাওয়া যায়, আর কোন কাজে শাস্তির সম্মুখীন হতে হয়। একে বোঝা যায় ছোট্ট একটি শিশুর শেখার প্রক্রিয়ার সঙ্গে তুলনা করে— যেমন, সাইকেল চালানো শেখার সময় সে বই পড়ে নয়, বারবার চেষ্টা, ভুল করা ও অভিজ্ঞতা সঞ্চয়ের মাধ্যমেই ভারসাম্য রক্ষা করতে শেখে।
বর্তমানে প্রচলিত দুই ধরনের যন্ত্র শিক্ষা পদ্ধতি হলো:
- নির্দেশিত শেখা (Supervised Learning)— যেখানে মেশিনকে বিশাল পরিমাণ লেবেলযুক্ত তথ্য সরবরাহ করা হয় (যেমন: বিড়াল ও কুকুরের হাজার হাজার ছবি), যার মাধ্যমে সে ভবিষ্যদ্বাণী করতে শেখে।
- অ-নির্দেশিত শেখা (Unsupervised Learning)— যেখানে মেশিন নিজে নিজেই তথ্যের মধ্যকার মিল-অমিল খুঁজে বের করে, যদিও এতে সঠিক ব্যাখ্যার ঘাটতি থাকতে পারে।
এই দুই পদ্ধতি কার্যকর হলেও, যেখানে ডেটার অভাব, স্পষ্ট লক্ষ্য অনুপস্থিত অথবা পরিশীলিত সিদ্ধান্ত গ্রহণের প্রয়োজন— সেইখানেই রিইনফোর্সমেন্ট লার্নিং হয়ে ওঠে অতুলনীয়।
২০১৫ সালে “নেচার” পত্রিকায় প্রকাশিত এক গবেষণায় গুগল প্রমাণ করে, কীভাবে একটি এআই কেবল গেম স্ক্রিন ও স্কোর দেখে বিভিন্ন অ্যাটারি গেমে পারদর্শী হয়ে ওঠে। এই সাফল্যের ধারা বজায় রেখেই এক বছরের মধ্যে সেই একই প্রযুক্তি ‘গো’ খেলায় বিশ্ব চ্যাম্পিয়নকে পরাজিত করে—যা একসময় কল্পনাতেও আসেনি।
রিইনফোর্সমেন্ট লার্নিংয়ের বিশেষত্ব হলো— এটি প্রচলিত বিশাল তথ্যভাণ্ডার কিংবা ভারী যন্ত্রের ওপর নির্ভর না করে কেবল একটি লক্ষ্য ও ফলাফল মূল্যায়নের উপায়ের ওপর ভিত্তি করে শিখে। এটি যেমন কম খরচে ও দক্ষতার সঙ্গে কাজ করতে পারে, তেমনি পরীক্ষার মাধ্যমে এমন সব সমাধান খুঁজে পায় যা মানুষের চিন্তার সীমাকে অতিক্রম করে। পাশাপাশি, এক পরিস্থিতিতে শেখা দক্ষতা সহজেই অন্য পরিস্থিতিতে প্রয়োগযোগ্য হয়।
২০২৫ সালের জানুয়ারিতে ‘ডিপসিক’ নামের একটি গবেষণা সংস্থা এমন একটি ভাষা মডেল উন্মোচন করে, যা রিইনফোর্সমেন্ট লার্নিংয়ের মাধ্যমে প্রস্তুতকৃত। এই মডেলটি বর্তমানের চ্যাটজিপিটির মতো ফলাফল দিলেও অনেক কম শক্তি ব্যবহার করে। এর প্রভাব পড়ে হার্ডওয়্যার নির্মাতা এনভিডিয়া-র শেয়ার বাজারে— মূল্যপতন ঘটে ১০ শতাংশের বেশি, যার ফলে প্রায় ৫০০ বিলিয়ন ডলারের বাজারমূল্য হ্রাস পায়।
এই ঘটনার পর বিশেষজ্ঞরা উপলব্ধি করতে শুরু করেন, ভবিষ্যতের শক্তিশালী কৃত্রিম বুদ্ধিমত্তা হয়তো আর এত বিশাল ও শক্তিশালী যন্ত্রপাতির ওপর নির্ভর করবে না। “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning” শীর্ষক গবেষণাপত্রটি ইতিমধ্যে ৫০০-র বেশি বার উদ্ধৃত হয়েছে, যা এ বছরের সবচেয়ে আলোচিত গবেষণাগুলোর অন্যতম।
বিশিষ্ট কৃত্রিম বুদ্ধিমত্তা গবেষক অ্যান্ড্রু এনজি বলেন, “আমার পিএইচডি গবেষণার বিষয় ছিল রিইনফোর্সমেন্ট লার্নিং… তখন আমরা একটি রোবট নিয়ে কাজ করতাম। আজ সেই গবেষণার বাস্তব প্রয়োগ আমরা চোখের সামনে দেখছি।”
রিইনফোর্সমেন্ট লার্নিং বর্তমানে ব্যবহার হচ্ছে বিভিন্ন গুরুত্বপূর্ণ খাতে— যেমন স্মার্ট বিদ্যুৎ ব্যবস্থা, ব্যক্তিকৃত শিক্ষা, ও উন্নত রোবোটিক্স। তবে প্রযুক্তির এই ক্ষমতাশীল ব্যবহার যেন নৈতিক ও স্বচ্ছ থেকে যায়, তা নিশ্চিত করাও অত্যন্ত গুরুত্বপূর্ণ। কারণ, যদি কোনো AI শুধু যানজট কমানোর উদ্দেশ্যে গাড়িগুলোকে শান্ত পাড়ার রাস্তা দিয়ে চালাতে শুরু করে, তবে সেটি সামাজিক অস্থিরতা সৃষ্টি করতে পারে।
যথাযথভাবে পরিচালিত হলে, রিইনফোর্সমেন্ট লার্নিং কেবল আমাদের অনুসরণ করবে না— বরং আমাদের কল্পনার বাইরেও নতুন জগৎ উন্মোচন করে দেবে।
এটি এখন আর শুধুমাত্র একটি গবেষণামূলক ধারা নয়— বরং কৃত্রিম বুদ্ধিমত্তার ইতিহাসে একটি মোড় ঘোরানো অধ্যায়। এই বিপ্লব নীরব হলেও, এর অভিঘাত দীর্ঘস্থায়ী এবং দূরদর্শী। রিইনফোর্সমেন্ট লার্নিং-ই হতে চলেছে আগামী দিনের কৃত্রিম বুদ্ধিমত্তার পথপ্রদর্শক।
সূত্র: ফোর্বস
এম.কে.