ডাটা জার্নালিজম : সোর্স ও সংখ্যা যাচাইয়ের উপায়


ডাটা জার্নালিজম : সোর্স ও সংখ্যা যাচাইয়ের উপায়

ছবি : সংগৃহীত

 

২০২০ থেকে ২০২১ কেবল অতিমারি নয়, ওপেন ডাটার ক্ষেত্রেও অন্যরকম একসময়। অতিমারির সময়ে, স্বাস্থ্যসংস্থাগুলো প্রতিদিন বিশ্বব্যাপী কোভিড-১৯ ভাইরাসের সংক্রমণ এবং রোগীর সংখ্যা নিয়ে প্রচুর তথ্য প্রকাশ করেছে। প্রকাশিত সেসব তথ্যের সত্যতা যাচাই করে সংবাদে প্রকাশ করা সাংবাদিকদের জন্য একটি নতুন চ্যালেঞ্জ হয়ে দাঁড়িয়েছে।

তথ্যের সত্যতা যাচাই না করে সংবাদ প্রকাশ করলে সেটা ভালোর পরিবর্তে খারাপ ফলাফলই বয়ে আনে। তাই সংবাদ প্রকাশের আগে সাংবাদিকদের অবশ্যই তথ্য বিশ্লেষণ এবং যাচাই করা উচিত। কোভিড-১৯ এর মতো বৈশ্বিক সংকটকালে সঠিক তথ্য গণমাধ্যমে প্রকাশিত হলে সেটা যেমন জনসচেতনতা বৃদ্ধিতে সক্রিয় ভূমিকা পালন করে গণমাধ্যমের শক্তি হয়ে উঠতে পারে, তেমনি ভুল তথ্য প্রকাশ মানুষের ক্ষতির কারণও হয়ে দাঁড়াতে পারে।

একজন সাংবাদিক হিসেবে তথ্য প্রকাশের আগে তথ্যের উৎস অনুসন্ধান করা উচিত। কে তথ্যটি সংগ্রহ  করেছিলো, কখন সেটা প্রথম প্রকাশিত হয়েছিলো এবং তার পেছনে ফান্ডিং কারা করেছিলো, এই বিষয়গুলো প্রাথমিকভাবে অনুসন্ধান করা উচিত। ডাটা ম্যানুয়েল বা অটোমেটিক যেরকমভাবেই এন্ট্রি করা হোক না কেন, পরে যাতে ডাটা নিয়ে কোনো গণ্ডগোল না দেখা দেয়, সেটাও খেয়াল রাখতে হবে।

উদাহরণস্বরূপ, জর্ডানের সাবেক স্বাস্থ্যমন্ত্রী সাদ জাবের স্থানীয় সংবাদ মাধ্যমকে জানান, জর্ডানের স্বাস্থ্য মন্ত্রণালয় তাদের সরকারি ডাটাবেজ কোভিড-১৯ পরীক্ষার ফলাফল ম্যানুয়ালি সংরক্ষণ করেছিলো যেখানে অটোমেটিক আপলোডের কোনো নিয়ম ছিল না। ফলে দৈনিক সংক্রমণ বাড়ার সাথে সাথে রোগীর নাম এবং অন্যান্য তথ্যের সাথে কোভিড টেস্টের ফলাফলও হারিয়ে যায়।

মাইক্রোসফট এক্সেলের মতো সফটওয়্যার ব্যবহারের সময়ও সতর্ক থাকা উচিত। যেমন, গত বছর যুক্তরাজ্যে ১৬,০০০ কোভিড রোগীর রেকর্ড অফিসিয়াল ডাটাবেজ থেকে ভুলক্রমে ডিলিট হয়ে যায়। ফলে ভুল তথ্য ছড়িয়ে পড়ে এবং স্বাস্থ্য বিভাগ কন্ট্যাক্ট ট্রেসিংয়ের ক্ষেত্রে ঝামেলার সম্মুখীন হয় ।

ছবি : সংগৃহীত

তথ্য প্রকাশের জন্য নির্ভরযোগ্য সোর্স ব্যবহার এবং তথ্য যাচাই করলে এই ধরণের ভুল এড়ানো যেতে পারে। এর সাথে নিচের লিস্টটা তো থাকলোই। 

 

স্বচ্ছতা:

কোনো ডাটা নিয়ে কাজ করতে হলে ডাটার যে সোর্স ব্যবহার করবেন, তার স্বচ্ছতা সম্পর্কে নিশ্চিত হোন। ডাটা সংরক্ষণের জন্য তারা কী প্রযুক্তি এবং এলগরিদম ব্যবহার করে, সেটা সম্পর্কেও জানুন। ডাটার সোর্স যতো স্বচ্ছ হবে, ডাটা সঠিক হবার সম্ভাবনা ততো বেশি হবে। তাছাড়া, সংবাদে প্রকাশের আগে ডাটা কীভাবে সংগৃহীত হয়েছে, সেটা বিশ্লেষণ করে নিলে ভুল ডাটা প্রকাশের সম্ভাবনা অনেকটাই কমে যায়।পদ্ধতি:

মেটাডাটা ফাইল ছাড়া কোনো ডাটাসেট প্রকাশ করা থেকে বিরত থাকুন। মেটাডাটা ফাইল থেকে বোঝা যায় ডাটাটি কীভাবে সংগ্রহ করা হয়েছিলো। তাছাড়া স্যাম্পল সাইজ, মিসিং ভ্যালুজ এগুলোও বোঝা যায়। মেটাডাটা ফাইল ছাড়া ডাটাসেট প্রকাশ অনেকটা এমন যে, ধরুন কেউ বিশাল এক গুপ্তধনের সিন্দুকের সামনে বসে আছে কিন্তু তার কাছে সেই সিন্দুকের চাবিটাই নেই।

উদাহরণ হিসেবে বলা যায়, ইতালিতে সাংবাদিকেরা কোভিড-১৯ ইস্যুতে গড়মিলের প্রমাণ পেয়ে সরকারি অফিসিয়াল ডাটাবেজের বিশ্বাসযোগ্যতা নিয়ে প্রশ্ন তুলেছিলেন। ইতালি সরকার ২০২০ সালে অঞ্চলভেদে কোভিড-১৯ রোগীর সংখ্যার হিসেব রাখার জন্য তাদের পদ্ধতি পরিবর্তন করেছিলো এবং এতে অসংলগ্ন ফলাফল আসার পাশাপাশি অনেক তথ্য হারিয়ে যায়। অথচ মেটাডাটা ফাইলের ব্যবস্থা রাখলে এই সমস্যার সম্মুখীন হতে হতো না।

 

প্রাসঙ্গিক বিষয়:

ডাটা বিশ্লেষণের সময় প্রাসঙ্গিক বিষয় খুব গুরুত্বপূর্ণ। যেমন, সরকারের তরফ থেকে যখন কোভিড-১৯ সংক্রমিত রোগীর সংখ্যা প্রকাশ করা হয়, তখন হয়তো দেখা যেতে পারে একটি বড় শহরে সংক্রমণের মাত্রা বেশি। তার মানে কিন্তু এই নয় যে ওই এলাকায় সংক্রমণের হার সর্বোচ্চ বরং এমন হতে পারে যে, ওই এলাকা জনবহুল বলে ওখানে রোগীর সংখ্যা বেশি দেখা যাচ্ছে।

এক্ষেত্রে সংক্রমণের হার বুঝতে প্রতি ১০০জনে কতোজন সংক্রমিত হয়েছে সেই হিসেব বের করুন। তাইলেই পাওয়া যাবে সঠিক তথ্য। 

ছবি : সংগৃহীত

 

তথ্য বুঝুন:

কী উপস্থাপন করতে যাচ্ছেন, সেটা যদি বুঝতে না পারেন তাহলে ওই ডাটাবেজ নিয়ে কাজ শুরু করবেন না। আর সেটা বোঝার জন্য নিজেকে এই প্রশ্নগুলো করুন-

  • এটি কী ইঙ্গিত করছে?
  • আমি কি ডাটার সাথে সম্পৃক্ত সমস্ত টার্ম এবং ডেফিনিশন বুঝতে পারছি?
  • এর সাথে আরো কী কী প্রাসঙ্গিক তথ্য সংযুক্ত করা যেতো?
  • পরিমাপের এককগুলো কী কী?
  • মান নিশ্চিতে অন্য সোর্সের সাথে কি এসব তথ্য যাচাই করতে পারি?

 

ডাটা যাচাই, বাছাইকরণের জন্য অনুসন্ধান এবং বিশ্লেষণ প্রয়োজন। তার মানে এই নয় যে,  সাংবাদিকদের ডাটা অ্যানালিস্ট এক্সপার্ট হতে হবে। সহজাত প্রবৃত্তি, সাংবাদিকতার মূল্যবোধ এবং দক্ষতাই সত্যতা যাচাইয়ের জন্য যথেষ্ট। অনেকক্ষেত্রে স্বয়ংক্রিয় যাচাই অ্যালগরিদমের চেয়ে ম্যানুয়েল যাচাই বেশি কার্যকর হয়।

প্রযুক্তি সবসময় তথ্যের বিশ্বাসযোগ্যতা নিশ্চিত করতে না পারলেও সাংবাদিকদের বিভিন্ন পদ্ধতির ব্যাপারে আলোকিত করতে পারে। 

ডাটা নিয়ে কাজ করার ক্ষেত্রে নিজেকে প্রশ্ন করা খুব গুরুত্বপূর্ণ। প্রাপ্ত ডাটার ব্যাপারে নিজেকে প্রশ্ন করুন, ডাটা ক্রসচেক করুন।

একটি ডাটাবেজে সংখ্যাগুলো নিয়ে কাজ করার সময় আমরা যে পদক্ষেপগুলো অনুসরণ করি তা নিচে চিত্রের সাহায্যে দেখিয়েছে আই জে নেট। যা আপনাকে আপনার নিজস্ব যাচাইকরণের কৌশল তৈরি করতে সাহায্য করবে।

ছবি : সংগৃহীত

 

এই বিষয়গুলো মাথায় রাখলে ডাটা নিয়ে কাজ অনেকটাই সহজতর হয়ে উঠবে।

 

অনুবাদ: ফাল্গুন ভট্টাচার্য

সৌজন্য: আই জে নেট