কিভাবে OpenAI এর ক্রলারদের আপনার ওয়েবসাইট স্ক্র্যাপ করা থেকে ব্লক করবেন

কিভাবে OpenAI এর ক্রলারদের আপনার ওয়েবসাইট স্ক্র্যাপ করা থেকে ব্লক করবেন
আপনার মত পাঠকরা MUO সমর্থন করতে সাহায্য করে। আপনি যখন আমাদের সাইটে লিঙ্ক ব্যবহার করে একটি ক্রয় করেন, আমরা একটি অনুমোদিত কমিশন উপার্জন করতে পারি। আরও পড়ুন

যদিও ব্যবহারকারীরা চ্যাটজিপিটি বর্তমানে যে পরিমাণ তথ্য ধারণ করে তার জন্য ChatGPT পছন্দ করে, একই কথা ওয়েবসাইট মালিকদের সম্পর্কে বলা যায় না।





আমি আমার ইমেইল থেকে ডকুমেন্ট কোথায় প্রিন্ট করতে পারি?
দিনের MUO ভিডিও কন্টেন্টের সাথে চালিয়ে যেতে স্ক্রোল করুন

OpenAI এর ChatGPT ওয়েবসাইটগুলি স্ক্র্যাপ করার জন্য ক্রলার ব্যবহার করে, কিন্তু আপনি যদি একজন ওয়েবসাইটের মালিক হন এবং আপনি OpenAI-এর ক্রলার আপনার ওয়েবসাইট অ্যাক্সেস করতে না চান, তাহলে এখানে কয়েকটি জিনিস রয়েছে যা আপনি এটি প্রতিরোধ করতে পারেন৷





কিভাবে OpenAI ক্রলিং কাজ করে?

ক ওয়েব ক্রলার (একটি মাকড়সা বা একটি সার্চ ইঞ্জিন বট নামেও পরিচিত) একটি স্বয়ংক্রিয় প্রোগ্রাম যা তথ্যের জন্য ইন্টারনেট স্ক্যান করে। তারপরে এটি সেই তথ্যটি এমনভাবে কম্পাইল করে যা আপনার সার্চ ইঞ্জিনের পক্ষে এটি অ্যাক্সেস করা সহজ।





ওয়েব ক্রলারগুলি প্রতিটি প্রাসঙ্গিক URL-এর প্রতিটি পৃষ্ঠাকে সূচী করে, সাধারণত আপনার অনুসন্ধান প্রশ্নের সাথে আরও প্রাসঙ্গিক ওয়েবসাইটগুলিতে ফোকাস করে৷ উদাহরণস্বরূপ, ধরুন আপনি একটি নির্দিষ্ট উইন্ডোজ ত্রুটি গুগলিং করছেন। আপনার সার্চ ইঞ্জিনের মধ্যে থাকা ওয়েব ক্রলার সেই ওয়েবসাইটগুলি থেকে সমস্ত URL স্ক্যান করবে যেগুলি উইন্ডোজ ত্রুটিগুলির বিষয়ে এটি আরও প্রামাণিক বলে মনে করে৷

OpenAI এর ওয়েব ক্রলারকে GPTBot বলা হয়, এবং অনুযায়ী OpenAI এর ডকুমেন্টেশন , আপনার ওয়েবসাইটে GPTBot অ্যাক্সেস দেওয়া AI মডেলকে নিরাপদ, এবং আরও নির্ভুল হতে প্রশিক্ষিত করতে সাহায্য করতে পারে এবং এটি AI মডেলের ক্ষমতা প্রসারিত করতেও সাহায্য করতে পারে৷



কিভাবে আপনার ওয়েবসাইট ক্রল করা থেকে OpenAI প্রতিরোধ করবেন

অন্যান্য ওয়েব ক্রলারের মতো, GPTBot ওয়েবসাইটের পরিবর্তন করে আপনার ওয়েবসাইট অ্যাক্সেস করা থেকে ব্লক করা যেতে পারে robots.txt প্রোটোকল (রোবট বর্জন প্রোটোকল নামেও পরিচিত)। এই .txt ফাইলটি ওয়েবসাইটের সার্ভারে হোস্ট করা হয় এবং এটি নিয়ন্ত্রণ করে কিভাবে ওয়েব ক্রলার এবং অন্যান্য স্বয়ংক্রিয় প্রোগ্রাম আপনার ওয়েবসাইটে আচরণ করে।

এখানে কি একটি সংক্ষিপ্ত তালিকা robot.txt ফাইল করতে পারেন:





  • এটি GPTBot-কে ওয়েবসাইট অ্যাক্সেস করা থেকে সম্পূর্ণরূপে ব্লক করতে পারে।
  • এটি একটি URL থেকে GPTBot দ্বারা অ্যাক্সেস করা থেকে শুধুমাত্র নির্দিষ্ট পৃষ্ঠাগুলিকে ব্লক করতে পারে৷
  • এটি GPTBot কে বলতে পারে এটি কোন লিঙ্কগুলি অনুসরণ করতে পারে এবং কোনটি করতে পারে না৷

GPTBot আপনার ওয়েবসাইটে কী করতে পারে তা কীভাবে নিয়ন্ত্রণ করবেন তা এখানে রয়েছে:

সম্পূর্ণরূপে আপনার ওয়েবসাইট অ্যাক্সেস থেকে GPTBot ব্লক

  1. robot.txt ফাইল সেট আপ করুন , এবং তারপর যেকোনো টেক্সট এডিটিং টুল দিয়ে এটি সম্পাদনা করুন।
  2. আপনার সাইটের GPTBot যোগ করুন robots.txt নিম্নরূপ:
 User-agent: GPTBot 
Disallow: /

GPTBot দ্বারা অ্যাক্সেস করা থেকে শুধুমাত্র কিছু পৃষ্ঠা ব্লক করুন

  1. সেট আপ করুন robot.txt ফাইল, এবং তারপর আপনার পছন্দের টেক্সট এডিটিং টুল দিয়ে এটি সম্পাদনা করুন।
  2. আপনার সাইটের GPTBot যোগ করুন robots.txt নিম্নরূপ:
 User-agent: GPTBot 
Allow: /directory-1/
Disallow: /directory-2/

যাইহোক, মনে রাখবেন যে পরিবর্তন robot.txt ফাইল একটি পূর্ববর্তী সমাধান নয়, এবং GPTBot আপনার ওয়েবসাইট থেকে ইতিমধ্যেই সংগৃহীত কোনো তথ্য পুনরুদ্ধারযোগ্য হবে না।





OpenAI ওয়েবসাইটের মালিকদের ক্রলিং থেকে অপ্ট-আউট করার অনুমতি দেয়

যখন থেকে AI মডেলকে প্রশিক্ষণ দিতে ক্রলার ব্যবহার করা হয়েছে, ওয়েবসাইট মালিকরা তাদের ডেটা গোপন রাখার উপায় খুঁজছেন।

কেউ কেউ ভয় পান যে AI মডেলগুলি মূলত তাদের কাজ চুরি করছে, এমনকি কম ওয়েবসাইট ভিজিটের জন্য দায়ী করে যে এখন ব্যবহারকারীরা তাদের ওয়েবসাইট পরিদর্শন না করেই তাদের তথ্য পান।

সর্বোপরি, আপনি আপনার ওয়েবসাইটগুলি স্ক্যান করা থেকে AI চ্যাটবটগুলিকে সম্পূর্ণরূপে ব্লক করতে চান কিনা তা সম্পূর্ণরূপে আপনার পছন্দ।