ইউনিকের সাহায্যে লিনাক্স টেক্সট ফাইলে ডুপ্লিকেট ডেটা কীভাবে সন্ধান করবেন

ইউনিকের সাহায্যে লিনাক্স টেক্সট ফাইলে ডুপ্লিকেট ডেটা কীভাবে সন্ধান করবেন

আপনি কি কখনও বারবার লাইন এবং ডুপ্লিকেট শব্দের সাথে পাঠ্য ফাইল জুড়ে এসেছেন? হয়তো আপনি নিয়মিত কমান্ড আউটপুটের সাথে কাজ করেন এবং স্বতন্ত্র স্ট্রিংগুলির জন্য ফিল্টার করতে চান। যখন টেক্সট ফাইল এবং লিনাক্সে অপ্রয়োজনীয় ডেটা অপসারণের কথা আসে, তখন ইউনিক কমান্ড আপনার সেরা বাজি।





এই প্রবন্ধে, আমরা একটি পাঠ্য ফাইল থেকে সদৃশ লাইনগুলি অপসারণের জন্য কমান্ডটি কীভাবে ব্যবহার করতে হয় তার বিশদ নির্দেশিকা সহ বিশদ নির্দেশিকা সহ বিশদ আলোচনা করব।





ইউনিক কমান্ড কি?

লিনাক্সে ইউনিক কমান্ড একটি টেক্সট ফাইলে অভিন্ন লাইন প্রদর্শন করতে ব্যবহৃত হয়। আপনি যদি টেক্সট ফাইল থেকে ডুপ্লিকেট শব্দ বা স্ট্রিং অপসারণ করতে চান তাহলে এই কমান্ডটি সহায়ক হতে পারে। যেহেতু ইউনিক কমান্ড অপ্রয়োজনীয় কপি খোঁজার জন্য সংলগ্ন লাইনগুলির সাথে মেলে, এটি কেবল সাজানো পাঠ্য ফাইলগুলির সাথে কাজ করে।





ভাগ্যক্রমে, আপনি পাইপ করতে পারেন সাজান কমান্ডের সাথে সামঞ্জস্যপূর্ণভাবে টেক্সট ফাইলটি সংগঠিত করার জন্য ইউনিকের সাথে কমান্ড করুন। বারবার লাইন প্রদর্শন ছাড়াও, ইউনিক কমান্ড একটি টেক্সট ফাইলে ডুপ্লিকেট লাইনের ঘটনা গণনা করতে পারে।

কিভাবে ইউনিক কমান্ড ব্যবহার করবেন

বিভিন্ন বিকল্প এবং পতাকা রয়েছে যা আপনি ইউনিকের সাথে ব্যবহার করতে পারেন। তাদের মধ্যে কিছু মৌলিক এবং সাধারণ অপারেশন যেমন বারবার লাইন মুদ্রণ করা, অন্যরা উন্নত ব্যবহারকারীদের জন্য যারা ঘন ঘন লিনাক্সে টেক্সট ফাইল নিয়ে কাজ করে।



বেসিক সিনট্যাক্স

ইউনিক কমান্ডের মৌলিক সিনট্যাক্স হল:

uniq option input output

...কোথায় বিকল্প কমান্ডের নির্দিষ্ট পদ্ধতি আহ্বান করতে ব্যবহৃত পতাকা, ইনপুট প্রক্রিয়াকরণের জন্য পাঠ্য ফাইল, এবং আউটপুট ফাইলের পথ যা আউটপুট সংরক্ষণ করবে।





দ্য আউটপুট যুক্তি alচ্ছিক এবং এড়িয়ে যাওয়া যায়। যদি কোনও ব্যবহারকারী ইনপুট ফাইলটি নির্দিষ্ট না করে, ইউনিক স্ট্যান্ডার্ড আউটপুট থেকে ইনপুট হিসাবে ডেটা নেয়। এটি একটি ব্যবহারকারীকে ইউনিক পাইপ করার অনুমতি দেয় অন্যান্য লিনাক্স কমান্ড

উদাহরণ টেক্সট ফাইল

আমরা টেক্সট ফাইল ব্যবহার করব duplicate.txt কমান্ডের ইনপুট হিসাবে।





127.0.0.1 TCP
127.0.0.1 UDP
Do catch this
DO CATCH THIS
Don't match this
Don't catch this
This is a text file.
This is a text file.
THIS IS A TEXT FILE.
Unique lines are really rare.

মনে রাখবেন যে আমরা ইতিমধ্যে এই পাঠ্য ফাইলটি ব্যবহার করে সাজিয়েছি সাজান কমান্ড আপনি যদি অন্য কিছু টেক্সট ফাইলের সাথে কাজ করছেন, তাহলে আপনি নিম্নলিখিত কমান্ড ব্যবহার করে এটি সাজাতে পারেন:

sort filename.txt > sorted.txt

ডুপ্লিকেট লাইন সরান

ইউনিকের সবচেয়ে মৌলিক ব্যবহার হল ইনপুট থেকে বারবার স্ট্রিং অপসারণ এবং অনন্য আউটপুট প্রিন্ট করা।

uniq duplicate.txt

আউটপুট:

লক্ষ্য করুন যে সিস্টেমটি লাইনের দ্বিতীয় ঘটনা প্রদর্শন করে না এটি একটি টেক্সট ফাইল । এছাড়াও, পূর্বোক্ত কমান্ডটি কেবল ফাইলের অনন্য লাইনগুলি মুদ্রণ করে এবং মূল পাঠ্য ফাইলের বিষয়বস্তুকে প্রভাবিত করে না।

পুনরাবৃত্তি লাইন গণনা

একটি টেক্সট ফাইলে বারবার লাইনের সংখ্যা আউটপুট করতে, -সি ডিফল্ট কমান্ড দিয়ে পতাকা।

uniq -c duplicate.txt

আউটপুট:

সিস্টেম পাঠ্য ফাইলে বিদ্যমান প্রতিটি লাইনের গণনা প্রদর্শন করে। আপনি যে লাইন দেখতে পারেন এটি একটি টেক্সট ফাইল ফাইলে দুইবার ঘটে। ডিফল্টরূপে, ইউনিক কমান্ড কেস-সংবেদনশীল।

শুধুমাত্র টেক্সট ফাইল থেকে ডুপ্লিকেট লাইন প্রিন্ট করতে, -ডি পতাকা দ্য -ডি এর জন্য দাঁড়ায় প্রতিলিপি

uniq -D duplicate.txt

সিস্টেমটি নিম্নরূপ আউটপুট প্রদর্শন করবে।

This is a text file.
This is a text file.

ডুপ্লিকেট চেক করার সময় ক্ষেত্রগুলি এড়িয়ে যান

যদি আপনি স্ট্রিংগুলির সাথে মিলিত হওয়ার সময় একটি নির্দিষ্ট সংখ্যক ক্ষেত্র এড়িয়ে যেতে চান, তাহলে আপনি -ফ কমান্ড দিয়ে পতাকা। দ্য -ফ এর জন্য দাঁড়ায় মাঠ

নিম্নলিখিত টেক্সট ফাইল বিবেচনা করুন field.txt

192.168.0.1 TCP
127.0.0.1 TCP
354.231.1.1 TCP
Linux FS
Windows FS
macOS FS

প্রথম ক্ষেত্রটি এড়িয়ে যেতে:

uniq -f 1 fields.txt

আউটপুট:

192.168.0.1 TCP
Linux FS

পূর্বোক্ত কমান্ডটি প্রথম ক্ষেত্রটি (আইপি অ্যাড্রেস এবং ওএসের নাম) বাদ দিয়ে দ্বিতীয় শব্দ (টিসিপি এবং এফএস) মিলেছে। তারপর, এটি আউটপুট হিসাবে প্রতিটি মিলের প্রথম ঘটনা প্রদর্শন করে।

তুলনা করার সময় অক্ষর উপেক্ষা করুন

ক্ষেত্রগুলি বাদ দেওয়ার মতো, আপনি অক্ষরগুলিও এড়িয়ে যেতে পারেন। দ্য -এস পতাকা আপনাকে ডুপ্লিকেট রেখার সাথে মিলে যাওয়ার সময় অক্ষরের সংখ্যা উল্লেখ করতে দেয়। এই বৈশিষ্ট্যটি সাহায্য করে যখন আপনি যে ডেটা নিয়ে কাজ করছেন তা তালিকা আকারে নিম্নরূপ:

বিনামূল্যে সিনেমা দেখুন কোন সাইন আপ বা ডাউনলোড করা হয় না
1. First
2. Second
3. Second
4. Second
5. Third
6. Third
7. Fourth
8. Fifth

ফাইলের প্রথম দুটি অক্ষর (তালিকার সংখ্যা) উপেক্ষা করা list.txt :

uniq -s 2 list.txt

আউটপুট:

উপরের আউটপুটে, প্রথম দুটি অক্ষর উপেক্ষা করা হয়েছিল এবং বাকি অংশগুলি অনন্য লাইনের জন্য মিলেছিল।

ডুপ্লিকেটগুলির জন্য প্রথম N অক্ষরের চেক করুন

দ্য -ভিতরে পতাকা আপনাকে ডুপ্লিকেটের জন্য শুধুমাত্র একটি নির্দিষ্ট সংখ্যক অক্ষর চেক করতে দেয়। উদাহরণ স্বরূপ:

uniq -w 2 duplicate.txt

পূর্বোক্ত কমান্ডটি কেবল প্রথম দুটি অক্ষরের সাথে মিলবে এবং যদি থাকে তবে অনন্য লাইনগুলি মুদ্রণ করবে।

আউটপুট:

কেস সংবেদনশীলতা সরান

উপরে উল্লিখিত হিসাবে, ইউনিক একটি ফাইলে লাইন মিলানোর সময় কেস-সংবেদনশীল। অক্ষরের ক্ষেত্রে উপেক্ষা করতে, ব্যবহার করুন -আই কমান্ড সহ বিকল্প।

uniq -i duplicate.txt

আপনি নিম্নলিখিত আউটপুট দেখতে পাবেন।

উপরের আউটপুটে লক্ষ্য করুন, ইউনিক লাইন দেখায়নি এটা ধরো এবং এটি একটি টেক্সট ফাইল

একটি ফাইলে আউটপুট পাঠান

ইউনিক কমান্ডের আউটপুট একটি ফাইলে পাঠাতে, আপনি আউটপুট পুনireনির্দেশ ( > ) চরিত্রটি নিম্নরূপ:

uniq -i duplicate.txt > otherfile.txt

একটি টেক্সট ফাইলে আউটপুট পাঠানোর সময়, সিস্টেম কমান্ডের আউটপুট প্রদর্শন করে না। আপনি ব্যবহার করে নতুন ফাইলের বিষয়বস্তু পরীক্ষা করতে পারেন বিড়াল কমান্ড

cat otherfile.txt

আপনি অন্যান্য উপায় ব্যবহার করতে পারেন লিনাক্সে একটি ফাইলে কমান্ড লাইন আউটপুট পাঠান

ইউনিক দিয়ে ডুপ্লিকেট ডেটা বিশ্লেষণ করা

বেশিরভাগ সময় লিনাক্স সার্ভার পরিচালনা করার সময়, আপনি হয় টার্মিনালে কাজ করবেন বা টেক্সট ফাইল সম্পাদনা করবেন। অতএব, টেক্সট ফাইলে লাইনগুলির অপ্রয়োজনীয় অনুলিপিগুলি কীভাবে সরানো যায় তা জানা আপনার লিনাক্স স্কিল সেটের একটি দুর্দান্ত সম্পদ হতে পারে।

টেক্সট ফাইলের সাথে কাজ করা হতাশাজনক হতে পারে যদি আপনি ফাইলে টেক্সট ফিল্টার এবং সাজাতে জানেন না। আপনার কাজ সহজ করার জন্য, লিনাক্সে বেশ কয়েকটি টেক্সট এডিটিং কমান্ড রয়েছে যেমন sed এবং awk যা আপনাকে টেক্সট ফাইল এবং কমান্ড-লাইন আউটপুটগুলির সাথে দক্ষতার সাথে কাজ করার অনুমতি দেয়।

শেয়ার করুন শেয়ার করুন টুইট ইমেইল এই 10 সেড উদাহরণগুলি আপনাকে একটি লিনাক্স পাওয়ার ব্যবহারকারী করে তুলবে

লিনাক্স পাওয়ার ব্যবহারকারী হতে চান? Sed এর সাথে আঁকড়ে ধরা সাহায্য করবে। এই 10 সেড উদাহরণ থেকে শিখুন।

পরবর্তী পড়ুন
সম্পর্কিত বিষয়
  • লিনাক্স
  • লিনাক্স
লেখক সম্পর্কে দীপেশ শর্মা(79 নিবন্ধ প্রকাশিত)

দীপেশ এমইউওতে লিনাক্সের জুনিয়র এডিটর। তিনি লিনাক্সে তথ্যবহুল গাইড লেখেন, যার লক্ষ্য ছিল সকল নতুনদের আনন্দময় অভিজ্ঞতা প্রদান করা। সিনেমা সম্পর্কে নিশ্চিত নন, কিন্তু আপনি যদি প্রযুক্তি নিয়ে কথা বলতে চান, তাহলে তিনি আপনার লোক। তার অবসর সময়ে, আপনি তাকে বই পড়তে, বিভিন্ন সঙ্গীত ধারা শুনতে, বা তার গিটার বাজাতে খুঁজে পেতে পারেন।

দীপেশ শর্মার কাছ থেকে আরো

আমাদের নিউজলেটার সদস্যতা

প্রযুক্তি টিপস, রিভিউ, ফ্রি ইবুক এবং এক্সক্লুসিভ ডিলের জন্য আমাদের নিউজলেটারে যোগ দিন!

সাবস্ক্রাইব করতে এখানে ক্লিক করুন