ASCII এবং ইউনিকোড পাঠ্যের মধ্যে পার্থক্য কি?

ASCII এবং ইউনিকোড পাঠ্যের মধ্যে পার্থক্য কি?

ASCII এবং ইউনিকোড উভয়ই মান যা পাঠ্যের ডিজিটাল উপস্থাপনা, বিশেষ করে অক্ষর যা পাঠ্য তৈরি করে। যাইহোক, দুটি মান উল্লেখযোগ্যভাবে ভিন্ন, অনেক বৈশিষ্ট্য তাদের নিজ নিজ সৃষ্টির ক্রম প্রতিফলিত করে।





আমেরিকা বনাম মহাবিশ্ব

আমেরিকান স্ট্যান্ডার্ড কোড ফর ইনফরমেশন ইন্টারচেঞ্জ (এএসসিআইআই), আশ্চর্যজনকভাবে, একজন আমেরিকান শ্রোতাদের, ইংরেজী বর্ণমালায় লেখার জন্য। এটি A-Z এবং a-z এর মতো অপ্রচলিত অক্ষর, প্লাস অল্প সংখ্যক বিরাম চিহ্ন এবং নিয়ন্ত্রণ অক্ষর নিয়ে কাজ করে।





বিশেষ করে, অন্যান্য ভাষা থেকে গৃহীত loanণ শব্দের প্রতিনিধিত্ব করার কোন উপায় নেই, যেমন কফি ASCII- তে, অ্যাকসেন্টেড অক্ষর প্রতিস্থাপন করে তাদের anglicizing ছাড়া (যেমন, ক্যাফে )। স্থানীয় ভাষার ASCII এক্সটেনশানগুলি বিভিন্ন ভাষার চাহিদা পূরণের জন্য তৈরি করা হয়েছিল, কিন্তু এই প্রচেষ্টাগুলি আন্তopeঅপারোবিলিটিকে বিশ্রী করে তুলেছিল এবং স্পষ্টতই ASCII এর ক্ষমতাকে প্রসারিত করেছিল।





বিপরীতে, ইউনিভার্সাল কোডেড ক্যারেক্টার সেট (ইউনিকোড) উচ্চাকাঙ্ক্ষা স্কেলের বিপরীত প্রান্তে অবস্থিত। ইউনিকোড বিশ্বের যতটা সম্ভব লেখার ব্যবস্থাকে, যতটা সম্ভব প্রাচীন ভাষা এবং প্রত্যেকের প্রিয় অভিব্যক্তিমূলক চিহ্ন, ইমোজিগুলিকে আচ্ছাদিত করার চেষ্টা করে।

ক্যারেক্টার সেট বা ক্যারেক্টার এনকোডিং?

সহজ কথায়, একটি অক্ষর সেট হল অক্ষরের একটি নির্বাচন (যেমন, A-Z) যখন একটি অক্ষর এনকোডিং একটি অক্ষর সেট এবং একটি মান যা ডিজিটালভাবে উপস্থাপন করা যেতে পারে (যেমন, A = 1, B = 2) এর মধ্যে একটি ম্যাপিং।



ASCII স্ট্যান্ডার্ড কার্যকরভাবে উভয়ই: এটি অক্ষরের সেটকে সংজ্ঞায়িত করে যা এটি প্রতিনিধিত্ব করে এবং প্রতিটি অক্ষরকে একটি সংখ্যাসূচক মান দিয়ে ম্যাপ করার পদ্ধতি।

বিপরীতে, ইউনিকোড শব্দটি বিভিন্ন জিনিস বোঝাতে বিভিন্ন প্রেক্ষাপটে ব্যবহৃত হয়। একটি অক্ষর সেট এবং বেশ কয়েকটি এনকোডিং উল্লেখ করার জন্য আপনি এটি ASCII এর মতো একটি সর্বব্যাপী শব্দ হিসাবে ভাবতে পারেন। কিন্তু, যেহেতু বেশ কয়েকটি এনকোডিং আছে, ইউনিকোড শব্দটি প্রায়শই অক্ষরের সামগ্রিক সেটকে বোঝানোর জন্য ব্যবহৃত হয়, বরং সেগুলি কীভাবে ম্যাপ করা হয়।





সাইজ

এর সুযোগের কারণে, ইউনিকোড ASCII এর চেয়ে অনেক বেশি অক্ষর উপস্থাপন করে। স্ট্যান্ডার্ড ASCII 128 স্বতন্ত্র এনকোড করার জন্য 7-বিট পরিসীমা ব্যবহার করে চরিত্র । অন্যদিকে, ইউনিকোড এত বড় যে আমাদের বিভিন্ন পরিভাষা ব্যবহার করতে হবে শুধু এটা নিয়ে কথা বলার জন্য!

ইউনিকোড 1,111,998 এড্রেসযোগ্য কোড পয়েন্ট একটি কোড পয়েন্ট মোটামুটি একটি চরিত্রের জন্য সংরক্ষিত জায়গার সাথে সাদৃশ্যপূর্ণ, কিন্তু যখন আপনি বিস্তারিত জানতে শুরু করেন তখন পরিস্থিতি অনেক বেশি জটিল!





একটি আরও দরকারী তুলনা হল বর্তমানে কতগুলি স্ক্রিপ্ট (বা লেখার সিস্টেম) সমর্থিত। অবশ্যই, ASCII শুধুমাত্র ইংরেজি বর্ণমালা পরিচালনা করে, মূলত ল্যাটিন বা রোমান লিপি। 2020 সালে উত্পাদিত ইউনিকোডের সংস্করণটি আরও অনেক এগিয়ে যায়: এতে মোট 154 টি স্ক্রিপ্টের সমর্থন রয়েছে।

স্টোরেজ

ASCII এর 7-বিট পরিসীমা মানে হল যে প্রতিটি অক্ষর একটি 8-বিট বাইটে সংরক্ষণ করা হয়; অতিরিক্ত বিট মান ASCII- তে অব্যবহৃত। এটি আকারের গণনাকে তুচ্ছ করে তোলে: অক্ষরে পাঠ্যের দৈর্ঘ্য হল ফাইলের আকার বাইটে।

আপনি bash কমান্ডের নিম্নলিখিত ক্রম দিয়ে এটি নিশ্চিত করতে পারেন। প্রথমত, আমরা 12 টি অক্ষরের একটি ফাইল তৈরি করি:

উইন্ডোজ 10 এর জন্য বিনামূল্যে ওসিআর সফটওয়্যার
$ echo -n 'Hello, world' > foo

পাঠ্যটি ASCII এনকোডিং এ আছে কিনা তা পরীক্ষা করার জন্য, আমরা ফাইল কমান্ড:

$ file foo
foo: ASCII text, with no line terminators

পরিশেষে, ফাইল দখল করা বাইটের সঠিক সংখ্যা পেতে, আমরা অবস্থা কমান্ড:

$ stat -f%z foo
12

যেহেতু ইউনিকোড স্ট্যান্ডার্ড অনেক বেশি বর্ণের অক্ষর নিয়ে কাজ করে, তাই ইউনিকোড ফাইল স্বাভাবিকভাবেই বেশি স্টোরেজ স্পেস নেয়। ঠিক কতটা এনকোডিং এর উপর নির্ভর করে।

ASCII- এ এমন একটি চরিত্র ব্যবহার করে যা পূর্বে থেকে একই কমান্ডের পুনরাবৃত্তি করে, নিম্নলিখিতগুলি দেয়:

$ echo -n '€' > foo
$ file foo
foo: UTF-8 Unicode text, with no line terminators
$ stat -f%z foo
3

সেই একক অক্ষর একটি ইউনিকোড ফাইলে 3 বাইট দখল করে আছে। মনে রাখবেন যে ব্যাশ স্বয়ংক্রিয়ভাবে একটি UTF-8 ফাইল তৈরি করেছে যেহেতু একটি ASCII ফাইল নির্বাচিত অক্ষর (€) সংরক্ষণ করতে পারে না। ইউটিএফ-8 এখন পর্যন্ত ইউনিকোডের জন্য সবচেয়ে সাধারণ অক্ষর এনকোডিং; UTF-16 এবং UTF-32 দুটি বিকল্প এনকোডিং, কিন্তু সেগুলি অনেক কম ব্যবহার করা হয়।

UTF-8 হল একটি পরিবর্তনশীল-প্রস্থের এনকোডিং, যার অর্থ এটি বিভিন্ন কোড পয়েন্টের জন্য বিভিন্ন পরিমাণ সঞ্চয়স্থান ব্যবহার করে। প্রতিটি কোড পয়েন্ট এক থেকে চার বাইটের মধ্যে দখল করবে, এই অভিপ্রায় দিয়ে যে আরো সাধারণ অক্ষর কম জায়গার প্রয়োজন, এক ধরনের অন্তর্নির্মিত কম্প্রেশন প্রদান করে। অসুবিধা হল যে প্রদত্ত অংশের দৈর্ঘ্য বা আকারের প্রয়োজনীয়তা নির্ধারণ করা অনেক জটিল হয়ে ওঠে।

ASCII ইউনিকোড, কিন্তু ইউনিকোড ASCII নয়

অনগ্রসর সামঞ্জস্যের জন্য, প্রথম 128 ইউনিকোড কোড পয়েন্ট সমতুল্য ASCII অক্ষর উপস্থাপন করে। যেহেতু UTF-8 এই প্রতিটি অক্ষরকে একক বাইট দিয়ে এনকোড করে, তাই যেকোনো ASCII পাঠ্যও একটি UTF-8 পাঠ্য। ইউনিকোড ASCII এর একটি সুপারসেট।

যাইহোক, উপরে দেখানো হয়েছে, অনেক ইউনিকোড ফাইল ASCII প্রসঙ্গে ব্যবহার করা যাবে না। সীমার বাইরে থাকা যেকোনো চরিত্র একটি অপ্রত্যাশিত পদ্ধতিতে প্রদর্শিত হবে, প্রায়শই প্রতিস্থাপিত অক্ষরগুলির সাথে যেগুলি উদ্দেশ্য করা হয়েছিল তার থেকে সম্পূর্ণ ভিন্ন।

আধুনিক ব্যবহার

বেশিরভাগ উদ্দেশ্যে, ASCII মূলত একটি উত্তরাধিকার মান হিসাবে বিবেচিত হয়। এমন পরিস্থিতিতেও যা শুধুমাত্র ল্যাটিন স্ক্রিপ্টকে সমর্থন করে — যেখানে ইউনিকোডের জটিলতার জন্য পূর্ণ সমর্থন অপ্রয়োজনীয়, উদাহরণস্বরূপ- এটি সাধারণত UTF-8 ব্যবহার করা এবং এর ASCII সামঞ্জস্যের সুবিধা গ্রহণ করা আরও সুবিধাজনক।

কিভাবে অ্যান্ড্রয়েডে ফোল্ডার তৈরি করবেন

বিশেষ করে, UTF-8 ব্যবহার করে ওয়েব পেজগুলি সংরক্ষণ এবং প্রেরণ করা উচিত, যা HTML5 এর জন্য ডিফল্ট। এটি আগের ওয়েবের বিপরীতে, যা ASCII- এ ডিফল্টরূপে মোকাবেলা করার আগে ল্যাটিন 1 দ্বারা স্থানান্তরিত হয়েছিল।

একটি মান যা পরিবর্তন হচ্ছে

ASCII এর সর্বশেষ সংশোধন 1986 সালে হয়েছিল।

বিপরীতে, ইউনিকোড বার্ষিক আপডেট হতে থাকে। নতুন স্ক্রিপ্ট, অক্ষর এবং বিশেষ করে নতুন ইমোজি নিয়মিত যোগ করা হয়। এই বরাদ্দকৃত একটি সামান্য ভগ্নাংশের সাথে, সম্পূর্ণ অক্ষর সেটটি অদূর ভবিষ্যতের জন্য বৃদ্ধি এবং বৃদ্ধি পাওয়ার সম্ভাবনা রয়েছে।

সম্পর্কিত: 100 সবচেয়ে জনপ্রিয় ইমোজি ব্যাখ্যা করা হয়েছে

ASCII বনাম ইউনিকোড

ASCII বহু দশক ধরে এর উদ্দেশ্য পূরণ করেছে, কিন্তু ইউনিকোড এখন এটিকে উত্তরাধিকার ব্যবস্থা ব্যতীত অন্যান্য ব্যবহারিক উদ্দেশ্যে কার্যকরভাবে প্রতিস্থাপন করেছে। ইউনিকোড বৃহত্তর এবং, তাই, আরো অভিব্যক্তিপূর্ণ। এটি একটি বিশ্বব্যাপী, সহযোগিতামূলক প্রচেষ্টার প্রতিনিধিত্ব করে এবং কিছু জটিলতার খরচে অনেক বেশি নমনীয়তা প্রদান করে।

শেয়ার করুন শেয়ার করুন টুইট ইমেইল ASCII টেক্সট কি এবং কিভাবে এটি ব্যবহার করা হয়?

ASCII পাঠ্যটি রহস্যময় বলে মনে হয়, কিন্তু ইন্টারনেটে এর অনেক ব্যবহার রয়েছে।

পরবর্তী পড়ুন
সম্পর্কিত বিষয়
  • প্রযুক্তি ব্যাখ্যা করা হয়েছে
  • ইমোজি
  • শব্দভাণ্ডার
  • ওয়েব সংস্কৃতি
  • ইউনিকোড
লেখক সম্পর্কে ববি জ্যাক(58 নিবন্ধ প্রকাশিত)

ববি একজন প্রযুক্তি উৎসাহী যিনি দুই দশকের বেশিরভাগ সময় সফটওয়্যার ডেভেলপার হিসেবে কাজ করেছেন। তিনি গেমিং সম্পর্কে উত্সাহী, সুইচ প্লেয়ার ম্যাগাজিনে রিভিউ এডিটর হিসাবে কাজ করছেন এবং অনলাইন প্রকাশনা এবং ওয়েব ডেভেলপমেন্টের সকল ক্ষেত্রে নিমজ্জিত।

ববি জ্যাক থেকে আরো

আমাদের নিউজলেটার সদস্যতা

প্রযুক্তি টিপস, রিভিউ, ফ্রি ইবুক এবং এক্সক্লুসিভ ডিলের জন্য আমাদের নিউজলেটারে যোগ দিন!

সাবস্ক্রাইব করতে এখানে ক্লিক করুন