পাইথনের পান্ডাস লাইব্রেরি দ্বারা অফার করা ডেটাফ্রেমের 4 প্রকারের যোগদান

পাইথনের পান্ডাস লাইব্রেরি দ্বারা অফার করা ডেটাফ্রেমের 4 প্রকারের যোগদান

ডেটা বিশ্লেষক হিসাবে, আপনি প্রায়শই একাধিক ডেটাসেট একত্রিত করার প্রয়োজনের মুখোমুখি হবেন। আপনার বিশ্লেষণ সম্পূর্ণ করতে এবং আপনার ব্যবসা/স্টেকহোল্ডারদের জন্য একটি উপসংহারে পৌঁছাতে আপনাকে এটি করতে হবে।





এটি বিভিন্ন টেবিলে সংরক্ষণ করা হলে ডেটা উপস্থাপন করা প্রায়শই চ্যালেঞ্জিং। এই ধরনের পরিস্থিতিতে, আপনি যে প্রোগ্রামিং ভাষায় কাজ করছেন তা নির্বিশেষে যোগদান তাদের যোগ্যতা প্রমাণ করে।





দিনের মেকইউজের ভিডিও

পাইথন যোগদানগুলি এসকিউএল যোগদানের মতো: তারা একটি সাধারণ সূচকে তাদের সারিগুলিকে মেলে ডেটা সেটগুলিকে একত্রিত করে।





রেফারেন্সের জন্য দুটি ডেটাফ্রেম তৈরি করুন

এই গাইডের উদাহরণগুলি অনুসরণ করতে, আপনি দুটি নমুনা ডেটাফ্রেম তৈরি করতে পারেন। প্রথম ডেটাফ্রেম তৈরি করতে নিম্নলিখিত কোডটি ব্যবহার করুন, যাতে একটি আইডি, প্রথম নাম এবং শেষ নাম রয়েছে।

import pandas as pd 

a = pd.DataFrame({"ID": ["001", "002", "003", "004", "005"],
"Fname": ["Ron", "John", "Helen", "Jenny", "Kenny"],
"Lname": ["Keith", "Harley", "Smith", "Kerr-Hislop", "Barber"]})
print(a)

প্রথম ধাপের জন্য, আমদানি করুন পান্ডা লাইব্রেরি আপনি তারপর একটি পরিবর্তনশীল ব্যবহার করতে পারেন, , DataFrame কনস্ট্রাক্টর থেকে ফলাফল সংরক্ষণ করতে। কনস্ট্রাক্টরকে আপনার প্রয়োজনীয় মান ধারণকারী একটি অভিধান পাস করুন।



অবশেষে, প্রিন্ট ফাংশনের সাথে ডেটাফ্রেম মানের বিষয়বস্তু প্রদর্শন করুন, সবকিছু আপনার প্রত্যাশা অনুযায়ী দেখতে হবে।

একইভাবে, আপনি আরেকটি ডেটাফ্রেম তৈরি করতে পারেন, , যাতে একটি আইডি এবং বেতনের মান থাকে।





b = pd.DataFrame({"ID": ["001", "002", "003", "004", "005"], 
"Salary": [100000, 700000, 80000, 904750, 604772]})

print(b)

আপনি একটি কনসোল বা একটি IDE আউটপুট চেক করতে পারেন. এটি আপনার ডেটাফ্রেমের বিষয়বস্তু নিশ্চিত করবে:

পাইথনের মার্জ ফাংশন থেকে কীভাবে যোগদানগুলি আলাদা?

পান্ডাস লাইব্রেরি হল প্রধান লাইব্রেরিগুলির মধ্যে একটি যা আপনি ডেটাফ্রেমগুলি পরিচালনা করতে ব্যবহার করতে পারেন। যেহেতু ডেটাফ্রেমগুলিতে একাধিক ডেটা সেট রয়েছে, তাই পাইথনে বিভিন্ন ফাংশন তাদের সাথে যোগদানের জন্য উপলব্ধ।





পাইথন যোগদান এবং মার্জ ফাংশন অফার করে, অন্য অনেকের মধ্যে, যা আপনি ডেটাফ্রেমগুলিকে একত্রিত করতে ব্যবহার করতে পারেন। এই দুটি ফাংশনের মধ্যে একটি সম্পূর্ণ পার্থক্য রয়েছে, যা ব্যবহার করার আগে আপনাকে অবশ্যই মনে রাখতে হবে।

যোগদান ফাংশন তাদের সূচক মানের উপর ভিত্তি করে দুটি DataFrames যোগদান করে। দ্য মার্জ ফাংশন ডেটাফ্রেমকে একত্রিত করে সূচক মান এবং কলামের উপর ভিত্তি করে।

পাইথনে যোগদান সম্পর্কে আপনার কী জানা দরকার?

উপলব্ধ যোগদানের প্রকারগুলি নিয়ে আলোচনা করার আগে, এখানে কিছু গুরুত্বপূর্ণ বিষয় লক্ষ্য করা উচিত:

  • SQL যোগদান সবচেয়ে মৌলিক ফাংশন এক এবং পাইথনের যোগদানের সাথে বেশ মিল রয়েছে।
  • DataFrames যোগদান করতে, আপনি ব্যবহার করতে পারেন pandas.DataFrame.join() পদ্ধতি
  • ডিফল্ট যোগদান একটি বাম যোগদান সঞ্চালন করে, যেখানে মার্জ ফাংশন একটি অভ্যন্তরীণ যোগদান করে।

পাইথন যোগদানের জন্য ডিফল্ট সিনট্যাক্স নিম্নরূপ:

ফটোতে তৈরি স্লাইড কোথায় পাবেন
DataFrame.join(other, on=None, how='left/right/inner/outer', lsuffix='', rsuffix='', 
sort=False)

প্রথম ডেটাফ্রেমে যোগদান পদ্ধতিটি চালু করুন এবং দ্বিতীয় ডেটাফ্রেমটিকে প্রথম প্যারামিটার হিসাবে পাস করুন, অন্যান্য . অবশিষ্ট যুক্তি হল:

  • চালু , যেটিতে যোগদানের জন্য একটি সূচকের নাম, যদি একাধিক থাকে।
  • কিভাবে , যা অভ্যন্তরীণ, বহিরাগত, বাম এবং ডান সহ যোগদানের ধরন সংজ্ঞায়িত করে।
  • lsuffix , যা আপনার কলাম নামের বাম প্রত্যয় স্ট্রিং সংজ্ঞায়িত করে।
  • rs sufix , যা আপনার কলাম নামের ডান প্রত্যয় স্ট্রিং সংজ্ঞায়িত করে।
  • সাজান , যা একটি বুলিয়ান ইঙ্গিত করে যে ডেটাফ্রেম সাজাতে হবে কিনা।

পাইথনে বিভিন্ন ধরনের জয়েন ব্যবহার করতে শিখুন

পাইথনের কয়েকটি যোগদানের বিকল্প রয়েছে, যা আপনি সময়ের প্রয়োজনের উপর নির্ভর করে অনুশীলন করতে পারেন। এখানে যোগদানের ধরন রয়েছে:

1. বাম যোগদান

বাম যোগদান প্রথম ডেটাফ্রেমের মানগুলিকে অক্ষত রাখে যখন দ্বিতীয়টি থেকে মিলিত মানগুলি আনয়ন করে। উদাহরণস্বরূপ, আপনি যদি থেকে মানানসই মান আনতে চান , আপনি নিম্নলিখিত হিসাবে এটি সংজ্ঞায়িত করতে পারেন:

c = a.join(b, how="left", lsuffix = "_left", rsuffix = "_right", sort = True) 
print(c)

যখন ক্যোয়ারী কার্যকর হয়, আউটপুটে নিম্নলিখিত কলাম রেফারেন্স থাকে:

  • ID_বাম
  • নাম
  • নাম
  • ID_right
  • বেতন

এই যোগদানটি প্রথম ডেটাফ্রেম থেকে প্রথম তিনটি কলাম এবং দ্বিতীয় ডেটাফ্রেম থেকে শেষ দুটি কলাম টেনে আনে। এটি ব্যবহার করেছে lsuffix এবং rs sufix উভয় ডেটাসেট থেকে আইডি কলামের পুনঃনামকরণ করার জন্য মানগুলি, ফলে ফিল্ডের নামগুলি অনন্য তা নিশ্চিত করে।

আউটপুট নিম্নরূপ:

  পাইথনে বাম যোগদান দেখানো কোড's dataframes

2. ডান যোগদান

ডান যোগদান দ্বিতীয় ডেটাফ্রেমের মানগুলিকে অক্ষত রাখে, যখন প্রথম টেবিল থেকে মানানসই মানগুলি আনয়ন করে। উদাহরণস্বরূপ, আপনি যদি থেকে মানানসই মান আনতে চান , আপনি নিম্নলিখিত হিসাবে এটি সংজ্ঞায়িত করতে পারেন:

c = b.join(a, how="right", lsuffix = "_right", rsuffix = "_left", sort = True) 
print(c)

আউটপুট নিম্নরূপ:

  কোড পাইথনে ডান যোগদান দেখাচ্ছে's dataframes

আপনি যদি কোডটি পর্যালোচনা করেন তবে কয়েকটি স্পষ্ট পরিবর্তন রয়েছে। উদাহরণস্বরূপ, ফলাফলে প্রথম ডেটাফ্রেমের আগে দ্বিতীয় ডেটাফ্রেমের কলামগুলি অন্তর্ভুক্ত রয়েছে।

আপনি একটি মান ব্যবহার করা উচিত অধিকার জন্য কিভাবে একটি সঠিক যোগদান নির্দিষ্ট করার যুক্তি। এছাড়াও, আপনি কিভাবে সুইচ করতে পারেন তা নোট করুন lsuffix এবং rs sufix মান সঠিক যোগদান প্রকৃতি প্রতিফলিত.

আপনার নিয়মিত যোগদানে, আপনি ডান যোগদানের তুলনায় বাম, অভ্যন্তরীণ এবং বাইরের যোগদানগুলি আরও ঘন ঘন ব্যবহার করতে পারেন। যাইহোক, ব্যবহার সম্পূর্ণরূপে আপনার ডেটা প্রয়োজনীয়তার উপর নির্ভর করে।

3. অভ্যন্তরীণ যোগদান

একটি অভ্যন্তরীণ যোগদান উভয় ডেটাফ্রেম থেকে মিলে যাওয়া এন্ট্রি সরবরাহ করে। যেহেতু যোগদানগুলি সারিগুলিকে মেলানোর জন্য সূচী সংখ্যাগুলি ব্যবহার করে, একটি অভ্যন্তরীণ যোগদান শুধুমাত্র মেলে এমন সারিগুলি প্রদান করে৷ এই উদাহরণের জন্য, আসুন নিম্নলিখিত দুটি ডেটাফ্রেম ব্যবহার করি:

a = pd.DataFrame({"ID": ["001", "002", "003", "004", "005", "006", "007"], 
"Fname": ["Ron", "John", "Helen", "Jenny", "Kenny", "Daryl", "Cathy"],
"Lname": ["Keith", "Harley", "Smith", "Kerr-Hislop", "Barber", "Hooper", "Hope"]})
b = pd.DataFrame({"ID": ["001", "002", "003", "004", "005"],
"Salary": [100000, 700000, 80000, 904750, 604772]})

print(a)
print(b)

আউটপুট নিম্নরূপ:

  পাইথনে নতুন ডেটাফ্রেম তৈরি করুন

আপনি একটি অভ্যন্তরীণ যোগদান ব্যবহার করতে পারেন, নিম্নরূপ:

c = a.join(b, lsuffix="_left", rsuffix="_right", how='inner') 
print(c)

ফলস্বরূপ আউটপুটে শুধুমাত্র সারি রয়েছে যা উভয় ইনপুট ডেটাফ্রেমে বিদ্যমান:

  কোড পাইথনে অভ্যন্তরীণ যোগদান দেখাচ্ছে's dataframes

4. বাইরের যোগদান

একটি বহিরাগত যোগদান উভয় ডেটাফ্রেম থেকে সমস্ত মান প্রদান করে। কোন মিল মান নেই এমন সারিগুলির জন্য, এটি পৃথক কোষে একটি শূন্য মান তৈরি করে।

উপরের মত একই DataFrame ব্যবহার করে, এখানে বাইরের যোগদানের জন্য কোড আছে:

c = a.join(b, lsuffix="_left", rsuffix="_right", how='outer') 
print(c)
  কোড পাইথনে বাইরের যোগদান দেখাচ্ছে's dataframes

Python এ Joins ব্যবহার করা

যোগদান, তাদের কাউন্টারপার্ট ফাংশন, মার্জ এবং কনক্যাটের মতো, একটি সাধারণ যোগদান কার্যকারিতার চেয়ে অনেক বেশি উপায় অফার করে। এর বিকল্প এবং ফাংশনগুলির সিরিজ দেওয়া, আপনি আপনার প্রয়োজনীয়তা পূরণ করে এমন বিকল্পগুলি বেছে নিতে পারেন।

কিভাবে একটি ব্যাচ ফাইল সংরক্ষণ করবেন

আপনি পাইথন অফার করে এমন নমনীয় বিকল্পগুলির সাথে যোগদান ফাংশন সহ বা ছাড়াই তুলনামূলকভাবে সহজে ফলাফল ডেটাসেটগুলি সাজাতে পারেন।