Pandas (การจัดการข้อมูล)

Pandas เป็นไลบรารีที่ทรงพลังสำหรับการจัดการและวิเคราะห์ข้อมูลในภาษา Python ซึ่งถูกออกแบบมาเพื่อทำงานกับข้อมูลที่มีโครงสร้าง เช่น ตารางข้อมูล (data frames) หรือซีรีส์ของข้อมูล (series) pandas มีฟังก์ชันและเครื่องมือที่ช่วยให้ผู้ใช้งานสามารถดำเนินการกับข้อมูลขนาดใหญ่และซับซ้อนได้อย่างง่ายดาย

ด้านล่างเป็นข้อมูล pandas เบื้องต้นเท่านั้นนะครับ ข้อมูลเพิ่มเติมค่อนข้างเยอะจะมา Update ให้เรื่อย ๆ

คุณสมบัติหลักของ pandas

  1. DataFrame และ Series:
    • DataFrame เป็นโครงสร้างข้อมูลหลักใน pandas ซึ่งเป็นตารางที่มีแถวและคอลัมน์ คล้ายกับตารางในฐานข้อมูลหรือสเปรดชีตใน Excel
    • Series เป็นโครงสร้างข้อมูลที่คล้ายกับคอลัมน์เดียวของ DataFrame หรืออาเรย์ใน Python โดย Series มีดัชนีเฉพาะตัวที่สามารถเข้าถึงข้อมูลได้
  2. การจัดการข้อมูลที่ขาดหาย: pandas มีเครื่องมือในการจัดการกับข้อมูลที่ขาดหาย (missing data) หรือข้อมูลที่ผิดปกติ เช่น สามารถกรองข้อมูลที่ขาดหาย, เติมข้อมูล, หรือแทนที่ข้อมูลที่ขาดหายได้
  3. การกรองและการเลือกข้อมูล: pandas ทำให้การเลือกข้อมูลจาก DataFrame ง่ายขึ้น ไม่ว่าจะเป็นการเลือกแถวหรือคอลัมน์ตามเงื่อนไขต่างๆ เช่น การเลือกข้อมูลโดยใช้ดัชนี, การใช้เงื่อนไขในการกรอง, การใช้ loc และ iloc สำหรับการเข้าถึงข้อมูลตามตำแหน่ง
  4. การเปลี่ยนแปลงข้อมูล: คุณสามารถปรับเปลี่ยนรูปแบบข้อมูลใน DataFrame ได้อย่างสะดวก เช่น การจัดเรียงข้อมูล, การหมุนตาราง (pivot), การสรุปสถิติ, การรวมข้อมูลจากหลายตาราง (merge) และอื่นๆ
  5. การอ่านและเขียนข้อมูลจากหลากหลายแหล่ง: pandas รองรับการอ่านและเขียนข้อมูลจากแหล่งข้อมูลต่างๆ เช่น ไฟล์ CSV, Excel, SQL, JSON, HTML เป็นต้น ทำให้การนำเข้าข้อมูลและการส่งออกข้อมูลสะดวกยิ่งขึ้น
  6. การคำนวณและการดำเนินการทางสถิติ: pandas มีฟังก์ชันสถิติเพื่อคำนวณค่าเฉลี่ย, ค่ามัธยฐาน, ค่ามากสุด-น้อยสุด, ค่ามาตรฐาน, การคำนวณสัมพัทธ์ต่างๆ และอื่นๆ ที่ใช้ในการวิเคราะห์ข้อมูล
  7. การจัดการดัชนี: pandas มีความยืดหยุ่นในการจัดการดัชนี (index) ทำให้สามารถตั้งค่าและปรับเปลี่ยนดัชนีของข้อมูลได้ตามความต้องการ เช่น การตั้งดัชนีหลายชั้น (MultiIndex) หรือการจัดเรียงดัชนีใหม่

การใช้งานพื้นฐานของ pandas

การติดตั้ง pandas

คุณสามารถติดตั้ง pandas ได้โดยใช้คำสั่ง pip:

pip install pandas

ตัวอย่างการใช้งาน

  1. การสร้าง DataFrame:
import pandas as pd 

# สร้าง DataFrame จาก dictionary
data = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [24, 27, 22], 'City': ['New York', 'San Francisco', 'Los Angeles'] }
df = pd.DataFrame(data)
print(df)


ผลลัพธ์:
Name Age City
0 Alice 24 New York
1 Bob 27 San Francisco
2 Charlie 22 Los Angeles
  1. การอ่านข้อมูลจาก CSV, Excel :
df = pd.read_csv('data.csv')
df = pd.read_excel('data.xlsx')

การจัดการข้อมูลจาก DataFrame:

# เลือกคอลัมน์เดียว
print(df['Name'])

# เลือกหลายคอลัมน์
print(df[['Name', 'Age']])

# เลือกแถวตามเงื่อนไข
print(df[df['Age'] > 25])

#เลือกแถวที่มีค่า Age มากกว่า 25
filtered_df = df[df['Age'] > 25]
print(filtered_df)

#การสรุปสถิติข้อมูล
print(df.describe())

# จัดเรียงข้อมูลตามคอลัมน์ Age
df_sorted = df.sort_values(by='Age')
print(df_sorted)

สรุป

pandas เป็นไลบรารีที่ทรงพลังและยืดหยุ่นสำหรับการจัดการข้อมูลใน Python ไม่ว่าจะเป็นการจัดการข้อมูลแบบตาราง การทำงานกับข้อมูลขนาดใหญ่ หรือการวิเคราะห์ข้อมูลเชิงสถิติ มันเป็นเครื่องมือที่เหมาะสำหรับการทำ Data Science, Data Analysis และการทำงานกับข้อมูลที่ซับซ้อน

Scroll to Top