Pandas (การจัดการข้อมูล)

Pandas เป็นไลบรารีที่ทรงพลังสำหรับการจัดการและวิเคราะห์ข้อมูลในภาษา Python ซึ่งถูกออกแบบมาเพื่อทำงานกับข้อมูลที่มีโครงสร้าง เช่น ตารางข้อมูล (data frames) หรือซีรีส์ของข้อมูล (series) pandas มีฟังก์ชันและเครื่องมือที่ช่วยให้ผู้ใช้งานสามารถดำเนินการกับข้อมูลขนาดใหญ่และซับซ้อนได้อย่างง่ายดาย

ด้านล่างเป็นข้อมูล pandas เบื้องต้นเท่านั้นนะครับ ข้อมูลเพิ่มเติมค่อนข้างเยอะจะมา Update ให้เรื่อย ๆ

คุณสมบัติหลักของ `pandas`

DataFrame และ Series:
- DataFrame เป็นโครงสร้างข้อมูลหลักใน pandas ซึ่งเป็นตารางที่มีแถวและคอลัมน์ คล้ายกับตารางในฐานข้อมูลหรือสเปรดชีตใน Excel
- Series เป็นโครงสร้างข้อมูลที่คล้ายกับคอลัมน์เดียวของ DataFrame หรืออาเรย์ใน Python โดย Series มีดัชนีเฉพาะตัวที่สามารถเข้าถึงข้อมูลได้
การจัดการข้อมูลที่ขาดหาย: pandas มีเครื่องมือในการจัดการกับข้อมูลที่ขาดหาย (missing data) หรือข้อมูลที่ผิดปกติ เช่น สามารถกรองข้อมูลที่ขาดหาย, เติมข้อมูล, หรือแทนที่ข้อมูลที่ขาดหายได้
การกรองและการเลือกข้อมูล: pandas ทำให้การเลือกข้อมูลจาก DataFrame ง่ายขึ้น ไม่ว่าจะเป็นการเลือกแถวหรือคอลัมน์ตามเงื่อนไขต่างๆ เช่น การเลือกข้อมูลโดยใช้ดัชนี, การใช้เงื่อนไขในการกรอง, การใช้ loc และ iloc สำหรับการเข้าถึงข้อมูลตามตำแหน่ง
การเปลี่ยนแปลงข้อมูล: คุณสามารถปรับเปลี่ยนรูปแบบข้อมูลใน DataFrame ได้อย่างสะดวก เช่น การจัดเรียงข้อมูล, การหมุนตาราง (pivot), การสรุปสถิติ, การรวมข้อมูลจากหลายตาราง (merge) และอื่นๆ
การอ่านและเขียนข้อมูลจากหลากหลายแหล่ง: pandas รองรับการอ่านและเขียนข้อมูลจากแหล่งข้อมูลต่างๆ เช่น ไฟล์ CSV, Excel, SQL, JSON, HTML เป็นต้น ทำให้การนำเข้าข้อมูลและการส่งออกข้อมูลสะดวกยิ่งขึ้น
การคำนวณและการดำเนินการทางสถิติ: pandas มีฟังก์ชันสถิติเพื่อคำนวณค่าเฉลี่ย, ค่ามัธยฐาน, ค่ามากสุด-น้อยสุด, ค่ามาตรฐาน, การคำนวณสัมพัทธ์ต่างๆ และอื่นๆ ที่ใช้ในการวิเคราะห์ข้อมูล
การจัดการดัชนี: pandas มีความยืดหยุ่นในการจัดการดัชนี (index) ทำให้สามารถตั้งค่าและปรับเปลี่ยนดัชนีของข้อมูลได้ตามความต้องการ เช่น การตั้งดัชนีหลายชั้น (MultiIndex) หรือการจัดเรียงดัชนีใหม่

การใช้งานพื้นฐานของ `pandas`

การติดตั้ง `pandas`

คุณสามารถติดตั้ง pandas ได้โดยใช้คำสั่ง pip:

pip install pandas

ตัวอย่างการใช้งาน

การสร้าง DataFrame:

import pandas as pd 

# สร้าง DataFrame จาก dictionary 
data = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [24, 27, 22], 'City': ['New York', 'San Francisco', 'Los Angeles'] } 
df = pd.DataFrame(data) 
print(df) 

ผลลัพธ์:
  Name Age City 
0 Alice 24 New York 
1 Bob 27 San Francisco 
2 Charlie 22 Los Angeles

การอ่านข้อมูลจาก CSV, Excel :

df = pd.read_csv('data.csv')
df = pd.read_excel('data.xlsx')

การจัดการข้อมูลจาก DataFrame:

# เลือกคอลัมน์เดียว
print(df['Name'])

# เลือกหลายคอลัมน์ 
print(df[['Name', 'Age']])

# เลือกแถวตามเงื่อนไข
print(df[df['Age'] > 25])

#เลือกแถวที่มีค่า Age มากกว่า 25 
filtered_df = df[df['Age'] > 25] 
print(filtered_df)

#การสรุปสถิติข้อมูล
print(df.describe())

# จัดเรียงข้อมูลตามคอลัมน์ Age 
df_sorted = df.sort_values(by='Age') 
print(df_sorted)

สรุป

pandas เป็นไลบรารีที่ทรงพลังและยืดหยุ่นสำหรับการจัดการข้อมูลใน Python ไม่ว่าจะเป็นการจัดการข้อมูลแบบตาราง การทำงานกับข้อมูลขนาดใหญ่ หรือการวิเคราะห์ข้อมูลเชิงสถิติ มันเป็นเครื่องมือที่เหมาะสำหรับการทำ Data Science, Data Analysis และการทำงานกับข้อมูลที่ซับซ้อน

คุณสมบัติหลักของ pandas

การใช้งานพื้นฐานของ pandas

การติดตั้ง pandas

ตัวอย่างการใช้งาน

สรุป

คุณสมบัติหลักของ `pandas`

การใช้งานพื้นฐานของ `pandas`

การติดตั้ง `pandas`