Pandas เป็นไลบรารีที่ทรงพลังสำหรับการจัดการและวิเคราะห์ข้อมูลในภาษา Python ซึ่งถูกออกแบบมาเพื่อทำงานกับข้อมูลที่มีโครงสร้าง เช่น ตารางข้อมูล (data frames) หรือซีรีส์ของข้อมูล (series) pandas
มีฟังก์ชันและเครื่องมือที่ช่วยให้ผู้ใช้งานสามารถดำเนินการกับข้อมูลขนาดใหญ่และซับซ้อนได้อย่างง่ายดาย
ด้านล่างเป็นข้อมูล pandas เบื้องต้นเท่านั้นนะครับ ข้อมูลเพิ่มเติมค่อนข้างเยอะจะมา Update ให้เรื่อย ๆ
คุณสมบัติหลักของ pandas
- DataFrame และ Series:
DataFrame
เป็นโครงสร้างข้อมูลหลักในpandas
ซึ่งเป็นตารางที่มีแถวและคอลัมน์ คล้ายกับตารางในฐานข้อมูลหรือสเปรดชีตใน ExcelSeries
เป็นโครงสร้างข้อมูลที่คล้ายกับคอลัมน์เดียวของDataFrame
หรืออาเรย์ใน Python โดยSeries
มีดัชนีเฉพาะตัวที่สามารถเข้าถึงข้อมูลได้
- การจัดการข้อมูลที่ขาดหาย:
pandas
มีเครื่องมือในการจัดการกับข้อมูลที่ขาดหาย (missing data) หรือข้อมูลที่ผิดปกติ เช่น สามารถกรองข้อมูลที่ขาดหาย, เติมข้อมูล, หรือแทนที่ข้อมูลที่ขาดหายได้ - การกรองและการเลือกข้อมูล:
pandas
ทำให้การเลือกข้อมูลจากDataFrame
ง่ายขึ้น ไม่ว่าจะเป็นการเลือกแถวหรือคอลัมน์ตามเงื่อนไขต่างๆ เช่น การเลือกข้อมูลโดยใช้ดัชนี, การใช้เงื่อนไขในการกรอง, การใช้loc
และiloc
สำหรับการเข้าถึงข้อมูลตามตำแหน่ง - การเปลี่ยนแปลงข้อมูล: คุณสามารถปรับเปลี่ยนรูปแบบข้อมูลใน
DataFrame
ได้อย่างสะดวก เช่น การจัดเรียงข้อมูล, การหมุนตาราง (pivot), การสรุปสถิติ, การรวมข้อมูลจากหลายตาราง (merge) และอื่นๆ - การอ่านและเขียนข้อมูลจากหลากหลายแหล่ง:
pandas
รองรับการอ่านและเขียนข้อมูลจากแหล่งข้อมูลต่างๆ เช่น ไฟล์ CSV, Excel, SQL, JSON, HTML เป็นต้น ทำให้การนำเข้าข้อมูลและการส่งออกข้อมูลสะดวกยิ่งขึ้น - การคำนวณและการดำเนินการทางสถิติ:
pandas
มีฟังก์ชันสถิติเพื่อคำนวณค่าเฉลี่ย, ค่ามัธยฐาน, ค่ามากสุด-น้อยสุด, ค่ามาตรฐาน, การคำนวณสัมพัทธ์ต่างๆ และอื่นๆ ที่ใช้ในการวิเคราะห์ข้อมูล - การจัดการดัชนี:
pandas
มีความยืดหยุ่นในการจัดการดัชนี (index) ทำให้สามารถตั้งค่าและปรับเปลี่ยนดัชนีของข้อมูลได้ตามความต้องการ เช่น การตั้งดัชนีหลายชั้น (MultiIndex) หรือการจัดเรียงดัชนีใหม่
การใช้งานพื้นฐานของ pandas
การติดตั้ง pandas
คุณสามารถติดตั้ง pandas
ได้โดยใช้คำสั่ง pip
:
pip install pandas
ตัวอย่างการใช้งาน
- การสร้าง DataFrame:
import pandas as pd
# สร้าง DataFrame จาก dictionary
data = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [24, 27, 22], 'City': ['New York', 'San Francisco', 'Los Angeles'] }
df = pd.DataFrame(data)
print(df)
ผลลัพธ์:
Name Age City
0 Alice 24 New York
1 Bob 27 San Francisco
2 Charlie 22 Los Angeles
- การอ่านข้อมูลจาก CSV, Excel :
df = pd.read_csv('data.csv')
df = pd.read_excel('data.xlsx')
การจัดการข้อมูลจาก DataFrame:
# เลือกคอลัมน์เดียว
print(df['Name'])
# เลือกหลายคอลัมน์print(df[['Name', 'Age']])
# เลือกแถวตามเงื่อนไข
print(df[df['Age'] > 25])
#เลือกแถวที่มีค่า Age มากกว่า 25filtered_df = df[df['Age'] > 25]
print(filtered_df)
#การสรุปสถิติข้อมูล
print(df.describe())
# จัดเรียงข้อมูลตามคอลัมน์ Age
df_sorted = df.sort_values(by='Age')
print(df_sorted)
สรุป
pandas
เป็นไลบรารีที่ทรงพลังและยืดหยุ่นสำหรับการจัดการข้อมูลใน Python ไม่ว่าจะเป็นการจัดการข้อมูลแบบตาราง การทำงานกับข้อมูลขนาดใหญ่ หรือการวิเคราะห์ข้อมูลเชิงสถิติ มันเป็นเครื่องมือที่เหมาะสำหรับการทำ Data Science, Data Analysis และการทำงานกับข้อมูลที่ซับซ้อน