
Chia sẻ
"Hướng dẫn toàn diện về Pandas DataFrame: đọc file, lọc dữ liệu, group by, merge, xử lý missing values và xuất kết quả."
Pandas là gì?
Pandas là thư viện Python phổ biến nhất cho phân tích dữ liệu. DataFrame — cấu trúc dữ liệu chính — giống như bảng Excel nhưng mạnh mẽ hơn nhiều.
Cài đặt
pip install pandasĐọc dữ liệu
import pandas as pd
# Đọc CSV
df = pd.read_csv("sales_data.csv")
# Đọc Excel
df = pd.read_excel("report.xlsx", sheet_name="Sheet1")
# Đọc từ database
from sqlalchemy import create_engine
engine = create_engine("postgresql://user:pass@host/db")
df = pd.read_sql("SELECT * FROM orders", engine)Khám phá dữ liệu
df.head() # 5 dòng đầu
df.info() # Thông tin cột, kiểu dữ liệu
df.describe() # Thống kê mô tả
df.shape # (số dòng, số cột)
df.columns # Tên các cột
df.dtypes # Kiểu dữ liệuLọc dữ liệu
# Lọc theo điều kiện
df_hn = df[df["city"] == "Hà Nội"]
# Nhiều điều kiện
df_filtered = df[(df["city"] == "HCM") & (df["revenue"] > 1000000)]
# Query string (dễ đọc hơn)
df_filtered = df.query("city == 'HCM' and revenue > 1000000")Group By — Thống kê nhóm
# Doanh thu theo thành phố
df.groupby("city")["revenue"].sum()
# Nhiều aggregate
df.groupby("city").agg(
total_revenue=("revenue", "sum"),
avg_revenue=("revenue", "mean"),
num_orders=("order_id", "count")
).reset_index()Merge — Kết hợp bảng
# Giống SQL JOIN
result = pd.merge(orders, customers, on="customer_id", how="left")
# Merge trên nhiều cột
result = pd.merge(df1, df2, on=["year", "month"], how="inner")Xử lý Missing Values
df.isnull().sum() # Đếm null mỗi cột
df.dropna() # Xóa dòng có null
df["col"].fillna(0) # Thay null bằng 0
df["col"].fillna(df["col"].mean()) # Thay null bằng trung bìnhXuất kết quả
df.to_csv("output.csv", index=False)
df.to_excel("output.xlsx", index=False)Kết luận
Pandas là nền tảng cho mọi Data Analyst/Scientist dùng Python. Nắm vững DataFrame sẽ giúp bạn xử lý dữ liệu nhanh gấp 10 lần!
Mục lục
Muốn làm chủ Python?
Tham gia khóa học E-Learning của Trà Đá Data để được hướng dẫn chi tiết từ A-Z với Case Study thực tế.
Tìm hiểu ngayBình luận
Đăng nhập để tham gia bình luận
Đăng nhậpNhận bài viết mới nhất
Đăng ký để nhận thông báo khi có bài viết mới. Không spam, chỉ kiến thức chất lượng.
Bài viết liên quan
Khám phá thêm các bài viết cùng chủ đề

Tự động hóa báo cáo Excel bằng Python: openpyxl & xlsxwriter
Hướng dẫn dùng Python để tự động tạo báo cáo Excel đẹp: format cells, thêm biểu đồ, conditional formatting với openpyxl và xlsxwriter.

Xây dựng UserForm nhập liệu chuyên nghiệp với VBA Excel
Hướng dẫn tạo UserForm VBA để nhập liệu vào Excel: thiết kế form, thêm controls, viết code xử lý và validate dữ liệu.
