Xử lý dữ liệu với pandas

Thứ ba - 09/06/2026 22:42

Ôn tập bài học trước: Trong bài học trước, bạn đã xây dựng các script tự động hóa file — công cụ sắp xếp, đổi tên và sao lưu. Bây giờ, hãy cùng xử lý dữ liệu bên trong các file đó: Những file CSV, bảng tính Excel và JSON cần được làm sạch, chuyển đổi và báo cáo.

Xử lý dữ liệu là lĩnh vực mà tự động hóa bằng Python phát huy tác động lớn nhất. Việc thao tác bảng tính mà bạn thực hiện thủ công trong 20 phút mỗi tuần có thể được tự động hóa để chạy trong vài giây — và sẽ chính xác hơn vì các script không bị mệt mỏi hoặc mắc lỗi chính tả.

pandas: Công cụ tự động hóa dữ liệu của bạn

pandas là thư viện Python để thao tác dữ liệu. Hãy cài đặt nó:

📍 Nơi dán: Mở ChatGPT (chat.openai.com), Claude (claude.ai) hoặc Gemini (gemini.google.com) và bắt đầu một cuộc trò chuyện mới.

📋 Cách sao chép prompt này: Nhấp vào bất kỳ đâu bên trong khối màu xám, nhấn Cmd+A rồi Cmd+C (Mac) hoặc Ctrl+A rồi Ctrl+C (Windows). Hoặc sử dụng biểu tượng sao chép xuất hiện.

 
pip install pandas openpyxl

✏️ ​​Cách điền thông tin chi tiết: Thay thế mỗi [] và trình giữ chỗ trong ngoặc bằng thông tin cụ thể từ tình huống thực tế của bạn. Thông tin đầu vào mơ hồ sẽ tạo ra kết quả mơ hồ — hãy cụ thể.

👀 Những gì bạn sẽ thấy: Trong vòng vài giây, AI sẽ trả về một phản hồi có cấu trúc dựa vào prompt ở trên. Hãy đọc kỹ và coi đó là bản nháp, không phải câu trả lời cuối cùng.

📌 Nên làm gì với kết quả: Lưu phản hồi vào file Notes. Chọn gợi ý có tác động cao nhất và thực hiện nó trong tuần này — đừng cố gắng làm mọi thứ cùng một lúc.

⚠️ Nếu kết quả không ổn: Nếu các gợi ý có vẻ chung chung, hãy dán nội dung sau: "Hãy cụ thể hơn với ngữ cảnh thực tế của tôi. Bỏ qua lời khuyên chung chung." Nếu nó bỏ qua các chi tiết quan trọng bạn đã cung cấp, hãy hỏi: "Bạn đã bỏ sót [X] trong ngữ cảnh của tôi — hãy thực hiện lại với điều đó làm ràng buộc chính."

Các thao tác cốt lõi của pandas cho tự động hóa:

Tác vụCode pandasChức năng của nó
Đọc file CSV

pd.read_csv("data.csv")

Load file CSV vào trong DataFrame
Đọc file Excel

pd.read_excel("data.xlsx", sheet_name="Sheet1")

Load bảng cụ thể
Lọc hàng

df[df["status"] == "active"]

Chỉ giữ lại các hàng trùng khớp
Đổi tên cột

df.rename(columns={"old": "new"})

Dọn dẹp tên cột
Xóa các bản sao

df.drop_duplicates(subset=["email"])

Loại bỏ các bản ghi trùng lặp theo cột
Điền vào chỗ trống

df["email"].fillna("unknown")

Xử lý các giá trị bị thiếu
Nhóm & tổng hợp

df.groupby("category")["amount"].sum()

Thống kê tóm tắt
Lưu vào Excel

df.to_excel("output.xlsx", index=False)

Định dạng xuất

Script 1: Xử lý báo cáo hàng tháng

Prompt AI:

 
Viết một script Python sử dụng pandas để xử lý file CSV doanh số hàng tháng: (1) Đọc file CSV, bỏ qua các hàng siêu dữ liệu (3 dòng đầu tiên), (2) Làm sạch tên cột: viết thường, thay thế khoảng trắng bằng dấu gạch dưới, (3) Chuyển đổi cột "số tiền": loại bỏ "$" và "," và chuyển đổi thành số thực, (4) Phân tích cột "ngày" thành ngày giờ, (5) Lọc ra các hàng có "trạng thái" là "đã hủy" hoặc "thử nghiệm", (6) Thêm cột "tháng" được trích xuất từ ​​ngày, (7) Tạo bản tóm tắt: tổng doanh thu, số lượng đơn đặt hàng, giá trị đơn hàng trung bình, 5 khách hàng hàng đầu theo tổng chi tiêu, (8) Lưu dữ liệu đã làm sạch và bản tóm tắt vào các trang tính riêng biệt trong một file Excel. Chấp nhận đường dẫn đầu vào/đầu ra làm đối số.

Script 2: Hợp nhất dữ liệu từ nhiều file

Prompt AI:

 
Viết một script pandas để hợp nhất dữ liệu từ nhiều file Excel trong một thư mục. (1) Đọc tất cả các file .xlsx trong một thư mục được chỉ định, (2) Mỗi ​​file có cùng các cột nhưng dữ liệu từ những tháng/vùng khác nhau, (3) Nối tất cả các file thành một DataFrame duy nhất, (4) Thêm cột "source_file" để theo dõi file nào chứa mỗi hàng, (5) Loại bỏ những hàng trùng lặp (cùng order_id trên các file), (6) Sắp xếp theo ngày, (7) Lưu dữ liệu đã kết hợp dưới dạng cả CSV và Excel. In bản tóm tắt: số file đã xử lý, tổng số hàng, số hàng trùng lặp đã loại bỏ.

Các trường hợp hợp nhất dữ liệu phổ biến:

Kịch bảnHàm pandasVí dụ
Xếp chồng các file có cùng định dạng

pd.concat([df1, df2, df3])

Tổng hợp các báo cáo hàng tháng thành một
Kết nối trên cột chung

pd.merge(df1, df2, on="customer_id")

Khách hàng + Đơn hàng
Giá trị tra cứu

df1.merge(df2[["id", "name"]], on="id")

Thêm tên từ bảng tham chiếu

Script 3: Báo cáo chất lượng dữ liệu

Prompt AI:

 
Viết script pandas tạo báo cáo chất lượng dữ liệu cho bất kỳ file CSV nào: (1) Đối với mỗi cột: đếm giá trị null, đếm giá trị duy nhất, loại dữ liệu, giá trị mẫu, (2) Gắn cờ các vấn đề tiềm ẩn: những cột có giá trị bị thiếu >10%, các cột trông giống như ngày nhưng được lưu trữ dưới dạng chuỗi, cột số được lưu dưới dạng chuỗi (chứa "$" hoặc ","), những hàng trùng lặp, (3) Tạo báo cáo HTML với bảng hiển thị số liệu thống kê cột và danh sách các vấn đề được tìm thấy. Script này sẽ hoạt động trên BẤT CỨ CSV nào - không giả sử các tên cột cụ thể.

Kiểm tra nhanh: Script của bạn xử lý file CSV trong đó một số hàng có dấu phẩy bên trong các trường được trích dẫn: "Smith, John" trong cột tên. Liệu pd.read_csv() có xử lý việc này chính xác không?

Trả lời: Có - pandas xử lý chính xác các trường được trích dẫn theo mặc định. Định dạng CSV tiêu chuẩn sử dụng dấu ngoặc kép để thoát dấu phẩy trong các trường. Tuy nhiên, nếu CSV của bạn sử dụng dấu phân cách hoặc dấu ngoặc kép không chuẩn, bạn có thể cần chỉ định các tham số delimiterquotechar.

Mẹo AI: Nếu CSV của bạn trông kỳ lạ, hãy dán 5 dòng đầu tiên vào AI và hỏi "Tôi cần những tham số read_csv nào cho định dạng này?"

Làm việc với định dạng Excel

pandas có thể đọc và viết Excel, nhưng đối với đầu ra được định dạng (tiêu đề in đậm, định dạng có điều kiện), hãy sử dụng openpyxl:

Prompt AI cho đầu ra Excel được định dạng:

 
Cải thiện script pandas của tôi để lưu kết quả Excel được định dạng bằng openpyxl: (1) Tiêu đề in đậm, màu xanh lam với các ô cố định, (2) Định dạng tiền tệ ($#,##0,00) trên cột số tiền, (3) Định dạng ngày (YYYY-MM-DD) trên cột ngày, (4) Tự động điều chỉnh độ rộng cột để phù hợp với nội dung, (5) Thêm định dạng có điều kiện: nền đỏ cho số tiền âm, màu xanh lá cây cho số tiền trên 1.000 USD, (6) Thêm hàng tóm tắt ở dưới cùng với tổng số.

Những điểm chính cần ghi nhớ

  • pandas biến 20 phút công việc Excel thủ công thành script dài 2 giây: đọc, dọn dẹp, chuyển đổi và xuất dữ liệu đều là những thao tác đơn giản trong pandas và AI sẽ tạo ra quy trình hoàn chỉnh khi bạn mô tả dữ liệu cụ thể và đầu ra mong muốn của mình

  • Làm sạch dữ liệu là mục tiêu tự động hóa có giá trị cao nhất vì các mẫu dữ liệu lộn xộn giống nhau xuất hiện trong mọi báo cáo: giá trị bị thiếu, định dạng ngày không nhất quán, số được mã hóa chuỗi và hàng trùng lặp — hãy xây dựng quy trình làm sạch một lần và quy trình này luôn chạy hoàn hảo

  • Hãy cụ thể với AI về định dạng dữ liệu của bạn: dán các hàng mẫu, mô tả tên cột, chỉ định "sạch" nghĩa là gì với bạn và bao gồm những trường hợp đặc biệt (dấu phẩy được trích dẫn, định dạng ngày hỗn hợp, ký tự đặc biệt) — điều này tạo ra các script hoạt động trong lần thử đầu tiên của bạn

Nguồn tin: Quantrimang.com

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

  Ý kiến bạn đọc

THỐNG KÊ TRUY CẬP
  • Đang truy cập87
  • Máy chủ tìm kiếm10
  • Khách viếng thăm77
  • Hôm nay7,819
  • Tháng hiện tại148,312
  • Tổng lượt truy cập16,123,783
QUẢNG CÁO
Phan Thanh Phú
Quảng cáo 2
Liên kết site
Đăng nhập Thành viên
Hãy đăng nhập thành viên để trải nghiệm đầy đủ các tiện ích trên site
Thăm dò ý kiến

Bạn thấy Website cần cải tiến những gì?

Lịch Âm dương
Máy tính
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây