Thông tin liên hệ
- 036.686.3943
- admin@nguoicodonvn2008.info
Ôn tập bài học trước: Trong bài học trước, bạn đã xây dựng các script tự động hóa file — công cụ sắp xếp, đổi tên và sao lưu. Bây giờ, hãy cùng xử lý dữ liệu bên trong các file đó: Những file CSV, bảng tính Excel và JSON cần được làm sạch, chuyển đổi và báo cáo.
Xử lý dữ liệu là lĩnh vực mà tự động hóa bằng Python phát huy tác động lớn nhất. Việc thao tác bảng tính mà bạn thực hiện thủ công trong 20 phút mỗi tuần có thể được tự động hóa để chạy trong vài giây — và sẽ chính xác hơn vì các script không bị mệt mỏi hoặc mắc lỗi chính tả.
pandas là thư viện Python để thao tác dữ liệu. Hãy cài đặt nó:
📍 Nơi dán: Mở ChatGPT (chat.openai.com), Claude (claude.ai) hoặc Gemini (gemini.google.com) và bắt đầu một cuộc trò chuyện mới.
📋 Cách sao chép prompt này: Nhấp vào bất kỳ đâu bên trong khối màu xám, nhấn Cmd+A rồi Cmd+C (Mac) hoặc Ctrl+A rồi Ctrl+C (Windows). Hoặc sử dụng biểu tượng sao chép xuất hiện.
pip install pandas openpyxl✏️ Cách điền thông tin chi tiết: Thay thế mỗi [] và trình giữ chỗ trong ngoặc bằng thông tin cụ thể từ tình huống thực tế của bạn. Thông tin đầu vào mơ hồ sẽ tạo ra kết quả mơ hồ — hãy cụ thể.
👀 Những gì bạn sẽ thấy: Trong vòng vài giây, AI sẽ trả về một phản hồi có cấu trúc dựa vào prompt ở trên. Hãy đọc kỹ và coi đó là bản nháp, không phải câu trả lời cuối cùng.
📌 Nên làm gì với kết quả: Lưu phản hồi vào file Notes. Chọn gợi ý có tác động cao nhất và thực hiện nó trong tuần này — đừng cố gắng làm mọi thứ cùng một lúc.
⚠️ Nếu kết quả không ổn: Nếu các gợi ý có vẻ chung chung, hãy dán nội dung sau: "Hãy cụ thể hơn với ngữ cảnh thực tế của tôi. Bỏ qua lời khuyên chung chung." Nếu nó bỏ qua các chi tiết quan trọng bạn đã cung cấp, hãy hỏi: "Bạn đã bỏ sót [X] trong ngữ cảnh của tôi — hãy thực hiện lại với điều đó làm ràng buộc chính."
| Tác vụ | Code pandas | Chức năng của nó |
| Đọc file CSV |
| Load file CSV vào trong DataFrame |
| Đọc file Excel |
| Load bảng cụ thể |
| Lọc hàng |
| Chỉ giữ lại các hàng trùng khớp |
| Đổi tên cột |
| Dọn dẹp tên cột |
| Xóa các bản sao |
| Loại bỏ các bản ghi trùng lặp theo cột |
| Điền vào chỗ trống |
| Xử lý các giá trị bị thiếu |
| Nhóm & tổng hợp |
| Thống kê tóm tắt |
| Lưu vào Excel |
| Định dạng xuất |
Prompt AI:
Viết một script Python sử dụng pandas để xử lý file CSV doanh số hàng tháng: (1) Đọc file CSV, bỏ qua các hàng siêu dữ liệu (3 dòng đầu tiên), (2) Làm sạch tên cột: viết thường, thay thế khoảng trắng bằng dấu gạch dưới, (3) Chuyển đổi cột "số tiền": loại bỏ "$" và "," và chuyển đổi thành số thực, (4) Phân tích cột "ngày" thành ngày giờ, (5) Lọc ra các hàng có "trạng thái" là "đã hủy" hoặc "thử nghiệm", (6) Thêm cột "tháng" được trích xuất từ ngày, (7) Tạo bản tóm tắt: tổng doanh thu, số lượng đơn đặt hàng, giá trị đơn hàng trung bình, 5 khách hàng hàng đầu theo tổng chi tiêu, (8) Lưu dữ liệu đã làm sạch và bản tóm tắt vào các trang tính riêng biệt trong một file Excel. Chấp nhận đường dẫn đầu vào/đầu ra làm đối số.Prompt AI:
Viết một script pandas để hợp nhất dữ liệu từ nhiều file Excel trong một thư mục. (1) Đọc tất cả các file .xlsx trong một thư mục được chỉ định, (2) Mỗi file có cùng các cột nhưng dữ liệu từ những tháng/vùng khác nhau, (3) Nối tất cả các file thành một DataFrame duy nhất, (4) Thêm cột "source_file" để theo dõi file nào chứa mỗi hàng, (5) Loại bỏ những hàng trùng lặp (cùng order_id trên các file), (6) Sắp xếp theo ngày, (7) Lưu dữ liệu đã kết hợp dưới dạng cả CSV và Excel. In bản tóm tắt: số file đã xử lý, tổng số hàng, số hàng trùng lặp đã loại bỏ.Các trường hợp hợp nhất dữ liệu phổ biến:
| Kịch bản | Hàm pandas | Ví dụ |
| Xếp chồng các file có cùng định dạng |
| Tổng hợp các báo cáo hàng tháng thành một |
| Kết nối trên cột chung |
| Khách hàng + Đơn hàng |
| Giá trị tra cứu |
| Thêm tên từ bảng tham chiếu |
Prompt AI:
Viết script pandas tạo báo cáo chất lượng dữ liệu cho bất kỳ file CSV nào: (1) Đối với mỗi cột: đếm giá trị null, đếm giá trị duy nhất, loại dữ liệu, giá trị mẫu, (2) Gắn cờ các vấn đề tiềm ẩn: những cột có giá trị bị thiếu >10%, các cột trông giống như ngày nhưng được lưu trữ dưới dạng chuỗi, cột số được lưu dưới dạng chuỗi (chứa "$" hoặc ","), những hàng trùng lặp, (3) Tạo báo cáo HTML với bảng hiển thị số liệu thống kê cột và danh sách các vấn đề được tìm thấy. Script này sẽ hoạt động trên BẤT CỨ CSV nào - không giả sử các tên cột cụ thể.✅ Kiểm tra nhanh: Script của bạn xử lý file CSV trong đó một số hàng có dấu phẩy bên trong các trường được trích dẫn: "Smith, John" trong cột tên. Liệu pd.read_csv() có xử lý việc này chính xác không?
Trả lời: Có - pandas xử lý chính xác các trường được trích dẫn theo mặc định. Định dạng CSV tiêu chuẩn sử dụng dấu ngoặc kép để thoát dấu phẩy trong các trường. Tuy nhiên, nếu CSV của bạn sử dụng dấu phân cách hoặc dấu ngoặc kép không chuẩn, bạn có thể cần chỉ định các tham số delimiter và quotechar.
Mẹo AI: Nếu CSV của bạn trông kỳ lạ, hãy dán 5 dòng đầu tiên vào AI và hỏi "Tôi cần những tham số read_csv nào cho định dạng này?"
pandas có thể đọc và viết Excel, nhưng đối với đầu ra được định dạng (tiêu đề in đậm, định dạng có điều kiện), hãy sử dụng openpyxl:
Prompt AI cho đầu ra Excel được định dạng:
Cải thiện script pandas của tôi để lưu kết quả Excel được định dạng bằng openpyxl: (1) Tiêu đề in đậm, màu xanh lam với các ô cố định, (2) Định dạng tiền tệ ($#,##0,00) trên cột số tiền, (3) Định dạng ngày (YYYY-MM-DD) trên cột ngày, (4) Tự động điều chỉnh độ rộng cột để phù hợp với nội dung, (5) Thêm định dạng có điều kiện: nền đỏ cho số tiền âm, màu xanh lá cây cho số tiền trên 1.000 USD, (6) Thêm hàng tóm tắt ở dưới cùng với tổng số.pandas biến 20 phút công việc Excel thủ công thành script dài 2 giây: đọc, dọn dẹp, chuyển đổi và xuất dữ liệu đều là những thao tác đơn giản trong pandas và AI sẽ tạo ra quy trình hoàn chỉnh khi bạn mô tả dữ liệu cụ thể và đầu ra mong muốn của mình
Làm sạch dữ liệu là mục tiêu tự động hóa có giá trị cao nhất vì các mẫu dữ liệu lộn xộn giống nhau xuất hiện trong mọi báo cáo: giá trị bị thiếu, định dạng ngày không nhất quán, số được mã hóa chuỗi và hàng trùng lặp — hãy xây dựng quy trình làm sạch một lần và quy trình này luôn chạy hoàn hảo
Hãy cụ thể với AI về định dạng dữ liệu của bạn: dán các hàng mẫu, mô tả tên cột, chỉ định "sạch" nghĩa là gì với bạn và bao gồm những trường hợp đặc biệt (dấu phẩy được trích dẫn, định dạng ngày hỗn hợp, ký tự đặc biệt) — điều này tạo ra các script hoạt động trong lần thử đầu tiên của bạn
Nguồn tin: Quantrimang.com
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Cách sử dụng Zapier Forms: Thu thập dữ liệu và kích hoạt workflow ngay lập tức
Thêm dữ liệu phi cấu trúc làm nguồn kiến thức cho Copilot Studio agent
Cách tắt tính năng AI của Google Chrome trên máy tính
Prompt tạo ảnh Low Poly 3D hiện đại bằng AI
Prompt tạo ảnh Low Poly 3D hiện đại bằng AI
Prompt AI biến ảnh thành tranh hoạt hình doodle cực đáng yêu
Cách bật hoặc tắt AI cho Autofill trên Microsoft Edge
Tìm hiểu về YandexGPT: Nền tảng AI của Nga dành cho doanh nghiệp
Cách sử dụng Gemini API
99+ Prompt tạo báo cáo Telesales theo ngày, tuần, tháng
5 dự án thú vị giúp bạn khám phá sức mạnh của OpenAI Codex
TOP công cụ AI thiết kế website tốt nhất
Prompt chèn phụ đề cho video trên Gemini
Cách sử dụng lệnh /goal trong Claude Code cho các workflow hoàn toàn tự động
TOP công cụ AI tạo website thương mại điện tử tốt nhất
Prompt tạo ảnh Polaroid hoài cổ cực đẹp bằng AI
TOP nền tảng AI Workspace tốt nhất
Prompt tạo hình minh họa Vector tối giản hiện đại bằng AI
Karaoke Liều thuốc đắng -Khánh Đơn
Cách chặn sử dụng dữ liệu cá nhân để huấn luyện AI