Thông tin liên hệ
- 036.686.3943
- admin@nguoicodonvn2008.info
Đánh giá đàm thoại cho phép bạn đánh giá hành vi tổng thể của agent trong một tương tác dài hơn. Nó phản ánh cách người dùng thực tương tác với agent, trong đó mỗi phản hồi phụ thuộc vào ngữ cảnh trước đó trong một cuộc đàm thoại đang diễn ra. Bạn có thể sử dụng các đánh giá này để xác định xem agent có thể duy trì ngữ cảnh, yêu cầu làm rõ và hoàn thành những nhiệm vụ nhiều bước hay không.
Bạn cũng có thể chạy các đánh giá phản hồi đơn lẻ, rất hữu ích khi bạn muốn kiểm tra agent về cách nó trả lời các câu hỏi cụ thể, về những khả năng nó gọi và về từ ngữ chính xác mà nó sử dụng trong câu trả lời của mình.
Các đánh giá sử dụng những bộ công cụ test. Một bộ công cụ test cho đánh giá đàm thoại bao gồm một nhóm tối đa 20 trường hợp kiểm thử. Khi chạy đánh giá agent, bạn chọn một bộ công cụ test và Copilot Studio sẽ chạy từng trường hợp kiểm thử trong bộ đó đối với agent của bạn.
Bạn có thể tạo các trường hợp kiểm thử trong một bộ công cụ test bằng cách nhập chúng bằng bảng tính hoặc sử dụng AI để tạo tin nhắn dựa trên thiết kế và tài nguyên của agent. Sau đó, bạn có thể chọn cách bạn muốn đo lường chất lượng phản hồi của agent cho mỗi trường hợp kiểm thử trong một bộ công cụ test.
Để biết thêm thông tin về cách thức hoạt động của việc đánh giá agent, hãy xem phần Tổng quan về đánh giá agent.
Lưu ý quan trọng: Kết quả kiểm thử sẽ được lưu trữ trong Copilot Studio trong 89 ngày. Để lưu kết quả kiểm thử trong thời gian dài hơn, hãy xuất kết quả sang file CSV.
1. Truy cập trang Evaluation của agent.

2. Chọn New evaluation, sau đó chọn Conversation

3. Bạn có thể tạo các trường hợp kiểm thử nhiều lượt bằng bất kỳ phương pháp nào sau đây:
Quick conversation set: Tự động tạo 10 cuộc đàm thoại ngắn dựa trên mô tả, hướng dẫn và khả năng của agent.
Full conversation set: Tạo các cuộc đàm thoại bằng cách sử dụng kiến thức của agent hoặc những chủ đề đã xác định. Trong tùy chọn này, bạn có thể chọn tạo các cuộc đàm thoại ngắn hoặc dài.
Use your test chat: Chuyển đổi cuộc trò chuyện kiểm thử mới nhất thành một trường hợp kiểm thử.
Lưu ý: Bộ công cụ test đàm thoại hỗ trợ tối đa 20 trường hợp kiểm thử. Mỗi trường hợp kiểm thử hỗ trợ tối đa 12 tin nhắn, tương đương với 6 cặp câu hỏi và câu trả lời.
4. Dưới mục Name, nhập tên cho bộ công cụ test của bạn.
5. Thay đổi hoặc thêm các phương pháp kiểm thử bạn muốn sử dụng. Đối với bộ công cụ test đàm thoại, bạn có thể thêm các phương pháp test tùy chỉnh General quality, Keyword match, Capabilities match hoặc Classification.
Thêm phương pháp mới:
Chọn Add test method.
Chọn tất cả các phương pháp bạn muốn kiểm thử, sau đó chọn OK. Bạn có thể thêm nhiều phương pháp.
Đối với một số phương pháp, hãy đặt điểm đạt, sau đó chọn OK. Điểm đạt sẽ xác định điểm nào dẫn đến đạt hoặc không đạt.
Một số phương pháp yêu cầu thêm các phản hồi hoặc từ khóa dự kiến cho mỗi trường hợp kiểm thử của bạn.
Chọn một phương pháp kiểm thử hiện có để chỉnh sửa hoặc xóa.
| Phương pháp thử nghiệm | Đo lường | Loại bộ công cụ test | Chấm điểm | Cấu hình |
| General quality | Phản hồi của trường hợp kiểm thử tốt đến mức nào dựa trên các đặc tính cụ thể | Phản hồi đơn lẻ hoặc cuộc hội thoại | Điểm số trên thang điểm 100% | Không |
| Compare meaning | Mức độ phù hợp giữa ý nghĩa của câu trả lời trong trường hợp kiểm thử và câu trả lời mong đợi | Phản hồi đơn lẻ | Điểm số trên thang điểm 100% | Điểm đạt, câu trả lời dự kiến |
| Capability use | Liệu trường hợp thử nghiệm có sử dụng tất cả hoặc bất kỳ tài nguyên nào được dự kiến hay không | Phản hồi đơn lẻ | Đạt/Không đạt | Khả năng dự kiến |
| Keyword match | Liệu trường hợp thử nghiệm có sử dụng tất cả hoặc bất kỳ từ khóa hoặc cụm từ nào được mong đợi hay không | Phản hồi đơn lẻ hoặc cuộc hội thoại | Đạt/Không đạt | Các từ khóa hoặc cụm từ dự kiến |
| Text similarity | Mức độ phù hợp giữa nội dung câu trả lời của bài test và câu trả lời mong đợi | Phản hồi đơn lẻ | Điểm số trên thang điểm 100% | Điểm đạt, câu trả lời dự kiến |
| Exact match | Liệu kết quả của trường hợp kiểm thử có khớp chính xác với kết quả mong đợi hay không | Phản hồi đơn lẻ | Đạt/Không đạt | Câu trả lời dự kiến |
| Custom | Liệu phản hồi của trường hợp thử nghiệm có đáp ứng các tiêu chí hoặc kỳ vọng đã định của bạn hay không | Phản hồi đơn lẻ hoặc cuộc hội thoại | Đạt/Không đạt (đáp ứng các tiêu chí nhãn đã định nghĩa) | Tên, hướng dẫn đánh giá, nhãn |
6. Chỉnh sửa chi tiết các trường hợp kiểm thử. Tất cả các phương pháp kiểm thử, ngoại trừ kiểm thử chất lượng chung, đều yêu cầu phản hồi hoặc từ khóa dự kiến.
7. Chọn User profile, sau đó chọn hoặc thêm tài khoản bạn muốn sử dụng cho bộ công cụ test này, hoặc tiếp tục mà không cần xác thực. Quá trình đánh giá sử dụng tài khoản này để kết nối với các nguồn kiến thức và công cụ trong quá trình kiểm thử.
Lưu ý: Kiểm thử tự động sử dụng xác thực của tài khoản kiểm thử đã chọn. Nếu agent của bạn có các nguồn kiến thức hoặc kết nối yêu cầu xác thực cụ thể, hãy chọn tài khoản phù hợp cho quá trình kiểm thử của mình.
9. Chỉnh sửa hoặc tạo thêm trường hợp kiểm thử.
10. Chọn Save để cập nhật bộ công cụ test mà không chạy các trường hợp kiểm thử hoặc Evaluate để chạy bộ công cụ test ngay lập tức.
Nguồn tin: Quantrimang.com
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn
Vì sao Claude Code vẫn là công cụ được sử dụng nhiều nhất, ngay cả với những người hoàn toàn không biết lập trình?
Những công cụ miễn phí làm NotebookLM trở nên hữu ích gấp đôi
Prompt tạo tranh màu nước nghệ thuật bằng AI cực đẹp
Tại sao nút Copilot biến mất khỏi ứng dụng Office của bạn?
Thử nghiệm mô hình mới Claude Fable 5 trong thực tế: Liệu nó có xứng đáng với kỳ vọng?
Thử nghiệm mô hình mới Claude Fable 5 trong thực tế: Liệu nó có xứng đáng với kỳ vọng?
Cách kiểm tra hoạt động AI trên Windows theo ứng dụng
Karaoke Nước mắt hạnh phúc - Beat Midi
Cách cài WARP 1.1.1.1 trên máy tính để tăng tốc vào web
Physical AI là gì? phân biệt Physical AI với các thuật ngữ AI hiện đại
Cấu trúc prompt tạo bài viết chuẩn SEO hoàn chỉnh bằng AI
Cách tái cấu trúc mã nguồn với Claude Code
Thử nghiệm Claude Code, Codex và Antigravity trên một dự án điện tử thực tế: Kết quả ra sao?
10 prompt giúp bạn viết nội dung hay và chuyên nghiệp
4 thay đổi cần thực hiện trước khi mở một Obsidian vault mới
Perplexity vs ChatGPT: So sánh chi tiết hai trợ lý AI hàng đầu
Hướng dẫn kết nối Gmail với n8n qua Google Cloud Console
Hướng dẫn tạo video avatar thuyết trình trên Google Vids
Bổ sung kiến thức cho agent trong Copilot Studio
9 câu lệnh phân tích hình ảnh cực chuyên nghiệp