Tạo bộ kiểm thử đàm thoại

Thứ năm - 14/05/2026 23:01

Đánh giá đàm thoại cho phép bạn đánh giá hành vi tổng thể của agent trong một tương tác dài hơn. Nó phản ánh cách người dùng thực tương tác với agent, trong đó mỗi phản hồi phụ thuộc vào ngữ cảnh trước đó trong một cuộc đàm thoại đang diễn ra. Bạn có thể sử dụng các đánh giá này để xác định xem agent có thể duy trì ngữ cảnh, yêu cầu làm rõ và hoàn thành những nhiệm vụ nhiều bước hay không.

Bạn cũng có thể chạy các đánh giá phản hồi đơn lẻ, rất hữu ích khi bạn muốn kiểm tra agent về cách nó trả lời các câu hỏi cụ thể, về những khả năng nó gọi và về từ ngữ chính xác mà nó sử dụng trong câu trả lời của mình.

Các đánh giá sử dụng những bộ công cụ test. Một bộ công cụ test cho đánh giá đàm thoại bao gồm một nhóm tối đa 20 trường hợp kiểm thử. Khi chạy đánh giá agent, bạn chọn một bộ công cụ test và Copilot Studio sẽ chạy từng trường hợp kiểm thử trong bộ đó đối với agent của bạn.

Bạn có thể tạo các trường hợp kiểm thử trong một bộ công cụ test bằng cách nhập chúng bằng bảng tính hoặc sử dụng AI để tạo tin nhắn dựa trên thiết kế và tài nguyên của agent. Sau đó, bạn có thể chọn cách bạn muốn đo lường chất lượng phản hồi của agent cho mỗi trường hợp kiểm thử trong một bộ công cụ test.

Để biết thêm thông tin về cách thức hoạt động của việc đánh giá agent, hãy xem phần Tổng quan về đánh giá agent.

Lưu ý quan trọng: Kết quả kiểm thử sẽ được lưu trữ trong Copilot Studio trong 89 ngày. Để lưu kết quả kiểm thử trong thời gian dài hơn, hãy xuất kết quả sang file CSV.

Tạo bộ công cụ test đàm thoại

1. Truy cập trang Evaluation của agent.

Cách chọn tab Evaluation khi việc chọn tab bị thu nhỏ do kích thước màn hình.

Cách chọn tab Evaluation khi việc chọn tab bị thu nhỏ do kích thước màn hình.

2. Chọn New evaluation, sau đó chọn Conversation

Tùy chọn Conversation được chọn để tạo bộ công cụ test.

Tùy chọn Conversation được chọn để tạo bộ công cụ test.

3. Bạn có thể tạo các trường hợp kiểm thử nhiều lượt bằng bất kỳ phương pháp nào sau đây:

Quick conversation set: Tự động tạo 10 cuộc đàm thoại ngắn dựa trên mô tả, hướng dẫn và khả năng của agent.
Full conversation set: Tạo các cuộc đàm thoại bằng cách sử dụng kiến thức của agent hoặc những chủ đề đã xác định. Trong tùy chọn này, bạn có thể chọn tạo các cuộc đàm thoại ngắn hoặc dài.
Use your test chat: Chuyển đổi cuộc trò chuyện kiểm thử mới nhất thành một trường hợp kiểm thử.

Lưu ý: Bộ công cụ test đàm thoại hỗ trợ tối đa 20 trường hợp kiểm thử. Mỗi trường hợp kiểm thử hỗ trợ tối đa 12 tin nhắn, tương đương với 6 cặp câu hỏi và câu trả lời.

4. Dưới mục Name, nhập tên cho bộ công cụ test của bạn.

5. Thay đổi hoặc thêm các phương pháp kiểm thử bạn muốn sử dụng. Đối với bộ công cụ test đàm thoại, bạn có thể thêm các phương pháp test tùy chỉnh General quality, Keyword match, Capabilities match hoặc Classification.

Thêm phương pháp mới:
- Chọn Add test method.
- Chọn tất cả các phương pháp bạn muốn kiểm thử, sau đó chọn OK. Bạn có thể thêm nhiều phương pháp.
- Đối với một số phương pháp, hãy đặt điểm đạt, sau đó chọn OK. Điểm đạt sẽ xác định điểm nào dẫn đến đạt hoặc không đạt.
- Một số phương pháp yêu cầu thêm các phản hồi hoặc từ khóa dự kiến cho mỗi trường hợp kiểm thử của bạn.
Chọn một phương pháp kiểm thử hiện có để chỉnh sửa hoặc xóa.

Phương pháp thử nghiệm	Đo lường	Loại bộ công cụ test	Chấm điểm	Cấu hình
General quality	Phản hồi của trường hợp kiểm thử tốt đến mức nào dựa trên các đặc tính cụ thể	Phản hồi đơn lẻ hoặc cuộc hội thoại	Điểm số trên thang điểm 100%	Không
Compare meaning	Mức độ phù hợp giữa ý nghĩa của câu trả lời trong trường hợp kiểm thử và câu trả lời mong đợi	Phản hồi đơn lẻ	Điểm số trên thang điểm 100%	Điểm đạt, câu trả lời dự kiến
Capability use	Liệu trường hợp thử nghiệm có sử dụng tất cả hoặc bất kỳ tài nguyên nào được dự kiến hay không	Phản hồi đơn lẻ	Đạt/Không đạt	Khả năng dự kiến
Keyword match	Liệu trường hợp thử nghiệm có sử dụng tất cả hoặc bất kỳ từ khóa hoặc cụm từ nào được mong đợi hay không	Phản hồi đơn lẻ hoặc cuộc hội thoại	Đạt/Không đạt	Các từ khóa hoặc cụm từ dự kiến
Text similarity	Mức độ phù hợp giữa nội dung câu trả lời của bài test và câu trả lời mong đợi	Phản hồi đơn lẻ	Điểm số trên thang điểm 100%	Điểm đạt, câu trả lời dự kiến
Exact match	Liệu kết quả của trường hợp kiểm thử có khớp chính xác với kết quả mong đợi hay không	Phản hồi đơn lẻ	Đạt/Không đạt	Câu trả lời dự kiến
Custom	Liệu phản hồi của trường hợp thử nghiệm có đáp ứng các tiêu chí hoặc kỳ vọng đã định của bạn hay không	Phản hồi đơn lẻ hoặc cuộc hội thoại	Đạt/Không đạt (đáp ứng các tiêu chí nhãn đã định nghĩa)	Tên, hướng dẫn đánh giá, nhãn

6. Chỉnh sửa chi tiết các trường hợp kiểm thử. Tất cả các phương pháp kiểm thử, ngoại trừ kiểm thử chất lượng chung, đều yêu cầu phản hồi hoặc từ khóa dự kiến.

7. Chọn User profile, sau đó chọn hoặc thêm tài khoản bạn muốn sử dụng cho bộ công cụ test này, hoặc tiếp tục mà không cần xác thực. Quá trình đánh giá sử dụng tài khoản này để kết nối với các nguồn kiến thức và công cụ trong quá trình kiểm thử.

Lưu ý: Kiểm thử tự động sử dụng xác thực của tài khoản kiểm thử đã chọn. Nếu agent của bạn có các nguồn kiến thức hoặc kết nối yêu cầu xác thực cụ thể, hãy chọn tài khoản phù hợp cho quá trình kiểm thử của mình.

9. Chỉnh sửa hoặc tạo thêm trường hợp kiểm thử.

10. Chọn Save để cập nhật bộ công cụ test mà không chạy các trường hợp kiểm thử hoặc Evaluate để chạy bộ công cụ test ngay lập tức.

Nguồn tin: Quantrimang.com