Đánh giá hệ thống đề xuất: Chọn một hệ thống tốt nhất cho doanh nghiệp của bạn

Cùng với sự mở rộng vô tận của Thương mại điện tử và phương tiện truyền thông trực tuyến trong những năm qua, ngày càng có nhiều Hệ thống giới thiệu phần mềm (SaaS) (SaaS) ngày càng có sẵn ngày nay. Không giống như 5 năm trước, khi sử dụng RS là đặc quyền của các công ty lớn xây dựng RS nội bộ của riêng họ, chi ngân sách khổng lồ cho một nhóm các nhà khoa học dữ liệu, các giải pháp SaaS ngày nay cho phép sử dụng khuyến nghị ngay cả cho vừa và nhỏ công ty quy mô. Một câu hỏi mà CTO của các công ty như vậy đang phải đối mặt khi tìm kiếm SaaS RS phù hợp là: Giải pháp nào là tốt nhất? Giả sử bạn vẫn không có RS, hoặc bạn không hài lòng với RS hiện tại, bạn nên chọn giải pháp nào?

Trong bài viết này, tôi sẽ đề cập đến hai cách tiếp cận:

  • Đánh giá ngoại tuyến trong thế giới học thuật (cộng với Giải thưởng Netflix), tìm kiếm các lỗi dự đoán thấp (RMSE / MAE) và phạm vi thu hồi / Danh mục cao. TLDR; chỉ cần biết những biện pháp này tồn tại và có lẽ bạn không muốn sử dụng chúng. Nhưng tôi vẫn đưa ra một bản tóm tắt ngắn gọn về họ trong trường hợp bạn quan tâm.
  • Đánh giá trực tuyến trong thế giới kinh doanh, tìm kiếm các Giá trị trọn đời của khách hàng (CLV), trải qua thử nghiệm A / B, TLB, CR, ROI và QA. Bạn nên đọc phần này nếu bạn nghiêm túc xem xét các khuyến nghị thúc đẩy doanh nghiệp của bạn.

Thế giới ngoại tuyến = Làm thế nào các học giả làm điều đó?

RS đã được điều tra trong nhiều thập kỷ trong nghiên cứu học thuật. Có rất nhiều tài liệu nghiên cứu giới thiệu các thuật toán khác nhau, và để làm cho các thuật toán có thể so sánh được, họ sử dụng các biện pháp học thuật. Chúng tôi gọi các biện pháp này là các biện pháp ngoại tuyến. Bạn không đưa bất cứ thứ gì vào sản xuất, bạn chỉ cần chơi với các thuật toán trong hộp cát của mình và tinh chỉnh chúng theo các biện pháp này. Cá nhân tôi đã nghiên cứu các biện pháp này rất nhiều, nhưng theo quan điểm ngày hôm nay của tôi, chúng khá thời tiền sử. Nhưng ngay cả ở độ tuổi trung niên năm 2006 trong Giải thưởng Netflix nổi tiếng, một biện pháp học thuật thuần túy được gọi là RMSE (lỗi bình phương gốc) đã được sử dụng.

Chỉ cần giải thích ngắn gọn về cách thức hoạt động của nó, nó cho rằng người dùng của bạn đánh giá rõ ràng các sản phẩm của bạn với số sao nói (1 = không thích mạnh, 5 = thích mạnh) và bạn có một loạt các xếp hạng như vậy (bản ghi nói rằng người dùng A xếp hạng mục X với sao Y) từ xưa. Một kỹ thuật được gọi là xác thực phân tách được sử dụng: bạn chỉ lấy một tập hợp con của các xếp hạng này, giả sử là 80% (được gọi là tập tàu), xây dựng RS trên chúng và sau đó yêu cầu RS dự đoán xếp hạng trên 20% bạn đã ẩn (bộ kiểm tra). Và do đó, có thể xảy ra việc một người dùng thử nghiệm đã xếp hạng một số mặt hàng với 4 sao, nhưng mô hình của bạn dự đoán 3,5, do đó, nó có sai số 0,5 trên xếp hạng đó và Rằng chính xác là RMSE đến từ đâu. Sau đó, bạn chỉ cần tính trung bình của các lỗi từ toàn bộ bộ kiểm tra bằng công thức và nhận kết quả cuối cùng là 0,71623. CHƠI LÔ TÔ! Điều đó có nghĩa là RS của bạn tốt (hay chính xác hơn là xấu). Hoặc bạn cũng có thể sử dụng công thức khác nhau và nhận MAE (có nghĩa là lỗi tuyệt đối), không phạt các lỗi rất lớn (đúng 4 sao, dự đoán 1 sao) rất nhiều, vì vậy bạn chỉ có thể nhận được 0,6134.

Một nhược điểm nhỏ ở đây là dữ liệu như vậy hầu như không tồn tại trong thế giới thực, hoặc ít nhất là có quá ít dữ liệu.

Người dùng quá lười biếng và họ đã giành được tỷ lệ bất cứ thứ gì. Họ chỉ mở một trang web và nếu họ thích những gì họ thấy, họ có thể mua / tiêu thụ nó; nếu nó hút, họ rời đi nhanh như họ đến. Và do đó, bạn chỉ có cái gọi là xếp hạng ngầm trong nhật ký máy chủ web hoặc cơ sở dữ liệu mua hàng và bạn có thể đo lỗi số lượng sao trên chúng, đơn giản vì không có sao. Bạn chỉ có +1 = người dùng đã xem một chi tiết hoặc mua một sản phẩm và thông thường, không có gì khác. Đôi khi, những thứ này được gọi là xếp hạng đơn nhất mà bạn biết từ nút Facebook Like ngay bây giờ: xếp hạng là tích cực hoặc không xác định (người dùng chỉ có thể biết về nội dung tồn tại).

Bạn vẫn có thể sử dụng xác thực phân tách trên dữ liệu đó, ngay cả để so sánh ngoại tuyến với những người giới thiệu SaaS của riêng bạn. Ví dụ, giả sử bạn lấy cơ sở dữ liệu mua hàng của mình, gửi lịch sử 80% người dùng cho RS và sau đó, đối với mỗi người dùng thử, chỉ gửi một vài giao dịch mua và yêu cầu RS dự đoán phần còn lại. Bạn có thể đã ẩn 4 mặt hàng đã mua và yêu cầu RS cho 10 mặt hàng. Bạn có thể nhận được độ chính xác 0%, 25%, 50%, 75% hoặc 100% cho người dùng đó, tùy thuộc vào số lượng ẩn 4 xuất hiện trong khuyến nghị 10. Và độ chính xác này được gọi là Recall. Bạn có thể tính trung bình trên toàn bộ bộ kiểm tra của bạn và TADAAA! Kết quả của bạn là 31,4159%, rằng RS của bạn tốt như thế nào.

Bây giờ thành thật mà nói, mặc dù Recall lành mạnh hơn RMSE rất nhiều, nhưng nó vẫn mang lại nhiều đau đớn. Giả sử một người dùng thử đã xem 20 tập của cùng một bộ phim truyền hình và bạn đo lường hồi tưởng về cô ấy. Vì vậy, bạn ẩn tập 18 #2020 và yêu cầu RS dự đoán chúng từ # 11717. Đây là nhiệm vụ khá dễ dàng vì các tập phim được kết nối mạnh mẽ, do đó bạn được thu hồi 100%. Bây giờ, người dùng của bạn đã khám phá một cái gì đó mới? Bạn có muốn giới thiệu cô ấy một nội dung như vậy không? Và điều gì mang lại giá trị kinh doanh cao nhất cho bạn? Nói trong cửa hàng trực tuyến, bạn có muốn giới thiệu các lựa chọn thay thế, hoặc phụ kiện? Bạn sẽ cảm thấy bạn đang ở trên một tảng băng rất mỏng với sự hồi tưởng.

Và một bí mật nữa tôi sẽ nói với bạn: Trong một số trường hợp (không phải lúc nào cũng phụ thuộc vào doanh nghiệp của bạn!), Đó là một chiến lược công bằng để chỉ đề xuất các mặt hàng phổ biến nhất trên toàn cầu (a.k.a. bestseller) để đạt được thu hồi hợp lý. Vì vậy, đây là phạm vi bảo hiểm. Bạn có muốn người dùng tiếp tục khám phá nội dung mới và mới để luôn trung thành không? Sau đó, bạn có thể muốn giới thiệu càng nhiều mặt hàng khác nhau càng tốt. Trong trường hợp đơn giản nhất, để tính toán phạm vi bảo hiểm Danh mục, chỉ cần đưa người dùng thử nghiệm của bạn, yêu cầu đề xuất cho từng người trong số họ và đặt tất cả các mục được đề xuất cùng nhau. Bạn có được một bộ lớn các mặt hàng khác nhau. Chia kích thước của bộ này cho tổng số mục trong toàn bộ danh mục của bạn và bạn nhận được 42,125%! Đó là một phần của các mục mà RS của bạn có thể đề xuất.

Bây giờ hãy xem xét một mô hình bán chạy nhất. Nó có thể có khả năng thu hồi khá tốt, nhưng độ bao phủ gần như bằng không (5 mục hằng?). Và lấy một người giới thiệu ngẫu nhiên. Nó có gần như không thu hồi và bảo hiểm 100%. Bạn có thể cảm thấy bạn giống như một sự thỏa hiệp.

Hình ảnh trên xuất phát từ nghiên cứu ban đầu (hiện đã rất lỗi thời) của tôi. Bạn có thể thấy khoảng 1000 mô hình RS khác nhau được vẽ trong mặt phẳng Thu hồi. Geeky, ain sắt nó? :) Bạn có thể cảm thấy chóng mặt khi chọn cái tốt nhất, nhưng tôi hy vọng bạn cảm thấy rằng việc chọn một số từ phía trên bên phải (phía trước tối ưu Pareto) có thể là một lựa chọn tốt.

Để làm cho ước tính ngoại tuyến của bạn mạnh mẽ hơn nữa, bạn có thể sử dụng xác thực chéo (Xval) thay vì xác thực phân tách. Chỉ cần chia người dùng của bạn thành 10 lần và đi theo vòng lặp: luôn mất 9 lần để xây dựng mô hình và sử dụng 1 lần còn lại để thực hiện xác nhận. Trung bình kết quả trong 10 lần chạy này.

Bây giờ bạn có thể nói: Thế còn doanh nghiệp của tôi? Đo lường thu hồi và bảo hiểm có thể tốt, nhưng chúng liên quan đến KPI của tôi như thế nào?

Và bạn nói đúng không. Để đưa SaaS RS lên trục X và $$$ trên trục Y, chúng ta phải rời khỏi thế giới ngoại tuyến và đi vào sản xuất!

Thế giới trực tuyến: Thực hiện theo các ví dụ về CTO thông minh

Phần trên là về việc đo lường chất lượng của RS trước khi đưa vào sản xuất, bây giờ là thời gian để nói về KPI kinh doanh.

Mặc dù trong đánh giá ngoại tuyến, chúng tôi thường sử dụng xác thực phân tách, trong đánh giá trực tuyến, thử nghiệm A / B (hoặc thử nghiệm đa biến) là cách tiếp cận nổi bật nhất hiện nay. Bạn có thể tích hợp một vài RS khác nhau, chia người dùng của bạn thành các nhóm và đưa RS vào chiến đấu. Một chút tốn kém, vì nó tiêu tốn tài nguyên phát triển của bạn, do đó bạn có thể sử dụng độ khó ước tính của tích hợp và chi phí tùy chỉnh / điều chỉnh trong tương lai như một trong những biện pháp của bạn, điều này có thể làm giảm số lượng ứng cử viên.

Bây giờ hãy nói rằng bạn đã tích hợp sẵn sàng và có thể chia người dùng trực tuyến của bạn thành các nhóm thử nghiệm A / B. Bạn có thể sử dụng băm riêng các cookie UID của họ hoặc sử dụng một số công cụ cho việc đó (ví dụ: VWO, Optimizely hoặc thậm chí GA, mặc dù tùy chọn cuối cùng hơi đau một chút). Để thực hiện thử nghiệm, bạn nên xác định một vị trí tốt trên trang web / ứng dụng của mình để kiểm tra các đề xuất, bởi vì bạn chắc chắn don don muốn thực hiện tích hợp đầy đủ tất cả các RS ứng cử viên sớm trong giai đoạn thử nghiệm, phải không? Nếu bạn có lưu lượng truy cập nhỏ, hãy nhớ rằng địa điểm đã chọn phải hiển thị đủ để thu thập kết quả quan trọng. Trong trường hợp ngược lại, nếu bạn có lưu lượng truy cập lớn, bạn có thể chọn chiến lược bảo thủ, ví dụ, chỉ giải phóng 20% ​​lưu lượng truy cập của bạn để kiểm tra, giữ an toàn cho bản thân và 80% người dùng trong trường hợp một số RS ứng cử viên sẽ hoàn toàn bị phá vỡ và đề nghị những thứ kỳ lạ.

Giả sử toàn bộ là lên và chạy. Cần đo gì? Các biện pháp đơn giản nhất là Tỷ lệ nhấp (TLB) và Tỷ lệ chuyển đổi (CR) của các đề xuất.

Hiển thị bộ N đề xuất 20 lần, trong đó 3 lần người dùng nhấp vào ít nhất một trong các mục được đề xuất? Thì TLB của bạn là 15%. Thật vậy, nhấp chuột là tốt, nhưng nó có thể dẫn người dùng đến một trang chi tiết và bạn có thể muốn biết những gì đã xảy ra tiếp theo. Người dùng có thực sự tìm thấy nội dung thú vị? Cô ấy đã xem toàn bộ video, nghe toàn bộ bài hát, đọc toàn bộ bài viết, trả lời lời mời làm việc, đưa sản phẩm vào giỏ hàng và thực sự đặt hàng? Đây là tỷ lệ chuyển đổi = số lượng đề xuất khiến cả bạn và người dùng của bạn hài lòng.

Ví dụ: Bảng điều khiển KPI tái tổ hợp

CTR và CR có thể cung cấp cho bạn một ước tính tốt về hiệu suất của người giới thiệu, nhưng bạn nên cẩn thận và tiếp tục suy nghĩ về sản phẩm của mình. Bạn có thể đang chạy một cổng thông tin, đưa tin nóng trên trang chủ. Điều này có thể không mang lại cho bạn TLB cao nhất có thể, nhưng nó duy trì chất lượng và cảm giác mà bạn và người dùng của bạn có về dịch vụ của bạn. Bây giờ bạn có thể đặt RS ở đó và nó có thể bắt đầu hiển thị nội dung khác nhau, chẳng hạn như các bài báo trên báo màu vàng hoặc các bài viết hài hước về những con chó rất nhanh chạy ở tốc độ hihg đáng kinh ngạc. Điều này có thể tăng TLB ngay lập tức của bạn lên 5 lần, nhưng nó sẽ làm hỏng hình ảnh của bạn và bạn có thể mất người dùng trong thời gian dài.

Ở đây có đánh giá thực nghiệm về RSs. Chỉ cần bắt đầu một phiên mới với cookie trống, mô phỏng hành vi của người dùng và kiểm tra xem các đề xuất có lành mạnh không. Nếu bạn có một nhóm QA, hãy đưa họ đến công việc! Đánh giá thực nghiệm vừa phức tạp vừa dễ dàng. Nó rất phức tạp, vì nó không tạo ra bất kỳ số nào bạn có thể trình bày trên bảng sản phẩm. Nhưng nó cũng dễ dàng, bởi vì, nhờ vào trực giác con người của bạn, bạn sẽ đơn giản nhận ra khuyến nghị nào tốt và xấu. Nếu bạn chọn người giới thiệu làm việc kỳ quặc, bạn sẽ tự đặt mình vào rất nhiều rắc rối trong tương lai ngay cả khi TLB / CR đang ở mức cao.

Nhưng tất nhiên, bên cạnh chất lượng, bạn nên quan tâm đến lợi tức đầu tư (ROI).

Nói một cách đơn giản, bạn có thể đã xác định rằng lần thử nghiệm A / B lần 1 dẫn đến tăng X% tỷ lệ chuyển đổi so với đường cơ sở số 0 (giải pháp hiện tại của bạn), rằng mức ký quỹ của bạn là $ Y cho mục được đề xuất thành công trung bình và rằng nó yêu cầu đề xuất Z để đạt được điều đó. Làm toán, dự tính chi phí / thu nhập trong trường hợp bạn đặt RS đã cho 100% lưu lượng truy cập của mình, tích hợp vào các phần khác của trang web / ứng dụng của bạn.

Một cảnh báo về tính toán ROI: Nó rất mờ và phụ thuộc vào số lượng lớn các ẩn số: CR có giống nhau ở những nơi khác trên trang web / ứng dụng của tôi không? (Câu trả lời đơn giản = không, nó đã thắng, các địa điểm khác nhau có TLB / CR khác nhau). CR sẽ thay đổi như thế nào nếu đặt các khuyến nghị vào vị trí hấp dẫn hơn hoặc ít hơn? (Câu trả lời đơn giản = rất nhiều). CR sẽ phát triển theo thời gian như thế nào? Người dùng sẽ học cách sử dụng và tin tưởng vào khuyến nghị, hay CR sẽ từ chối?

Điều này dẫn đến một biện pháp cuối cùng nhưng khó khăn nhất: Giá trị trọn đời của khách hàng (CLV). Bạn đang tìm kiếm tình huống đôi bên cùng có lợi Bạn muốn người dùng của bạn thích dịch vụ của bạn, cảm thấy thoải mái, vui vẻ và sẵn sàng quay lại. Cùng với đó, bạn muốn RS cải thiện UX, giúp người dùng tìm thấy nội dung / sản phẩm thú vị những gì họ thích. Làm thế nào để đạt CLV cao bằng RS?

Vâng, không có lời khuyên đơn giản ở đây. Bạn nên tìm kiếm các đề xuất tốt đẹp với chất lượng thực nghiệm cao và ROI hợp lý tích cực. Theo kinh nghiệm của tôi, tính độc đáo của các đề xuất thường tương ứng với giá trị doanh nghiệp, sẽ khiến bạn không bị đăng bởi các khiếu nại từ nhóm / Giám đốc điều hành QA của bạn. Và nếu bạn quan sát trường hợp kinh doanh là tích cực, bạn đã tìm thấy những gì bạn đang tìm kiếm :)

Phần kết luận

Tôi đã cố gắng bao gồm các khía cạnh quan trọng nhất của việc đánh giá RS. Bạn có thể đã thấy nó không phải là một nhiệm vụ dễ dàng và có rất nhiều điều cần xem xét, nhưng tôi hy vọng ít nhất đã cung cấp cho bạn một số manh mối để tìm đường trong khu vực. Bạn có thể kiểm tra RS ngoại tuyến ngay cả trước khi đi vào sản xuất hoặc thực hiện thử nghiệm A / B sản xuất với ước tính TLB / CR và ROI. Luôn bao gồm một số QA, vì chỉ riêng TLB / CR / ROI có thể gây hiểu nhầm và không đảm bảo tính tương thích với tầm nhìn của sản phẩm của bạn.

Phần lớn đã bị bỏ qua chỉ để giữ cho văn bản dài một cách hữu ích. Bên cạnh TLB / CR / ROI / chất lượng của các đề xuất, bạn nên xem nhanh khả năng tổng thể của RS được xem xét. Bạn có thể muốn đưa các đề xuất vào các chiến dịch gửi email của mình trong tương lai. Nó sẽ làm việc chứ? Liệu nó có khả năng xoay vòng các đề xuất để một người dùng nhất định giành chiến thắng nhận được bộ đề xuất tương tự trong mỗi email không? Bạn có thể phục vụ tất cả các yêu cầu kinh doanh của mình không, bạn có thể ảnh hưởng đến các đề xuất, tăng một số loại nội dung, lọc nội dung dựa trên các tiêu chí khác nhau không? Đây là những chủ đề không được đề cập nhưng bạn có thể cảm thấy bạn cũng muốn xem xét chúng.

Tác giả là người đồng sáng lập trong Recombee, một Công cụ đề xuất SaaS tinh vi.