Nghiên cứu đã chỉ ra rằng hiệu suất của các chatbot như ChatGPT có thể giảm theo thời gian do chất lượng dữ liệu đào tạo bị giảm sút.
· Các mô hình máy học dễ bị nhiễm độc dữ liệu và sự cố mô hình, điều này có thể làm giảm đáng kể chất lượng đầu ra của chúng.
Nguồn nội dung đáng tin cậy là rất quan trọng để ngăn chặn sự suy giảm hiệu suất của chatbot, tạo ra thách thức cho các nhà phát triển AI trong tương lai.
Các chatbot hiện đại không ngừng học hỏi và hành vi của chúng luôn thay đổi, nhưng hiệu suất của chúng có thể giảm hoặc cải thiện.
Nghiên cứu gần đây đã đảo ngược giả định rằng “học tập luôn có nghĩa là tiến bộ”, điều này có ý nghĩa đối với tương lai của ChatGPT và các đồng nghiệp của nó. Để duy trì hoạt động của chatbot, các nhà phát triển trí tuệ nhân tạo (AI) phải giải quyết các thách thức dữ liệu mới nổi.
ChatGPT đang trở nên ngu ngốc hơn theo thời gian
Một nghiên cứu được công bố gần đây cho thấy rằng chatbot có thể ít có khả năng thực hiện một số tác vụ nhất định theo thời gian.
Để đi đến kết luận này, các nhà nghiên cứu đã so sánh đầu ra của mô hình ngôn ngữ lớn (LLM) GPT-3.5 và GPT-4 vào tháng 3 và tháng 6 năm 2023. Chỉ trong ba tháng, họ đã quan sát thấy những thay đổi đáng kể trong các mô hình làm nền tảng cho ChatGPT.
Ví dụ, vào tháng 3 năm nay, GPT-4 đã có thể xác định các số nguyên tố với độ chính xác 97,6%. Đến tháng 6, độ chính xác của nó đã giảm mạnh xuống còn 2,4%.
Các câu trả lời của GPT-4 (trái) và GPT-3.5 (phải) cho cùng một câu hỏi vào tháng 3 và tháng 6 (nguồn: arXiv)
Thử nghiệm cũng đánh giá tốc độ trả lời các câu hỏi nhạy cảm, khả năng tạo mã và khả năng suy luận trực quan của mô hình. Qua tất cả các kỹ năng mà họ đã kiểm tra, nhóm nhận thấy rằng chất lượng đầu ra của AI giảm dần theo thời gian.
Những thách thức với dữ liệu đào tạo thời gian thực
Học máy (ML) dựa trên một quy trình đào tạo, theo đó các mô hình AI có thể bắt chước trí thông minh của con người bằng cách xử lý một lượng lớn thông tin.
Ví dụ: sự phát triển của LLM hỗ trợ các chatbot hiện đại đã được hưởng lợi từ sự sẵn có của một số lượng lớn các kho lưu trữ trực tuyến. Chúng bao gồm các bộ dữ liệu được biên soạn từ các bài viết trên Wikipedia, cho phép chatbot học hỏi bằng cách tiêu hóa khối lượng kiến thức lớn nhất mà con người từng tạo ra.
Nhưng giờ đây, các công cụ như ChatGPT đã được phát hành rộng rãi. Các nhà phát triển có ít quyền kiểm soát hơn đối với dữ liệu đào tạo luôn thay đổi của họ.
Vấn đề là những mô hình như vậy cũng có thể "học" để đưa ra câu trả lời sai. Nếu chất lượng của dữ liệu đào tạo xuống cấp, đầu ra của chúng cũng sẽ xuống cấp. Điều này đặt ra một thách thức đối với các chatbot động, vốn yêu cầu một luồng nội dung được tìm kiếm trên web ổn định.
Dữ liệu bị nhiễm độc có thể dẫn đến suy giảm hiệu suất của chatbot
Vì các chatbot có xu hướng dựa vào nội dung được lấy từ web nên chúng đặc biệt dễ bị thao túng, được gọi là đầu độc dữ liệu.
Đó chính xác là những gì đã xảy ra với Twitter bot Tay của Microsoft vào năm 2016. Chưa đầy 24 giờ sau khi ra mắt, phiên bản tiền nhiệm của ChatGPT đã bắt đầu đăng các dòng tweet gây khó chịu và xúc phạm. Các nhà phát triển của Microsoft đã nhanh chóng tạm dừng nó và bắt đầu lại.
Hóa ra, những kẻ lừa đảo trên mạng đã gửi thư rác cho bot ngay từ đầu, thao túng khả năng học hỏi từ các tương tác của nó với công chúng. Sau khi bị quân đội 4channer lạm dụng, không có gì ngạc nhiên khi Tay bắt đầu lặp đi lặp lại lời nói căm thù của họ.
Giống như Tay, các chatbot hiện đại là sản phẩm của môi trường của chúng và dễ bị tấn công tương tự. Ngay cả Wikipedia, rất quan trọng trong sự phát triển của LLM, cũng có thể được sử dụng để đầu độc dữ liệu đào tạo máy học.
Tuy nhiên, dữ liệu bị cố ý làm hỏng không phải là nguồn thông tin sai lệch duy nhất mà các nhà phát triển chatbot cần cảnh giác.
**Sự cố mô hình: Quả bom hẹn giờ cho Chatbot? **
Với sự phổ biến ngày càng tăng của các công cụ AI, nội dung do AI tạo ra cũng ngày càng nhiều. Nhưng điều gì sẽ xảy ra với các LL.M.s được đào tạo về bộ dữ liệu quét web nếu ngày càng nhiều nội dung được tạo ra bằng máy học?
Câu hỏi này đã được khám phá trong một cuộc khảo sát gần đây về tác động của đệ quy đối với các mô hình học máy. Các câu trả lời mà nó tìm thấy có ý nghĩa quan trọng đối với tương lai của trí tuệ nhân tạo sáng tạo.
Các nhà nghiên cứu phát hiện ra rằng khi tài liệu do AI tạo ra được sử dụng làm dữ liệu đào tạo, các mô hình học máy bắt đầu quên đi những gì chúng đã học trước đó.
Họ đặt ra thuật ngữ "mô hình sụp đổ", lưu ý rằng các họ AI khác nhau đều có xu hướng thoái hóa khi tiếp xúc với nội dung do con người tạo ra.
Trong một thử nghiệm, nhóm đã tạo một vòng phản hồi giữa một mô hình máy học tạo hình ảnh và đầu ra của nó.
Sau khi quan sát, họ nhận thấy rằng sau mỗi lần lặp lại, mô hình đã khuếch đại những lỗi của chính nó và bắt đầu quên đi dữ liệu do con người tạo ra ban đầu. Sau 20 vòng lặp, đầu ra gần giống với tập dữ liệu ban đầu.
Đầu ra của mô hình ML tạo hình ảnh (nguồn: arXiv)
Các nhà nghiên cứu đã quan sát xu hướng xuống cấp tương tự khi thực hiện một kịch bản tương tự với LL.M. Ngoài ra, với mỗi lần lặp lại, các lỗi như lặp cụm từ và ngắt giọng xảy ra thường xuyên hơn.
Theo đó, nghiên cứu suy đoán rằng các thế hệ ChatGPT trong tương lai có thể có nguy cơ sụp đổ mô hình. Nếu AI tạo ra ngày càng nhiều nội dung trực tuyến, thì hiệu suất của chatbot và các mô hình học máy tổng quát khác có thể giảm sút.
Nội dung đáng tin cậy mà bạn cần để ngăn chặn sự suy giảm hiệu suất của chatbot
Trong tương lai, các nguồn nội dung đáng tin cậy sẽ ngày càng trở nên quan trọng để ngăn chặn tác động suy giảm của dữ liệu chất lượng thấp. Những công ty kiểm soát quyền truy cập vào những gì cần thiết để đào tạo các mô hình học máy nắm giữ chìa khóa để đổi mới hơn nữa.
Suy cho cùng, không phải ngẫu nhiên mà những gã khổng lồ công nghệ với hàng triệu người dùng lại là những tên tuổi lớn trong lĩnh vực trí tuệ nhân tạo.
Chỉ trong tuần trước, Meta đã phát hành phiên bản mới nhất của LLM Llama 2, Google tung ra các tính năng mới cho Bard và có báo cáo rằng Apple đang chuẩn bị tham gia vào cuộc cạnh tranh.
Cho dù do dữ liệu bị nhiễm độc, các dấu hiệu ban đầu của sự cố mô hình hoặc các yếu tố khác, các nhà phát triển chatbot không thể bỏ qua mối đe dọa về sự suy giảm hiệu suất.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Suy giảm hiệu suất Chatbot: Thách thức dữ liệu đe dọa tạo ra tương lai của trí tuệ nhân tạo
Bài viết này ngắn gọn:
Nghiên cứu đã chỉ ra rằng hiệu suất của các chatbot như ChatGPT có thể giảm theo thời gian do chất lượng dữ liệu đào tạo bị giảm sút.
· Các mô hình máy học dễ bị nhiễm độc dữ liệu và sự cố mô hình, điều này có thể làm giảm đáng kể chất lượng đầu ra của chúng.
Nguồn nội dung đáng tin cậy là rất quan trọng để ngăn chặn sự suy giảm hiệu suất của chatbot, tạo ra thách thức cho các nhà phát triển AI trong tương lai.
Các chatbot hiện đại không ngừng học hỏi và hành vi của chúng luôn thay đổi, nhưng hiệu suất của chúng có thể giảm hoặc cải thiện.
Nghiên cứu gần đây đã đảo ngược giả định rằng “học tập luôn có nghĩa là tiến bộ”, điều này có ý nghĩa đối với tương lai của ChatGPT và các đồng nghiệp của nó. Để duy trì hoạt động của chatbot, các nhà phát triển trí tuệ nhân tạo (AI) phải giải quyết các thách thức dữ liệu mới nổi.
ChatGPT đang trở nên ngu ngốc hơn theo thời gian
Một nghiên cứu được công bố gần đây cho thấy rằng chatbot có thể ít có khả năng thực hiện một số tác vụ nhất định theo thời gian.
Để đi đến kết luận này, các nhà nghiên cứu đã so sánh đầu ra của mô hình ngôn ngữ lớn (LLM) GPT-3.5 và GPT-4 vào tháng 3 và tháng 6 năm 2023. Chỉ trong ba tháng, họ đã quan sát thấy những thay đổi đáng kể trong các mô hình làm nền tảng cho ChatGPT.
Ví dụ, vào tháng 3 năm nay, GPT-4 đã có thể xác định các số nguyên tố với độ chính xác 97,6%. Đến tháng 6, độ chính xác của nó đã giảm mạnh xuống còn 2,4%.
Các câu trả lời của GPT-4 (trái) và GPT-3.5 (phải) cho cùng một câu hỏi vào tháng 3 và tháng 6 (nguồn: arXiv)
Thử nghiệm cũng đánh giá tốc độ trả lời các câu hỏi nhạy cảm, khả năng tạo mã và khả năng suy luận trực quan của mô hình. Qua tất cả các kỹ năng mà họ đã kiểm tra, nhóm nhận thấy rằng chất lượng đầu ra của AI giảm dần theo thời gian.
Những thách thức với dữ liệu đào tạo thời gian thực
Học máy (ML) dựa trên một quy trình đào tạo, theo đó các mô hình AI có thể bắt chước trí thông minh của con người bằng cách xử lý một lượng lớn thông tin.
Ví dụ: sự phát triển của LLM hỗ trợ các chatbot hiện đại đã được hưởng lợi từ sự sẵn có của một số lượng lớn các kho lưu trữ trực tuyến. Chúng bao gồm các bộ dữ liệu được biên soạn từ các bài viết trên Wikipedia, cho phép chatbot học hỏi bằng cách tiêu hóa khối lượng kiến thức lớn nhất mà con người từng tạo ra.
Nhưng giờ đây, các công cụ như ChatGPT đã được phát hành rộng rãi. Các nhà phát triển có ít quyền kiểm soát hơn đối với dữ liệu đào tạo luôn thay đổi của họ.
Vấn đề là những mô hình như vậy cũng có thể "học" để đưa ra câu trả lời sai. Nếu chất lượng của dữ liệu đào tạo xuống cấp, đầu ra của chúng cũng sẽ xuống cấp. Điều này đặt ra một thách thức đối với các chatbot động, vốn yêu cầu một luồng nội dung được tìm kiếm trên web ổn định.
Dữ liệu bị nhiễm độc có thể dẫn đến suy giảm hiệu suất của chatbot
Vì các chatbot có xu hướng dựa vào nội dung được lấy từ web nên chúng đặc biệt dễ bị thao túng, được gọi là đầu độc dữ liệu.
Đó chính xác là những gì đã xảy ra với Twitter bot Tay của Microsoft vào năm 2016. Chưa đầy 24 giờ sau khi ra mắt, phiên bản tiền nhiệm của ChatGPT đã bắt đầu đăng các dòng tweet gây khó chịu và xúc phạm. Các nhà phát triển của Microsoft đã nhanh chóng tạm dừng nó và bắt đầu lại.
Hóa ra, những kẻ lừa đảo trên mạng đã gửi thư rác cho bot ngay từ đầu, thao túng khả năng học hỏi từ các tương tác của nó với công chúng. Sau khi bị quân đội 4channer lạm dụng, không có gì ngạc nhiên khi Tay bắt đầu lặp đi lặp lại lời nói căm thù của họ.
Giống như Tay, các chatbot hiện đại là sản phẩm của môi trường của chúng và dễ bị tấn công tương tự. Ngay cả Wikipedia, rất quan trọng trong sự phát triển của LLM, cũng có thể được sử dụng để đầu độc dữ liệu đào tạo máy học.
Tuy nhiên, dữ liệu bị cố ý làm hỏng không phải là nguồn thông tin sai lệch duy nhất mà các nhà phát triển chatbot cần cảnh giác.
**Sự cố mô hình: Quả bom hẹn giờ cho Chatbot? **
Với sự phổ biến ngày càng tăng của các công cụ AI, nội dung do AI tạo ra cũng ngày càng nhiều. Nhưng điều gì sẽ xảy ra với các LL.M.s được đào tạo về bộ dữ liệu quét web nếu ngày càng nhiều nội dung được tạo ra bằng máy học?
Câu hỏi này đã được khám phá trong một cuộc khảo sát gần đây về tác động của đệ quy đối với các mô hình học máy. Các câu trả lời mà nó tìm thấy có ý nghĩa quan trọng đối với tương lai của trí tuệ nhân tạo sáng tạo.
Các nhà nghiên cứu phát hiện ra rằng khi tài liệu do AI tạo ra được sử dụng làm dữ liệu đào tạo, các mô hình học máy bắt đầu quên đi những gì chúng đã học trước đó.
Họ đặt ra thuật ngữ "mô hình sụp đổ", lưu ý rằng các họ AI khác nhau đều có xu hướng thoái hóa khi tiếp xúc với nội dung do con người tạo ra.
Trong một thử nghiệm, nhóm đã tạo một vòng phản hồi giữa một mô hình máy học tạo hình ảnh và đầu ra của nó.
Sau khi quan sát, họ nhận thấy rằng sau mỗi lần lặp lại, mô hình đã khuếch đại những lỗi của chính nó và bắt đầu quên đi dữ liệu do con người tạo ra ban đầu. Sau 20 vòng lặp, đầu ra gần giống với tập dữ liệu ban đầu.
Đầu ra của mô hình ML tạo hình ảnh (nguồn: arXiv)
Các nhà nghiên cứu đã quan sát xu hướng xuống cấp tương tự khi thực hiện một kịch bản tương tự với LL.M. Ngoài ra, với mỗi lần lặp lại, các lỗi như lặp cụm từ và ngắt giọng xảy ra thường xuyên hơn.
Theo đó, nghiên cứu suy đoán rằng các thế hệ ChatGPT trong tương lai có thể có nguy cơ sụp đổ mô hình. Nếu AI tạo ra ngày càng nhiều nội dung trực tuyến, thì hiệu suất của chatbot và các mô hình học máy tổng quát khác có thể giảm sút.
Nội dung đáng tin cậy mà bạn cần để ngăn chặn sự suy giảm hiệu suất của chatbot
Trong tương lai, các nguồn nội dung đáng tin cậy sẽ ngày càng trở nên quan trọng để ngăn chặn tác động suy giảm của dữ liệu chất lượng thấp. Những công ty kiểm soát quyền truy cập vào những gì cần thiết để đào tạo các mô hình học máy nắm giữ chìa khóa để đổi mới hơn nữa.
Suy cho cùng, không phải ngẫu nhiên mà những gã khổng lồ công nghệ với hàng triệu người dùng lại là những tên tuổi lớn trong lĩnh vực trí tuệ nhân tạo.
Chỉ trong tuần trước, Meta đã phát hành phiên bản mới nhất của LLM Llama 2, Google tung ra các tính năng mới cho Bard và có báo cáo rằng Apple đang chuẩn bị tham gia vào cuộc cạnh tranh.
Cho dù do dữ liệu bị nhiễm độc, các dấu hiệu ban đầu của sự cố mô hình hoặc các yếu tố khác, các nhà phát triển chatbot không thể bỏ qua mối đe dọa về sự suy giảm hiệu suất.