Theo báo cáo được thực hiện bởi các nhà nghiên cứu tại Đại học Stanford và UC Berkeley, ‘trí tuệ’ của ChatGPT thực sự đã suy giảm đáng kể so với thời điểm chatbot AI này ra mắt.
Vào thời điểm tháng 11/2022, ChatGPT – chatbot AI có khả năng trả lời mọi câu hỏi nhanh chóng tạo ra cơn sốt trên mạng, trở thành ứng dụng web phát triển nhanh nhất trong lịch sử internet, thu hút 100 triệu người dùng hoạt động hàng tháng vào tháng 1/2023.
Nhờ sự ‘đa tài’ của mình, cư dân mạng đổ xô đến website của ChatGPT, thử nghiệm chatbot này và yêu cầu nó tạo ra tất cả các loại văn bản như email, bài luận hoặc thậm chí lập trình. Tuy nhiên, mọi chuyện dường như đã đổi khác vào thời điểm tháng 6/2023, tức gần 7 tháng sau khi ChatGPT ra mắt, khi chatbot này đang nhận rất nhiều lời phàn nàn từ người dùng. Một trong số đó đến từ việc mô hình AI mới nhất đằng sau ChatGPT là GPT-4 đang dần trở nên “ngu ngốc” hơn, theo phản hồi từ nhiều người dùng.
Trên thực tế, đây cũng là kết luận của một báo cáo vừa được thực hiện mới đây bởi các nhà nghiên cứu tại 2 trường đại học nổi tiếng là Stanford và UC Berkeley.
Hiện tượng này đặc biệt khó hiểu vì các mô hình AI tạo sinh sử dụng đầu vào là dữ liệu của người dùng để tự đào tạo liên tục. Điều này sẽ khiến chúng trở nên thông minh hơn khi tích lũy được nhiều mục nhập của người dùng hơn theo thời gian. Đáng ngạc nhiên, ChatGPT lại không thực hiện được điều trên.
Tuy nhiên, theo một số nhà nghiên cứu AI, câu trả lời cho sự xuống cấp của ChatGPT có thể nằm trong một khái niệm gọi là “drift”(hay Độ lệch).
“Độ lệch” đề cập đến khi các mô hình ngôn ngữ lớn (LLM) hoạt động theo những cách không mong muốn hoặc không thể đoán trước, đi chệch khỏi các tham số ban đầu. Điều này có thể xảy ra do nỗ lực cải thiện các bộ phận của mô hình AI phức tạp khiến các bộ phận khác hoạt động kém hơn.
ChatGPT đang ‘lệch’ nhanh một cách đáng báo động
Các nhà nghiên cứu từ Đại học California tại Berkeley và Đại học Stanford đã tiến hành một nghiên cứu để đánh giá độ lệch và kiểm tra cách các mô hình ngôn ngữ lớn (LLM) phổ biến của ChatGPT, bao gồm GPT 3.5 (LLM đằng sau ChatGPT) và GPT-4 (LLM đằng sau Bing Chat và ChatGPT Plus ) thay đổi theo thời gian.
Nghiên cứu đã so sánh khả năng của cả hai LLM trong các bài đánh giá, bao gồm việc giải toán, trả lời các câu hỏi nhạy cảm, trả lời khảo sát ý kiến, trả lời các câu hỏi chuyên sâu về kiến thức đa chặng, lập trình, bài kiểm tra Giấy phép Y khoa tại Mỹ và hoàn thành các nhiệm vụ lý luận trực quan. Bài kiểm tra này được thực hiện vào tháng 3 và tháng 6.
Như kết quả nghiên cứu ở trên đã thấy, phiên bản tháng 3 của GPT-4 vượt trội so với phiên bản tháng 6 trong nhiều trường hợp, nổi bật nhất là các lời nhắc toán học cơ bản. Trong khi đó phiên bản tháng 3 của GPT-4 vượt trội hơn phiên bản tháng 6 trong cả hai ví dụ (a) và (b ). GPT-4 cũng kém hơn trong việc lập trình, trả lời các câu hỏi kiểm tra y tế và trả lời các cuộc khảo sát ý kiến. Tất cả những trường hợp này có thể được quy cho hiện tượng “driff”.
Liên quan đến “driff”, một trong những nhà nghiên cứu, James Zou khẳng định rất ngạc nhiên về tốc độ lệch đang diễn ra quá nhanh với ChatGPT.
Trước đó, trên diễn đàn dành cho nhà phát triển của OpenAI, một cuộc tranh luận về trình trạng ChatGPT đi xuống về chất lượng phản hồi cũng đã nổ ra. Nhiều người dùng trong cộng đồng AI cho rằng, đây có thể coi là một thách thức với OpenAI, trong bối cảnh GPT-4 chủ yếu được cung cấp cho các người dùng trả phí truy cập.
Một số khác cho rằng, nếu đây là mô hình ngôn ngữ lớn tiên tiến nhất của OpenAI, nó nên có màn thể hiện tốt hơn nhằm tạo ra lợi thế trong cuộc cạnh tranh ngày càng khốc liệt với các đối thủ trên thị trường. Đặc biệt, cộng đồng AI đang coi chất lượng ngày càng giảm của GPT-4 có nguyên nhân đến từ việc “thiết kế lại triệt để” mô hình. Tuy nhiên, OpenAI đã phản bác ý kiến này.
“Không, chúng tôi không tạo ra GPT-4 ngu ngốc hơn. Hoàn toàn ngược lại: chúng tôi làm cho mỗi phiên bản mới thông minh hơn phiên bản trước”, Peter Welinder, Phó chủ tịch sản phẩm tại OpenAI, cho biết. Tuy nhiên, tuyên bố này của đại diện OpenAI được đưa ra trước khi báo cáo của các nhà nghiên cứu tại Đại học Stanford được công bố.
Trong khi đó, theo dữ liệu từ công ty phân tích SimilarWeb, lưu lượng truy cập toàn cầu vào trang web ChatGPT của OpenAI ước tính giảm khoảng 10% trong khoảng thời gian từ tháng 5 đến tháng 6. Đây là con số đánh dấu lần đầu tiên số lượng truy cập vào mô hình ngôn ngữ lớn này suy giảm kể từ khi ChatGPT được ra mắt vào tháng 11 năm ngoái.
Theo đó, vào tháng 6/2023, lưu lượng truy cập trên toàn thế giới từ PC và thiết bị di động đến trang web của ChatGPt đã giảm 9,7% so với tháng trước. Tại Mỹ, lượng truy cập giảm 10,3%. Tương tự, số lượng người dùng truy cập trên toàn cầu giảm 5,7%. Người dùng cũng dành ít thời gian hơn để tương tác với ChatGPT, với mức độ tương tác trong tháng 5 giảm 8,5% so với tháng trước.
“ChatGPT không còn duy trì được độ nóng để nó có thể trở thành trang web có nhiều lượt truy cập nhất trên thế giới”, theo Similarweb. “Nói cách khác, Google không có nguy cơ bị lu mờ bởi trang web trình diễn công nghệ của OpenAI, vốn đã trở thành một hiện tượng văn hóa.”