Gom túi khôn nhân loại, nghiễm nhiên miễn bản quyền?

NGUYỄN VŨ 12/12/2022 15:30 GMT+7

TTCT - Trí tuệ nhân tạo (AI) có được sự thông minh nhờ công nghệ "học máy", thu nhặt và nạp hết túi khôn của nhân loại trên mạng, rồi khi cần thì chọn đúng cái mà dùng. Vấn đề bản quyền đối với dữ liệu cung cấp cho máy học phải xử lý thế nào?

Gom túi khôn nhân loại, nghiễm nhiên miễn bản quyền? - Ảnh 1.

Ảnh: thestack.technology

Chúng ta đã nghe nói nhiều về GPT-3 - hệ thống có khả năng đối đáp thông minh như một chuyên gia trong nhiều lĩnh vực. OpenAI, một phòng thí nghiệm chuyên về trí tuệ nhân tạo, xây dựng GPT-3 bằng cách cho nó học hàng ngàn cuốn sách, toàn bộ nội dung trên Wikipedia, các trang web và các loại dữ liệu khác có trên Internet. Nhờ thế GPT-3 có khả năng tự viết các bài diễn văn, bài báo tường thuật trận bóng đá, thậm chí làm thơ hay sáng tác truyện ngắn.

Bất ngờ OpenAI phát hiện GPT-3 còn có khả năng lập trình nhờ học từ hàng ngàn chương trình có sẵn trên mạng. Thế là OpenAI tách một nhánh của GPT-3 ra, làm thành một chương trình mới mang tên Codex, chuyên đi học lập trình, lấy dữ liệu từ kho phần mềm mã nguồn mở trên GitHub - nơi các lập trình viên xây dựng và lưu trữ, phổ biến các chương trình họ viết và phân phối miễn phí.

Công nghệ nền tảng của Codex sau này được Microsoft sử dụng để làm ra Copilot, AI có khả năng tự lập trình, hay đúng hơn là giúp các nhà lập trình đẩy nhanh tốc độ thảo chương. Với Copilot, họ chỉ cần gõ trên máy vài dòng, máy sẽ tự động hiểu ý và đưa ra các đoạn mã gợi ý, có thể vài dòng nhưng cũng có thể nguyên cả một đoạn dài.

Phải nói thêm một chút là Microsoft đã thâu tóm GitHub năm 2018, và cũng tài trợ cả tỉ đôla cho OpenAI. Tất cả nhằm đối phó với mối đe dọa của mã nguồn mở với phần mềm bản quyền của họ (chẳng hạn Linux và Android cạnh tranh trực diện với Windows, hay LibreOffice với Microsoft Office).

Copilot thoạt tiên được Microsoft phân phát miễn phí cho một nhóm nhỏ các nhà lập trình trên GitHub trong vòng một năm, nhưng từ tháng 7 năm nay mở rộng cho tất cả người dùng GitHub. 

Nhiều nhà lập trình rất thích Copilot vì nó tiết kiệm cho họ rất nhiều công sức nhưng Matthew Butterick, lập trình viên kiêm luật sư, không nghĩ thế. Ông cùng một nhóm các luật sư đang khởi kiện Microsoft, GitHub, và OpenAI - tức các công ty liên quan đến việc thiết kế và triển khai Copilot - trong một vụ kiện tập thể.

Giám đốc điều hành GitHub là Nat Friedman nói sử dụng các mã nguồn mở có sẵn để huấn luyện cho Copilot là cách làm không vi phạm bản quyền theo nguyên tắc "sử dụng hợp lý", còn Butterick cho rằng Copilot không thừa nhận kho dữ liệu có sẵn trong bộ nhớ của nó là công sức của hàng triệu người trước đó dày công ngồi gõ các dòng lệnh gốc.

Gom túi khôn nhân loại, nghiễm nhiên miễn bản quyền? - Ảnh 2.

Giao diện autopilot.

Thật ra, người sử dụng Copilot nhận xét các đoạn mã do Copilot tự động đưa ra là khá đơn giản, có thể có ích khi viết một chương trình lớn nhưng người dùng phải chỉnh sửa, bổ sung, rà soát rất kỹ mới tích hợp vào phần mềm của mình. Phần lớn người dùng cho rằng Copilot hữu ích nhất cho những ai đang học lập trình hay học một ngôn ngữ mới.

Thế nhưng Butterick lo ngại Copilot và các ứng dụng tương tự có thể giết chết tinh thần mã nguồn mở, phá hủy cộng đồng các nhà lập trình đã từng bỏ công sức đóng góp một cái gì đó cho nhân loại. Sẽ không ai chịu mất công viết chương trình mà máy có thể tự động bắt chước để sao chép tùy tiện.

Mặc dù các chương trình mã nguồn mở là miễn phí, được phép sử dụng rộng rãi nhưng vẫn bị chi phối bởi giấy phép nhằm hướng việc sử dụng vào các mục đích có lợi cho cộng đồng. Butterick kiện là để Copilot và các ứng dụng tương tự phải tuân thủ tinh thần mã nguồn mở, phải ghi nhận đầy đủ công sức của người đóng góp và không được thương mại hóa công sức của hàng triệu tình nguyện viên để chỉ làm lợi cho một hai công ty nào đó.

Vụ kiện này thu hút sự chú ý của nhiều người, không chỉ trong giới lập trình vì nhìn chung việc huấn luyện các "con" AI theo kiểu này là rất phổ biến. Nói chung các nhà sáng tạo nội dung cáo buộc các công ty công nghệ sử dụng dữ liệu do họ tạo ra mà không xin phép cũng như trả tiền bản quyền. 

Chúng ta hỏi gì, Siri đều trả lời nhanh chóng nhưng nguồn dữ liệu ở đâu ra để Siri sử dụng mà đối đáp thì Apple không nói và cũng không xin phép ai cả; Alexa của Amazon hay Google Assistant của Alphabet cũng vậy.

Một thí dụ khác: Google Translate đã quét vào bộ nhớ của mình hàng triệu triệu câu từng được dịch, thành ra đến lúc nào đó ứng dụng này có thể (dù xác suất rất thấp) sử dụng các đoạn từng được dịch trả về cho chính tác giả các đoạn dịch đó. 

Nếu Google vẫn tiếp tục cung cấp dịch vụ Google Translate miễn phí như hiện nay, ắt những ai có tác phẩm dịch được Google Translate học thì cũng không phản đối gì. Nhưng nếu giả thử Google thương mại hóa dịch vụ này để tính tiền người dùng hay bán phần mềm lấy tiền, lúc đó chắc sự phản đối sẽ lan rộng.

Hiện nay các họa sĩ bị AI cướp công việc minh họa đang phản ứng vì rõ ràng AI học từ họ và nay đoạt luôn nghề của họ. Sau này nếu AI tiếp tục phát triển để soạn nhạc, viết kế hoạch kinh doanh, vấn đề bản quyền sẽ lại được đặt ra gay gắt hơn bây giờ. 

Chúng ta phải chờ xem vụ kiện Copilot có đặt ra một tiền lệ về bản quyền và AI hay không. ■

Bình luận Xem thêm
Bình luận (0)
Xem thêm bình luận