Tự tạo video chỉ với vài dòng text, trải nghiệm sức mạnh của Sora

sora

Sora công cụ chuyển văn bản thành video mới nhất của OpenAI đã gây choáng váng trên mạng xã hội bằng các video siêu thực được tạo bằng các câu lệnh văn bản đơn giản, đánh dấu cuộc chạy đua vũ trang mới nhất trong lĩnh vực AI sáng tạo, một lĩnh vực được dự đoán sẽ đạt doanh thu 1,3 nghìn tỷ USD vào năm 2032

OpenAI Sora là gì?

OpenAI, công ty sáng tạo ra ChatGPT, đã tiết lộ một dạng trí tuệ nhân tạo mới có thể tạo ra video chân thực có độ dài tối đa 1 phút, dựa trên lời nhắc bằng văn bản, gây ra những phản ứng choáng váng trên mạng. Bạn có thể tham khảo các video Sora tạo ra tại https://openai.com/sora

OpenAI cho biết trong một bài đăng trên blog vào dịp Valentine rằng mô hình chuyển văn bản thành video, có tên là Sora, có “sự hiểu biết sâu sắc về ngôn ngữ” và có thể tạo ra “các ký tự hấp dẫn thể hiện cảm xúc sống động”.

“Sora có thể tạo ra những cảnh phức tạp với nhiều nhân vật, các kiểu chuyển động cụ thể cũng như các chi tiết chính xác về chủ đề và bối cảnh,” công ty khởi nghiệp được Microsoft hậu thuẫn cho biết.

“Mô hình không chỉ hiểu những gì người dùng yêu cầu trong lời nhắc mà còn hiểu những thứ đó tồn tại như thế nào trong thế giới vật chất.”

Giám đốc điều hành OpenAI Sam Altman trên X đã mời người dùng đề xuất lời nhắc cho Sora trước khi đăng kết quả tạo ra từ Sora là những video thực tế về hai chú chó tha mồi đang podcast trên đỉnh núi, một bà cụ đang làm bánh gnocchi và các động vật biển tham gia cuộc đua xe đạp trên đại dương xanh.

Chất lượng siêu thực của video đã gây ra phản ứng choáng váng trên mạng xã hội, người dùng gọi kết quả là “ngoài thế giới này” và “người thay đổi trò chơi”. Các đối thủ của OpenAI là Meta và Google cũng đã trình diễn công nghệ AI chuyển văn bản thành video, nhưng mô hình của họ chưa mang lại kết quả thực tế như của Sora.

sora
Hình ảnh cắt ra từ video của Sora tạo ra

Làm sao để trải nghiệm tự tạo video với Sora?

Giống như Lumiere của Google, khả năng tiếp cận Sora đang bị hạn chế chỉ dành cho “các thành viên đội đỏ” hoặc các chuyên gia trong các lĩnh vực kiểm nghiệm.

OpenAI cho biết họ có kế hoạch hợp tác với một nhóm chuyên gia để thử nghiệm mô hình Sora và xem xét kỹ lưỡng nội dung tạo ra ở các khía cạnh khác nhau bao gồm thông tin sai lệch, nội dung thù địch và thành kiến. Công ty cho biết họ cũng đang xây dựng các công cụ giúp phát hiện thông tin sai lệch.

Sora trước tiên sẽ được cung cấp cho các giáo sư an ninh mạng, được gọi là “đội đỏ”, những người có thể đánh giá sản phẩm về tác hại hoặc rủi ro. Nó cũng cấp quyền truy cập cho một số nghệ sĩ thị giác, nhà thiết kế và nhà làm phim để thu thập phản hồi về cách các chuyên gia sáng tạo có thể sử dụng nó.

Bản cập nhật mới nhất được đưa ra trong các phiên bản ChatGPT sắp ban hành.

Điểm mạnh và điểm yếu của Sora

Việc ra mắt của Sora đang tạo nên một làn sóng tìm kiếm và thảo luận trên mạng xã hội X: “Liệu Sora có khiến việc sản xuất video trở nên lỗi thời không?” và “Làm cách nào tôi có thể thử nó?. Tuy đang gây sốt trên internet nhưng OpenAi cũng thẳng thắn chỉ ra những điểm yếu khi sử dụng Sora.

Điểm mạnh của Sora

Một điều có thể khiến Sora trở nên khác biệt là khả năng diễn giải những lời nhắc (prompt) dài – bao gồm một ví dụ có độ dài 135 từ. Video mẫu mà OpenAI chia sẻ hôm 15/2 chứng minh Sora có thể tạo ra nhiều nhân vật và cảnh vật khác nhau, từ con người, động vật và quái vật lông xù cho đến cảnh quan thành phố, phong cảnh, khu vườn thiền và thậm chí cả Thành phố New York chìm dưới nước.

Điều này một phần nhờ vào hoạt động trước đây của OpenAI với các mô hình Dall-E và GPT. Trình chuyển văn bản thành hình ảnh Dall-E 3 đã được phát hành vào tháng 9. Stephen Shankland của CNET gọi đây là “một bước tiến lớn so với Dall-E 2 từ năm 2022.” (Mẫu AI mới nhất của OpenAI, GPT-4 Turbo, đã ra mắt vào tháng 11. )

Cụ thể, Sora mượn kỹ thuật ghi chú lại của Dall-E 3, kỹ thuật mà OpenAI cho biết sẽ tạo ra “chú thích mang tính mô tả cao cho dữ liệu đào tạo trực quan”.

Bài đăng cho biết: “Sora có thể tạo ra những cảnh phức tạp với nhiều nhân vật, kiểu chuyển động cụ thể và chi tiết chính xác về chủ đề và bối cảnh”. “Mô hình không chỉ hiểu những gì người dùng yêu cầu trong lời nhắc mà còn hiểu những thứ đó tồn tại như thế nào trong thế giới thực.”

Các video mẫu mà OpenAI chia sẻ có vẻ rất thực tế, ngay cả khuôn mặt con người xuất hiện ở cự ly gần hay các sinh vật biển đang bơi. Nếu không được ghi chú rõ rạng, bạn có thể khó phân biệt được đâu là thật và đâu là giả.

Mô hình này cũng có thể tạo video từ hình ảnh tĩnh và mở rộng video hiện có hoặc điền vào các khung hình bị thiếu, giống như Lumiere có thể làm.

Bài đăng blog của OpenAI cho biết thêm: “Sora đóng vai trò là nền tảng cho các mô hình có thể hiểu và mô phỏng thế giới thực, khả năng mà chúng tôi tin rằng sẽ là một cột mốc quan trọng để đạt được AGI”.

AGI, hay trí tuệ nhân tạo tổng hợp, là một dạng AI tiên tiến hơn, gần với trí thông minh của con người hơn và bao gồm khả năng thực hiện nhiều nhiệm vụ hơn. Meta và DeepMind cũng đang nghiên cứu đến việc đạt được tiêu chuẩn này.

Điểm yếu của Sora

OpenAI thừa nhận Sora có điểm yếu, chẳng hạn như gặp khó khăn trong việc mô tả chính xác tính chất vật lý của một cảnh phức tạp và hiểu được nguyên nhân và kết quả.

Bài đăng của hãng cho biết: “Ví dụ: một người có thể cắn một miếng bánh quy, nhưng sau đó, chiếc bánh quy đó có thể không có vết cắn”.

Một ví dụ khác về điểm yếu của mô hình mới này là Sora trộn lẫn trái và phải. Nếu bạn yêu cầu Sora mô hình hoá chữ L thì rất có thể nó sẽ hao hao chữ J.

OpenAI không chia sẻ khi nào Sora sẽ được phổ biến rộng rãi nhưng lưu ý rằng họ muốn thực hiện “một số bước an toàn quan trọng” trước tiên. Điều đó bao gồm việc đáp ứng các tiêu chuẩn an toàn hiện có của OpenAI, nghiêm cấm bạo lực cực đoan, nội dung tình dục, hình ảnh thù hận, hình ảnh người nổi tiếng và IP của người khác.

Một số video demo tạo ra từ Sora

Video tạo ra với yêu cầu: Một video lễ hội năm mới Giáp Thìn
Video tạo ra với yêu cầu: Một người phụ nữ sành điệu đi bộ trên một con phố Tokyo đầy đèn neon phát sáng ấm áp và biển báo thành phố hoạt hình. Cô ấy mặc một chiếc áo khoác da màu đen, một chiếc váy dài màu đỏ, và đôi bốt màu đen, và mang theo một chiếc ví màu đen. Cô ấy đeo kính râm và son môi đỏ. Cô ấy bước đi một cách tự tin và tình cờ. Đường phố ẩm ướt và phản chiếu, tạo hiệu ứng gương của những ánh đèn đầy màu sắc. Nhiều người đi bộ xung quanh.
Video tạo ra với yêu cầu: Thành phố New York chìm trong đại dương. Cá, cá voi, rùa biển và cá voi bơi ngang qua các tuyến phố New York
>