AIsphere, công ty khởi nghiệp chuyển văn bản thành video của Trung Quốc, đã hoàn thành vòng gọi vốn mới trong bối cảnh có sự quan tâm rất lớn đến trí tuệ nhân tạo (AI) tạo sinh và các mô hình ngôn ngữ lớn ở nước này.
AIsphere (có trụ sở tại Bắc Kinh, thủ đô Trung Quốc) đã huy động được hơn 100 triệu nhân dân tệ (14 triệu USD) trong vòng gọi vốn mới do hãng đầu tư mạo hiểm Fortune Capital dẫn đầu. Tuy nhiên, mức định giá công ty khởi nghiệp (startup) này không được tiết lộ.
Đây là lần gây quỹ thứ ba như vậy ở Trung Quốc trong vòng một tháng qua, sau khi gã khổng lồ công nghệ Alibaba đầu tư vào hãng phát triển mô hình ngôn ngữ lớn MiniMax và Moonshot AI, theo phương tiện truyền thông.
Được thành lập bởi Wang Changhu, cựu giám đốc công nghệ thị giác của ByteDance (chủ sở hữu TikTok) vào tháng 4.2023, AIsphere đã ra mắt công cụ tạo video PixVerse hồi tháng 1 cho thị trường nước ngoài. Công ty cho biết phiên bản beta PixVerse dành cho người dùng ở Trung Quốc đã được phát hành hôm 11.3.
AIsphere tự quảng cáo có “gien ByteDance”, mà theo công ty là “đã giải quyết được một số vấn đề đẳng cấp thế giới trong lĩnh vực thị giác máy tính dựa trên quy mô dữ liệu người dùng khổng lồ, đồng thời hỗ trợ việc xây dựng và phát triển các sản phẩm video phi thường như Douyin, TikTok từ đầu đến cuối”.
AIsphere đã thu hút nhân tài từ các đối thủ, gồm gã khổng lồ game Tencent, Kuaishou (công ty cung cấp ứng dụng chia sẻ video ngắn lớn thứ hai Trung Quốc) và Microsoft Research, để thành lập đội ngũ công nghệ của mình.
Wang Changhu cho biết việc OpenAI (Mỹ) trình làng Sora “đã khiến ngành công nghiệp lo lắng và phấn khích”, đồng thời nói thêm rằng AIsphere sẽ vượt qua khả năng hiện tại của Sora “trong vòng 3 đến 6 tháng”.
Được OpenAI giới thiệu vào ngày 15.2, Sora có thể tạo video tối đa 1 phút với hình ảnh ấn tượng, chân thực dựa trên gợi ý từ người dùng. Sora tạo ra các cảnh phức tạp với nhiều nhân vật, những kiểu chuyển động cụ thể cũng như chi tiết chính xác về chủ đề và hậu cảnh dựa trên những gì người dùng yêu cầu. OpenAI chính là công ty kích hoạt cơn sốt AI toàn cầu vào cuối năm 2023 với việc ra mắt chabot ChatGPT.
Một số nhà lãnh đạo trong lĩnh vực công nghệ Trung Quốc đã giảm bớt sự lạc quan đối với AI tạo sinh trong nước trước những tiến bộ của các đối thủ nước ngoài.
Zhou Hongyi, Chủ tịch kiêm Giám đốc điều hành của hãng bảo mật 360 Security Technology, nói rằng khoảng cách giữa Trung Quốc và Mỹ trong phát triển AI “có thể lớn hơn” nếu OpenAI đang nghiên cứu các “vũ khí bí mật” khác.
Nhà đầu tư mạo hiểm Allen Zhu Xiaohu, Giám đốc điều hành GSR Ventures – nổi tiếng với khoản đầu tư ban đầu vào hãng dịch vụ gọi xe đình đám Didi Chuxing, cho biết ông không quan tâm đến việc tài trợ cho các công ty khởi nghiệp Trung Quốc xây dựng mô hình ngôn ngữ lớn.
Allen Zhu Xiaohu nói trong một cuộc phỏng vấn với cổng thông tin trực tuyến Tencent News rằng việc đầu tư như vậy “vô nghĩa vì những công ty khởi nghiệp về mô hình ngôn ngữ lớn này không có kịch bản cũng như dữ liệu ứng dụng liên quan” để các mô hình kinh doanh phát triển thịnh vượng.
AIsphere cho biết giai đoạn đầu tiên trong nỗ lực thương mại hóa của mình sẽ là cung cấp cho người sáng tạo “dịch vụ tạo video chất lượng”, sau đó cung cấp nội dung do AI sản xuất trực tiếp cho người dùng.
Vào tháng 1, Tencent đã trình làng công cụ chỉnh sửa và tạo video nguồn mở VideoCrafter2, có khả năng tạo video từ văn bản. Đây là phiên bản cập nhật của VideoCrafter1, được phát hành vào tháng 10.2023 nhưng chỉ giới hạn ở các video chỉ 2 giây.
Gần như cùng thời gian đó, ByteDance đã phát hành mô hình chuyển văn bản thành video MagicVideo-V2. Theo trang GitHub của dự án, MagicVideo-V2 kết hợp “mô hình chuyển văn bản thành hình ảnh, trình tạo chuyển động video, mô đun nhúng hình ảnh tham chiếu và mô đun nội suy khung vào một đường dẫn tạo video từ đầu đến cuối”.
ModelScope, đơn vị của Damo Vision Intelligence Lab thuộc Alibaba, cũng giới thiệu mô hình chuyển văn bản thành video nhưng hiện chỉ hỗ trợ đầu vào tiếng Anh và đầu ra video bị giới hạn trong 2 giây.
Gần đây, các giáo sư từ Đại học Bắc Kinh và Rabbitpre (công ty AI có trụ sở tại thành phố Thâm Quyến, Trung Quốc) đang thực hiện một nỗ lực mới để phát triển phiên bản Trung Quốc của Sora.
Nhóm các nhà nghiên cứu này đã cùng nhau đưa ra kế hoạch Open-Sora thông qua một trang trên nền tảng lưu trữ mã nguồn GitHub, với sứ mệnh “tái tạo mô hình tạo video từ văn bản của OpenAI”.
Kế hoạch Open-Sora nhằm mục đích tái tạo một phiên bản “đơn giản và có thể mở rộng” của Sora với sự trợ giúp từ cộng đồng nguồn mở.
Theo trang GitHub của dự án này, nhóm nghiên cứu đã phát triển một khung công việc gồm 3 phần và trình chiếu 4 bản demo của các video được tái tạo ở các độ phân giải và tỷ lệ khung hình khác nhau, từ 3 giây đến 24 giây.
Các nhiệm vụ tiếp theo của nhóm gồm tinh chỉnh công nghệ để tạo ra độ phân giải cao hơn cũng như đào tạo với nhiều dữ liệu hơn và nhiều bộ xử lý đồ họa (GPU) hơn.
Kế hoạch Open-Sora được đưa ra bởi Rabbitpre AIGC Joint Lab (sự hợp tác giữa Trường Cao học Thâm Quyến của Đại học Bắc Kinh và Rabbitpre), thành lập vào tháng 6.2023. Rabbitpre AIGC Joint Lab chuyên nghiên cứu trong lĩnh vực nội dung do AI sản xuất.
Dự án Open-Sora liệt kê 13 thành viên là nhóm ban đầu, gồm cả trợ lý Giáo sư Yuan Li từ khoa Kỹ thuật Điện và Máy tính của Đại học Bắc Kinh và Giáo sư Tian Yonghong từ Trường Khoa học Máy tính. Danh sách này còn có Dong Shaoling (người sáng lập kiêm Giám đốc điều hành Rabbitpre) và Chu Xing (Giám đốc công nghệ Rabbitpre).
Tại OpenAI, Jing Li và Ricky Wang Yu, 2 trong số 13 thành viên của nhóm phát triển Sora, được xác định là đến từ Trung Quốc. Cả hai gần đây đã được vinh danh ở quê nhà vì những nỗ lực của họ.
Jing Li gia nhập OpenAI vào tháng 10.2022, trong khi Ricky Wang Yu mới làm việc tại công ty có trụ sở tại thành phố San Francisco (Mỹ) được khoảng hai tháng, theo hồ sơ LinkedIn tương ứng của họ.
Jing Li được Trường Trung học số 2 Vũ Hán ở trung tâm tỉnh Hồ Bắc (Trung Quốc) ca ngợi vì “tỏa sáng trên trường quốc tế”, theo bài đăng hôm 26.2 trên tài khoản WeChat chính thức của trường này.
Ricky Wang Yu tốt nghiệp năm 2013 tại NSFZ, trường trung học liên kết với Đại học Sư phạm Nam Kinh ở tỉnh Giang Tô (Trung Quốc), theo bản tin trên Modern Express và Yangtze Evening Post – hai tờ báo đều được chính quyền tỉnh Giang Tô hậu thuẫn.
“Sự đổi mới của Wang và nhóm của anh ấy đã trở thành chủ đề nóng, tiếp tục thu hút sự chú ý của thanh thiếu niên, gồm cả sinh viên NSFZ”, tích nội dung bài viết trên Modern Express.
Sự chú ý mà Jing Li, Ricky Wang Yu nhận được phản ánh cách cộng đồng doanh nghiệp và công nghệ Trung Quốc bày tỏ sự phấn khích với việc Sora đưa các ứng dụng AI tiến xa một bước nữa, dù vẫn còn lo ngại rằng các lệnh trừng phạt từ Mỹ có thể ngăn cản Trung Quốc bắt kịp với sự tiến triển này.
Theo MacroPolo, tổ chức tư vấn nội bộ của Viện Paulson ở thành phố Chicago (Mỹ), những tài năng được đào tạo tại Trung Quốc được coi là một trong những nguồn lực chính để thúc đẩy công nghệ thế hệ tiếp theo ở Mỹ. Tổ chức này phát hiện ra rằng 27% các nhà nghiên cứu AI tại các tổ chức của Mỹ đến từ Trung Quốc, tạo thành nhóm địa lý lớn thứ hai sau Mỹ (chiếm 31%).
Là một trong những nhà phát triển chính đằng sau Dall-E 3 (mô hình tạo hình ảnh từ văn bản mạnh mẽ của OpenAI), Jing Li được trường cũ khen ngợi vì đã lọt vào danh sách 30 Under 30 (vinh danh những người dưới 30 tuổi có ảnh hưởng lớn trong các lĩnh vực khác nhau) năm 2019 của tạp chí Forbes tại Trung Quốc và giành huy chương vàng năm 2010 Olympic Vật lý Quốc tế, theo bài đăng trên WeChat của Trường Trung học Số 2 Vũ Hán.
Trước khi gia nhập OpenAI, Jing Li đã làm việc hơn hai năm tại Meta Platforms (chủ sở hữu Facebook), theo hồ sơ LinkedIn cá nhân. Anh đồng sáng lập công ty khởi nghiệp về điện toán quang học Lightelligence một năm sau khi lấy bằng tiến sĩ vật lý tại Viện Công nghệ Massachusetts (Mỹ) vào năm 2019. Jing Li tốt nghiệp Đại học Bắc Kinh (Trung Quốc) hồi năm 2014 với bằng cử nhân vật lý.
Trong khi đó, Ricky Wang Yu bắt đầu sự nghiệp chuyên nghiệp của mình tại Meta Platforms và Instagram, theo hồ sơ LinkedIn của anh. Ricky Wang Yu nhận bằng đại học tại Đại học California – Berkeley (Mỹ) ngay sau khi hoàn thành trung học.