<a href="https://teknologiz.com/ai/”>TeknoLogiz AI – Raksasa teknologi Tiongkok, Baidu, dilaporkan telah meluncurkan model generasi video kecerdasan buatan (AI) terbarunya, MuseStreamer. Model AI ini mampu mengintegrasikan audio berbahasa Mandarin ke dalam video yang dihasilkan, menjadikannya model kedua setelah Veo 3 milik Google yang memiliki kemampuan serupa. Baidu mengklaim MuseStreamer sebagai model AI pertama di dunia dengan dukungan generasi audio Mandarin asli. Bersamaan dengan peluncuran model bahasa besar (LLM) ini, Baidu juga dilaporkan meluncurkan platform pembuatan konten video baru bernama HuiXiang. Sayangnya, baik MuseStreamer maupun HuiXiang saat ini belum tersedia di luar Tiongkok.
Dunia model generasi video AI telah berkembang pesat dalam dua tahun terakhir. Kita telah beralih dari model yang kesulitan menghasilkan gambar manusia dengan jumlah jari yang tepat, menjadi LLM yang kini mampu menggambarkan fisika dan gerakan yang realistis. Namun, satu area yang sebagian besar pemain AI hindari adalah video yang juga mendukung audio secara native.

Google, melalui Google I/O 2025, menjadi perusahaan pertama yang menawarkan kemampuan ini dengan Veo 3, yang langsung menjadi perbincangan hangat dan mengungguli pesaing utamanya, Sora dari OpenAI. Google baru-baru ini memperluas jangkauan Veo 3 ke 154 negara tempat aplikasi Gemini tersedia, menunjukkan dorongan agresif perusahaan untuk alat ini.
Namun, menurut laporan Tech in Asia (via AI Base), Baidu kini ikut meramaikan persaingan dengan MuseStream AI. Model ini diklaim mampu menghasilkan video dengan audio Mandarin, dan satu-satunya model dengan kemampuan tersebut. Perlu dicatat, Veo 3 hanya dapat menghasilkan audio dalam bahasa Inggris.
MuseStreamer dilaporkan tidak hanya mampu menghasilkan dialog yang sinkron dengan video, tetapi juga menambahkan efek suara dan suara sekitar. Baidu mengklaim model ini mencapai skor 89,38 persen pada tolok ukur VBench I2V, menempati peringkat teratas. TeknoLogiz menilai LLM ini sebagai alat pembuatan konten yang ditujukan untuk konsumen.
Selain model AI, Baidu juga meluncurkan platform konten video HuiXiang. HuiXiang berfungsi sebagai antarmuka untuk model AI, di mana pengguna dapat berbagi prompt dan menghasilkan video. Platform ini saat ini mendukung pembuatan video berdurasi 10 detik dengan resolusi 1080p. Sebagai perbandingan, Veo 3 hanya dapat menghasilkan video berdurasi delapan detik. Belum ada kejelasan mengenai rasio aspek default video, dan apakah pengguna dapat menghasilkan video dengan rasio aspek yang berbeda.





