TeknoLogiz AI – Tim Qwen dari Alibaba meluncurkan model kecerdasan buatan (AI) generasi gambar baru pekan lalu. Disebut Qwen VLo, model ini merupakan penerus model bahasa visual Qwen 2.5 dan hadir dengan beberapa peningkatan dibandingkan model sebelumnya. Model gambar AI terbaru ini mendukung pembuatan gambar teks-ke-gambar dan gambar-ke-gambar. Ia juga mendukung input teks dalam berbagai bahasa, termasuk Inggris dan Mandarin. Selain pembuatan gambar, model AI ini juga mampu melakukan pengeditan inline pada gambar yang dihasilkan maupun gambar input.
TeknoLogiz menguji model AI ini dan menemukan kemampuan pembuatan gambarnya setara dengan Imagen 2 milik Google. Meskipun kemampuan mengikuti instruksi dan kualitas output gambar sedikit lebih rendah daripada Imagen 3 dan fitur pembuatan gambar berbasis GPT-4 milik OpenAI, waktu pembuatannya lebih cepat dan memiliki batas laju yang lebih tinggi.

Di halaman GitHub-nya, perusahaan menyatakan bahwa Qwen VLo hadir dengan peningkatan pemahaman gambar, yang memungkinkan pengeditan inline yang lebih baik tanpa mengganggu integritas struktural gambar input. Hal ini juga meningkatkan kualitas keseluruhan output. Model ini juga lebih memahami prompt yang ambigu dan terbuka, dan dapat menghasilkan gambar yang sesuai dengan harapan pengguna.
Selain pembuatan dan pengeditan gambar, Qwen VLo juga dapat melakukan tugas-tugas terkait anotasi gambar seperti deteksi tepi, segmentasi, pemetaan prediksi, dan banyak lagi. Perusahaan mengatakan versi model di masa mendatang juga akan dapat menerima banyak gambar input dan menggabungkannya berdasarkan permintaan pengguna.
Perenderan teks juga telah ditingkatkan dengan generator gambar AI terbaru ini. TeknoLogiz berhasil menghasilkan teks yang akurat di berbagai font selama pengujian model. Terakhir, Qwen VLo juga mendukung gambar dengan rasio aspek dinamis sebagai input, termasuk rasio ekstrem seperti 4:1 dan 1:3. Perusahaan berencana untuk menambahkan fitur untuk menghasilkan gambar dalam berbagai rasio aspek segera. Model Qwen3-235B-A22B ini tersedia secara gratis di antarmuka obrolan perusahaan. Pengguna juga dapat menggunakan model tanpa login.