دنیای فناوری با سرعت سرسامآوری در حال حرکت است و گوگل با معرفی مدل جدید خود، بار دیگر توجه همگان را جلب کرده است. ما شانس این را داشتیم که از اولین کسانی باشیم که با هوش مصنوعی Gemini Omni کار میکنند؛ مدلی که گوگل آن را به عنوان یک ابزار «هر چیز به هر چیز» (anything-to-anything) معرفی کرده است. این مدل پیشرفته نه تنها متن و صدا، بلکه ویدئو و کدهای برنامهنویسی را به صورت همزمان و زنده پردازش میکند. در این بررسی، نگاهی عمیق به عملکرد این غول جدید و تواناییهای شگفتانگیز (و گاهی ترسناک) آن در تولید محتوای ویدیویی خواهیم داشت.
بررسی و تجربه کار با هوش مصنوعی Gemini Omni گوگل و جادوی ساخت ویدئو
انقلاب چندوجهی: فراتر از یک چتبات ساده
تا پیش از این، عادت کرده بودیم که با ابزارهای هوش مصنوعی به صورت متنی یا نهایتاً صوتی ارتباط برقرار کنیم. اما هوش مصنوعی Gemini Omni این مرزها را به طور کامل جابهجا کرده است. این مدل به معنای واقعی کلمه مالتیمدیا است. در تستهای اولیه، ما توانستیم دوربین گوشی را به سمت یک محیط شلوغ بگیریم و این هوش مصنوعی نه تنها اشیاء را فوراً شناسایی کرد، بلکه روابط بین آنها و حتی حس و حال حاکم بر تصویر را با لحنی کاملاً انسانی و زنده توصیف کرد. سرعت پاسخدهی آن به قدری بالا است که عملاً هیچ تاخیری بین دیدن ویدئو و ارائه پاسخ صوتی احساس نمیشود.
تولید ویدیوهای دیپفیک؛ مرز باریک واقعیت و جادو
جذابترین و البته چالشبرانگیزترین بخش آزمایش ما، مربوط به قابلیتهای تولید و ویرایش ویدئوی این ابزار بود. هوش مصنوعی Gemini Omni توانایی عجیبی در ساخت ویدیوهایی دارد که تشخیص آنها از واقعیت تقریباً غیرممکن است. در یکی از دموها، سیستم توانست با استفاده از چند ثانیه ویدیو و نمونه صدای یک فرد، یک ویدئوی کاملاً جدید و هماهنگ با حرکات لب و صورت (Lip-sync) خلق کند که به شدت واقعگرایانه بود.
این سطح از توانایی در خلق دیپفیک، پتانسیل فوقالعادهای برای تولیدکنندگان محتوا، بازیسازان و انیماتورها دارد. شما میتوانید سناریوی خود را بنویسید و یک آواتار هوشمند با بالاترین کیفیت ممکن آن را اجرا کند. با این حال، کارشناسان همزمان درباره خطرات سوءاستفاده از این فناوری در جهت تولید اخبار جعلی هشدار دادهاند؛ موضوعی که گوگل مدعی است با قرار دادن واترمارکهای پیشرفته دیجیتالی به دنبال کنترل آن است.
دستیار صوتی با طعم هوش کاملاً طبیعی
بخش دیگری که نسل جوان و کاربران شیفته تکنولوژی را مجذوب خود میکند، تغییر رفتار دستیار صوتی است. لحن صحبت کردن این مدل دیگر رباتیک و بیروح نیست. او میخندد، لحن خود را بر اساس شوخیهای شما تغییر میدهد و حتی در صورت لزوم لحنی جدی به خود میگیرد. این ویژگی، Gemini Omni را به یک همکار و همصحبت واقعی برای طراحان و تولیدکنندگان محتوا تبدیل میکند که میتوانند ایدههای خود را به صورت زنده با او به اشتراک بگذارند و بازخورد فوری دریافت کنند.
آیا گوگل برنده این رقابت است؟
تجربه کاربری ما نشان میدهد که گوگل با عرضه هوش مصنوعی Gemini Omni قدم بزرگی رو به جلو برداشته است. یکپارچگی بینظیر متن، صدا و ویدئو در یک مدل واحد، تجربهای روان و بدون نقص را رقم میزند که برای خلق محتوای مدرن در پلتفرمهایی مثل یوتیوب و اینستاگرام بینظیر است. اگرچه هنوز تا عرضه عمومی تمام این قابلیتها با حداکثر ظرفیت فاصله داریم، اما چیزی که امروز دیدیم، آینده تولید محتوا را به وضوح ترسیم میکند.
