به طور خلاصه
- Qwen 3.5 Omni علیبابا، هوش مصنوعی چندوجهی بلادرنگ واقعی را به مسابقه پیشرو میآورد.
- پردازش بومی صوتی-تصویری از نظر سرعت و انسجام بر خطوط لوله چندوجهی به هم متصل شده پیشی میگیرد.
- شبیهسازی صدا، وقفه معنایی و کدنویسی با حس، نشاندهنده تغییر به سمت AI Agent کاملاً تعاملی است.
علیبابا به تازگی جاهطلبانهترین ارتقاء هوش مصنوعی خود را منتشر کرد.
تیم Qwen این شرکت، Qwen 3.5 Omni را روز یکشنبه منتشر کرد، نسخه جدیدی از هوش مصنوعی "چندوجهی" خود که به طور همزمان متن، تصاویر، صدا و ویدیو را پردازش میکند و در زمان واقعی در 36 زبان پاسخ میدهد و مدل خود را در همان میدان نبرد با جدیدترین مدلهای بنیادی هوش مصنوعی پیشرفته موجود قرار میدهد.
"Omni" در اینجا فقط یک کلمه کلیدی بازاریابی نیست. بیشتر مدلهای هوش مصنوعی که با آنها تعامل دارید، عمدتاً سیستمهای متن-ورودی، متن-خروجی هستند. برخی تصاویر را مدیریت میکنند، برخی صدا را. Qwen 3.5 Omni همه آنها را به صورت بومی، در همان زمان، بدون نیاز به تبدیل همه چیز به متن از طریق ابزارهای شخص ثالث مدیریت میکند.
مدل جدید در سه اندازه ارائه میشود—Plus، Flash و Light—همگی از پنجره زمینهای کوچک (بر اساس استانداردهای امروزی) 256000 توکن پشتیبانی میکنند. این مدل بر روی بیش از 100 میلیون ساعت دادههای صوتی-تصویری آموزش دیده است—مقیاسی که آن را در کلاس وزنی متفاوت از اکثر رقبا قرار میدهد.
Qwen 3.5 Omni تکامل Qwen 3 Omni Flash، مدل چندوجهی قبلی علیبابا است که در دسامبر 2025 منتشر شد. آن نسخه قبلاً با توانایی خود در پردازش همزمان ویدیو و صدا تأثیرگذار بود—میتوانست دستورالعملهای ویرایش تصویر را با ترکیب چندین ورودی بصری به روشهایی که رقبا نمیتوانستند انجام دهد—و پاسخهای صوتی را با تاخیر کمتر از 234 میلیثانیه پخش میکرد.
این اولین مدلی بود که جایگزینی برای NotebookLM گوگل را امتحان کرد. به چیزی دست یافت، اما کیفیت با پیشنهاد گوگل برابری نمیکرد.
Qwen 3.5 Omni همه اینها را میگیرد و یک پنجره زمینهای طولانیتر، استدلال بهتر، کتابخانه زبانی بسیار گستردهتر و مجموعهای از ویژگیهای تعامل در زمان واقعی را اضافه میکند که نسل قبلی نداشت.
ارتقای اصلی این است که وقتی واقعاً با آن صحبت میکنید چه اتفاقی میافتد. Qwen3.5-Omni اکنون از وقفه معنایی پشتیبانی میکند: میتواند تفاوت بین گفتن "اوهوم" در وسط جمله و واقعاً میخواهید وسط حرف بپرید را تشخیص دهد، بنابراین هر بار که کسی در پسزمینه سرفه میکند، وسط فکر متوقف نمیشود و تعامل گفتاری را روانتر میکند.
یک تکنیک جدید به نام ARIA، مخفف Adaptive Rate Interleave Alignment، همچنین یک آزار ظریف اما مداوم را برطرف میکند: سیستمهای هوش مصنوعی که هنگام خواندن با صدای بلند، اعداد یا کلمات غیرعادی را مخدوش میکنند. ARIA به صورت پویا متن و گفتار را همگام میکند تا خروجی طبیعی و دقیق باقی بماند.
سپس شبیهسازی صدا وجود دارد. کاربران میتوانند یک نمونه صوتی آپلود کنند و مدل آن صدا را در پاسخهای خود اتخاذ کند، ویژگی که Qwen را مستقیماً در رقابت با ElevenLabs و سایر ابزارهای اختصاصی صوتی قرار میدهد. با این حال، ما نتوانستیم به این ویژگی دسترسی داشته باشیم، زیرا این ویژگی، حداقل در حال حاضر، فقط از طریق API در دسترس است.
در معیارهای ثبات صدای چندزبانه، Qwen3.5 Omni-Plus از ElevenLabs، GPT-Audio و Minimax در 20 زبان پیشی گرفت. این مدل اکنون از جستجوی وب در زمان واقعی نیز پشتیبانی میکند، به این معنی که میتواند به سؤالات مربوط به اخبار فوری یا دادههای بازار زنده بدون وانمود کردن به اینکه قبلاً میداند پاسخ دهد.
این تیم همچنین چیزی را که آنها "کدنویسی صوتی-تصویری با حس" مینامند برجسته میکند، مدل میتواند یک ضبط صفحه یا ویدیوی یک وظیفه کدنویسی را تماشا کند و کد کاربردی را صرفاً بر اساس آنچه میبیند و میشنود بنویسد، بدون نیاز به پرامپت متنی. این پیشنمایش کوچکی از نحوه عملکرد دستیارهای هوش مصنوعی در داخل جریان کاری شما به جای کنار آن است.
برای درک اینکه "چندوجهی" در عمل واقعاً به چه معناست، یک تست سریع انجام دادیم: ما به Qwen3.5-Omni و ChatGPT 5.4 در حالت "تفکر" همان YouTube Short را دادیم—کلیپی از رئیس Dastan (Dastan شرکت مادر Decrypt است) و مفسر Farokh در حال بحث درباره اخبار فوری. Qwen 3.5 Omni ویدیو را به صورت بومی پردازش کرد و یک تحلیل کامل را در حدود یک دقیقه بازگرداند: چه کسی صحبت میکرد، درباره چه چیزی بحث میکردند و یک نظر اساسی در مورد موضوع بر اساس دانش خود از حوزه موضوعی.
ChatGPT 5.4، که چندوجهی نیست، مجبور بود با آنچه دریافت کرده مدیریت کند. فریمها را از ویدیو استخراج کرد، آنها را از طریق یک مدل بینایی اجرا کرد، از Whisper برای رونویسی صدا استفاده کرد و یک ابزار OCR را برای خواندن زیرنویسهای جاسازیشده به کار برد—سه فرآیند جداگانه که به هم متصل شدهاند تا کاری را که Qwen3.5-Omni در یک پاس انجام میدهد تقریب بزنند. نتیجه نه دقیقه طول کشید، و این در شرایط ایدهآل است: یک ویدیوی با نور خوب با صدای واضح و زیرنویسهای ثابت. محتوای دنیای واقعی به ندرت هر سه را ارائه میدهد.
در آزمایشهای سریع ما در چندین ورودی، این مدل همچنین پرامپتها را به اسپانیایی، پرتغالی و انگلیسی بدون مشکل مدیریت کرد—تعویض زبانها در وسط گفتگو بدون از دست دادن زمینه.
در معیارهای استاندارد، Qwen 3.5 Omni Plus از Gemini 3.1 Pro در درک صوتی عمومی، استدلال و وظایف ترجمه بهتر عمل کرد و در درک صوتی-تصویری با آن برابری کرد. تشخیص گفتار اکنون 113 زبان و گویش را پوشش میدهد—در مقایسه با 19 در نسل قبلی.
این دومین انتشار بزرگ هوش مصنوعی علیبابا در شش هفته است. در فوریه، Qwen 3.5 را راهاندازی کرد، یک مدل متن و بینایی که در معیارهای استدلال و کدنویسی با مدلهای پیشرو برابری یا از آنها پیشی گرفت—بخشی از یک سری که همچنین شامل Qwen Deep Research و خطی از ابزارها رقیب OpenAI و گوگل بود. Qwen 3.5 Omni این شتاب را به قلمرو کامل چندوجهی گسترش میدهد، در زمانی که هر آزمایشگاه بزرگ هوش مصنوعی در حال مسابقه برای ساخت سیستمهایی است که طیف کامل ارتباطات انسانی را مدیریت میکنند—نه فقط کلمات روی صفحه.
این مدل اکنون از طریق API Alibaba Cloud در دسترس است و میتوان آن را مستقیماً در Qwen Chat یا از طریق دموی آنلاین Hugging Face آزمایش کرد.
خبرنامه گزارش روزانه
هر روز را با مهمترین داستانهای خبری در همین لحظه، به علاوه ویژگیهای اصلی، یک پادکست، ویدیوها و موارد دیگر شروع کنید.
منبع: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review




