هوش مصنوعی

بهتر از DeepSeek؛ هوش مصنوعی جدید شرکت چینی Alibaba معرفی شد

شرکت فناوری چینی Alibaba نسخه جدیدی از مدل هوش مصنوعی Qwen 2.5 خود رونمایی کرد که ادعا می کند از مدل تحسین شده DeepSeekV3 بهتر است.

براساس اعلام Alibaba، مدل جدید Qwen2.5Max در بنچمارک هایی مانند ArenaHard، LiveCodeBench و GPQADiamond از DeepSeek V3 بهتر عمل می کند. در دیگر بنچمارک ها نیز تقریباً هم سطح مدل دیپ سیک است. همچنین این شرکت می گوید که مدلش از GPT4o و Llama3.1405B در بخش های مختلفی عملکرد بهتری دارد.

اکنون می توانید به API این مدل در Alibaba Cloud دسترسی داشته باشید. همچنین این مدل قدرتمند در Qwen Chat منتشر شده است که در آن می توانید عکس و ویدیو نیز تولید کنید.

هوش مصنوعی جدید Alibaba

مدل Qwen2.5Max یک مدل MoE (ترکیب متخصصان) در مقیاس بزرگ است که بر روی بیش از 20 تریلیون توکن و با روش های تنظیم دقیق نظارت شده (SFT) و یادگیری تقویتی از بازخورد انسانی (RLHF) آموزش دیده است. درکل رویکرد MoE کمک می کند تا هوش مصنوعی بدون خوشه های GPU عظیم به دست آید و هزینه های زیرساخت را 40 تا 60 درصد نسبت به سایر رویکردهای مدل های زبانی بزرگ کاهش داد.

مدل جدید علی بابا و البته DeepSeek نشان می دهند که به جای سرمایه گذاری هنگفت در ایجاد مراکز داده و خوشه های GPU بزرگ می توان با بهینه سازی معماری هوش مصنوعی مدل هایی کم هزینه و کارآمد توسعه داد. عملکرد قوی این مدل در تولید کد (با امتیاز 38.7 درصد در بنچمارک LiveCodeBench) و استدلال (با امتیاز 89.4 درصد در ArenaHard) نشان می دهد می توان بسیاری از کاربردهای هوش مصنوعی مولد را با توان پردازشی کمتری مدیریت کرد.

البته فقط عملکرد خوب در بنچمارک ها کافی نیست تا یک مدل هوش مصنوعی در بین کاربران محبوب شود. رعایت حریم خصوصی داده های کاربران، ارائه API قابل اطمینان و پشتیبانی طولانی مدت نیز از عوامل تأثیرگذار هستند. درکل اکنون باید دید که آیا مدل جدید علی بابا می تواند در رقابت با دیپ سیک و شرکت های آمریکایی عملکرد قابل قبولی داشته باشد یا خیر.

مقالات مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا