مدل نوین DeepSeek بهروزرسانیهای قابل توجهی را تجربه کرده است؛ رقابتی جدید برای حریفان
شرکت چینی DeepSeek که با ارائه نسخه اولیه مدل استدلالی R1 خود توانسته بود توجهات بسیاری را جلب کند، حالا مدل جدیدی با نام DeepSeek-R1-0528 را معرفی کرده که به طرز قابل توجهی بهبودهایی در نسل جدید استدلال عرضه کرده است. از دیدگاه عملکرد، این مدل به لحاظ قدرت و کارایی به o3 از OpenAI و گوگل جمینای 2.5 نزدیکتر شده است.
بر اساس اطلاعاتی که در مورد این مدل منتشر شده، DeepSeek-R1-0528 از نظر عملکرد در زمینههای مختلفی چون ریاضیات، علوم و برنامهنویسی به طرز محسوسی ارتقاء یافته است.
برپایه اطلاعات انتشاریافته در پلتفرم هاگینگفیس، DeepSeek-R1-0528 با بهرهگیری از منابع محاسباتی بیشتر و طراحیهای بهینهساز پس از مرحله آموزش، بهبودهای قابل توجهی در عملکرد را به کشورهای کاربری ارائه داده است. به عنوان نمونه، دقت این مدل در آزمون AIME 2025 از 70 به 87.5 درصد افزایش یافته و در حوزه برنامهنویسی، امتیاز مدل در بنچمارک LiveCodeBench از 63.5 به 73.3 درصد صعود کرده است. همچنین در آزمون چالشبرانگیز Humanity’s Last Exam، دقت آن از 8.5 به 17.7 درصد پیشرفت کرده است.
نسخه کوچکتر مدل جدید DeepSeek
به موازات نسخه اصلی، مدل کوچکتری با عنوان DeepSeek-R1-0528-Qwen3-8B نیز معرفی شده که برای اجرا در سیستمهای سختافزاری با قابلیتهای کمتر مناسب است. این مدل از لحاظ عملکردی فراتر از Qwen3-8B بوده و به طور مستقیم با Qwen3-235B-thinking رقابت میکند. برای اجرای این مدل 8 میلیارد پارامتری در حالت FP16، به حداقل 16 گیگابایت حافظه گرافیکی نیاز است.
مشابه نسخه قبلی، این مدل نیز به صورت متنباز و تحت مجوز MIT ارائه شده و برای مقاصد تجاری در دسترس قرار دارد. نسخه کامل مدل در پلتفرم Hugging Face بارگذاری شده و مستندات جامع آن نیز از طریق گیتهاب و API اختصاصی DeepSeek برای توسعهدهندگان در دسترس است. کاربران API دیپسیک به طور خودکار به این نسخه ارتقا خواهند یافت.
کاربران در شبکههای اجتماعی از انتشار این نسخه به خوبی استقبال کردهاند. شخصی با نام Haider در ایکس، عملکرد مدل را در برنامهنویسی فوقالعاده توصیف کرده و آن را تنها رقیب جدی o3 قلمداد نموده است. همچنین کاربر دیگری با نام Lisan al Gaib، DeepSeek را به عنوان رقیب مستقیم o3 و Gemini معرفی کرده است.