نسخه 3.1 مدل هوش مصنوعی دیپسیک با فضای محتوایی وسیعتر عرضه گردید
شرکت چینی دیپسیک از مدل بزرگ زبانی نسخه 3.1 خود رونمایی کرده است که با افزایش حداکثر طول پنجره متنی به 128 هزار توکن و همچنین افزایش تعداد پارامترها به 685 میلیارد، شاهد بهبود چشمگیری در قابلیتهای پردازش و عملکرد این مدل بودهایم.
تغییرات نسخه 3.1 دیپسیک
طبق گزارشها، ویژگی برتر دیپسیک V3.1، توانایی مدیریت متون بلند است؛ اکنون این مدل قادر به پردازش اطلاعات معادل یک کتاب 300 تا 400 صفحهای میباشد. این قابلیت به بهبود عملکرد در تولید محتوای وسیع، تجزیه و تحلیل اسناد و همچنین انجام مکالمات چندمرحلهای کمک شایانی کرده است. شرکت اعلام کرده است که این امکان پیشتر در نسخه داخلی V3 وجود داشت، اما اکنون بهطور رسمی در تمامی رابطها فعال شده است.
DeepSeek 3.1 همچنان بر اساس ساختار Mixture-of-Experts (MoE) طراحی شده و فقط 37 میلیارد پارامتر در هر توکن بهطور فعال به کار گرفته میشود. این مدل از فرمتهای دقت مختلف شامل BF16، FP8 و F32 پشتیبانی میکند تا قدرت انطباقپذیری بیشتری را در محیطهای گوناگون ارائه دهد. توسعهدهندگان میتوانند از طریق API یا Hugging Face به این مدل دسترسی پیدا کنند.
در ارزیابیهای اولیه، دیپسیک V3.1 موفق به کسب امتیاز 71.6 درصد در آزمون کدنویسی Aider شد و عملکردی برتر از Claude Opus 4 را از خود نشان داد که آن را به یکی از کارآمدترین مدلهای متنباز در حوزه برنامهنویسی مبدل کرده است. این مدل همچنین در حل معادلات ریاضی و مسائل منطقی پیشرفتهای معنیداری نشان داد، هرچند برخی از کاربران تغییر شایانی در قابلیت استدلال آن نسبت به نسخه R1-0528 قبلی احساس نکردند.
شرکت دیپسیک بهطور کامل ارجاعات به مدل R1 را از رابط چتبات حذف کرده و به سمت معماری هیبریدی حرکت کرده است. ویژگیهای استدلال اکنون در V3.1 ادغام شده و نیازی به مدل جداگانه نمیباشد. هزینه آموزش این نسخه هنوز اعلام نشده، اما نسخه اصلی V3 با صرف 2.788 میلیون ساعت GPU بر روی تراشههای انویدیا H800 و با هزینه تقریبی 5.6 میلیون دلار آموزش دیده بود که بهعنوان مبنایی برای نسخه جدید در نظر گرفته میشود.
در حالیکه انتظار میرفت مدل بعدی R2 با تمرکز بر ارتقاء قابلیتهای استدلالی عرضه گردد، دیپسیک در حال حاضر نسخه V3.1 را به بازار عرضه کرده است. گزارشها حاکی از آن است که مشکلات فنی تراشههای Huawei Ascend موجب تأخیر در ورود R2 شده است. ظاهراً آموزش مدل روی تراشههای Ascend بهخاطر ناسازگاریها موفق نبوده و شرکت مجبور به استفاده از پردازشگرهای گرافیکی انویدیا برای آموزش شده و از Ascend تنها برای استنتاج بهره میبرد. این رویکرد ترکیبی باعث افزایش پیچیدگی و کندی در روند توسعه گردیده و عرضه را به تأخیر انداخته است.
تا زمان مشخص شدن عرضه مدل دیپسیک R2، نسخه V3.1 بهعنوان قله فناوری فعلی دیپسیک باقی خواهد ماند و توانایی انجام همزمان وظایف استدلالی و غیراستدلالی را در یک چارچوب یکپارچه داراست.