هوش مصنوعی

نسخه 3.1 مدل هوش مصنوعی دیپ‌سیک با فضای محتوایی وسیع‌تر عرضه گردید

شرکت چینی دیپ‌سیک از مدل بزرگ زبانی نسخه 3.1 خود رونمایی کرده است که با افزایش حداکثر طول پنجره متنی به 128 هزار توکن و همچنین افزایش تعداد پارامترها به 685 میلیارد، شاهد بهبود چشمگیری در قابلیت‌های پردازش و عملکرد این مدل بوده‌ایم.

تغییرات نسخه 3.1 دیپ‌سیک

طبق گزارش‌ها، ویژگی برتر دیپ‌سیک V3.1، توانایی مدیریت متون بلند است؛ اکنون این مدل قادر به پردازش اطلاعات معادل یک کتاب 300 تا 400 صفحه‌ای می‌باشد. این قابلیت به بهبود عملکرد در تولید محتوای وسیع، تجزیه و تحلیل اسناد و همچنین انجام مکالمات چندمرحله‌ای کمک شایانی کرده است. شرکت اعلام کرده است که این امکان پیش‌تر در نسخه داخلی V3 وجود داشت، اما اکنون به‌طور رسمی در تمامی رابط‌ها فعال شده است.

DeepSeek 3.1 همچنان بر اساس ساختار Mixture-of-Experts (MoE) طراحی شده و فقط 37 میلیارد پارامتر در هر توکن به‌طور فعال به کار گرفته می‌شود. این مدل از فرمت‌های دقت مختلف شامل BF16، FP8 و F32 پشتیبانی می‌کند تا قدرت انطباق‌پذیری بیشتری را در محیط‌های گوناگون ارائه دهد. توسعه‌دهندگان می‌توانند از طریق API یا Hugging Face به این مدل دسترسی پیدا کنند.

در ارزیابی‌های اولیه، دیپ‌سیک V3.1 موفق به کسب امتیاز 71.6 درصد در آزمون کدنویسی Aider شد و عملکردی برتر از Claude Opus 4 را از خود نشان داد که آن را به یکی از کارآمدترین مدل‌های متن‌باز در حوزه برنامه‌نویسی مبدل کرده است. این مدل همچنین در حل معادلات ریاضی و مسائل منطقی پیشرفت‌های معنی‌داری نشان داد، هرچند برخی از کاربران تغییر شایانی در قابلیت استدلال آن نسبت به نسخه R1-0528 قبلی احساس نکردند.

شرکت دیپ‌سیک به‌طور کامل ارجاعات به مدل R1 را از رابط چت‌بات حذف کرده و به سمت معماری هیبریدی حرکت کرده است. ویژگی‌های استدلال اکنون در V3.1 ادغام شده و نیازی به مدل جداگانه نمی‌باشد. هزینه آموزش این نسخه هنوز اعلام نشده، اما نسخه اصلی V3 با صرف 2.788 میلیون ساعت GPU بر روی تراشه‌های انویدیا H800 و با هزینه تقریبی 5.6 میلیون دلار آموزش دیده بود که به‌عنوان مبنایی برای نسخه جدید در نظر گرفته می‌شود.

در حالی‌که انتظار می‌رفت مدل بعدی R2 با تمرکز بر ارتقاء قابلیت‌های استدلالی عرضه گردد، دیپ‌سیک در حال حاضر نسخه V3.1 را به بازار عرضه کرده است. گزارش‌ها حاکی از آن است که مشکلات فنی تراشه‌های Huawei Ascend موجب تأخیر در ورود R2 شده است. ظاهراً آموزش مدل روی تراشه‌های Ascend به‌خاطر ناسازگاری‌ها موفق نبوده و شرکت مجبور به استفاده از پردازشگرهای گرافیکی انویدیا برای آموزش شده و از Ascend تنها برای استنتاج بهره می‌برد. این رویکرد ترکیبی باعث افزایش پیچیدگی و کندی در روند توسعه گردیده و عرضه را به تأخیر انداخته است.

تا زمان مشخص شدن عرضه مدل دیپ‌سیک R2، نسخه V3.1 به‌عنوان قله فناوری فعلی دیپ‌سیک باقی خواهد ماند و توانایی انجام همزمان وظایف استدلالی و غیراستدلالی را در یک چارچوب یکپارچه داراست.

مقالات مرتبط

دکمه بازگشت به بالا