مدل DeepSeek R1 با بهروزرسانی جدید بهطور رسمی رونمایی شد و ویدیویی از آن منتشر گردید
استارتاپ چینی DeepSeek بهعنوان یکی از رقبای جدی در عرصه هوش مصنوعی، نسخه جدید مدل استدلالی R1 خود را از طریق پیامرسان WeChat معرفی کرد و سپس آن را در پلتفرم Hugging Face به اشتراک گذاشت.
DeepSeek که امسال با مدل R1 توجهات فراوانی را به خود جلب کرده بود، به تازگی نسخه بهروزرسانی شدهای از این مدل را تحت مجوز باز MIT بر روی پلتفرم Hugging Face منتشر کرده است. این مجوز به کاربران این امکان را میدهد که از مدل در مصارف تجاری بهرهبرداری کنند.
به گفته DeepSeek، این بهروزرسانی جزئی است، اما نسبت به نسخه پیشین، شامل چندین بهبود است. با این حال، مخزن مربوط به این مدل در Hugging Face فاقد توضیحات جامع است و تنها شامل فایلهای پیکربندی و وزنهای مدل میباشد که همان پارامترهایی هستند که رفتار مدل را مشخص میکنند.
مدل جدید R1 از 685 میلیارد پارامتر برخوردار است که نمایانگر ابعاد عظیم آن است. این حجم بالا باعث میشود که اجرای مدل بدون توجه به تغییرات خاصی در سختافزارهای خانگی دشوار باشد.
عملکرد مدل جدید DeepSeek R1 از زبان کاربران
براساس دادههای منتشر شده توسط برخی کاربران فعال در زمینه مدلهای هوش مصنوعی، نسخه جدید DeepSeek R1 در مقایسه با نسخه قبلی خود، بهبود چشمگیری را در بنچمارک Thematic Generation نشان داده است. امتیاز این مدل در این ارزیابی از 1.80 به 1.74 کاهش یافته که این کاهش نشاندهنده بهبود در قابلیت مدل برای تولید محتوای موضوعی است؛ زیرا در این معیار، امتیاز پایینتر به معنای کیفیت بالاتر میباشد.
علاوه بر این، یکی از کاربران با به اشتراکگذاری ویدیوئویی که عملکرد DeepSeek-R1-0528 (نسخه جدید) را در مقایسه با Claude-4-Sonnet به نمایش میگذارد، ادعا کرده است که این نسخه از لحاظ استدلال منطقی بهینهسازی قابل توجهی را تجربه کرده است. بر اساس گفتههای این کاربر، مدل جدید در حیطه توسعه فرانتاند و استفاده هوشمندانهتر از ابزارها نیز پیشرفت کرده است.
این پیشرفتها میتواند موجب تبدیل R1 به گزینهای قویتر برای توسعهدهندگان و کاربران حرفهای شود.
DeepSeek در اوایل سال جاری با ارائه نسخه اولیه مدل R1، توجهات زیادی را جلب کرد و حتی با رقبای بزرگی مانند OpenAI از لحاظ مقایسه مورد بررسی قرار گرفت. با این وجود، فناوری این استارتاپ چینی به نظر برخی نهادهای نظارتی آمریکایی تهدیدی برای امنیت ملی ایالات متحده به شمار رفته است.
این اقدام همچنین شروع موج جدیدی از انتشار مدلها توسط شرکتهای چینی نظیر علیبابا و Zhipu AI را به دنبال داشته است.