هوش مصنوعی

بایدو مدل هوش مصنوعی PP-OCRv5 را معرفی کرد؛ تخصص در خواندن متن

پس از رونمایی از مدل Ernie X1.1، بایدو اکنون نسخه جدید PP-OCRv5 را به بازار معرفی کرده است. PP-OCRv5 یکی از مدل‌های تشخیص نوری حروف (OCR) به شمار می‌آید که هم‌اکنون برای استفاده عموم در دسترس کاربران از طریق Hugging Face قرار گرفته است.

بر اساس گزارش گیزموچاینا، ویژگی بارز این مدل توانایی استثنایی آن در خواندن متون است. علاوه بر این، طراحی آن به گونه‌ای است که سبک و کم حجم باشد. یکی از چالش‌های مدل‌های بزرگ بینایی زبان، در دقت عمل و جزئیات مانند خواندن متن‌های ساختاریافته می‌باشد. اما PP-OCRv5 این مشکل را برای کاربران مرتفع می‌سازد.

با قابلیت‌های مدل هوش مصنوعی PP-OCRv5 از بایدو آشنا شوید

مدل هوش مصنوعی PP-OCRv5 به‌طور خاص برای حل این محدودیت‌ها طراحی شده است. عملکرد این مدل در دو مرحله اصلی صورت می‌گیرد: ابتدا محل متن را در تصویر شناسایی می‌کند و سپس به خواندن خود متن می‌پردازد.

این روش به مدل اجازه می‌دهد تا دقیقا مکان متن را تشخیص دهد. همچنین این فرآیند در استخراج داده‌ها از اسناد یا تحلیل فرم‌ها بسیار کارآمد است. مدل PP-OCRv5 تنها ۰.۰۷ میلیارد پارامتر دارد که نسبت به مدل‌های مطرح در این زمینه، بسیار کم به حساب می‌آید.

بایدو این مدل را بر روی سیستم‌های موبایل آزمایش کرده و مشاهده شده که توانایی پردازش بیش از ۳۷۰ کاراکتر در ثانیه را بر روی پردازنده اینتل Xeon دارد. این نشان می‌دهد که می‌توان این مدل را روی کامپیوترهای عمومی و حتی دستگاه‌های لبه فناوری بدون نیاز به دیتاسنترهای بزرگ به اجرا درآورد.

این شرکت، PP-OCRv5 را در زمینه‌های OCR با مدل‌های معروفی همچون جمینای ۲.۵ پرو و GPT-4o مقایسه کرده و این مدل توانسته عملکرد مطلوبی از خود نشان دهد. علاوه بر این، مدل قادر است متون چاپی و دست‌نویس را به‌صورت مؤثر پردازش نماید و پشتیبانی از بیش از ۴۰ زبان را نیز فراهم می‌آورد.

بایدو این مدل را از طریق Hugging Face برای همگان در دسترس قرار داده است و توسعه‌دهندگان می‌توانند به راحتی از آن بهره‌برداری کنند.

مقالات مرتبط

دکمه بازگشت به بالا