بایدو مدل هوش مصنوعی PP-OCRv5 را معرفی کرد؛ تخصص در خواندن متن

پس از رونمایی از مدل Ernie X1.1، بایدو اکنون نسخه جدید PP-OCRv5 را به بازار معرفی کرده است. PP-OCRv5 یکی از مدلهای تشخیص نوری حروف (OCR) به شمار میآید که هماکنون برای استفاده عموم در دسترس کاربران از طریق Hugging Face قرار گرفته است.
بر اساس گزارش گیزموچاینا، ویژگی بارز این مدل توانایی استثنایی آن در خواندن متون است. علاوه بر این، طراحی آن به گونهای است که سبک و کم حجم باشد. یکی از چالشهای مدلهای بزرگ بینایی زبان، در دقت عمل و جزئیات مانند خواندن متنهای ساختاریافته میباشد. اما PP-OCRv5 این مشکل را برای کاربران مرتفع میسازد.
با قابلیتهای مدل هوش مصنوعی PP-OCRv5 از بایدو آشنا شوید
مدل هوش مصنوعی PP-OCRv5 بهطور خاص برای حل این محدودیتها طراحی شده است. عملکرد این مدل در دو مرحله اصلی صورت میگیرد: ابتدا محل متن را در تصویر شناسایی میکند و سپس به خواندن خود متن میپردازد.
این روش به مدل اجازه میدهد تا دقیقا مکان متن را تشخیص دهد. همچنین این فرآیند در استخراج دادهها از اسناد یا تحلیل فرمها بسیار کارآمد است. مدل PP-OCRv5 تنها ۰.۰۷ میلیارد پارامتر دارد که نسبت به مدلهای مطرح در این زمینه، بسیار کم به حساب میآید.
بایدو این مدل را بر روی سیستمهای موبایل آزمایش کرده و مشاهده شده که توانایی پردازش بیش از ۳۷۰ کاراکتر در ثانیه را بر روی پردازنده اینتل Xeon دارد. این نشان میدهد که میتوان این مدل را روی کامپیوترهای عمومی و حتی دستگاههای لبه فناوری بدون نیاز به دیتاسنترهای بزرگ به اجرا درآورد.
این شرکت، PP-OCRv5 را در زمینههای OCR با مدلهای معروفی همچون جمینای ۲.۵ پرو و GPT-4o مقایسه کرده و این مدل توانسته عملکرد مطلوبی از خود نشان دهد. علاوه بر این، مدل قادر است متون چاپی و دستنویس را بهصورت مؤثر پردازش نماید و پشتیبانی از بیش از ۴۰ زبان را نیز فراهم میآورد.
بایدو این مدل را از طریق Hugging Face برای همگان در دسترس قرار داده است و توسعهدهندگان میتوانند به راحتی از آن بهرهبرداری کنند.




