课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

成为教练

课程简介

案例背景:
随着深度学习技术的发展,光学字符识别技术(OCR)被广泛的运用至各个场景之中,包括自然场景中文字识别、车牌识别、票据识别等等,是机器服务人类的重要场景之一。根据美国研究机构Grand View Research, Inc的最新报告,预计到2025年,全球光学字符识别市场规模将达到133.8亿美元。
但目前OCR发展面临着诸多难题,
(1)模型的效果和处理速度的要求:OCR应用常对接海量图片转文本数据,要求数据能够得到实时处理,甚至有一些OCR应用需要部署在移动端或嵌入式硬件,对OCR模型的大小和预测速度提出了很高的要求。
(2)自定义从训练到部署全流程的需求:自然环境复杂多样,机器识别面临着尺度、光照不足、拍摄模糊等问题。同时业务场景不同,也会导致通用的商业API无法满足多样性需求,迫切需要完整的自定义训练能力和支持多样的部署能力。

解决思路:
(1)打造8.6M超轻量模型:通过精选backbone、调整特征通道数等手段,在保证效果的前提下,不断压缩模型到8.6M,包含1个检测模型(4.1M)与1个识别模型(4.5M),非常适合于部署于移动端。
(2)打通从训练到部署全流程:模型训练精选2种检测算法(EAST、DB)、4种文本识别算法(CRNN、Rosseta、STAR-Net、RARE),基本可以覆盖常见的OCR任务需求。支持基于Python/C++的预测推理、支持Serving服务化部署、支持端侧部署等丰富的部署方式,同时还提供了在线演示、Apk Demo供开发者尝试使用。

成果:
PaddleOCR开源项目经媒体报道后,引起全球开发者的热切关注和广泛好评,媒体发稿第二天,登上GitHub Trending全球榜第一名,并且截至分享者提供材料之时,项目持续保持在周榜TOP3位置,技术交流群大量企业开发者完成企业项目落地。

目标收益

(1)最新的前沿OCR技术进展及发展方向
(2)解析8.6M超轻量中英文OCR模型是如何打造的
(3)从训练到部署的完整解决方案(含真实企业案例)
(4)传授GitHub Trending 全球榜第一名登顶经验

培训对象

课程内容

案例方向


智能语音/图神经网络/知识图谱/NLP/计算机视觉

案例背景


随着深度学习技术的发展,光学字符识别技术(OCR)被广泛的运用至各个场景之中,包括自然场景中文字识别、车牌识别、票据识别等等,是机器服务人类的重要场景之一。根据美国研究机构Grand View Research, Inc的最新报告,预计到2025年,全球光学字符识别市场规模将达到133.8亿美元。
但目前OCR发展面临着诸多难题,
(1)模型的效果和处理速度的要求:OCR应用常对接海量图片转文本数据,要求数据能够得到实时处理,甚至有一些OCR应用需要部署在移动端或嵌入式硬件,对OCR模型的大小和预测速度提出了很高的要求。
(2)自定义从训练到部署全流程的需求:自然环境复杂多样,机器识别面临着尺度、光照不足、拍摄模糊等问题。同时业务场景不同,也会导致通用的商业API无法满足多样性需求,迫切需要完整的自定义训练能力和支持多样的部署能力。

收益


(1)最新的前沿OCR技术进展及发展方向
(2)解析8.6M超轻量中英文OCR模型是如何打造的
(3)从训练到部署的完整解决方案(含真实企业案例)
(4)传授GitHub Trending 全球榜第一名登顶经验

解决思路


(1)打造8.6M超轻量模型:通过精选backbone、调整特征通道数等手段,在保证效果的前提下,不断压缩模型到8.6M,包含1个检测模型(4.1M)与1个识别模型(4.5M),非常适合于部署于移动端。
(2)打通从训练到部署全流程:模型训练精选2种检测算法(EAST、DB)、4种文本识别算法(CRNN、Rosseta、STAR-Net、RARE),基本可以覆盖常见的OCR任务需求。支持基于Python/C++的预测推理、支持Serving服务化部署、支持端侧部署等丰富的部署方式,同时还提供了在线演示、Apk Demo供开发者尝试使用。

结果


PaddleOCR开源项目经媒体报道后,引起全球开发者的热切关注和广泛好评,媒体发稿第二天,登上GitHub Trending全球榜第一名,并且截至分享者提供材料之时,项目持续保持在周榜TOP3位置,技术交流群大量企业开发者完成企业项目落地。

活动详情

提交需求