课程简介
案例背景:
未来人机交互的方式已成为行业研究探索的热点,毫无疑问,自然交互是最重要的目标,而多模态人机交互则是实现自然交互的非常关键的技术,如何实现多模态的识别、理解、表达都遇到很大的挑战,本次报告希望能够分享搜狗在多模态人机交互上的思考,特别在如何实现多模态融合识别以及表达上的工作。
解决思路:
我们的研究重点主要放在如下三项技术的研究,目前行业都属于探索阶段,搜狗率先实现了实用化落地,在落地过程中结合产品需求设计算法和工程,非常关键:
1. 多模态识别技术
2. 多模态表达技术
3. 面向自然交互的数字人技术
成果:
我们实现了语音+唇语的多模态识别技术,在高噪情况下识别错误率可以下降40%以上,同时我们在数字人技术上实现了重大突破,发布了搜狗分身,真正实现了数字人的生产和驱动,最终能够实现自然交互式的人与数字人的交流对话。
目标收益
1. 了解人机交互目前的趋势
2. 了解语音交互过程各个环节的研发进展及应用情况
3. 了解以数字人为基础的多模态交互研发进展及应用情况
培训对象
课程内容
案例方向
智能语音/NLP/推荐/广告系统实战/计算机视觉
案例背景
未来人机交互的方式已成为行业研究探索的热点,毫无疑问,自然交互是最重要的目标,而多模态人机交互则是实现自然交互的非常关键的技术,如何实现多模态的识别、理解、表达都遇到很大的挑战,本次报告希望能够分享搜狗在多模态人机交互上的思考,特别在如何实现多模态融合识别以及表达上的工作。
收益
1. 了解人机交互目前的趋势
2. 了解语音交互过程各个环节的研发进展及应用情况
3. 了解以数字人为基础的多模态交互研发进展及应用情况
解决思路
我们的研究重点主要放在如下三项技术的研究,目前行业都属于探索阶段,搜狗率先实现了实用化落地,在落地过程中结合产品需求设计算法和工程,非常关键:
1. 多模态识别技术
2. 多模态表达技术
3. 面向自然交互的数字人技术
结果
我们实现了语音+唇语的多模态识别技术,在高噪情况下识别错误率可以下降40%以上,同时我们在数字人技术上实现了重大突破,发布了搜狗分身,真正实现了数字人的生产和驱动,最终能够实现自然交互式的人与数字人的交流对话。