DAV首页
数字音视工程网

微信公众号

数字音视工程网

手机DAV

null
null
null
卓华,
招商,
null
null
null
null
null

我的位置:

share

耳目达CEO辛鑫受邀LiveVideoStack Meet,探索音视频数智未来

来源:耳目达        编辑:lsy631994092    2021-10-26 08:54:24     加入收藏

作为美国西北大学计算机视觉专业博士及原亚马逊Lab126核心音频研发团队领导人,耳目达(Hamedal)品牌创始人兼CEO辛鑫受邀参与主题演讲。

  LiveVideoStack Meet是聚焦音频、视频、图像等技术的最新探索与应用实践多媒体技术领域盛会,第二站已于10月24日在苏州拉开帷幕。

  本次活动汇聚了国内外音视频行业数位顶尖技术专家及具备多年工作经验的音视频工程师、多媒体工程师、图像算法工程师、运维与物联网工程师等数十人,讨论话题涵盖教育、社交、办公等十余个领域。

  作为美国西北大学计算机视觉专业博士及原亚马逊Lab126核心音频研发团队领导人,耳目达(Hamedal)品牌创始人兼CEO辛鑫受邀参与主题演讲。

  他结合早年在微软参与Windows开发的经验及创业成果,分享了自己关于《耳目达音视频会议产品的创新实践》 ,特别聚焦视听业高质量发展,希冀通过音视频技术帮助企业顺利完成数字化转型,并就“视频会议的下一个十年”这一议题与在场大咖们进行了深入探讨。

  紧抓风向,深耕行业

  智能办公时代已来。过去的2020年是线上办公飞跃的一年,智能交互、远程开会、云会议、云课堂等纷纷从成长阶段走向成熟,表明音视频技术进入了发展的机遇期。此外,以直播、小视频为代表的沉浸式媒体与娱乐应用的全面爆发,也展现出音视频技术的不可或缺性。

  在分享中,辛鑫博士提到“随着移动互联⽹的发展,人们获取信息的终端得以进一步从固定场景转变为移动场景,带来的图像采集、语音传输、数据运算的量级都比以前有了指数级的增长。”

  “音视频技术作为实现移动沟通、企业数字化升级的底层核心能力,其重要性不言而喻。而对我们做音视频产品的厂家而言,如何完成该领域的技术创新、智能产品的不断突破,是每时每刻都必须思考的事情。

  “所有的创新改变都离不开人才,人是基石,夯实基础方能稳固根基。

  所以自2018年创立之初,耳目达集结国内外优秀的专业人才,共同完成所有产品及技术的自主开发 。现除了具备业界熟知的噪声抑制、回声消除、去混响和全双工技术外,蛙声科技团队还自研出特写分屏、五级级联、区域拾音等创新技术 ,并已成功应用于旗下一体机、会议降噪麦克风音箱、会议摄像头、话务降噪耳机等产品中。”

  “面对当下AI、5G和IoT等创新技术的飞速发展及‘万物智联’的数字浪潮,耳目达将一直坚持产业先进技术与创新理念相结合,搭建起全方位、多层次的产品体系,未来会议主机、蓝牙耳机、天花式吊顶阵列麦克风等一系列新品将逐步来到大众视野,助力各行业实现智慧办公。

  耳目达的技术硬核

  “如今视频倾向于向4K/8K超高清方向演变,越来越多的人讲究沉浸式视频体验。”辛鑫博士坦言,耳目达主要利用算法+AI技术+图像处理+语音处理这四块为客户提供灵活的、可靠的、安全化产品及场景化解决方案。

  技术的升级,必然诞生好的产品。

  耳目达自研的区域拾音技术效果显著 ,它通过麦克风阵列进行拾音,利用声音信号到达不同麦克风的时延信息,并且搭载波束形成算法,计算不同方向到达的语音成分做不同的增益,从而达到对空间中的感兴趣声源的指向性接收效果。如果将指向性由点拓展成区域,就被称作为“区域拾音”。

  目前,该技术已于耳目达V11网络摄像头和V30会议摄像头中得到落地应用,即在特定区域(产品视角范围)内清晰拾音,区域外则不拾音,从而避免无关杂音对沟通交流的干扰,做到随时随地的高质量远程会议。

  同样,耳目达A20会议降噪麦克风音箱独有的五级级联技术也值得说道。

  顾名思义,五级级联即为将五台相同设备连接(5台A20),当操纵一台机器时(1台A20),其余4台同步进行相同操作,从而实现分布式拾音与扩音,很好地解决了大空间乃至超大空间内常见的声音模糊与消散问题。 在保证语音纯正的情况下,音量将均衡地扩散至每个人耳中,不会出现声音断续和忽高忽低的情况。让远程沟通事半功倍,会议体验大幅提升。

  受益于该项技术,企业数字化会议的建设成本也能明显降低,因为A20已可完全满足不同应用场景的业务发展需求,即使后期转战更大会议室开会,也无需另购昂贵的超大型会议音箱。

  耳目达的特写分屏技术也是不少技术宅的热门话题。简言之,视频会议中的智能分屏模式包含裁剪、拼接两部分 ,就是把一幅图的某几个区域裁剪出来,然后把几张裁剪出来的图片拼接在一起,组成一幅新的图。

  如图1所示,假设在大图中有4个人,根据人脸、人体检测确定4个人的位置分别是A,B,C,D,然后根据位置裁剪出4张小图,最后把4张小图拼接成一幅新的大图。

  辛鑫指出,特写分屏的挑战在于大量数据拷贝会占用较多的cpu使用率,尤其对于4k的图像,cpu的压力会更大。耳目达产品则是通过使用主控的硬件处理模块,把数据拷贝放在硬件模块单元里处理,以减轻cpu的负载,从而完成对特定图像做画质增强,使主体更加突出,背景更加纯净。

  在日常使用中,得益于声源定位、语音追踪、人脸检测等多种AI算法,耳目达的C30R 智能4K视频会议一体机这款产品可实现更佳的场景识别和优化 ,精准确认发言人所在位置并给予特写镜头,让交互双方远隔千里依旧清晰看到各与会人的面部表情,从而更好理解所要传达的内容,而不是靠听声音去猜,享受更加愉悦的开会体验。

  演讲最后,辛鑫明确指出,如今数字化转型时代已经到来,耳目达也已明确品牌发展策略,自身将持续优化升级相关技术和解决方案,期待与各方一起基于高清、互动、优化人声方面,最大化释放协同效应,更好地支持企业数字化转型。

免责声明:本文来源于耳目达,本文仅代表作者个人观点,本站不作任何保证和承诺,若有任何疑问,请与本文作者联系或有侵权行为联系本站删除。
扫一扫关注数字音视工程网公众号

相关阅读related

评论comment

 
验证码:
您还能输入500