采用编码器-解码器匹配语义分割的图像压缩

news/2024/7/5 8:04:34

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。


摘要

近年来,分层图像压缩被证明是一个很有前途的方向,它将输入图像编码成一个紧凑的表示形式,并应用上采样网络来重建图像。为了进一步提高重构图像的质量,一些作品将语义段与压缩后的图像数据一起传输。因此,由于需要额外的比特来传输语义段,压缩比也降低了。为了解决这一问题,我们提出了一种新的分层图像压缩框架,即编码器-解码器匹配语义分割(EDMS)。然后,在语义分割的基础上,利用一种特殊的卷积神经网络对不准确的语义段进行增强。这样,在不需要额外的比特的情况下,就可以在译码器中获得准确的语义段。实验结果表明,与目前最先进的基于语义的图像编解码器相比,所提出的EDMS框架可降低35.31%的BD-rate,节省5%的比特率和24%的编码时间。

论文创新点

提出了一种基于编解码器匹配语义分割(EDMS)的分层图像压缩框架。在编码器和解码器中对上采样图像采用了语义分割网络。但从上采样图像中提取的语义段不如从原始图像中提取的语义段准确。为了获得这一质量差距,进一步利用具有特殊结构的卷积神经网络(CNN)将提取的线段非线性映射到其原始分布。实验结果表明,该方法比目前最先进的基于分割的图像压缩方法具有更好的性能。

框架结构

图1 我们提出的框架- EDMS与额外的分支分割增强

图2 具体训练程序

图1显示了我们的总体框架,在编码器方面,我们从上采样版本中提取片段,并使用SMapNet进行语义分割增强,并将SMapNet的输出输入到FineNet中语义段的位置。最后的残余将计算基于FineNet推进SMapNet段的输出作为输入(见图1),这残然后将由次封盖编码(先进的传统的有损图像编解码器)无损FLIF编解码器适用于图像的紧凑版本并没有额外的一些用于转移语义部分。

在解码端,我们只接收到下采样的图像和信道的损耗残差。用于重建解码后图像的语义段是从上采样的图像中进行的,并通过我们的SMapNet进行增强。接下来,FineNet使用这个增强的片段和上采样的图像作为输入来执行重建。由于我们也在编码器端执行这个过程,所以接收到的残差和重构图像之间总是存在相关性。然后将重构图像与残差相加,输出最终解码后的图像。

在我们的框架中有三个主要的网络:CompNet、FineNet和SMapNet(在本研究中提出)。图2显示了我们的SMapNet的体系结构和特定的培训过程。请参阅我们的补充文件的第1节,了解更多的培训过程和网络架构的细节。

实验结果

我们的SMapNet在语义增强任务中的性能。从上采样的图像中提取不准确的语义段。

bpp/PSNR/MS-SSIM不同压缩编解码器的质量比较。注意,我们提出的方法以最小的比特率获得最好的解码质量。

结论

本文提出了一种新的分层图像压缩框架,在不传输任何额外比特的情况下利用语义段。采用编码器-解码器匹配语义分割(EDMS)、语义段增强和特定训练程序的思想,在保证译码图像质量的同时,保留语义段传输所需的比特数。实验结果表明,与目前最先进的基于语义的图像编解码器DSSILC相比,该方法的性能优于所有传统编解码器,比特率提高5%,编码时间减少24%。由于仍然有大量的信息可以从编码器和解码器同步提取,我们的方法有潜力应用于其他未来的工作。

论文链接:https://arxiv.org/pdf/2101.09642.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

- END -

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目31讲

在「小白学视觉」公众号后台回复:Python视觉实战项目31讲即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


http://lihuaxi.xjx100.cn/news/281197.html

相关文章

数十篇推荐系统论文被批无法复现:源码、数据集均缺失,性能难达预期

作者 | Maurizio Ferrari Dacrema译者 | 凯隐责编 | Jane出品 | AI科技大本营(ID: rgznai100)【导读】来自意大利米兰理工大学的 Maurizio 团队近日发表了一篇极具批判性的文章,剑指推荐系统领域的其他数十篇论文,指出这些论文中基…

大佬原创 | 深度学习60讲453页pdf下载

关注公众号后台回复 深度学习 即可下载深度学习60讲作者简介机器学习实验室的号主作为一名统计专业的硕士毕业生,一路从数据分析师进阶到深度学习算法工程师。现于杭州一家AI初创公司担任深度学习算法工程师,主要研究方向为计算机视觉。号主在数据科学和…

[Java]JDBC操作MySQL数据库

public class MysqlConnect {//定义MySQL数据库的连接地址public static final String DBURL "jdbc:mysql://ip:port/数据库名?autoReconnecttrue&useUnicodetrue&characterEncodingutf8&useSSLfalse";//MySQL数据库的连接用户名和连接密码public stat…

golang通过mysql语句实现分页查询

golang通过mysql语句实现分页查询。 1.前端接口调用 2.register访问入口 //查询一个用户下所有的subnet ws.Route(ws.GET("/subnets"). To(sc.ListSubnet). Doc("List subnets authorized to the login user."). Param(ws.QueryParameter(query.Parameter…

惠斯通电桥信号调理芯片_用惠斯通电桥测电阻

用惠斯通电桥测电阻的原理惠斯通电桥电路如下图所示,此电路常用来测量电阻Rx,且精度较高。测量原理:先将电键S闭合,然后调节电阻箱R3,使灵敏电流表G的读数为零,这时,电路中B、D两点的电势相等--…

Openresty最佳案例 | 第9篇:Openresty实现的网关权限控制

简介采用openresty 开发出的api网关有很多,比如比较流行的kong、orange等。这些API 网关通过提供插件的形式,提供了非常多的功能。这些组件化的功能往往能够满足大部分的需求,如果要想达到特定场景的需求,可能需要二次开发&#x…

遗传算法求解几何问题

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达作者 | Victor Sim 编译 | VK 来源 | Towards Data Science我最近看了一个关于“令人难以置信的直觉人工智能发明”的ted演讲:https://www.ted.com/talks/maur…

简单聊聊Golang中defer预计算参数

在golang当中defer代码块会在函数调用链表中增加一个函数调用,下面这篇文章主要给大家介绍了关于Golang中defer预计算参数的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下 什么是defer defer用来声明一个延迟函数,把这个函数放入到一个栈上&#…