图像工程的3个层次(非常详细)
图像技术在广义上是各种与图像有关的技术的总称。由于图像技术近年来得到极大的重视和长足的发展,出现了许多新理论、新方法、新算法、新手段、新设备、新应用。对各种图像技术进行综合集成的研究和应用应当在一个整体框架下进行,这个框架就是图像工程。
众所周知,工程是将自然科学的原理应用到工业部门中而形成的各学科的总称。图像工程学科则是一个将数学和光学等基础学科的原理结合在图像应用中而发展起来的、将各种图像技术集中结合起来的、对整个图像领域进行研究应用的新学科。从自身内容来说,图像工程是全面系统地研究图像理论方法、阐述图像技术原理、推广图像技术应用及总结生产实践经验的新学科。
图像工程的研究内容非常丰富,覆盖面也很广,可以分为 3 个层次,分别是图像处理、图像分析和图像理解,如下图所示:

图 1 图像工程3个层次示意图
这 3 个层次在操作对象和语义层次上都各有特点,在数据量和抽象性方面均有不同:
由图 1 可见,在 3 个层次之间,随着抽象程度的提高,数据量是逐渐减少的。具体来说,原始图像数据在经过一系列的处理后逐步转化,变得更有组织性并被更抽象地表达。在这个过程中,语义信息不断被引入,操作对象也发生了变化,数据量逐步得到压缩。另外,高层操作对低层操作有指导作用,能提高低层操作的效能。
从与计算机视觉相比较和相结合的角度,图像工程的主要构成也可用如下图所示的整体框架来表示,其中虚线框内为图像工程的基本模块。

图 2 图像工程整体框架
这里要用到各种图像技术以帮助人们从场景中获得信息。首先要进行的就是利用各种方式从场景中获得图像。
接下来对图像的低层处理主要是为了改善图像的视觉效果或在保持视觉效果的基础上减少图像的数据量,处理的结果主要是给用户“看”的。
对图像的中层分析主要是对图像中感兴趣的目标进行检测、提取和测量。分析的结果能为用户提供描述图像目标特点和性质的数据。
最后对图像的高层理解则是基于对图像中各目标的性质和它们之间相互关系的研究,了解把握图像内容并解释原来的客观场景。理解的结果能为用户提供客观世界的信息,从而指导和规划行动。
这些从低层到高层所用的图像技术都得到了包括人工智能、神经网络、遗传算法、模糊理论、图像代数、机器学习、深度学习等新理论、新工具、新技术的有力支持。为完成这些工作,还要采取合适的策略来进行控制。
顺便指出,计算机视觉技术经过多年发展,已有很多技术种类。对于这些技术,虽然有一些分类方法,但目前看来还不太稳定和一致。如有人将计算机视觉分为低层视觉、中层视觉、3D 视觉,也有人将计算机视觉分为早期视觉(其中又分为单幅图像和多幅图像两种情况)、中层视觉、高层视觉(几何方法)。甚至同一个研究者在不同时段采用的分类方案也不完全一致,如有人曾将计算机视觉分为早期视觉(其中又分为单幅图像和多幅图像两种情况)、中层视觉、高层视觉(其中又分为几何方法及概率和推论方法)。比较相似的是,大多方案都分成 3 层,这与图像工程稳定和一致的 3 个层次有些类似,虽然并不完全对应。
在图像工程的 3 个层次中,图像理解层次与当前计算机视觉的研究应用关系最为密切,这其中有许多历史渊源。在建立图像/视觉信息系统并用计算机协助人类完成各种视觉任务方面,图像理解和计算机视觉都需要用到投影几何学、概率论与随机过程、人工智能等方面的理论。
例如,它们都要借助两类智能活动:
可以说,基于图像处理和分析的图像理解与计算机视觉有相同的目标,都借助工程技术的手段,通过从客观场景中获取的图像来实现对场景的认识和解释。
事实上,图像理解和计算机视觉这两个名词也常混合使用。本质上,它们互相联系,在很多情况下覆盖面和内容交叉重合,在概念上或实用中并没有绝对的界限。在许多场景和情况下,它们虽各有侧重,但常常是互为补充的,因此将它们看作专业和背景不同的人习惯使用的不同术语更为恰当。
众所周知,工程是将自然科学的原理应用到工业部门中而形成的各学科的总称。图像工程学科则是一个将数学和光学等基础学科的原理结合在图像应用中而发展起来的、将各种图像技术集中结合起来的、对整个图像领域进行研究应用的新学科。从自身内容来说,图像工程是全面系统地研究图像理论方法、阐述图像技术原理、推广图像技术应用及总结生产实践经验的新学科。
图像工程的研究内容非常丰富,覆盖面也很广,可以分为 3 个层次,分别是图像处理、图像分析和图像理解,如下图所示:

图 1 图像工程3个层次示意图
这 3 个层次在操作对象和语义层次上都各有特点,在数据量和抽象性方面均有不同:
- 图像处理(IP)处于低层,重点关注图像之间的转换,意图改善图像的视觉效果并为后续工作打好基础;主要对像素进行处理,需要处理的数据量非常大;
- 图像分析(IA)处于中层,主要考虑对图像中感兴趣目标的检测和测量,获得目标的客观信息,从而建立对图像的描述,涉及图像分割和特征提取等操作;
- 图像理解(IU)处于高层,着重强调对图像内容的理解及对客观场景的解释,操作对象是从图像描述中抽象出的符号,与人类的思维推理有许多相似之处。
由图 1 可见,在 3 个层次之间,随着抽象程度的提高,数据量是逐渐减少的。具体来说,原始图像数据在经过一系列的处理后逐步转化,变得更有组织性并被更抽象地表达。在这个过程中,语义信息不断被引入,操作对象也发生了变化,数据量逐步得到压缩。另外,高层操作对低层操作有指导作用,能提高低层操作的效能。
从与计算机视觉相比较和相结合的角度,图像工程的主要构成也可用如下图所示的整体框架来表示,其中虚线框内为图像工程的基本模块。

图 2 图像工程整体框架
这里要用到各种图像技术以帮助人们从场景中获得信息。首先要进行的就是利用各种方式从场景中获得图像。
接下来对图像的低层处理主要是为了改善图像的视觉效果或在保持视觉效果的基础上减少图像的数据量,处理的结果主要是给用户“看”的。
对图像的中层分析主要是对图像中感兴趣的目标进行检测、提取和测量。分析的结果能为用户提供描述图像目标特点和性质的数据。
最后对图像的高层理解则是基于对图像中各目标的性质和它们之间相互关系的研究,了解把握图像内容并解释原来的客观场景。理解的结果能为用户提供客观世界的信息,从而指导和规划行动。
这些从低层到高层所用的图像技术都得到了包括人工智能、神经网络、遗传算法、模糊理论、图像代数、机器学习、深度学习等新理论、新工具、新技术的有力支持。为完成这些工作,还要采取合适的策略来进行控制。
顺便指出,计算机视觉技术经过多年发展,已有很多技术种类。对于这些技术,虽然有一些分类方法,但目前看来还不太稳定和一致。如有人将计算机视觉分为低层视觉、中层视觉、3D 视觉,也有人将计算机视觉分为早期视觉(其中又分为单幅图像和多幅图像两种情况)、中层视觉、高层视觉(几何方法)。甚至同一个研究者在不同时段采用的分类方案也不完全一致,如有人曾将计算机视觉分为早期视觉(其中又分为单幅图像和多幅图像两种情况)、中层视觉、高层视觉(其中又分为几何方法及概率和推论方法)。比较相似的是,大多方案都分成 3 层,这与图像工程稳定和一致的 3 个层次有些类似,虽然并不完全对应。
在图像工程的 3 个层次中,图像理解层次与当前计算机视觉的研究应用关系最为密切,这其中有许多历史渊源。在建立图像/视觉信息系统并用计算机协助人类完成各种视觉任务方面,图像理解和计算机视觉都需要用到投影几何学、概率论与随机过程、人工智能等方面的理论。
例如,它们都要借助两类智能活动:
- 感知,如感知场景中可见部分的距离、朝向、形状、运动速度、相互关系等;
- 思维,如根据场景结构分析物体的行为,推断场景的发展变化,决定和规划主体行动等。
可以说,基于图像处理和分析的图像理解与计算机视觉有相同的目标,都借助工程技术的手段,通过从客观场景中获取的图像来实现对场景的认识和解释。
事实上,图像理解和计算机视觉这两个名词也常混合使用。本质上,它们互相联系,在很多情况下覆盖面和内容交叉重合,在概念上或实用中并没有绝对的界限。在许多场景和情况下,它们虽各有侧重,但常常是互为补充的,因此将它们看作专业和背景不同的人习惯使用的不同术语更为恰当。