计算机视觉是指什么(非常详细)
视觉是人类观察世界、认知世界的重要功能和手段。计算机视觉作为一门使用计算机实现人类视觉功能的学科,不仅得到了极大的关注和深入的研究,也得到了广泛的应用。
相关统计表明,人类从外界获得的信息约有 75% 来自视觉系统,这既说明视觉信息量巨大,也说明人类对视觉信息有较高的利用率。人类视觉过程可看作一个复杂的从感觉(感受到的是对 3D 世界进行 2D 投影得到的图像)到知觉(由 2D 图像认知 3D 世界的内容和含义)的过程。
视觉是人们非常熟悉的一种功能,它不仅帮助人们获得信息,还帮助人们加工信息。视觉进一步可分为视感觉和视知觉两个层次:
一般来说,视感觉对外部刺激会基本不加区别地完全接收,而视知觉则要确定由外界刺激的哪些部分组合成所关心的“目标”。
视感觉主要从分子的层次和观点来解释人们对光(可见辐射)反应的基本性质(如亮度、颜色),它主要涉及物理、化学等学科。视感觉主要研究的内容有:
视知觉主要论述人们从客观世界接收到视觉刺激后如何反应及反应所采用的方式。它研究如何通过视觉让人们形成关于外在世界空间表象的认识,因此兼有心理因素。
视知觉作为反映当前客观事物的一种形式,只依靠光投射到视网膜上形成视网膜像的原理和人们已知的眼或神经系统的机制是难以把全部(知觉)过程解释清楚的。视知觉是在神经中枢内进行的一组活动,它把视野中一些分散的刺激加以组织,构成具有一定形状的整体以认识世界。早在两千多年前,亚里士多德就定义视知觉的任务是确定“什么东西在什么地方”(What is where)。
狭义上,视觉的最终目的是能对客观场景做出对观察者有意义的解释和描述;广义上,视觉还包括基于这些解释和描述、根据周围环境和观察者的意愿来制订行为规划,从而作用于周围的世界,这实际上就是计算机视觉的目标。
视觉研究的原始目的是把握和理解有关场景的图像,辨识和定位其中的目标,确定它们的自身结构、空间排列和分布,以及解释目标之间的相互关系等。计算机视觉的研究目标是根据感知到的图像对客观世界中实际的目标和场景做出有意义的判断。
计算机视觉的研究方法目前主要有两种:
计算机视觉的主要研究目标可归纳成两个,它们互相联系和补充。
第一个研究目标是建立计算机视觉系统以完成各种视觉任务。换句话说,使计算机能借助各种视觉传感器(如 CCD、CMOS 摄像器件等)获取场景图像,从中感知和恢复 3D 环境中物体的几何性质、姿态结构、运动情况、相互位置等,并对客观场景进行识别、描述、解释,进而做出判定和决断。这里主要研究完成这些工作的技术机理。
目前这方面的工作主要是构建各种专用系统,完成在各种实际场景中出现的专门视觉任务;从长远来说,则是要建成更为通用的系统(更接近人类视觉系统),完成一般性的视觉任务。
第二个研究目标是把研究作为探索人脑视觉工作机理的手段,掌握和理解人脑视觉工作的机理(如计算神经科学)。这里主要研究的是生物学机理。
长期以来,人们已从生理、心理、神经、认知等方面对人脑视觉系统进行了大量的研究,但远没有揭开视觉过程的全部奥秘,特别是对视觉机理的研究和了解还远落后于对视觉信息处理的研究和掌握。需要指出的是,对人脑视觉的充分理解也将促进计算机视觉的深入研究。
综上所述,计算机视觉利用计算机实现人的视觉功能,其研究又从人类视觉中得到了许多启发。计算机视觉方面的许多重要研究都是通过理解人类视觉系统而完成的,典型的例子有用金字塔作为一种有效的数据结构,利用局部朝向的概念,使用滤波技术来检测运动,以及近期的人工神经网络等。另外,借助对人类视觉系统功能的理解、研究,人们不断开发新的计算机视觉算法。
计算机视觉的研究和应用已有多年的历史。总体来说,早期的计算机视觉系统主要借助对 3D 客观物体的 2D 投影图像来进行,计算机视觉的研究目标侧重于提高图像的质量,以便使用者可以更清晰、方便地获取其中的信息;或侧重于自动获取图像中的各种特性数据,以帮助使用者对物体进行分析、识别。这方面的工作可归在 2D 计算机视觉之下,目前相对成熟,已有许多应用产品。
随着理论和技术的发展,越来越多的研究聚焦充分利用从客观物体获得的 3D 空间信息(还常结合时域信息),自动地对客观世界进行分析和理解,做出判断和决策。这包括在 2D 投影图像的基础上进一步获取深度信息,以全面把握3D世界。这方面的工作还在不断探索之中,更需要引入人工智能等技术,是目前计算机视觉的研究重点,近期相关工作可归在 3D 计算机视觉之下。
作为一门学科,计算机视觉与许多学科都有着千丝万缕的联系,特别是与一些相关和相近的学科交融交叉。相关学科和领域的联系与区别如下图所示:

图 1 相关学科和领域的联系与区别
人类视觉
计算机视觉源自人类视觉,即一般所说的视觉。视觉是人类的一种自身功能,在人类对客观世界的观察和认知中发挥重要作用。相关统计表明,人类从外界获得的信息约有 75% 来自视觉系统,这既说明视觉信息量巨大,也说明人类对视觉信息有较高的利用率。人类视觉过程可看作一个复杂的从感觉(感受到的是对 3D 世界进行 2D 投影得到的图像)到知觉(由 2D 图像认知 3D 世界的内容和含义)的过程。
视觉是人们非常熟悉的一种功能,它不仅帮助人们获得信息,还帮助人们加工信息。视觉进一步可分为视感觉和视知觉两个层次:
- 视感觉处于较低层次,主要接收外部刺激;
- 视知觉处于较高层次,要将外部刺激转化为有意义的内容。
一般来说,视感觉对外部刺激会基本不加区别地完全接收,而视知觉则要确定由外界刺激的哪些部分组合成所关心的“目标”。
视感觉主要从分子的层次和观点来解释人们对光(可见辐射)反应的基本性质(如亮度、颜色),它主要涉及物理、化学等学科。视感觉主要研究的内容有:
- 光的物理特性,如光量子、光波、光谱等;
- 光刺激视觉感受器官的程度,如光度学、眼睛构造、视觉适应、视觉的强度和灵敏度、视觉的时空特性等;
- 光作用于视网膜后经视觉系统加工而产生的感觉,如明亮程度、色调等。
视知觉主要论述人们从客观世界接收到视觉刺激后如何反应及反应所采用的方式。它研究如何通过视觉让人们形成关于外在世界空间表象的认识,因此兼有心理因素。
视知觉作为反映当前客观事物的一种形式,只依靠光投射到视网膜上形成视网膜像的原理和人们已知的眼或神经系统的机制是难以把全部(知觉)过程解释清楚的。视知觉是在神经中枢内进行的一组活动,它把视野中一些分散的刺激加以组织,构成具有一定形状的整体以认识世界。早在两千多年前,亚里士多德就定义视知觉的任务是确定“什么东西在什么地方”(What is where)。
狭义上,视觉的最终目的是能对客观场景做出对观察者有意义的解释和描述;广义上,视觉还包括基于这些解释和描述、根据周围环境和观察者的意愿来制订行为规划,从而作用于周围的世界,这实际上就是计算机视觉的目标。
计算机视觉
前文提到,计算机视觉就是用计算机来实现人类的视觉功能,即对客观世界中 3D 场景的感知、加工和解释。视觉研究的原始目的是把握和理解有关场景的图像,辨识和定位其中的目标,确定它们的自身结构、空间排列和分布,以及解释目标之间的相互关系等。计算机视觉的研究目标是根据感知到的图像对客观世界中实际的目标和场景做出有意义的判断。
计算机视觉的研究方法目前主要有两种:
- 一种是仿生学的方法,即参照人类视觉系统的结构原理,建立相应的处理模块,完成类似的功能和工作;
- 另一种是工程学的方法,即从分析人类视觉过程的功能着手,并不刻意模拟人类视觉系统的内部结构,而仅考虑系统的输入和输出,并采用现有的、可行的手段来实现系统的功能。
计算机视觉的主要研究目标可归纳成两个,它们互相联系和补充。
第一个研究目标是建立计算机视觉系统以完成各种视觉任务。换句话说,使计算机能借助各种视觉传感器(如 CCD、CMOS 摄像器件等)获取场景图像,从中感知和恢复 3D 环境中物体的几何性质、姿态结构、运动情况、相互位置等,并对客观场景进行识别、描述、解释,进而做出判定和决断。这里主要研究完成这些工作的技术机理。
目前这方面的工作主要是构建各种专用系统,完成在各种实际场景中出现的专门视觉任务;从长远来说,则是要建成更为通用的系统(更接近人类视觉系统),完成一般性的视觉任务。
第二个研究目标是把研究作为探索人脑视觉工作机理的手段,掌握和理解人脑视觉工作的机理(如计算神经科学)。这里主要研究的是生物学机理。
长期以来,人们已从生理、心理、神经、认知等方面对人脑视觉系统进行了大量的研究,但远没有揭开视觉过程的全部奥秘,特别是对视觉机理的研究和了解还远落后于对视觉信息处理的研究和掌握。需要指出的是,对人脑视觉的充分理解也将促进计算机视觉的深入研究。
综上所述,计算机视觉利用计算机实现人的视觉功能,其研究又从人类视觉中得到了许多启发。计算机视觉方面的许多重要研究都是通过理解人类视觉系统而完成的,典型的例子有用金字塔作为一种有效的数据结构,利用局部朝向的概念,使用滤波技术来检测运动,以及近期的人工神经网络等。另外,借助对人类视觉系统功能的理解、研究,人们不断开发新的计算机视觉算法。
计算机视觉的研究和应用已有多年的历史。总体来说,早期的计算机视觉系统主要借助对 3D 客观物体的 2D 投影图像来进行,计算机视觉的研究目标侧重于提高图像的质量,以便使用者可以更清晰、方便地获取其中的信息;或侧重于自动获取图像中的各种特性数据,以帮助使用者对物体进行分析、识别。这方面的工作可归在 2D 计算机视觉之下,目前相对成熟,已有许多应用产品。
随着理论和技术的发展,越来越多的研究聚焦充分利用从客观物体获得的 3D 空间信息(还常结合时域信息),自动地对客观世界进行分析和理解,做出判断和决策。这包括在 2D 投影图像的基础上进一步获取深度信息,以全面把握3D世界。这方面的工作还在不断探索之中,更需要引入人工智能等技术,是目前计算机视觉的研究重点,近期相关工作可归在 3D 计算机视觉之下。
作为一门学科,计算机视觉与许多学科都有着千丝万缕的联系,特别是与一些相关和相近的学科交融交叉。相关学科和领域的联系与区别如下图所示:

图 1 相关学科和领域的联系与区别