Total Pageviews

Tuesday, 3 October 2017

计算机视觉概述

关于计算机视觉的介绍性文章,包括计算机视觉的定义,和人类视觉的区别以及涉及到的学科等等。

1. 什么是计算机视觉

计算机视觉既是工程领域,也是科学领域中的一个富有挑战性重要研究领域。计算机视觉是一门综合性的学科,它已经吸引了来自各个学科的研究者参加到对它的研究之中。其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学,神经生理学和认知科学等。
视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断,和军事等领域中各种智能/自主系统中不可分割的一部分。由于它的重要性,一些先进国家,例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题,即所谓的重大挑战(grand challenge)。"计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号,纹理和颜色建模,几何处理和推理,以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。"[Neg91]作为一门学科,计算机视觉开始于60年代初,但在计算机视觉的基本研究中的许多重要进展是在80年代取得的。现在计算机视觉已成为一门不同于人工智能、图象处理、模式识别等相关领域的成熟学科。计算机视觉与人类视觉密切相关,对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。为此我们将先介绍人类视觉。

1.1 人类视觉

感觉是人的大脑与周围世界联系的窗口,它的任务是识别周围的物体,并告诉这些物体之间的关系。我们的思维活动是以我们对客观世界与环境的认识为基础的,而感觉则是外界是客观世界与我们对环境的认识之间的桥梁,使我们的思维与周围世界建立某种对应关系。视觉则是人最重要的感觉,它是人的主要感觉来源,人类认识外界信息的80%来自视觉。人有多种感觉,但对人的智力产生影响的主要是视觉和听觉。味觉和嗅觉是丰富多样的,但很少有人去思考它们。在视觉和听觉中形状、色彩、运动、声音等就很容易被结合成各种明确和高度复杂、多样的空间和时间的组织结构。所以这两种感觉就成了理智活动得以行使和发挥作用的非常合适的媒介和环境。但人听到的声音要想具有意义还需要联系其它的感性材料。而视觉则不同,它是一种高度清晰的媒介,它提供关于外界世界中各种物体和事件的丰富信息。因此它是思维的一种最基本的工具。
视觉对正常人来说是生而有之,毫不费力的能力。但实际上视觉系统所完成的功能却十分复杂的。有人认为视觉本身就包含了思维的一切基本因素。设想你要在一个会场中寻找一位朋友,呈现在你眼前的是由参加会议的人、桌、椅、主席台等组成的复杂景物。眼睛得到这些信息以后先要对景物的各部分进行分类,然后从中选出与朋友的外表有关的特征作出判断,那么在人的眼睛视网膜上映照的景物成象是否就能直接提供判断时所需要的有关特征呢?不是的,这里需要大脑的思考。例如,虽然人在不同距离处观察同一物体时在眼睛中成象的大小是不同的。但人们在观察某人以便估计他的身高时却不会因为他在近处而感到他高些,也不会因他在远处而感到他矮些。这是由于大脑根据被观察物体的距离和与周围物体的比较,并依靠有关的知识对输入的图象信息进行处理,解释的结果。如果你是在一个灯光暗淡的剧院中寻找朋友,这个问题就变得更为困难。
你刚走进剧院时开始会感到一片漆黑看不清东西,过了几分钟你的眼睛变得习惯于在黑暗中观察。事实上你的视觉系统在此期间中对微光变得更敏感了。但这时许多本来可用的信息丧失了,物体可能难以与背景相区分,许多细节难以分辨。即使这样人也总能认出朋友。总之,视觉是一个复杂的感知和思维的过程,视觉器官-眼睛接受外界的刺激信息,而大脑对这些信息通过复杂的机理进行处理和解释,使这些刺激具有明确的物理意义。
从以上分析我们还可以看到敏感(Sensation)、感觉(Perception)、认知(Cognition)这三个概念之间的联系和差别。敏感是把外界的各种刺激转换成人体神经系统能够接受的生物电信号。它所完成的是信号的转换,并不涉及对信号的理解。例如,人眼是视觉的敏感器官,它使光信号通过视网膜转换电信号。与摄象机的光电传感器相似,视网膜的感光细胞对光信号在平面上进行采样,产生点阵形式的电信号,所不同的仅是摄象机的空间采样是均匀的,而视网膜的采样是不均匀的,在中央凹附近采样分辨率高,而在周围的分辨率低。而感觉的任务是把敏感器官的各种输入转换和处理成为对外部世界的理解。例如,对视觉来说就是能说出周围世界中有什么东西和这些东西之间的空间关系。这些都是关于周围世界的概念。从输入的点阵形式的信号到形式对客观世界的各种概念其中要经过复杂的信息处理和推理。而认知是以人们对周围客观世界的概念为基础的。如果没有感觉这个人与外部世界的桥梁或窗口,人的思维活动就换去基本的依据。

1.2 计算机视觉

人类正在进入信息时代,计算机将越来越广泛地进入几乎所有领域。一方面是更多未经计算机专业训练的人也需要应用计算机,而另一方面是计算机的功能越来越强,使用方法越来越复杂。这就使人在进行交谈和通讯时的灵活性与目前在使用计算机时所要求的严格和死板之间产生了尖锐的矛盾。人可通过视觉和听觉,语言与外界交换信息,并且可用不同的方式表示相同的含义,而目前的计算机却要求严格按照各种程序语言来编写程序,只有这样计算机才能运行。为使更多的人能使用复杂的计算机,必须改变过去的那种让人来适应计算机,来死记硬背计算机的使用规则的情况。而是反过来让计算机来适应人的习惯和要求,以人所习惯的方式与人进行信息交换,也就是让计算机具有视觉、听觉和说话等能力。这时计算机必须具有逻辑推理和决策的能力。具有上述能力的计算机就是智能计算机。
智能计算机不但使计算机更便于为人们所使用,同时如果用这样的计算机来控制各种自动化装置特别是智能机器人,就可以使这些自动化系统和智能机器人具有适应环境,和自主作出决策的能力。这就可以在各种场合取代人的繁重工作,或代替人到各种危险和恶劣环境中完成任务。
计算机视觉就是用各种成象系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界,具有自主适应环境的能力。要经过长期的努力才能达到的目标。因此,在实现最终目标以前,人们努力的中期目标是建立一种视觉系统,这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。例如,计算机视觉的一个重要应用领域就是自主车辆的视觉导航,目前还没有条件实现象人那样能识别和理解任何环境,完成自主导航的系统。因此,目前人们努力的研究目标是实现在高速公路上具有道路跟踪能力,可避免与前方车辆碰撞的视觉辅助驾驶系统。这里要指出的一点是在计算机视觉系统中计算机起代替人脑的作用,但并不意味着计算机必须按人类视觉的方法完成视觉信息的处理。计算机视觉可以而且应该根据计算机系统的特点来进行视觉信息的处理。但是,人类视系统是迄今为止,人们所知道的功能最强大和完善的视觉系统。如在以下的章节中会看到的那样,对人类视觉处理机制的研究将给计算机视觉的研究提供启发和指导。因此,用计算机信息处理的方法研究人类视觉的机理,建立人类视觉的计算理论,也是一个非常重要和信人感兴趣的研究领域。这方面的研究被称为计算视觉(Computational Vision)。计算视觉可被认为是计算机视觉中的一个研究领域。
有不少学科的研究目标与计算机视觉相近或与此有关。这些学科中包括图象处理、模式识别或图象识别、景物分析、图象理解等。由于历史发展或领域本身的特点这些学科互有差别,但又有某种程度的相互重迭。为了清晰起见,我们把这些与计算机视觉有关的学科研究目标和方法的角度加以归纳。
  1. 图象处理
    图象处理技术把输入图象转换成具有所希望特性的另一幅图象。例如,可通过处理使输出图象有较高的信-噪比,或通过增强处理突出图象的细节,以便于操作员的检验。在计算机视觉研究中经常利用图象处理技术进行预处理和特征抽取。
  2. 模式识别(图象识别)
    模式识别技术根据从图象抽取的统计特性或结构信息,把图象分成予定的类别。例如,文字识别或指纹识别。在计算机视觉中模式识别技术经常用于对图象中的某些部分,例如分割区域的识别和分类。
  3. 图象理解(景物分析)
    给定一幅图象,图象理解程序不仅描述图象本身,而且描述和解释图象所代表的景物,以便对图象代表的内容作出决定。在人工智能视觉研究的初期经常使用景物分析这个术语,以强调二维图象与三维景物之间的区别。图象理解除了需要复杂的图象处理以外还需要具有关于景物成象的物理规律的知识以及与景物内容有关的知识。
在建立计算机视觉系统时需要用到上述学科中的有关技术,但计算机视觉研究的内容要比这些学科更为广泛。计算机视觉的研究与人类视觉的研究密切相关(见1.3.5中的论述)。为实现建立与人的视觉系统相类似的通用计算机视觉系统的目标需要建立人类视觉的计算机理论。

No comments:

Post a Comment