图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用
深度学习算法的一种实践应用。现阶段
图像识别技术一般分为
人脸识别与
商品识别,人脸识别主要运用在安全检查、身份核验与
移动支付中;商品识别主要运用在
商品流通过程中,特别是
无人货架、智能零售柜等无人零售领域。
简介
图形
刺激作用于
感觉器官,人们辨认出它是经验过的某一图形的过程,也叫图像再认。在图像识别中,既要有当时进入感官的信息,也要有记忆中存储的信息。只有通过存储的信息与当前的信息进行比较的加工过程,才能实现对图像的再认。
图像识别技术的产生以及更新成为当下十分重要的发展方向,同时表现出了良好的发展前景,在信息收集、医疗以及产品安全等方面,都已经开始广泛运用图像识别技术,发挥了非常大的作用。
人的图像
识别能力是很强的。图像距离的改变或图像在感觉器官上作用位置的改变,都会造成图像在
视网膜上的大小和形状的改变。即使在这种情况下,人们仍然可以认出他们过去知觉过的图像。甚至图像识别可以不受
感觉通道的限制。例如,人可以用眼看字,当别人在他背上写字时,他也可认出这个字来。
识别基础
图像识别可能是以图像的主要特征为基础的。每个图像都有它的特征,如字母A有个尖,P有个圈、而Y的中心有个锐角等。对图像识别时眼动的研究表明,视线总是集中在图像的主要特征上,也就是集中在
图像轮廓曲度最大或轮廓方向突然改变的地方,这些地方的
信息量最大。而且眼睛的扫描路线也总是依次从一个特征转到另一个特征上。由此可见,在图像识别过程中,知觉机制必须排除输入的多余信息,抽出关键的信息。同时,在大脑里必定有一个负责整合信息的机制,它能把分阶段获得的信息整理成一个完整的知觉映象。
在人类图像识别系统中,对复杂图像的识别往往要通过不同层次的
信息加工才能实现。对于熟悉的图形,由于掌握了它的主要特征,就会把它当作一个单元来识别,而不再注意它的细节了。这种由孤立的单元材料组成的整体单位叫做
组块,每一个组块是同时被感知的。在文字材料的识别中,人们不仅可以把一个汉字的笔划或偏旁等单元组成一个组块,而且能把经常在一起出现的字或词组成组块单位来加以识别。
在
计算机视觉识别系统中,图像内容通常用
图像特征进行描述。事实上,基于计算机视觉的
图像检索也可以分为类似文本搜索引擎的三个步骤:提取特征、建索引build以及查询。
相关领域
图像识别是人工智能的一个重要领域。为了编制模拟人类图像识别活动的计算机
程序,人们提出了不同的图像识别模型。例如
模板匹配模型。这种模型认为,识别某个图像,必须在过去的经验中有这个图像的记忆模式,又叫模板。当前的刺激如果能与大脑中的模板相匹配,这个图像也就被识别了。例如有一个字母A,如果在脑中有个A模板,字母A的大小、方位、形状都与这个A模板完全一致,字母A就被识别了。这个模型简单明了,也容易得到实际应用。但这种模型强调图像必须与脑中的模板完全符合才能加以识别,而事实上人不仅能识别与脑中的模板完全一致的图像,也能识别与模板不完全一致的图像。例如,人们不仅能识别某一个具体的字母A,也能识别
印刷体的、
手写体的、方向不正、大小不同的各种字母A。同时,人能识别的图像是大量的,如果所识别的每一个图像在脑中都有一个相应的模板,也是不可能的。
为了解决模板匹配模型存在的问题,格式塔心理学家又提出了一个
原型匹配模型。这种模型认为,在
长时记忆中存储的并不是所要识别的无数个模板,而是图像的某些“
相似性”。从图像中抽象出来的“相似性”就可作为原型,拿它来检验所要识别的图像。如果能找到一个相似的原型,这个图像也就被识别了。这种模型从神经上和记忆探寻的过程上来看,都比模板匹配模型更适宜,而且还能说明对一些不规则的,但某些方面与原型相似的图像的识别。但是,这种模型没有说明人是怎样对相似的刺激进行辨别和加工的,它也难以在计算机程序中得到实现。因此又有人提出了一个更复杂的模型,即
“泛魔”识别模型。
一般工业使用中,采用
工业相机拍摄图片,然后利用软件根据图片
灰阶差做处理后识别出有用信息,图像识别软件国外代表的有
康耐视等,国内代表的有图智能等。
在人工智能中
图像识别技术具有智能化、便捷化以及实用性的优势,为人们的生活与工作带来极大的便利。
研究现状
图像识别的发展经历了三个阶段:
文字识别、
数字图像处理与识别、物体识别。
文字识别的研究是从 1950年开始的,一般是识别字母、数字和符号,从印刷文字识别到手写文字识别, 应用非常广泛。
数字图像处理和识别的研究开始于1965年。数字图像与
模拟图像相比具有存储,传输方便可压缩、
传输过程中不易失真、处理方便等巨大优势,这些都为图像识别技术的发展提供了强大的动力。物体的识别主要指的是对三维世界的客体及环境的感知和认识,属于高级的计算机视觉范畴。它是以数字图像处理与识别为基础的结合人工智能、系统学等学科的研究方向,其研究成果被广泛应用在各种工业及探测机器人上。现代图像识别技术的一个不足就是自适应性能差,一旦
目标图像被较强的
噪声污染或是目标图像有较大残缺往往就得不出理想的结果。
图像
识别问题的数学本质属于模式空间到类别空间的映射问题。目前,在图像识别的发展中,主要有三种识别方法:
统计模式识别、
结构模式识别、
模糊模式识别。
图像分割是
图像处理中的一项
关键技术,自20世纪70年代,其研究已经有几十年的历史,一直都受到人们的高度重视,至今借助于各种理论提出了数以千计的分割算法,而且这方面的研究仍然在积极地进行着。
现有的图像分割的方法有许多种,有
阈值分割方法,
边缘检测方法,区域
提取方法,结合特定理论工具的分割方法等。从图像的类型来分有:灰度图像分割、彩色图像分割和纹理图像分割等。早在1965年就有人提出了检测
边缘算子,使得边缘检测产生了不少经典算法。但在近二十年间,随着基于
直方图和
小波变换的图像分割方法的研究计算技术、VLSI技术的迅速发展,有关图像处理方面的研究取得了很大的进展。图像分割方法结合了一些特定理论、 方法和工具,如基于
数学形态学的图像分割、基于小波变换的分割、基于
遗传算法的分割等。
相关公司
图像识别创业公司IQ Engine
IQ Engine曾于2010年得到关注,当时该公司获得了100万美元投资并开发了一款
API(
应用程序接口),帮助网络
零售商和应用开发者提供视觉搜索引擎。该公司随后还出席了2010年的DEMO大会,并被
业内人士认为是最值得关注的创业公司之一。
IQ Engine目前维护着两个API。其一名为
SmartCamera。这一API面向在线零售商,帮助用户与产品和
品牌标志互动。另一个API名为SmartAlbum,支持在
网络相册和
移动应用中进行照片分析和
面部识别。后一个API可能正是
雅虎需要的功能。
IQ Engine开发的API已被许多知名公司使用,包括
百思买、Old Navy和
乐购等。不过,该公司将在未来30天中关闭这些API。IQ Engine在最近一轮融资中获得了380万美元投资,投资方包括Third Point Ventures和
摩托罗拉系统的
风投部门。
尽管IQ Engine的主要业务是提供图像识别API,但该公司此前也在开发
移动相册应用Glow,帮助用户在
智能手机上基于自动生成的标签管理照片。该应用不仅能基于位置来管理照片,还能基于内容来管理。未来,这一技术很可能被整合至。