得益于深度学习、机器学习、更快CPU和新型传感器,计算机如今已经能够看到、听到、触到、嗅到、尝到和说出来。这五种感觉都是以传感器(如摄像头)和数学算法的方式实现的,通常为受监督的机器学习算法和模型。
看:图像和人脸识别
近期对图像和人脸识别的研究让计算机不仅能够检测物体的存在,还能够检测相似物体的多个实例。Facebook和谷歌通过多个开源版本实际上已经处于领先地位。Facebook表示他们的目标是在视频中检测物体。
近年来,这一领域已经取得了很大进展,图像中的物体能够被从其他物体中分离出来。虽然我们能够发现东西并将它们从另的东西中分离出来,但是并不意味着我们知道这个东西是什么。这就需要能够识别这些东西的训练模型。
目前已经出现了一些强大的工具,不过这些工具需要非常多的数据。因此Facebook和谷歌能够公布这些工具,从研究和社区开发的衍生工具中获得好处,而不用担心该领域内有太大的竞争。简而言之,很少有机构有数以百万或数以亿计的图像可以提供给这些工具,并为此提供专用的计算力。
本质上,用机器或深度学习将物体分类是“看”绵羊或小猫的第一步,包括各种衍生物(如大的、小的、有毛的、毛少的、瘦的、胖的、尾巴的)。然后是训练模型识别所有的这些变体。
虽然Facebook和谷歌投入了极大的精力,不过这一领域内还有其他一些工具,如汇集了许多功能的OpenCV库以及将重点入在了人脸识别上的OpenFace。
甚至还出现了名为Jevois(法语意思为“我看到”)的智能摄像头。这种摄像头为Arduino设备专用的摄像头,后者拥有基于开源库的预训练模型。它们被训练识别大约1,000种不同的物体。我们可以用自己的模型进行调整。因此如果我们计划建造一个可以自主飞行的四轴飞行器,那么我们的计划将很可能会实现。
听:语音识别和声音分类
计算机的“听”更多的是关于语音识别。尽管如此,声音分类是可能的。虽然Shazam(一款专业的音频识别软件)是其中的杰出代表,但是针对普通声音分类的模型还不好用,或是没有我们预期的那么丰富。PyAudioAnalysis可让我们录制.wav格式的文件并对声音进行分类。
你能抓住鸟的叫声或是马路噪音吗?与图像识别一样,这意味着训练一个分类模型。这一领域目前似乎还缺乏投资。或许是因为Facebook主要使用的是图像和文字等静默交流方式,谷歌也只推出了video.google.com 和 images.google.com,而没有推出sounds.google.com的原因。
在语音识别方面,我们能够找到一些使用传统的隐马尔可夫模型的开源工具,如CMUSphinx和使用神经网络的Kaldi。此外还有一些其他的工具,但是问题出在在线和离线解码之间。“在线”意味着你能读取麦克风,“离线”意味着在获取.wav文件之前必须等待。
IBM、谷歌、苹果和微软等主要厂商都有着各自的工具。谷歌在这方面做的非常出色,我们甚至可以通过带有 JavaScript的浏览器进行语音识别。
触:一种极端缺乏公共技术的感觉
关于触觉,似乎很少有关于如何使用触摸传感器进行“感知”的资料。它们主要被应用在控制应用中(如以前的任天堂能量手套,许多人都想拥有一套但是又非常的不好用。)
目前已经出现了针对Arduino和相应库的“did you touch it”传感器,以及用于检测动作的传感器。最具前景的“did you touch it”创新是电容织物。尽管如此,在一台“触摸表面查看是否有缺陷”的实用型机器上,大部分都是光学或超声波应用。
嗅:电子鼻子
是的,计算机也能够闻到气味。目前这方面已经有了许多实际应用。“电子鼻子”的出现已经有一段时间了。
最便宜的办法是将一个传感器接入Arduino设备中并“吸入”气体。根据吸入气体的量,它们能够“检测出”啤酒中使用的啤酒花等东西或是空气是否有毒。这些技术已经被应用到了炸弹嗅探和质量控制等方面。
尝:另一种极端缺乏公共技术的感觉
对于计算机来说“味觉”是什么?这是一种主观感觉,许多人的味觉实际上是嗅觉。这里的传感器多为化学、微生物、PH值和滴定传感器。这方面的实际应用非常广泛,比如检测你是否生病,体内葡萄糖水平是否充足或是是否中毒等。
就像人体解剖学一样,其又与嗅有着很大的重叠。这里几乎没有什么公开的源代码,训练一个模型可能意味着要访问化学实验室或来自化学实验室的数据。
我们还无法创建Data指挥官
有了这五种感觉,我们能否创建电影《星际迷航:下一代》中的Data指挥官,或是至少是他那愚蠢的堂弟B4(因为我们还没有通用人工智能)?答案是可能还无法实现。即便我们有了这些传感器和库,我们在各个方面还没有经过充分训练的模型。它们需要非常多的数据,并且其中许多对于实时使用来说速度也跟不上。
因此,目前我们仍然在致力于在视频中进行人脸识别。触觉主要还依赖于“did you touch it?”传感器或是其他单一用途的传感器。嗅觉的情况也大致相同,味觉的情况最为糟糕。
不过,像机器学习和深度学习一样,对于我们的单一用途的应用(比如,咖啡变质了吗?),人工智能和传感器已经取得了很大的进展。也许计算机的五种感觉不会达到人类的水平,但是它们会拥有这些感觉。目前已经出现了许多可供开发者使用的免费和专利工具。
来源:中国物联网,由 宋淑杰 整理编辑!