人机交互

rjjh-1

钢铁侠中呈现的人机交互

1. 简介

人机交互技术(Human-Computer Interaction Techniques)是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术。真正意义上的人机交互方式是:人将摆脱任何形式的交互界面,输入信息的方式变得越来越简单、随意,借助于人工智能与大数据的融合,能够非常直观、全面地捕捉到人的需求,并且协助我们处理。[1]


中 文 名: 人机交互技术
功 能: 实现人与计算机对话的技术
适 合: 人机

 


 

2. 定义

人机交互技术包括机器通过输出或显示设备给人提供大量有关信息及提示请示等,人通过输入设备给机器输入有关信息,回答问题及提示请示等。人机交互技术是计算机用户界面设计中的重要内容之一。它与认知学、人机工程学、心理学等学科领域有密切的联系。

也指通过电极将神经信号与电子信号互相联系,达到人脑与电脑互相沟通的技术,可以预见,电脑甚至可以在未来成为一种媒介,达到人脑与人脑意识之间的交流,即心灵感应。

 


 

3. 发展历史

市场需求是很大的,而供应方面却略显不足,尤其是拥有核心知识产权,技术过硬的企业并不多,行业整体缺乏品牌效应。

⒈WIMP界面的形成

Xerox Palo研究中心于70年代中后期研制出原型机Star,形成了以窗口(Windows)、菜单(Menu)、图符(Icons)和指示装置(Pointing Devices)为基础的图形用户界面,也称WIMP界面。

Apple最先采用了这种图形界面,斯坦福研究所60年代的发展计划也对WIMP界面的发展产生了重要的影响。该计划强调增强人的智能,把人而不是技术放在了人机交互的中心位置。该计划的结果导致了许多硬件的发明,众所周知的鼠标就是其中之一。

⒉WIMP界面面临的问题和发展多媒体计算机和VR系统的出现,改变了人与计算机通信的方式和要求,使人机交互发生了很大的变化。在多媒体系统中继续采用WIMP界面有其内在的缺陷:随着多媒体软硬件技术的发展,在人机交互界面中计算机可以使用多种媒体,而用户只能同时用一个交互通道进行交互因而从计算机到用户的通信带宽要比从用户到计算机的大得多,这是一种不平衡的人-计算机交互。

虚拟现实技术除了要求有高度自然的三维人机交互技术外,由于受交互装置和交互环境的影响,不可能也不必要对用户的输入做精确的测量,而是一种非精确的人机交互。三维人机交互技术在科学计算可视化和三维CAD系统中占有重要的地位。基于WIMP技术的图形用户界面,从本质上讲,是一种二维交互技术,不具有三维直接操作的能力。要从根本上改变这种不平衡的通信,人机交互技术的发展必须适应从精确交互向非精确交互、从单通道交互向多通道交互以及从二维交互向三维交互的转变,发展用户与计算机之间快速、低耗的多通道界面。从右上表可以看出在计算机系统不同的发展阶段中,人机交互模型的发展过程。在传统的人机系统中,人被认为是操作员,只是对机器进行操作,而无真正的交互活动。在计算机系统中人还是被称为用户。只有在VR系统中的人才,是主动的参与者。

人类生活中的事件都是多通道的,人-计算机多通道交互技术的发展虽然受到软件和硬件的限制,但至少要满足两个条件:其一,多通道整合,不同通道的结合对用户的体验是十分重要的;其二,在交互中容许用户产生含糊和不精确的输入。


rjjh-2

人机交互可以识别手势

⒈非精确的交互

语音(Voice) 主要以语音识别为基础,但不强调很高的识别率,而是借助其它通道的约束进行交互。

姿势(Gesture) 主要利用数据手套、数据服装等装置,对手和身体的运动进行跟踪,完成自然的人机交互。

头部跟踪(HeadTracking)主要利用电磁、超声波等方法,通过对头部的运动进行定位交互。

视觉跟踪(Eye-Tracking)对眼睛运动过程进行定位的交互方式。

⒉多通道交互的体系结构

多通道交互的体系结构首先要能保证对多种非精确的交互通道进行综合,使多通道交互存在于一个统一的用户界面之中,同时,还要保证这种通道的综合在交互过程中的任何时候都能进行。图1和图2表示了这两种不同的体系结构。良好的体系结构应能保证多个通道的综合不只是发生在应用程序这一级。

人机交互技术是目前用户界面研究中发展得最快的领域之一,对此,各国都十分重视。美国在国家关键技术中,将人机界面列为信息技术中与软件和计算机并列的六项关键技术之一,并称其为"对计算机工业有着突出的重要性,对其它工业也是很重要的"。在美国国防关键技术中,人机界面不仅是软件技术中的重要内容之一,而且是与计算机和软件技术并列的11项关键技术之一。欧共体的欧洲信息技术研究与发展战略计划(ESPRIT)还专门设立了用户界面技术项 目,其中包括多通道人机交互界面(MultiModal Interface for Man-MachineInterface)。保持在这一领域中的领先,对整个智能计算机系统是至关重要的。我们可以以发展新的人机界面交互技术为基础,带动和引导相关的软硬件技术的发展,使更有效地使用计算机的计算处理能力成为可能。

 


 

4. 研究现状

已经取得了不少研究成果,不少产品已经问世。侧重多媒体技术的有:触摸式显示屏实现的“桌面”计算机,能够随意折叠的柔性显示屏制造的电子书,从电影院搬进客厅指日可待的3D显示器,使用红绿蓝光激光二极管的视网膜成像显示器;侧重多通道技术的有:“汉王笔”手写汉字识别系统,结合在微软的Tablet PC 操作系统中数字墨水技术,广泛应用于Office/XP的中文版等办公、应用软件中的IBM/Via Voice连续中文语音识别系统,输入设备为摄像机、图像采集卡的手势识别技术,以IPHONE手机为代表的可支持更复杂的姿势识别的多触点式触摸屏技术,以及IPHONE中基于传感器的捕捉用户意图的隐式输入技术。

人机交互技术领域热点技术的应用潜力已经开始展现,比如智能手机配备的地理空间跟踪技术,应用于可穿戴式计算机、隐身技术、浸入式游戏等的动作识别技术,应用于虚拟现实、遥控机器人及远程医疗等的触觉交互技术,应用于呼叫路由、家庭自动化及语音拨号等场合的语音识别技术,对于有语言障碍的人士的无声语音识别,应用于广告、网站、产品目录、杂志效用测试的眼动跟踪技术,针对有语言和行动障碍人开发的“意念轮椅”采用的基于脑电波的人机界面技术等。热点技术的应用开发是机遇也是挑战,基于视觉的手势识别率低,实时性差,需要研究各种算法来改善识别的精度和速度,眼睛虹膜、掌纹、笔迹、步态、语音、唇读、人脸、DNA等人类特征的研发应用也正受到关注, 多通道的整合也是人机交互的热点,另外,与“无所不在的计算”、“云计算”等相关技术的融合与促进也需要继续探索。

如果你同时保留着看电视和听广播这两个习惯——或者,看视频网站的同时会去找些播客节目听听,那么你一定会注意到一个显著的区别:视频节目的丰富程度和制作上的复杂度远高于音频节目。例如,《新闻联播》的片头20多年换了四五次,体现了电视技术的最新进步,但片头音乐一直不变,人们也能接受。电视节目的摄影棚几年就得来一次大翻新,但现在的广播电台依然可以使用十几年前的音频制作系统来播出节目,直播间里的时光仿佛停滞一般。


人类在同一时刻用眼睛可以接收的信息量远高于用耳朵能接收到的,视觉可以判别空间位置、形状和颜色叠加起来的丰富信息,比听觉高了不止一个维度。在看到人说话的时候,我们接收到的不只是话语内容,还包括人的面部特征和表情的细微变动,这都对氛围和情绪有着潜移默化的影响。相应的,听觉接收到的话语内容可以用手语或者字幕替代,但视觉附加的更多信息却难以转化回音频。


历史上,图书和报纸已经给了人们在视觉信息接收方面的训练,人们将排版经验延伸到电影和电视上。尽管留声机和电影技术几乎处于同一时代,但人们却宁愿忍受很多年没有同期声的无声电影时代,宁愿用随便什么音乐放一下做背景了事。可见,人们习惯上对图像比对声音重视得多。


同样,信息时代的到来也毫不例外的优先偏爱图像。90年代电脑同时具备独立的显卡和声卡,技术进步之后,人们对声卡抱着无所谓的态度,却追求独立显卡和屏幕的画质,以至于追求手机摄像头的精度。在交互方面,大家非常注重GUI(图形用户界面),而对于声音的设计处理一般比较马虎,还停留在很多年前的水平。
随着iPhone带来的趋势,一块巨大的触屏成为人们交互的全部载体,跑在上面的应用也随着一股奇怪的扁平化风潮而变得越来越样式单一,设计师为了与众不同又好用的界面而绞尽脑汁。对于音频而言,它终于迎来了走出冷宫的机会。人机交互的下一波趋势,将很可能在声音——而不是图像——方面迎来突破。

 


 

5. 主要特点

多媒体系统的交互特点

与传统用户界面相比,引入了视频和音频之后的多媒体用户界面,最重要的变化就是界面不再是一个静态界面,而是一个与时间有关的时变媒体界面。

人类使用语言和其它时变媒体(如姿势)的方式完全不同于其它媒体。从向用户呈现的信息来讲,时变媒体主要是顺序呈现的,而我们通常熟悉的视觉媒体(文本和图形)通常是同时呈现的。在传统的静止界面中,用户或是从一系列选项中进行选择(明确的界面通信成分),或是用可再认的方式进行交互(隐含的界面通信成分)。在时变媒体的用户界面中,所有选项和文件必须顺序呈现。由于媒体带宽和人的注意力的限制,在时变媒体中,用户不仅要控制呈现信息的内容,也必须控制何时呈现和如何呈现。

VR系统中人机交互的特点

人机交互可以说是VR系统的核心,因而,VR系统中人机交互的特点是所有软硬件设计的基础。其特点如下:

观察点(Viewpoint) 是用户做观察的起点。

导航(Navigation) 是指用户改变观察点的能力。

操作(Manipulation)是指用户对其周围对象起作用的能力。

临境(Immersion) 是指用户身临其境的感觉,这在VR系统中越来越重要。

VR系统中人机交互若要具备这些特点,就需要发展新的交互装置,其中包括三维空间定位装置、语言理解、视觉跟踪、头部跟踪和姿势识别等。

多媒体与VR系统的人机交互有着某些共同特点。首先,它们都是使用多个感觉通道,如视觉和听觉;其次,它们都是时变媒体。

 

声音不重要,还是人们没发现它的重要?
“在汽车出现之前,人们都以为自己想要一台更快的马车。”这句话大家也许都很熟悉。在iOS 7和微软Metro界面出现之后,一夜之间各种UI设计都趋向于扁平,而流行多年的拟物化设计很快就退潮了。这表明,人们的审美态度是可以因为外界的强力驱动而受到很大的改变的,并不是一成不变。所以对音频交互也是如此:并不是说声音相对于图像而言不重要,而是需求没有得到很好的引导。


声音有什么好处?它是否有足够潜力成为不可替代的载体呢(为什么我们获得的是相反的信号,比如交通广播电台即将被打车软件的抢单声埋葬)?首先,习惯声音交互可以让我们的感觉器官均衡利用,换句话说就是保护眼睛。长期使用手机,比如在地铁盯着屏幕或者睡觉之前刷屏,会出现很多健康问题,其实不仅限于眼睛,手持阅读介质的姿势不同,全身都可能受影响。而且,作为必须全神贯注进行的活动,阅读(包括观看视频)需要完全沉浸进去,和外界隔离,引发的心理问题也不容忽视。不管是阅读长文还是碎片化消息,眼睛接受的信息量通常过大,人们接受了过量的信息,以至于形成信息过载而不自觉。使用声音可以让人们强制减少信息摄入量,并更自如的利用碎片时间。对孩子而言,声音(不使用耳机)也是一种亲切自然的交互方式,有助于让孩子早期就接触电脑,而不用担心用眼,孤独等副作用。此外,随着我们使用智能设备的“户外场景”增多,就像这个年头智能手表终于迎来了春天一样,为短信息和免提式交互量身定制的声音也会派上更大用场。户外场景其实主要就是开车或者是提着东西走路。在这种情况下,显然眼睛就只是拿来看路才更合适。


一个例子是,交通电台提交路况信息,从原来的短信平台改为用微信公众号发送语音,电台会直接播出上传的语音。这样,司机可以不停车,用蓝牙耳机播报路况,让整个交流过程更像是真正的无线电台一样。最后,声音可以极大的帮助视障人士走入信息化。如果不是亲身接触,你根本无法想象视觉在如今的交互中占有如何举足轻重的地位。完全不用眼睛的网页浏览,必须忍受读屏软件以飞快到基本听不清的速度给你播报每一个文字和图片信息,而很多图片都没有妥当的文本标签,在没有充分无障碍化的页面,比如淘宝店铺,使用者就会完全陷入迷茫。在帮助文本信息转语音,方便视障人士方面,腾讯可能是国内公司中尝试时间最长的公司,QQ2010正式支持读屏软件并延续至今,其他应用如QQ音乐也增加了支持。随着语音命令可用范围进一步扩大,电脑之门将会更广阔地对盲人朋友敞开。

让基于声音的人机交互变得更自然
拟人的声音交互现在来到一个艰难的瓶颈期。著名的“恐怖谷理论”认为,当机器人与人类相像超过一定程度的时候,哪怕与人类有一点点的差别,都会显得非常显眼刺目,让整个机器人显得非常僵硬恐怖,让人有面对行尸走肉的感觉。
在厂商跟风推进语音助手成为所有手机、手表的标准配置之后,它正逐步降低人们的心理障碍,培养使用习惯。如上所述,对待机器我们很自然的操作方式是“动手不动口”,对着机器说话会感觉很奇怪。但是调戏Siri或者小娜,已经一定程度上在帮我们克服这种障碍。


这就给语音助手进一步提升智能程度赢得了宝贵的时间。等到一个真正如人类一般智能的声音出现时,人们对于对着电脑倾诉,侃侃而谈,就不会太排斥,电影《Her》当中出现的恋上机器声音的情节,也会获得更多用户的共鸣。
如果一个虚拟的人类声音始终会让人心生抗拒,那最理想的办法是机器直接执行人类短促简单的语音命令。比如说你走到家门说开门,那么就只是把门打开,不会有什么多余的回应说“好的,我这就把门打开”。另一种可行的办法是让机器用“显然不是普通人类”的声音与人交互,比如现在还有点“单字蹦”的Siri和谷歌娘,或者故意用萌化的声音说“主人回家了喵”,类似这样的方法其实就是在智能不到位的时候用装傻卖萌来补充。既然不像真人,也就没有必要感到不舒服了。

技术进步和概念创新可以互相驱动
当我们站在现在回顾iPhone出现之前的手机市场,我们会发现,现在的应用形态有很多是当年不可想象的。这当中很多更新都基于硬件交互方式的改进,比如多点触摸,GPS、NFC/RFID和各种感应器的协同作用。所以我们有同样的信心认为,只要用心去开发语音的交互功能,就会出现更多我们现在无法想象的新的交互方式。有时候,当新的交互到来的时候,我们才会惊奇的发现为其铺垫的技术因素已经成熟;而只要出现一个合理的产品,它起到的标志性作用就会引导业界进行自主革新,提升性能和降低成本。


在声音交互方面,Siri就是一个很好的例子。它需要输入和输出技术——语音识别和文字转语音共同配合。而Siri出现的时候,这两种技术都已经到了接近能用的程度——就中文而言,语音播报不再那么“单字蹦”了,而多种第三方语音引擎的识别率更可以在安静环境下达到90%以上,并顺理成章成为众多山寨Siri的选择。它的结果就是厂商跟风推进语音助手成为所有手机、手表的标准配置。不管是可穿戴设备,还是普通的电脑,是家庭游戏机或客厅的机顶盒,以至于智能家居和汽车,声音交互都是非常有用的。但是截至目前,人们对于它的探索还是非常被动。比如说,只有当智能手表在输入上出现障碍的时候才想到用语音输入,而并非主动的探索用语音作为屏幕显示的替代方案。所以,如果进一步整合现有技术,能够给我们带来一个具有示范作用的应用,就会显著加速业界对声音交互场景的研究。[2]

 


6. 科技视频


 

7. 参考资料

 1、人机交互方式将走向何方? 网易科技[引用日期2016-04-26]

 2、声音:或许是下一个人机交互界面​ 新浪[引用日期2016-04-26]

99VR视界二维码

相关文章

    404 Not Found

    404 Not Found


    nginx
在线客服