体验度量的前世今生

  Thoughtworks 中国区客户体验与产品设计部的体验度量及管理团队推出体验度量系列文章,将会系统介绍体验度量的概念内涵、困难挑战、趋势发展,以及团队如何在大数据时代下帮助企业构建体系化的体验度量框架。在这个系列里,你能看到最客观、最实用、最新颖的用户体验度量及管理方法。

  该系列共分为四篇文章。此为第一篇,旨在为大家介绍用户体验度量的定义和价值,以及传统的体验度量方法;第二篇会介绍数据驱动的体验度量所面临的挑战以及我们的思考;第三篇会阐述团队沉淀的数据驱动搭建体验度量体系的方法;最后一篇会讲解如何在条件有限的情况下快速搭建轻量级的体验度量体系。


图 1. 体验度量与管理系列文章

  什么是用户体验度量

  在产品设计的过程中,我们总是提到要提升产品的“用户体验”。不仅仅是在互联网,即便是在各行各业的实体企业中,“用户体验”也经常被提及。

  从商业的角度看,维护好的用户体验往往会给企业带来收入的增长或者成本的降低。有不少企业由于新产品的用户体验差而造成了客户流失,而有的企业则将好的用户体验作为它们区别于其他品牌的关键因素,比如苹果公司就一直以“极致的用户体验”占据用户心智,有效提升了品牌影响力。

  “体验”的设计听起来像是主观的,那从业者该如何评价体验设计的好与坏呢?产品究竟“好”在哪里,有多好,还有哪些地方需要改进?企业该如何评价用户体验设计这项工作的收益?科学地设立体验度量体系和标准能够针对性地解决以上问题。

  谈论体验度量前,首先要厘清什么是“度量”。度量是一种测量或者评价特定事物的方法。我们熟悉的可度量的属性有很多,如时间、距离、重量、高度、速度、温度、体积等。度量时,度量者需要使用同一类稳定可靠的测量方法,并在相同的条件下用相同的手段对事物进行测量,这样得到的结果是可以相互比较的。比如,一米,不管谁来测量,都是一样的长度,并可与其他距离数据做比较。度量存在于我们生活的许多领域,每一个行业、活动和文化都有其自身的一系列度量,用户体验领域也不例外。

  体验的度量实则是量化用户与产品交互时的行为和态度。虽然用户行为的过程和情绪态度较难进行直接量化,但行为的结果却容易被观察、测量和管理。体验度量即是抽取用户体验过程中可观察、可测量的行为结果,进行衡量评判。体验设计的效果通常可以通过任务成功率、完成时间、转换量、用户满意度、推荐值和销售量等来量化。近几年,各行各业都逐渐重视并开始探究这些数据背后的用户行为和习惯,进而洞察出更多的设计机会点和商业策略。


图 2. 度量与体验度量

  为什么要度量用户体验

  企业总是会遇到一些难以回答却又至关重要的问题,比如“用户会推荐这个产品给他/她的亲友吗?”“与竞品相比,这个产品的用户体验如何?”“新开发产品的体验真的会优于当前的产品吗?”,有效地度量体验可以帮助从业者和决策者准确地回答以上问题,并使得设计和评价过程更为结构化。

  对于从业者来说,体验度量可以说明新产品是否真的优于当前产品,是否真正提高了用户体验。更重要的是,从业者还可以根据度量发现的结果进行更加深入的洞察和理解,进而进一步思考如何优化产品的功能和体验,为用户带来更优质的产品。

  对于决策者来讲,敏锐的管理者需要尽可能准确地知道产品体验现状,从而尽早制定应对策略。如果缺少用户体验度量所提供的信息,决策者可能就要根据不正确的假设、“直觉”或预感做出重要的商业决策。然而这样的决策将带有一定盲目性,无法保证决策的科学性和正确性。


图 3. 从业者会遇到的问题

  另外,用户体验度量也是计算企业投资回报率的一个重要组成部分。作为商业计划的一部分,设计者可能会被要求确定新产品的设计能节省多少成本或能增加多少收入。针对这一问题,设计者可以通过用户体验度量,衡量总体上给企业带来的收入变化。比如,可以确定网站中数据输入区域的一个简单改变,可以减少数据输入错误率,降低完成客户服务任务所需要的时间,进而增加每天处理的交易量,缩短客户等待货品的时间,提升客户满意度并增加订单量,从而从总体上给企业带来收入上的增加。

  用户体验度量的最终目标不在于度量本身,度量只是一种途径或方法,实则是帮助度量者获得更多客观准确的信息,以便做出正确的决策,从而更好地实现用户价值、产品价值、商业价值和社会价值。

  传统的用户体验度量

  业内有很多产生量化体验结果的方法论,包括可用性测试、调查、问卷、A/B测试、网站访客分析,和最近兴起的通过大数据度量并管理用户体验。

  本文将会简单介绍传统体验度量中最常见的两种方法——调查可用性测试,以及常被用来描述样本数据估算总体数据的置信度和置信区间。如何将散点的、单一的方法组合搭建成一套完整的度量体系,将会在体验度量系列文章第三篇和第四篇详细解析。

  1. 调查

  调查是收集用户态度数据最常见最简单、也是成本最低的度量方法之一。

  比如我们经常谈论的 NPS 净推荐值、CSAT 满意度都属于调查的形式。通常还包括一些是/否二进制的回答、等级量表数据、评论和开放性数据(比如平台用户评论、客服电话中的反馈等)。


图 4. 净推荐值 NPS

  然而这些评分仅能够反应用户对产品体验的整体感受,却不能确定用户是否完成任务目标,也不能通过一些客观数据获取到一些典型的度量指标,比如任务完成率、任务时间、出错率、界面可用性问题等。因此在传统的体验度量方法中,可用性测试占有更为核心的地位。

  2. 可用性测试

  可用性测试用于研究用户体验数据最终如何在产品开发生命周期中进行使用,本质上区分为两种测试方式:

1. 形成式(formative)可用性测试,用于查找与修复可用性问题; 2. 总结式(summative)可用性测试,用于通过指标度量一个产品的可用性。

  形成式可用性研究通常是小样本的定性调查,其目标主要是在发布产品之前对设计进行改进,即发现或分析问题、提出修改建议,然后重复此评估、修改的过程,助力最终完成的产品尽可能地接近完美方案。该类研究数据通常以问题描述和设计建议的形式输出,但这并不说明没有机会进行量化。可以采用频率和严重性作为度量指标量化问题,追踪哪些用户遇到什么问题,衡量他们完成任务的时长,并判定他们是否成功地完成了任务等。事实上,越早进行形成式可用性研究,对设计产生的影响就越大。

  总结式可用性测试通常是在产品发布后,评估一个产品或者一项功能与其目标结合得有多好,或者用于对多款产品的比较研究,因此也分为两种类型:基准测试和比较测试。基准测试的目标是描述一个产品相对于基准目标的可用性程度,其提供了优化产品的切入点,同时为比较设计后的效果提供了基线;比较测试会涉及多个版本或产品,可以是同一产品的当前版本与先前版本的比较,也可以是不同竞争产品之间的比较。


图 5. 形成式与总结式

  无论是何种方法,所有的体验度量都必须是可量化的,它们必须能变成一个数字或能够以某种方式予以计算。但体验度量的特殊之处在于其测量的内容主要是人的行为或态度。因为人与人之间的差异较大且人的适应能力很强,所以度量用户体验时经常会碰到一些数据无法准确反映客观情况的困难。基于这个原因,大部分用户体验度量都会以置信区间体现数据的效度。

  3. 置信区间和置信度

  传统的体验度量中,考虑到经济成本,研究者几乎不会采集总体用户的数据(Population),而是抽取样本(Sample)并通过样本来估算总体的数据情况。如果直接用样本数据代表总体数据,样本量的大小和抽样对象的不同会导致点估计值产生差异,即便得到最好的结果,也只能接近但并不能得到真实的总体数据的结果。所以,区间估计可以给估算的值一个合理的取值范围。

  置信区间(Confidence Interval)就是指由样本统计量所构造的总体参数的估计区间。那这个范围有多大可信度呢?研究者们用置信度(也叫置信水平)来衡量。根据研究目标和适用范围的不同,研究采用的置信度也不同。比如,如果某项研究尝试估算某款除颤器需要多长时间才能复苏患者,出于安全性的考虑,研究者会期望对数据结果非常有把握,所以至少会选择 99% 的置信度。但是如果只是估计用户上传一张照片到他的社交平台上需要多长时间,也许 90% 的置信度就足够了。

  那在用户体验度量中该如何使用置信区间和置信度呢?举个例子,某项研究想估算用户使用产品中某项任务的完成率。抽样研究中观察到 10 个用户中有 7 个用户能够完成任务,样本完成率为 70%。假设我们想计算在 95% 的概率(置信度)下总体用户的完成率的估值区间范围,就可以通过专业公式计算得出该区间为 42%-98%(置信区间)。可以看出,这能帮助我们判断业务陈述产品使用率情况的准确性,如果他们说“用户完成率肯定在 70% 以上”,那一定是不够真实的。


图 6. 置信区间与置信度

  大数据时代下的体验度量

  尽管传统的度量方式也可以获取到一些典型指标的客观数据,但无论是可用性测试,还是传统的问卷调研,它们都面临着成本高、周期长、样本量小的困境。

  而这些问题,在如今互联网和移动设备大量普及的时代,将不复存在。用户在线上的留痕愈发完整和丰富,所有的行为结果都事无巨细地留存在互联网云上。现代企业采集数据容易许多,尤其是互联网企业,每一个用户登录、点击、互动的数据都可以被完整收集,得到准确的值

  对于从业者来说,通过大数据,不仅可以获得不同行业全面的、丰富的数据,还可以将多源数据打通,进行再次组合和深度连接,去分析和发现事物背后更深的关联。结合愈多的数据源,将会产生愈大的价值。

  大数据时代,体验度量及管理是一整套体系的建立,从体系搭建到指标监测及数据洞察,再到产品和营销策略设计,再到持续的评估和改进迭代,帮助利益相关者做出更好的决策和更优质的产品。未来,各个行业都将受惠于大数据时代快速便捷的数据获取和市场研究能力。利用线上数据进行用户研究,抓取用户数据并通过数据分析得出深刻洞见,将成为主流趋势。

  Thoughtworks 体验度量及管理团队基于时代趋势,构建了数据驱动的体验度量方法框架,希望帮助企业形成一套完整的闭环管理体系。那企业具体该如何快速搭建一套轻量级且适用的度量体系,以及如何通过数据驱动体验度量并获得体验洞察,敬请期待体验度量系列后续文章。

  References:

  Jeff Sauro, James R. Lewis《用户体验度量:量化用户体验的统计学方法》

  Toms Tulls, Bill Albert《用户体验度量:收集、分析与呈现》

  https://userguiding.com/blog/product-success-metrics/

  https://www.woshipm.com/data-analysis/5131458.html