# 表达障碍:提示驱动的人工智能用户体验损害了可用性

原文: The Articulation Barrier: Prompt-Driven AI UX Hurts Usability (opens new window) 翻译: UX Lib (opens new window)

摘要:生成式人工智能系统,如 ChatGPT,通过用户书写的散文形式提示来达成基于意图的输出。这就要求用户能够清晰、准确地用散文形式表达自己的意图,但对于富裕国家中的大约一半人口来说,这样的写作能力是一个挑战。

当前如 ChatGPT 这类生成型 AI 系统,其用户界面主要依靠用户以散文格式输入的“提示”来驱动。这种依据用户意图定制结果 (opens new window)的方法有诸多优势,它使得熟练用户能够迅速达到想要的结果,相比于传统的基于命令的用户界面方式要快得多,后者要求用户通过大量复杂的命令手动控制计算机,而这种方式自我们放弃批量处理以来就一直是主流。

但一个主要的可用性缺点是,用户必须具有高度表达能力才能为提示编写所需的散文文本。根据最新的读写能力研究(详见下文),像美国和德国这样的富裕国家中,一半的人口被分类为低读写能力的用户。(虽然日本和可能的一些其他亚洲国家的情况要好一些,但在中等收入国家的情况要糟糕得多,而在发展中国家可能更糟。)

我一直无法找到关于写作技能的大规模国际研究,所以我依赖于阅读技能的研究。通常来说,创作新的描述性散文比阅读和理解别人已经写好的散文更具挑战性。因此,我怀疑低表达能力用户(创造一个新的未被研究的概念)的比例甚至高于低文化水平用户的比例。

支持我的观点的一个实际证据是,出现了专门致力于撰写能够引导 AI 产出期望结果的必要文本的所谓 “提示工程师 (opens new window)” 。这种以“提示工程”为职业的存在,暗示了许多商业专业人士并不能足够清晰地表达他们的需求,以便于有效使用目前的 AI 用户界面解决那些超出简单问题的复杂场景。

以书面形式表达你的需求是困难的,即使在高文化水平上也是如此。例如,考虑一下大公司中的一个部门负责人,他想要自动化一些繁琐的程序。他或她去 IT 部门说,“我想要这样和那样,这里是规格。” IT 部门实际提供的软件能满足这个部门的需求的可能性有多大?根据几十年的企业软件开发经验,几乎为零。人们简单地无法准确地在规格文档中表达他们的需求。对于提示也是如此。

对许多用户来说,表达提示是困难的,尤其是因为 AI 的回应并未提供更好的提示帮助。漫画由 Dall-E 绘制。

为什么在当前 AI 风潮中,尽管产生了海量的分析,但严重的可用性问题依然未被广泛讨论?原因可能在于,大部分关于新 AI 能力的分析都出自学者或记者之手,而这两个职业恰恰需要高度的文献阅读和书写能力。而我们以前的观点“你并不等同于用户”在这些高端且自负的群体中似乎并不被普遍重视。

我预计在像美国、北欧和东亚这样的国家,能够熟练运用书面语言来高级使用由提示驱动的生成性 AI 系统的人口不到 20%。只要我们缺乏关于这个问题的更精确数据,我的最大可能性估计实际上是 10%。

毫无疑问,有一半的人口在写作上表达能力不足,无法很好地使用 ChatGPT。

# 克服表达障碍

要提升人工智能的易用性,我们首先应该对不同读写能力的用户进行广泛的定性研究,观察他们如何使用 ChatGPT 和其他 AI 工具来处理实际的商业任务。这样的研究将提供比我此处所做的初步、粗略分析更深入的见解。

其次,我们需要根据这项用户研究构建更广泛的用户界面设计。当然,这些设计将需要更多的研究。对于 “需要更多研究” 的陈词滥调,我感到抱歉,但我们现在的阶段几乎所有关于新 AI 工具的工作都是纯粹由技术人员推动的,而不是由用户体验专业人员推动的。

虽然我不确定具体的解决方案,但我愿意提出一些猜想。我认为,有效的人工智能用户界面可能是一种混合形式,既包含了基于意图的结果规定,也融合了以往命令驱动范式中图形用户界面的某些特点。图形用户界面因为能向用户直观展示可行的操作,而非让用户详细描述他们想要的内容,所以在可用性上具有明显的优势。

虽然我并不认为它很棒,但是一个体现了这些想法的当前设计是 Grammarly 写作助手的 AI 功能(如下所示)。除了明确他们的需求外,用户还可以点击几个常见需求的按钮。

# 成人读写能力研究发现:一半的人口阅读能力较差

广泛人群的阅读技能最好的研究是由经济合作与发展组织(OECD),这是一个以富裕国家为主的国际组织,所进行的。我找到的最新数据源自国际成人能力评估项目(PIAAC),该数据是在2012年到2017年间收集的。这个项目测试了将近25万人,但由于报告这些发现的各种网站可用性不佳,确切的人数无法得知。不管怎样,这是一项规模庞大的研究。另外值得一提的是,我们作为纳税人为收集这些数据支付了巨大的成本,但这些数据却难以找到且使用不便,而且发布数据存在巨大的延迟,这实在是令人遗憾。

儿童的读写能力是通过一系列不同的研究来衡量的,即 PIRLS(国际阅读素养进步研究)。我在这里不会讨论这个问题,因为成年用户的技能决定了 AI 在商业环境中的可用性问题。

PIAAC 测试的是每个国家 16-65 岁人口的整体读写能力。对于我分析商业可用性的目标来说,这个年龄范围的下限有些问题,因为大多数商业专业人士直到大约 22 岁才开始工作。然而,PIAAC 是我们现有的最好工具,他们的大多数研究参与者都符合工作年龄。

以下是 PIAAC 根据 20 个国家的成人识字水平的分布图。图中红色和橙色部分代表那些能够阅读(除了红色区域最低端的极少数人)但阅读能力有限的人群。

在 1 级,读者只能辨认出零散的信息,如招聘广告中的电话号码,但他们无法从文本中做出推断。 2 级的读者能进行一些基本的推理,但理解大段文本的能力仍然不足。 蓝色代表的 3 级则是首个代表真正阅读和处理文本能力的等级。 4 级和 5 级(合并为绿色)则代表更高级的学术级阅读技能,包括执行多步骤操作,整合、解释或从复杂或长篇的连续、非连续、混合或多种类文本中综合信息。

这些高识字水平的用户还能进行复杂的推理,并将背景知识应用于文本解读,而这是普通的 3 级读者所无法做到的。

五级(非常高的读写能力)并不完全等同于天才级别,但几乎接近:在大多数富裕国家,只有 1% 的人口具有充分理解复杂文本的能力。

从图表中我们可以看到,日本是研究中唯一阅读能力良好的国家,即使如此,他们也有四分之一的人口阅读能力较低。荷兰、新西兰和斯堪的纳维亚也有很好的分数。但是,大多数富裕国家的人口中,或多或少有一半的人处于较低的阅读能力范围,我怀疑这些人在书面表达复杂想法的能力也会较低。

由于这项研究是由 OECD(主要是富裕国家的俱乐部)进行的,因此没有来自贫穷国家的数据。但来自三个中等收入国家(智利,墨西哥和土耳其)的数据非常糟糕:在这三个国家中,低识字率的人口占比超过 85%。我只能猜测,但来自教育系统不足的贫穷发展中国家的分数可能会更糟。

由 OECD 收集的数据。国家按其成年人口在零到二级读写能力等级中的百分比进行排序。“斯堪的纳维亚” 是丹麦、芬兰、挪威和瑞典的平均值。

# 此文章的信息图表总结

使用基于提示的 AI 的表达障碍

- 生成式人工智能 & 散文式提示
  - 允许快速实现基于意图的结果
  - 需要用散文形式清晰表达提示
  - 代替了传统命令界面中繁琐的逐步操作

- 低识字率障碍
  - 美国有一半的人口阅读能力较弱
  - 中等收入国家有85%的人口阅读能力低下
  - 对多数人而言,写作比阅读更难

- 提示工程认为有害
  - 使用 AI 不应需要专门的角色
  - 像之前谷歌的“搜索专家”一样
  - 复杂任务难以清晰表达

- 提示表达的挑战
  - 不到20%的用户能够在写作中清晰表达
  - 只有10%的人口能够完全利用 AI

- 克服表达障碍
  - 开发多样化的用户界面(UI)设计
  - 结合意图导向和图形用户界面(GUI)控制
  - 混合型人工智能用户体验将推动广泛的经济增长

——《论语》