用户需求+定义成功

Even the best AI will fail if it doesn’t provide unique value to users.如果不能为用户提供独特的价值,即使是最好的人工智能也会失败。

  1. 找到用户需求与人工智能优势的交集
    1. 确定人们需要帮助解决的实际问题
    2. 映射现有工作流程
    3. 确定人工智能是否能增加独特的价值
      1. 当人工智能可能更好时
        1. 向不同的用户推荐不同的内容。例如提供个性化的电影观看建议。
        2. 对未来事件的预测。例如,显示 11 月下旬飞往丹佛的航班价格。
        3. 个性化改善了用户体验。随着时间的推移,个性化的自动化家用恒温器使家居更加舒适,恒温器也更加高效。
        4. 自然语言理解。听写软件需要人工智能能够针对不同的语言和语音风格良好运行。
        5. 识别整个类别的实体。不可能将每一张脸都编程到照片标记应用程序中——它使用人工智能将两张照片识别为同一个人。
        6. 检测随时间变化的低发生事件。信用卡欺诈不断演变,很少发生在个人身上,但经常发生在一个大群体中。人工智能可以学习这些不断变化的模式,并在新的欺诈行为出现时检测它们。
        7. 特定领域的代理或机器人体验。对于大量用户来说,预订酒店遵循类似的模式,并且可以实现自动化以加快流程。
        8. 显示动态内容比可预测的界面更有效。人工智能从流媒体服务生成的建议显示了用户几乎不可能通过其他方式找到的新内容。
      2. 当人工智能可能并不更好时
        1. 保持可预测性。有时,核心体验最有价值的部分是其可预测性,无论上下文或其他用户输入如何。例如,当“主页”或“取消”按钮停留在同一位置时,更容易用作逃生舱口。
        2. 提供静态有限的信息。例如,信用卡输入表单简单、标准,并且对于不同用户没有高度不同的信息要求。
        3. 最大限度地减少代价高昂的错误。如果错误的成本非常高并且超过了成功率小幅提高的好处,例如导航指南建议越野路线以节省几秒钟的旅行时间。
        4. 完全透明。如果用户、客户或开发人员需要准确理解代码中发生的所有事情,例如开源软件。人工智能并不总是能够提供这种程度的可解释性。
        5. 针对高速低成本进行优化。如果开发速度和首先进入市场对企业来说比其他任何事情都更重要,包括添加人工智能将提供的价值。
        6. 自动化高价值任务。如果人们明确告诉你他们不想要自动化或人工智能增强的任务,那么这是一个很好的任务,不要试图破坏它
  2. 评估自动化与人工控制
    1. 何时使用自动化
      1. 成功的自动化通常通过以下因素来衡量:
        1. 提高效率
        2. 改善人类安全
        3. 减少繁琐的任务
        4. 实现没有自动化就不可能实现的新体验
      2. 自动化通常是用人工智能的优势来补充人类弱点的任务的最佳选择。
      3. 人们缺乏完成任务的知识或能力
      4. 任务无聊、重复、尴尬或危险
      5. 即使您选择自动化执行任务,也几乎总是应该有人工监督的选项(有时称为“人在循环中”),并在必要时进行干预。简单的选项允许用户预览、测试、编辑或撤消人工智能自动化的任何功能。
    2. 何时增加人工干预
      1. 人们享受这项任务
      2. 个人对结果负重要责任
      3. 场景的风险很高
      4. **具体偏好(个性化)**很难沟通
  3. 设计和评估奖励函数
    1. 衡量积极和消极
      1. True positives. 当模型正确预测积极结果时。
      2. True negatives. 当模型正确预测负面结果时。
      3. False positives. 当模型错误地预测积极结果时。
      4. False negatives. 当模型错误地预测负面结果时。
    2. 考虑精确率和召回率的权衡
      1. 精度是指在所有真阳性和假阳性中正确分类的真阳性的比例。精度越高,您就越有信心任何模型输出都是正确的。然而,代价是排除可能相关的结果会增加误报的数量。
      2. 召回率是指在所有真阳性和假阴性中正确分类的真阳性的比例。召回率越高,您就越有信心所有相关结果都包含在输出中的某个位置。然而,代价是您将通过包含可能不相关的结果来增加误报的数量。
    3. 评估奖励函数结果
      1. 评估包容性
      2. 随着时间的推移进行监控
      3. 想象一下潜在的陷阱
    4. 考虑负面影响
      1. 如果用户对智能播放列表和路线的平均拒绝率超过 20%,我们应该检查我们的 ML 模型
      2. 如果超过 60% 的用户下载了我们的应用程序但从未使用过它,我们应该重新审视我们的营销策略
      3. 如果用户经常打开应用程序,但只有 25% 的时间完成运行,我们将与用户讨论他们的体验,并可能重新审视我们的通知频率

数据收集+评估

  1. 从一开始就计划收集高质量的数据。
    1. 准确地表示现实世界的现象或实体
    2. 负责任地收集、存储和使用
    3. 可重现
    4. 随着时间的推移可维护
    5. 可在相关应用程序中重复使用
    6. 具有实证和解释力
  2. 将用户需求转化为数据需求
    1. 创建数据集规范
    2. 获取数据
      1. 现有数据集
        1. 您是否可以访问满足您的项目要求的现有数据集?探索数据集搜索以开始寻找可用的数据集。
        2. 您可以通过与其他组织合作、购买数据集或使用客户数据来获取现有数据集吗?
      2. 此数据适合您的用户和用例吗?
      3. 数据是如何收集的?
      4. 对其应用了哪些变换?
      5. 您是否需要使用其他数据源来增强它才能发挥作用?
      6. 创建它时是否进行了任何权衡和假设?
      7. 数据集的数据合规标准和许可信息是什么?
      8. 数据集是否有任何文档,例如数据卡?
    3. 确定您需要的数据与您拥有的数据
      1. 是否有任何数据需要区别对待?
        1. 个人身份信息 (PII)
        2. 受保护的特性
        3. 可用于推断 PII 或受保护特征的变量。
      2. 您通过使用这些数据为用户提供什么好处?
      3. 您能安全地存储和使用数据吗?
      4. 您将保留数据多久?
      5. 您实际上需要标记多少数据?
      6. 数据是否代表您的用户?
        1. 您如何定义您的用例的代表性?
        2. 您将如何收集代表性数据?
    4. 避免过度拟合和欠拟合
    5. 致力于公平
      1. 当一个系统放大或反映对特定群体的负面刻板印象时,就会产生代表性伤害。
      2. 机会剥夺,即系统做出的预测和决策会对现实生活产生后果并对个人获得机会、资源和整体生活质量产生持久影响。
      3. 不成比例的产品故障,即产品无法正常工作或为某些用户组更频繁地提供不正确的输出。
      4. 当系统推断出某些人口统计特征与用户行为或兴趣之间的不利关联时,不利造成损害。
    6. 使用适用于不同用户组的数据
    7. 考虑数据收集和评估过程中的偏差
    8. 管理隐私和安全
      1. 您可能需要查看 PII 和受保护特征的数据
      2. 在您所在地区(以及您产品的用户所在地区)收集或使用此类数据之前,您可能需要咨询律师。
      3. 不要认为基本数据政策足以保护个人隐私。
      4. 建立隐私保护的基础设施、培训和指导计划,并针对对手可能掌握数据的情况制定计划。
      5. 当个人详细信息(例如地址)可能作为人工智能预测的一部分被暴露时,采取额外措施来保护隐私(例如,匿名化姓名,即使人们同意使用他们的名字)。
    9. 用户同意数据使用存在哪些限制?
    10. 是否存在无意中泄露用户数据的风险?后果是什么?
  3. 负责任地获取数据。
    1. 使用现有数据集
    2. 收集用户的实时数据
    3. 捕捉真实世界
    4. 考虑格式化
    5. 避免其他 ML 模型的复合错误
    6. 保护个人身份信息
    7. 制定数据维护计划
  4. 准备并记录您的数据
    1. 将数据集拆分为训练集和测试集
    2. 分析并准备您的数据
    3. 记录您的数据
  5. 贴标者和标签设计
    1. 贴标者可以是:
      1. 您的用户:在您的产品中提供“派生”标签,例如通过标记照片等操作
      2. 通用工具:通过众包工具为各种数据添加标签
      3. 训练有素的主题专家:使用专门的工具来标记医学图像等内容