此页面由 Cloud Translation API 翻译。

Responsible Generative AI 工具包

用于以负责任的方式设计、构建和评估开放式 AI 模型的工具和指南。

负责任的应用设计

定义模型行为规则，创建安全且负责任的应用，并保持与用户之间的透明沟通。

安全对齐

探索提示调试技巧和指南，以便进行微调和 RLHF，使 AI 模型与安全政策保持一致。

模型评估

使用 LLM 比较工具查找相关指导和数据，对模型的安全性、公平性和真实性进行可靠的评估。

保护措施

使用现成的解决方案部署安全分类器，或通过分步教程自行构建安全分类器。

设计负责任的方法

主动发现应用的潜在风险，并定义系统级方法，以便为用户构建安全且负责任的应用。

开始使用

定义系统级政策

确定您的应用应生成和不应生成哪些类型的内容。

安全设计

考虑技术和业务方面的权衡因素，确定实施风险缓释技术的总体方法。

了解详情

公开透明

使用模型卡片等工件传达您的方法。

查看模板

安全的 AI 系统

考虑安全 AI 框架 (SAIF) 中突出显示的 AI 专用安全风险和补救方法。

对齐模型

使用提示和调优技术，使模型符合您的特定安全政策。

开始使用

制作更安全、更稳健的提示

利用 LLM 的强大功能，借助模型对齐库打造更安全的问题模板。

调整模型以确保安全

通过调整模型以使其符合您的安全和内容政策，控制模型行为。

调查模型提示

借助 Learning Interpretability Tool (LIT)，通过迭代改进来构建安全实用的提示。

评估模型

使用我们的指导和工具，评估模型在安全性、公平性和事实准确性方面的风险。

开始使用

LLM Comparator

使用 LLM Comparator 进行并排评估，以定性评估模型之间的回答差异、同一模型的不同提示，甚至模型的不同调优

模型评估指南

了解红队判研最佳做法，并根据学术基准评估您的模型，从而评估在安全性、公平性和事实性方面的危害。

利用保护措施进行保护

过滤应用的输入和输出，并保护用户免受不良后果的影响。

开始使用

SynthID 文本

用于为模型生成的文本添加水印并检测文本的工具。

SynthID 文本水印

ShieldGemma

一系列基于 Gemma 2 构建的内容安全分类器，分为 2B、9B 和 27B 三种大小。

ShieldGemma 内容安全分类器

敏捷分类器

使用参数高效调优 (PET)，只需相对较少的训练数据，即可为您的特定政策创建安全分类器

创建安全分类器

Checks AI Safety

借助 API 和监控信息中心，确保 AI 安全性符合您的内容政策。

检查 AI 安全性

文本审核服务

使用此 Google Cloud Natural Language API 检测一系列安全属性，包括各种可能有害的类别和可能被视为敏感的主题。在使用量不超过一定限制的情况下，此 API 可免费使用。

Perspective API

使用这款免费的 Google Jigsaw API 识别“恶意”评论，以减少在线恶意言论，打造健康的在线交流环境。

Perspective API