首云,首都在线,全球一体化平台

360大模型内容安全护栏

360大模型内容安全护栏实时检测识别各业务场景的有害输入输出内容,并为敏感问题提供安全代答功能,有效保障大模型落地场景应用过程的内容安全。

大模型的风险与挑战

价值观错误

    部分开源大模型境外训练语料过多,容易存在 歧视偏见、色情低俗、违禁暴恐等言论,并透过互联网算法服务输出给社会,危害公共安全。

提示注入攻击

    不法分子通过在提问中注入攻击指令,绕过大模型服务的防御机制,诱导大模型生成违法违禁等不良行为实施细则,容易导致信息泄露、危害公共安全等严重后果。

行业合规安全

    大模型在垂直行业应用过程中也存在特定的安全隐患,例如金融领域的理财建议可能有误导性,医疗领域提供的治疗方法可能是未经验证的,教育领域可能用于提供作弊的工具。

产品特点

全流程内容安全保障

  • 输入风险识别
  • 敏感问题安全代答
  • 输出风险实时过滤
  • 事后内容风险回溯

多种类风险内容识别

  • 传统内容风险识别
  • 更多对抗内容防御手段
  • 风险识别范围完全覆盖《生成式人工智能服务管理暂行办法》

多模态风险内容识别

  • 文本风险内容识别
  • 图片风险内容识别
  • 音频风险内容识别
  • 视频风险内容识别

场景化策略定制

  • AI教育产品
  • AI医疗产品
  • AI公文写作

功能清单

功能组件 功能说明 应用场景
安全评测大模型 判断模型回答安全等级 大模型和算法服务备案自评估
红蓝对抗攻击大模型 自动生成攻击样本 大模型安全自动化巡检
风险检测大模型 识别风险类型,进行分级分类处理 语料清洗、模型输入输出有害内容过滤
安全回复大模型 强化模型价值观 风险提问代答
大模型安全运营平台 管理关键词库、FAQ库和风控等级 线上大模型安全防护运营

技术架构

产品规格

产品规格 基础版 旗舰版 尊享版
应用场景 硬件一体机渠道商,企业预算成本低,场景风险低,敏感词服务可以有助于实现基础安全 通用风控需求,期望除静态敏感词外,支持语义理解层面的风控力度,风险识别精度90%以上 企业预算多,业务场景多样复杂,客户对风控要求较高,希望能对不同风险问题分级分类处理
软件服务 聚合风控
敏感词服务
安全护栏管理系统
聚合风控
敏感词服务
风险检测大模型
安全护栏管理系统
聚合风控
敏感词服务
风险检测大模型
安全回复大模型
安全护栏管理系统
交付形态 纯软件 纯软件 纯软件