部分开源大模型境外训练语料过多,容易存在 歧视偏见、色情低俗、违禁暴恐等言论,并透过互联网算法服务输出给社会,危害公共安全。
不法分子通过在提问中注入攻击指令,绕过大模型服务的防御机制,诱导大模型生成违法违禁等不良行为实施细则,容易导致信息泄露、危害公共安全等严重后果。
大模型在垂直行业应用过程中也存在特定的安全隐患,例如金融领域的理财建议可能有误导性,医疗领域提供的治疗方法可能是未经验证的,教育领域可能用于提供作弊的工具。
功能组件 | 功能说明 | 应用场景 |
---|---|---|
安全评测大模型 | 判断模型回答安全等级 | 大模型和算法服务备案自评估 |
红蓝对抗攻击大模型 | 自动生成攻击样本 | 大模型安全自动化巡检 |
风险检测大模型 | 识别风险类型,进行分级分类处理 | 语料清洗、模型输入输出有害内容过滤 |
安全回复大模型 | 强化模型价值观 | 风险提问代答 |
大模型安全运营平台 | 管理关键词库、FAQ库和风控等级 | 线上大模型安全防护运营 |
产品规格 | 基础版 | 旗舰版 | 尊享版 |
---|---|---|---|
应用场景 | 硬件一体机渠道商,企业预算成本低,场景风险低,敏感词服务可以有助于实现基础安全 | 通用风控需求,期望除静态敏感词外,支持语义理解层面的风控力度,风险识别精度90%以上 | 企业预算多,业务场景多样复杂,客户对风控要求较高,希望能对不同风险问题分级分类处理 |
软件服务 | 聚合风控 敏感词服务 安全护栏管理系统 | 聚合风控 敏感词服务 风险检测大模型 安全护栏管理系统 | 聚合风控 敏感词服务 风险检测大模型 安全回复大模型 安全护栏管理系统 |
交付形态 | 纯软件 | 纯软件 | 纯软件 |