点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:网络安全大模型评测平台CyberSec-Eval发布最新结果
首页> 网安频道> 数字安全 > 正文

网络安全大模型评测平台CyberSec-Eval发布最新结果

来源:光明网2025-10-14 10:16

  10月8日,权威评测平台CyberSec-Eval更新了其CS-Eval数据集的评测结果。CyberSec-Eval(CS-Eval)是目前国内外最具代表性与专业性的网络安全大模型评测基准之一,由阿里安全、复旦大学、中国科学院大学联合构建,在2024年上线。目前基于CyberSec-Eval2024年5月的数据集进行评测。

  澜砥威胁检测垂直大模型(版本N2-1008)、ShieldMind-R1及Trendyol-Cybersecurity-LLM-v2-Max在本次评测中包揽前三名。

网络安全大模型评测平台CyberSec-Eval发布最新结果

CyberSec-Eval综合排名TOP10

  该榜单测试具备以下几个核心特点:覆盖全面:涵盖11大类网络安全领域、42个子类任务,覆盖知识型与实战型双重维度;贴近实战:聚焦真实安全场景下的理解、推理与决策能力评估;客观公正:采用标准化测试集与评分机制,为行业提供可比对、可复现的参考依据。

  据悉,数据集构建团队引入了OpenAI、LLaMa、智谱AI、Mistral AI等国内外主流通用模型作为对比。鹏城实验室、中科院大学等知名研发机构,阿里云安全等互联网安全团队,启明星辰、奇安信等知名安全企业陆续加入测试,榜单排名持续动态变化。点击查看榜单

  本次排名第一的澜砥威胁检测垂直大模型N2分支基于安天自研的模型结构结合DeepSeek V3的权重迁移训练而来,于2025年9月9日首次提交测试并于次日公开,综合排名进入前三。该团队综合使用增强学习、前缀微调和经过修改的StableSPAM优化器,进行持续改进,并根据评测结果补充了相关领域的语料。在经过近30天的持续训练后,于10月8日以综合成绩91.51分获得榜单综合平均排名第一,并在业务连续性与应急响应恢复、安全架构设计、漏洞管理与渗透测试、AI与网络安全评测中取得四个单项第一名或与单项第一持平成绩。

  相关负责人介绍,上述该模型由安天自主研发,主要面向二进制、脚本等对象进行分析鉴定,突破开源模型局限,将检测文件的大小扩展到数百兆字节级别(亿Token上下文),在处理二进制数据时提供500~1000倍的性能。目前,基于该模型的澜砥威胁检测生成式算法和相关服务均已通过国家网信办备案。(雷渺鑫)

[ 责编:李政葳 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 南海影像日志丨驰骋蔚蓝 破浪护疆

  • 荷风十里东湖夏 碧水长天入画来

独家策划

推荐阅读
6月15日-6月21日光明图片一周见报作品精选
2026-06-22 15:25
随着小浪底水利枢纽3条排沙洞的闸门徐徐开启,巨大白色"水龙"喷涌而出,以2600立方米每秒的流量向下游奔腾而去。这标志着黄河2026年主汛期前调水调沙正式启动
2026-06-22 15:24
近年来,新疆乌苏市坚持党建引领乡村产业发展,以"避暑+"经济串联观光旅游、休闲娱乐等多元产业,在青山绿水间因地制宜发展"清凉产业",带动村民增收
2026-06-22 15:24
今年以来,如城街道立足本土特色花木资源,融合花木景观与田园营地资源,推动传统苗木产业与乡村文旅休闲业态双向赋能、深度融合,持续丰富乡村游玩场景,擦亮属地生态农旅特色名片
2026-06-22 15:23
连日来,陕西省渭南市合阳县公安局洽川派出所聚焦黄河干流、洽川湿地、沿河滩涂等重点水域,严厉打击网捕、电鱼等非法捕捞行为。同时组织警力深入沿河村庄开展禁渔普法宣传,普及《黄河保护法》,引导群众主动参与生态保护,凝聚全民护河护渔合力,持续筑牢黄河合阳段生态安全屏障
2026-06-22 15:23