2025 年是第三方软件测评行业从”合规过场”走向”真实质量验证”的转折之年。一边是 AI 与大模型应用爆发推动测评方法论升级,一边是信创、数据要素、SBOM、API 安全等多重政策叠加重塑客户需求。本文站在年末回顾的视角,梳理 6 个最显著的行业趋势,并给出对应的采购侧与供应侧建议。所有判断基于公开政策、行业标准与一线项目经验,不涉及具体客户与商业机密。
趋势一:AI 驱动测试自动化进入企业级落地
2024 年还在”实验室探索”的 AI 测试能力,2025 年已大规模进入企业级研发与测评流程。具体表现:
- 测试用例自动生成:基于需求文档、接口定义、代码差异,自动产出功能/边界/异常用例,人工只做评审与补充。
- 缺陷预测与定位:结合历史缺陷数据、代码改动、覆盖率热点,预测高风险模块,缩短回归范围。
- 自动化脚本智能化:从录制回放升级到”自然语言描述 → UI 元素识别 → 自愈式脚本”,应对前端频繁改版。
- 测试代理化(Agent):测试任务被拆解为多个 Agent 协作,覆盖探索、执行、断言、报告生成全链路。
驱动因素:研发节奏加快、回归测试成本高、测试人力短缺、企业 AI 预算落地。客户需求变化:从”测试外包”转向”AI 测试平台 + 专家服务”组合采购。方法论演进:测评机构需要给出 AI 测试结果的可解释性、可追溯性证据,否则 AI 生成的报告难以承担合规责任。给软件企业的建议:AI 测试不是替代测试工程师,而是把测试工程师从重复劳动中解放出来去做风险评估与场景设计。
趋势二:大模型应用测评成为独立细分赛道
2025 年大模型应用从”试点”走向”业务嵌入”,对应的测评方法论也独立于传统软件测评:
- 幻觉率测评:在领域知识库 + 标准答案集上量化模型回答正确率、引用准确率、推理一致性。
- 合规率测评:覆盖《人工智能生成内容标识办法》《生成式人工智能服务管理暂行办法》等监管要求。
- 红队测试:针对越狱攻击、提示注入、敏感信息泄露、价值观偏离等系统化对抗测试。
- 性能与成本对照:Token 吞吐、首字延迟、P95 端到端延迟、单次调用成本,与业务 SLA 对齐。
- 多轮一致性:长对话中的事实一致、人格一致、上下文一致。
驱动因素:政策合规倒逼 + 客户业务真实嵌入大模型。客户需求变化:从”看 demo 验收”转向”上线前合规与质量双重测评”。方法论演进:单纯打分 + 简单提示集已不够用,需要构建领域语料、对抗集、长尾用例库与持续评测流水线。给软件企业的建议:大模型应用上线前的红队 + 合规测评不是可选项,而是后续监管检查与责任界定的关键证据。
趋势三:信创替代测评进入深水区
2022~2024 年的信创替代主要解决”能不能跑”的问题——国产 CPU + 操作系统 + 数据库 + 中间件能否完成业务功能。2025 年进入深水区,关注点切换为”性能、稳定、兼容三达标”:
- 性能达标:与原 x86 + 商业数据库基线对照,国产化后 TPS、响应时间、并发能力是否仍满足业务 SLA。
- 稳定达标:长稳运行 72 小时以上的内存、连接池、GC、备份恢复表现。
- 兼容达标:与上下游既有系统(含老旧合作伙伴系统)的接口、协议、字符集、加密算法兼容性。
驱动因素:央国企信创整体替代时间表临近,”能跑”已无法交差。客户需求变化:从”列清单交付”转向”基线对照 + 改造闭环”,要求测评机构给出明确改造点而非简单”通过 / 不通过”。方法论演进:信创测评必须有”x86 基线 + 国产化 A/B 对照”的双跑数据,否则结论缺乏说服力。给软件企业的建议:信创适配早做,把性能优化点(SQL 重写、连接池调优、JDK 适配、字符集统一)纳入产品路线图,不要等到验收前才”踢皮球”。
趋势四:数据要素 X 行动催生新测评类目
”数据要素 ד三年行动计划(2024-2026)走过中段,催生多个新型测评类目:
- 数据可信流通测评:数据来源可追溯、流转链路可审计、使用授权可控制。
- 数据资产入表测评:数据资源化、产品化、资产化过程中的质量、权属、估值依据。
- 数据沙箱测评:原始数据不出域、结果可输出的执行环境隔离能力。
- 隐私计算测评:联邦学习的模型可用性损耗与隐私预算、TEE 可信执行环境的硬件链路完整性、MPC 多方安全计算的协议正确性与性能开销。
驱动因素:数据交易所、公共数据授权运营、行业数据共建多重政策落地。客户需求变化:从”做完一次合规审计”转向”持续可验证的数据流通能力”。方法论演进:测评不仅是技术验证,还要参考行业标准与监管口径,给出可写入交易合同的可信声明。给软件企业的建议:数据产品的设计阶段就要考虑可审计性、可溯源性、可控授权,临时打补丁的方案在测评环节几乎无法通过。
趋势五:API 安全 / 供应链安全(SBOM)测评纳入主流
2025 年的两类安全测评显著上升为政府与央国企采购标配:
- API 安全:以 OWASP API Security Top 10 为框架,覆盖 BOLA(破坏对象级授权)、认证失效、过度数据暴露、批量赋值、安全配置错误等典型问题。结合国密接口规范,金融、政务领域要求 SM2/SM3/SM4 算法接入。
- 供应链安全 / SBOM 软件物料清单:以软件包清单形式列出所用开源组件、版本、许可证、已知漏洞,作为采购入围与持续运维依据。
驱动因素:开源组件漏洞频发、勒索软件供应链攻击、监管对关键信息基础设施的安全要求加强。客户需求变化:从”上线前做一次渗透”转向”持续 API 资产盘点 + SBOM 月度更新”。方法论演进:测评机构需要具备 SCA(软件成分分析)能力、API 资产发现能力、漏洞动态跟踪能力。给软件企业的建议:将 SBOM 生成纳入构建流水线,把 API 资产纳入安全治理对象,比临时应对一次次安全检查更经济。
趋势六:第三方测评机构合规化、规模化
测评机构自身也在重塑:
- 多牌照并存:单一 CMA 或 CNAS 已不够用,CMA + CNAS + 等保 + 信创 + 商用密码多重资质组合成为头部机构标配。
- 规模化运营:跨地域分支、本地化交付能力、行业垂直能力(金融、医疗、政务、教育、能源)成为客户筛选标准。
- 行业洗牌加速:缺乏长期客户、缺乏标准跟进能力、缺乏专业人才储备的机构逐步出清;具备方法论沉淀的机构吃下更多复杂场景订单。
驱动因素:客户合规需求多维化,单一资质无法覆盖整体测评。客户需求变化:从”找一家便宜的开报告”转向”找一家能长期承担质量责任的伙伴”。方法论演进:知识管理、用例库、行业基线、AI 工具链将成为机构的核心资产。给软件企业的建议:选择测评机构时,关注其是否有持续的标准跟进、是否有同行业项目经验、是否能给出复测与改进闭环,而非一次性报告。
监管底色:多部门联动加强
支撑上述趋势的政策底色是多部门联动:
- 网信办:生成式 AI 服务备案、深度合成标识、个人信息保护影响评估。
- 工信部:信创替代时间表、关键信息基础设施保护、电信和互联网行业网络数据安全。
- 市场监管总局:数据资产入表、CMA 检验检测机构资质管理、产品质量监督。
- 国家密码管理局:商用密码合规检查常态化、关键场景国密替代。
- 金融监管总局 / 央行:金融行业的应用系统、API、数据治理专项要求。
多头监管意味着测评不再只对”功能正确”负责,而是对”合规可验证”负责。一份合格的报告需要同时满足业务方、技术方与合规方的诉求。
给客户(采购方)的 3 条建议
- 把测评前置到选型与设计阶段:不要等到上线前才”找一家做报告”。前置介入可以省下大量返工成本,特别是信创替代与大模型嵌入项目。
- 看资质组合而非单一牌照:复杂项目(含数据要素、隐私计算、API 安全)需要测评机构同时具备多重资质与跨场景经验。
- 要求复测闭环与改进证据:报告不是终点。约定首测 + 整改 + 复测的完整闭环,并要求改进点的可验证证据。
给软件供应商(被测方)的 3 条建议
- 把可测性纳入产品设计:日志、埋点、指标、链路追踪、配置开关、SBOM 生成、API 文档,应在研发阶段而非测评前一周补齐。
- 建立内部”对照基线”:每次版本发布都跑一次性能 / 安全 / 兼容基线,避免外部测评把陈年问题一次性暴露。
- 对齐监管节奏:关注网信办、工信部、市场监管总局、密码局的政策发布节奏,把合规需求纳入产品路线图。
结语
2025 年第三方软件测评行业的关键词是”从合规到能力”:合规依然是底线,但客户越来越关心测评机构能否帮助其在 AI、大模型、信创、数据要素等新场景下真正交付高质量、可持续的软件。新亿诚作为深圳本地的第三方测评机构,在传统验收、确认、鉴定、招投标测评之外,已逐步将大模型应用测评、AIGC 标识合规、信创替代基线对照、API 安全与 SBOM 治理纳入业务范围,与客户共同应对 2025 年这一轮结构性变化。
具体的软件测试报告用途与报价咨询可直接联系顾问,1 小时内回电沟通。新亿诚作为持有 CMA + CNAS + ilac-MRA 国际互认协议的第三方软件测评机构,可为您提供本文场景下的检测服务。