行业洞察 2025 年 11 月 18 日 11 min read

2025 年第三方软件测评行业 6 大趋势观察：AI 驱动 + 信创深化 + 数据要素 X 行动

2025 年第三方软件测评行业进入结构性变化期：AI 驱动测试自动化进入企业级落地、大模型应用测评成为独立赛道、信创替代从”能跑”走向”性能稳定兼容三达标”、数据要素 X 行动催生数据流通与隐私计算测评、API 安全与 SBOM 纳入主流采购规范、第三方机构资质从单牌照走向多牌照组合。本文逐条拆解 6 大趋势的驱动因素、客户需求变化与方法论演进，并给采购方与软件供应商各 3 条建议。

2025 年是第三方软件测评行业从”合规过场”走向”真实质量验证”的转折之年。一边是 AI 与大模型应用爆发推动测评方法论升级，一边是信创、数据要素、SBOM、API 安全等多重政策叠加重塑客户需求。本文站在年末回顾的视角，梳理 6 个最显著的行业趋势，并给出对应的采购侧与供应侧建议。所有判断基于公开政策、行业标准与一线项目经验，不涉及具体客户与商业机密。

趋势一：AI 驱动测试自动化进入企业级落地

2024 年还在”实验室探索”的 AI 测试能力，2025 年已大规模进入企业级研发与测评流程。具体表现：

测试用例自动生成：基于需求文档、接口定义、代码差异，自动产出功能/边界/异常用例，人工只做评审与补充。
缺陷预测与定位：结合历史缺陷数据、代码改动、覆盖率热点，预测高风险模块，缩短回归范围。
自动化脚本智能化：从录制回放升级到”自然语言描述 → UI 元素识别 → 自愈式脚本”，应对前端频繁改版。
测试代理化（Agent）：测试任务被拆解为多个 Agent 协作，覆盖探索、执行、断言、报告生成全链路。

驱动因素：研发节奏加快、回归测试成本高、测试人力短缺、企业 AI 预算落地。客户需求变化：从”测试外包”转向”AI 测试平台 + 专家服务”组合采购。方法论演进：测评机构需要给出 AI 测试结果的可解释性、可追溯性证据，否则 AI 生成的报告难以承担合规责任。给软件企业的建议：AI 测试不是替代测试工程师，而是把测试工程师从重复劳动中解放出来去做风险评估与场景设计。

趋势二：大模型应用测评成为独立细分赛道

2025 年大模型应用从”试点”走向”业务嵌入”，对应的测评方法论也独立于传统软件测评：

幻觉率测评：在领域知识库 + 标准答案集上量化模型回答正确率、引用准确率、推理一致性。
合规率测评：覆盖《人工智能生成内容标识办法》《生成式人工智能服务管理暂行办法》等监管要求。
红队测试：针对越狱攻击、提示注入、敏感信息泄露、价值观偏离等系统化对抗测试。
性能与成本对照：Token 吞吐、首字延迟、P95 端到端延迟、单次调用成本，与业务 SLA 对齐。
多轮一致性：长对话中的事实一致、人格一致、上下文一致。

驱动因素：政策合规倒逼 + 客户业务真实嵌入大模型。客户需求变化：从”看 demo 验收”转向”上线前合规与质量双重测评”。方法论演进：单纯打分 + 简单提示集已不够用，需要构建领域语料、对抗集、长尾用例库与持续评测流水线。给软件企业的建议：大模型应用上线前的红队 + 合规测评不是可选项，而是后续监管检查与责任界定的关键证据。

趋势三：信创替代测评进入深水区

2022~2024 年的信创替代主要解决”能不能跑”的问题——国产 CPU + 操作系统 + 数据库 + 中间件能否完成业务功能。2025 年进入深水区，关注点切换为”性能、稳定、兼容三达标”：

性能达标：与原 x86 + 商业数据库基线对照，国产化后 TPS、响应时间、并发能力是否仍满足业务 SLA。
稳定达标：长稳运行 72 小时以上的内存、连接池、GC、备份恢复表现。
兼容达标：与上下游既有系统（含老旧合作伙伴系统）的接口、协议、字符集、加密算法兼容性。

驱动因素：央国企信创整体替代时间表临近，”能跑”已无法交差。客户需求变化：从”列清单交付”转向”基线对照 + 改造闭环”，要求测评机构给出明确改造点而非简单”通过 / 不通过”。方法论演进：信创测评必须有”x86 基线 + 国产化 A/B 对照”的双跑数据，否则结论缺乏说服力。给软件企业的建议：信创适配早做，把性能优化点（SQL 重写、连接池调优、JDK 适配、字符集统一）纳入产品路线图，不要等到验收前才”踢皮球”。

趋势四：数据要素 X 行动催生新测评类目

”数据要素 ×“三年行动计划（2024-2026）走过中段，催生多个新型测评类目：

数据可信流通测评：数据来源可追溯、流转链路可审计、使用授权可控制。
数据资产入表测评：数据资源化、产品化、资产化过程中的质量、权属、估值依据。
数据沙箱测评：原始数据不出域、结果可输出的执行环境隔离能力。
隐私计算测评：联邦学习的模型可用性损耗与隐私预算、TEE 可信执行环境的硬件链路完整性、MPC 多方安全计算的协议正确性与性能开销。

驱动因素：数据交易所、公共数据授权运营、行业数据共建多重政策落地。客户需求变化：从”做完一次合规审计”转向”持续可验证的数据流通能力”。方法论演进：测评不仅是技术验证，还要参考行业标准与监管口径，给出可写入交易合同的可信声明。给软件企业的建议：数据产品的设计阶段就要考虑可审计性、可溯源性、可控授权，临时打补丁的方案在测评环节几乎无法通过。

趋势五：API 安全 / 供应链安全（SBOM）测评纳入主流

2025 年的两类安全测评显著上升为政府与央国企采购标配：

API 安全：以 OWASP API Security Top 10 为框架，覆盖 BOLA（破坏对象级授权）、认证失效、过度数据暴露、批量赋值、安全配置错误等典型问题。结合国密接口规范，金融、政务领域要求 SM2/SM3/SM4 算法接入。
供应链安全 / SBOM 软件物料清单：以软件包清单形式列出所用开源组件、版本、许可证、已知漏洞，作为采购入围与持续运维依据。

驱动因素：开源组件漏洞频发、勒索软件供应链攻击、监管对关键信息基础设施的安全要求加强。客户需求变化：从”上线前做一次渗透”转向”持续 API 资产盘点 + SBOM 月度更新”。方法论演进：测评机构需要具备 SCA（软件成分分析）能力、API 资产发现能力、漏洞动态跟踪能力。给软件企业的建议：将 SBOM 生成纳入构建流水线，把 API 资产纳入安全治理对象，比临时应对一次次安全检查更经济。

趋势六：第三方测评机构合规化、规模化

测评机构自身也在重塑：

多牌照并存：单一 CMA 或 CNAS 已不够用，CMA + CNAS + 等保 + 信创 + 商用密码多重资质组合成为头部机构标配。
规模化运营：跨地域分支、本地化交付能力、行业垂直能力（金融、医疗、政务、教育、能源）成为客户筛选标准。
行业洗牌加速：缺乏长期客户、缺乏标准跟进能力、缺乏专业人才储备的机构逐步出清；具备方法论沉淀的机构吃下更多复杂场景订单。

驱动因素：客户合规需求多维化，单一资质无法覆盖整体测评。客户需求变化：从”找一家便宜的开报告”转向”找一家能长期承担质量责任的伙伴”。方法论演进：知识管理、用例库、行业基线、AI 工具链将成为机构的核心资产。给软件企业的建议：选择测评机构时，关注其是否有持续的标准跟进、是否有同行业项目经验、是否能给出复测与改进闭环，而非一次性报告。

监管底色：多部门联动加强

支撑上述趋势的政策底色是多部门联动：

网信办：生成式 AI 服务备案、深度合成标识、个人信息保护影响评估。
工信部：信创替代时间表、关键信息基础设施保护、电信和互联网行业网络数据安全。
市场监管总局：数据资产入表、CMA 检验检测机构资质管理、产品质量监督。
国家密码管理局：商用密码合规检查常态化、关键场景国密替代。
金融监管总局 / 央行：金融行业的应用系统、API、数据治理专项要求。

多头监管意味着测评不再只对”功能正确”负责，而是对”合规可验证”负责。一份合格的报告需要同时满足业务方、技术方与合规方的诉求。

给客户（采购方）的 3 条建议

把测评前置到选型与设计阶段：不要等到上线前才”找一家做报告”。前置介入可以省下大量返工成本，特别是信创替代与大模型嵌入项目。
看资质组合而非单一牌照：复杂项目（含数据要素、隐私计算、API 安全）需要测评机构同时具备多重资质与跨场景经验。
要求复测闭环与改进证据：报告不是终点。约定首测 + 整改 + 复测的完整闭环，并要求改进点的可验证证据。

给软件供应商（被测方）的 3 条建议

把可测性纳入产品设计：日志、埋点、指标、链路追踪、配置开关、SBOM 生成、API 文档，应在研发阶段而非测评前一周补齐。
建立内部”对照基线”：每次版本发布都跑一次性能 / 安全 / 兼容基线，避免外部测评把陈年问题一次性暴露。
对齐监管节奏：关注网信办、工信部、市场监管总局、密码局的政策发布节奏，把合规需求纳入产品路线图。

结语

2025 年第三方软件测评行业的关键词是”从合规到能力”：合规依然是底线，但客户越来越关心测评机构能否帮助其在 AI、大模型、信创、数据要素等新场景下真正交付高质量、可持续的软件。新亿诚作为深圳本地的第三方测评机构，在传统验收、确认、鉴定、招投标测评之外，已逐步将大模型应用测评、AIGC 标识合规、信创替代基线对照、API 安全与 SBOM 治理纳入业务范围，与客户共同应对 2025 年这一轮结构性变化。

具体的软件测试报告用途与报价咨询可直接联系顾问，1 小时内回电沟通。新亿诚作为持有 CMA + CNAS + ilac-MRA 国际互认协议的第三方软件测评机构，可为您提供本文场景下的检测服务。

新亿诚是专注于软件测评的第三方技术服务机构，依据 GB/T 25000.51-2016 等国家标准开展第三方测试，为多类政企客户提供软件验收、确认、鉴定、招投标、首版次、APP / 小程序等专项测评服务。

📚 参考标准与依据

新

新亿诚软件测评

第三方软件测评技术服务机构 · 多年项目经验 · 多类政企客户共同选择

2025 年第三方软件测评行业 6 大趋势观察：AI 驱动 + 信创深化 + 数据要素 X 行动

趋势一：AI 驱动测试自动化进入企业级落地

趋势二：大模型应用测评成为独立细分赛道

趋势三：信创替代测评进入深水区

趋势四：数据要素 X 行动催生新测评类目

趋势五：API 安全 / 供应链安全（SBOM）测评纳入主流

趋势六：第三方测评机构合规化、规模化

监管底色：多部门联动加强

给客户（采购方）的 3 条建议

给软件供应商（被测方）的 3 条建议

结语

让我们为你的软件做一次
真正经得起审查的检测

微信扫码 · 1v1 沟通

趋势一：AI 驱动测试自动化进入企业级落地

趋势二：大模型应用测评成为独立细分赛道

趋势三：信创替代测评进入深水区

趋势四：数据要素 X 行动催生新测评类目

趋势五：API 安全 / 供应链安全（SBOM）测评纳入主流

趋势六：第三方测评机构合规化、规模化

监管底色：多部门联动加强

给客户（采购方）的 3 条建议

给软件供应商（被测方）的 3 条建议

结语

你可能也感兴趣

软件测试报告有效期与超期处理指南

嵌入式软件测试要点：实时性、固件安全与行业准入

软件升级与数据迁移测试：兼容性保障与回归验收要点

让我们为你的软件做一次真正经得起审查的检测

让我们为你的软件做一次
真正经得起审查的检测