干货分享 | 大模型在研发效能领域的探索与应用

在竞争激烈的商业环境中，研发效能的提升已成为企业生存与发展不可或缺的关键。尤其在 LLM 时代，这一需求变得更为迫切和复杂。

随着技术的日新月异和全球化的深化，企业不仅要迅速推出创新产品，还需在技术领域中保持领先地位，以应对市场的瞬息万变和满足客户日益增长的需求。因此，LLM 时代的来临，无疑为企业研发效能的提升带来了新的挑战与机遇。企业需要深入思考如何在这一时代背景下，有效探索研发效能的提升路径，如何在变革中保持持续创新力和竞争力，从而确保企业的长远发展。

2 月 29 日，我们 DevData Talks 线上直播，邀请了四位行业专家——腾讯研发效能资深技术专家——张乐、思码逸创始人兼CEO——任晶磊、汇川软件工程能力委员会主任——李鹏、自如技术平台副总经理——应阔浩，就“ LLM时代下，研发效能领域探索及思考中的核心问题 ”展开深入探讨，主要分为三个话题：

1. 2023年，研发效能领域的最佳实践

2. 大模型在研发效能领域的探索与应用

3. 2024年，研发效能领域的提升展望

下面，让我们一起来回顾本次直播的精华内容。

2023年，研发效能领域的最佳实践

李鹏老师介绍到，在过去几年，汇川技术如何将软件工程能力建设和研发效能提升从探索期进入深水期。通过导入一系列软件工程最佳实践、度量体系、工具平台和国际化标准，针对开发安全和开源安全实施严格管理，大幅提升了研发效能；通过度量体系建设和引入度量 IT 化数据引擎，将度量体系落地日常实践，实现自动化监测；通过与高校合作，进一步探索软件架构度量，增强研发效能的精确性和可控性。

同时，升级组织架构、搭建效能团队，成功促进了软件研发效能的提升，凸显了研发效能对于推动企业发展、提升客户满意度的重要作用。

应阔浩 老师通过 统一OKR、统一行动、统一运营 三个方面介绍了自如团队在研发效能上取得的显著进展。首先，统一研发 leader 的 OKR，确保项目交付、稳定性和平台增长等指标理解一致，从而加快行动统一和效能提升。

其次，建设统一项目管理平台，聚焦需求流动速率和工时分配，提升项目按期交付效率与响应速度。通过划分工程师时间分配和展示效能数据，从而让工程师了解整个团队的人均增量，并与个人的数据进行对比分析，找到提升点，从而促进个人和团队效能提升。最后，统一运营方面，团队发布了技术月报，对各个团队的质量稳定性进行差异排行，帮助团队识别自身差距，为制定 OKR 和下一轮增长提供有力支持。

任晶磊 老师分享了过去一年，思码逸在产品研发上的创新与探索。年初阶段，思码逸专注于 ‍ 交付符合 GQM 原则 的看板 ‍ ，如速率、DevOps 成熟度及 ROI 绩效等关键效能指标，研发团队花了大量精力构建了 DevTable 灵活的研发效能看板，根据实际业务场景进行灵活配置，充分考虑了团队组织架构与人力资源不完全匹配的实际情况。

回顾这两年思码逸的发展历程，可以明显感知到市场对研发效能的关注度显著提升，需求更加务实且落地。随着商业环境对现金储备和成本控制的要求不断提高，作为企业成本中心的研发部门从过去只谈项目、只谈事转变为关注成本、人效与绩效方面。在今年、明年、后年，企业会一直关注研发效能。作为技术管理者，要懂得用数据说话，客观评估团队哪些维度做得好，哪些还需要改进，自证并推动企业的研发效能提升。

大模型在研发效能领域的的探索与应用

应阔浩 老师分享了大模型在提升工程师能力与工程效率方面展现出显著效果。首先，它能精准识别编码意图并续写代码，还能检测内存溢出、对象未释放等编程错误。

其次，大模型可以助力生成高质量注释、接口文档，解读历史遗留代码，消除团队间因沟通不清导致的错误与故障。此外，大模型有效强化了跨栈技术能力，前端、后端乃至运维人员可通过 AI 辅助完成非本专业领域的开发任务，极大缩短学习曲线。在质量保证环节，大模型在自动化生成和执行测试用例场景，对测试工程师有很好的辅助。

整体来看，大模型在多技术栈处理、内容创作速度与质量上带来了实质性提升，优化了主站工作流程及测试过程，实践应用效果良好， 综合提效约 20% 左右 。

李鹏老师意识到对于传统行业而言，人工智能对应了大模型应用。针对人才、数据和算力三大核心要素进行布局，成立 AI 研究所并试用成熟的大模型，试点辅助编程与生成注释，故障预测与诊断等。

然而，由于行业特性，大模型应用于 软硬件深度协同场景存在局限 ：基于软件上下文生成的代码可能忽视硬件实际反应，导致调试困难，需将硬件系统集成考虑在内的更大上下文优化。此外，工业领域代码对经验沉淀高度敏感，涉及关键技术的公式和参数是企业长期实践积累的结果。因此，私有化部署及训练大模型成为必要选择，以保护企业核心知识产权。但大模型潮流是不可逆的，也希望真正把 AI 结合工业场景应用起来，探索更多产品与应用。

任晶磊 老师对大模型在软件工程领域的应用提出了两个关键点。在实践中，大模型更适合处理 软件工程中繁琐的“反人性” 的任务 ，如编写特定格式的消息、PR、测试用例等，而在涉及深度业务理解、人际交流及系统整体把控的工作上，其效能有限。

大模型比较好的应用场景包括工程、数据规范，从而减轻开发者负担，提高工作效率，并提供具体的量化结果（如规范提交比例、单元测试覆盖度等），从而有助于技术资源分配和决策支持。此外，在一些具有明确规则和上下文充足的任务上，如部分质量管理流程，大模型也能发挥作用，产生实际效果。因此，务实且有针对性地应用AI是提升组织内 AI 落地价值的关键策略。

张乐老师认为，我们应理性看待 AI 技术短期内的变化与长期的变革潜力，正如 比尔·盖茨 所说， 不要太高估一年所带来的变化，也不要低估十年带来的变革 。以 Copilot 类工具为例，虽然业界各大厂都已经在生产中实际应用，但仍需持续收集并改进 Bad Case，不断优化用户体验，在细分领域同步进行模型能力和工程方面的增强，逐步将其效果收敛至生产大规模可用、可切实提升工程师效率的水平，更务实地推进 AI 的应用落地。

2024年，研发效能领域的提升展望

李鹏老师介绍到，在 2024 年工业领域竞争加剧的背景下，质量与效率提升的需求尤为迫切。为应对国际化、软件化挑战，将强化软件工程在整个质量体系中的作用，并将效能提升继续列为今年关键工作。

针对多部门、多业务场景下的效率度量问题，发掘通用指标如缺陷密度、重大问题数以及改进率进行跨部门统一衡量，并针对 同质性业务关注需求吞吐率、返工率、需求交付周期和版本交付周期等四大指标保障跨组织度量的一致性 。此外，还将结合公司软件化和数字化战略升级效能治理体系，构建一站式软件协同平台，从而提升研发效能，为国家强工业战略目标做出贡献。

应阔浩 老师提到了两个关键方面。今年首要任务是清理历史技术债务，包括精简过多的微服务、消除冗余系统与废弃代码、更新老旧技术栈和标准化流程。同时，强化工程师全面效能提升，不仅聚焦编码，更要 关注需求理解、文档编写、架构设计及单元测试等多维度能力培养 。

其次，引入成本意识，在项目迭代及需求立项中，紧密结合研发效能主题，进行严谨的成本预估和资源分配，确保在有限资源下优先投入高价值工作，从而有效提升研发效能。

任晶磊 老师提到，2024 年 2 月，思码逸发起了 DevData 2024 软件研发效能基准调研，旨在收集客观数据，以 建立不同行业、团队特征下的典型“北极星”指标的参考值 ，为技术管理者了解行业和团队研发效能水平提供支持。

此外，针对 AI 工具的个性化需求挑战，思码逸将开放可定制的智能脚本，让开发者通过熟悉的编写脚本的体验实现各种自定义场景，并将这些功能整合进 IDE 入口，满足各种创造性需求，从而全面提升研发效能。同时对于遍地开花不如聚焦特定场景，我们将关注工程规范和质量管理，力求消除软件工程中的反人性工作，以此作为提升研发效能的有效实践方向。

Q & A

在本次线上直播活动中，嘉宾们还就观众们提出的一系列问题进行了详尽解答与交流。接下来，我们将对此进行回顾总结。

Q1：软硬件结合领域和互联网软件领域在研发效能建设方面，有哪些差异？

李鹏： 互联网实践在工业软件导入时，会遇到适配上的难度。第一，工业软件产品形态多为软硬件深度结合，需要联动硬件的状态嵌入迭代过程，不同于互联网软件主要运行于服务器或 PC 端。

第二，工业软件使用场景复杂多样，涵盖流程行业、离散行业等，导致其升级模式、维护模式及交付模式各不相同。

第三，工业软件更注重安全性，不仅关注代码信息安全，还需考虑人身安全。此外，工业软件以 C/C++底层代码、嵌入式代码和 PLC 等特定语言为主，这使得度量方式需适应变化。

第四，工业软件不仅包括平台、软件和通用软件协作，还包括软件与硬件协作、硬件与供应链协作，这就要求我们穿透软件和硬件以及需求和生产等多个团队。

此外，工业软件客户来自不同行业，部分行业对分支管理有特殊要求，需谨慎处理。因此，在工业软件的研发效能提升和平台建设中，必须充分考虑到上述独特性与挑战。

Q2：工时分布，在需求交付、响应、行程事务上，这些时间比例大概如何统计？

应阔浩 ：工时统计问题关键在于标准化与便捷性。

首先，建立统一工时统计平台，涵盖 PC 和移动端应用，并确立明确的事项分类体系（如四至六类）作为基础标准。

其次，简化产品界面，确保员工能在通勤等场景中，1 分钟内即可完成工时录入。

此外，运营配合监督与检查，帮助员工克服惰性。周会是一个关键环节，会公示并分析工时的最高、最低值，以及这些时间内，具体做了哪些事情，从而逐步提升整体工时管理的准确性和有效性。

任晶磊 ：如果关注工时，还可以通过产出去衡量员工实际工时投入的价值，如需求吞吐量、当量等。若条件不足，则可以根据员工的提交信息（commit message），如 bug 修复、新功能开发等工作内容所投入的时间进行分类分析，从而评估 ROI。若手动标记分类耗时，AI 工具可协助自动完成，从而在降低人力成本的同时，实现工程规范与研发效能管理目标，有效提升工作效率。

Q3：指标体系如何分层、下钻？

任晶磊 ：下钻分析是评估研发效能的关键手段之一。以交付效率为例，第一层级通常会展示综合指标，如需求吞吐率和延迟，通过图表或象限图对比不同团队表现。第一层下钻时，需关注复合与衍生指标，深入分析影响这些指标高低的因素，并明确其具体数值，以获取更深入的数据洞察。在质量层面同样可以运用下钻，涉及覆盖度、密度、逃逸率等多个维度。

其次，可以通过时间维度进行下钻。比如代码当量的产出规模随时间（如年度、月度到周）的变化趋势等。此外，还可以通过团队、项目或代码库的层级关系进行下钻，查看具体数据或某些指标上的表现，并最终下钻至最小颗粒度，如某个具体任务或个人贡献，以便精准定位问题并挖掘背后信息。再比如，质量数据可以深入到子模块或具体代码片段层面进行横向对比，找出影响质量的关键因素。

在思码逸的具体看板中，可通过点击逐步下钻，利用辅助的图表和列表进行对比分析，以确保全面了解各项信息。例如，设计需求吞吐量看板时，需兼顾不同需求颗粒度的影响，以确保数据呈现的精准性。若忽视需求颗粒度的差异，某些项目或团队的数据可能失真，影响分析效果。

小结

在直播结尾，张乐老师总结到，在探索人工智能应用的广阔领域时，我们 既不要沉迷于新技术的美好愿景而忽视其局限性，也不要因心存怀疑而错过其真实价值 。在大模型的应用过程中，需依据具体场景选择适宜路径，设定合理预期，寻求最匹配、最适当、最具性价比的解决方案，同时保持对未来的警觉与预见性，以谨慎乐观的态度和现实主义精神，开启大模型时代研发效能领域新的征程，共同探寻并实现那些尚未触及的可能性与成就。

*由于篇幅有限，如希望回顾完整内容，请扫描下方二维码观看回顾视频~

📜 推荐阅读

点击阅读原文，立刻参与 DevData 调研

共建国内首份研发效能基准线