对比Spark on Kubernetes和YARN Spark

使用Kubernetes部署Spark相比传统的Hadoop YARN部署有很多优点。Kubernetes的环境隔离、易扩展性和成本控制更好,但需要开发者掌握pods部署和基础云知识。Spark on Kubernetes与存储隔离,不适合长期数据存储,需要使用云系统如snowflake、s3数据湖。建议采用Spark on Kubernetes的方式来统一管理Spark应用程序,更好地与云计算结合,并灵活控制成本。

偿还技术债的六个步骤

本文讨论了技术债务的不同类型和管理方法。文章提出了六个步骤的技术债管理流程:识别、可视化、分析优先级、计划执行、总结回顾,展示成果,强调了技术债务管理的重要性,以及如何通过持续改进来保持高质量的软件状态和交付速率。

数据工程——从数据到价值

数据工程是数字经济下确保数据价值转化的重要保障, 是加速数据转化为价值的重要手段,数据工程能力应对的不仅仅是当下的挑战,更是应对未来数字经济大趋势的秘密武器。随着需要处理的数据量的增长,为了处理数据领域的各种新问题,各种新技术、新概念逐渐涌现,现代数据仓库、数据湖、湖仓一体、分布式数据架构、机器学习、数据云原生等逐一登上舞台,数据工程的发展道阻且长。

如何评估和规划云迁移

进行云迁移时,需要考虑工具的限制和特点,并选择合适的工具进行设计。在验证和实施过程中,需要考虑数据验证、环境验证和运维验证等关键点。持续度量和监控是确保业务上云成功的关键,需要监控网络性能、应用程序性能、安全性、费用和资源使用情况等方面。

性能优化模式

性能优化模式是一个模型对模型的方式,我们把性能问题想象(抽象)成模型,再把解决它的办法也抽象成模型,这样一来就成了恶化模型对应优化模型,而这种组合拳就是性能优化模式,也可以说是解决方案。

有态度的前沿技术解析,第28期技术雷达正式发布!

技术雷达是Thoughtworks每半年发布一次的技术趋势报告,由 Thoughtworks 的 21 名高级技术专家组成的技术咨询委员会(TAB)编写。TAB 通过定期讨论全球技术战略以及对行业有重大影响的技术趋势,创建了技术雷达。我们致力于支持卓越软件并推动 IT 变革,Thoughtworks技术雷达就是为了完成这一使命。