介绍资源管理工作组

编者注:今天的帖子是Red Hat高级首席软件工程师Jeremy Eder关于资源管理工作组成立的

我们为什么在这里?

捕鱼大亨网络版 已经发展为支持各种日益复杂的应用程序类别。我们可以基于微服务,批处理作业和具有持久性存储需求的有状态应用程序来加载和扩展现代的云原生Web应用程序。

但是,仍然存在改进捕鱼大亨网络版的机会。例如,考虑到硬件拓扑时,可以运行需要专用硬件的工作负载或表现得更好的工作负载。这些冲突可能会使应用程序类(尤其是在已建立的垂直行业中)难以采用捕鱼大亨网络版。

我们在这里看到了前所未有的机会,如果错过了机会,代价很高。 捕鱼大亨网络版 生态系统必须以有意义的方式满足尚未服务的工作负载的需求,从而为通往下一代系统体系结构创造一条消费途径。资源管理工作组以及其他SIG必须证明客户希望看到的愿景,同时使解决方案在完全集成且经过周密计划的端到端堆栈中良好运行。
 
当特定挑战需要跨SIG协作时,将创建捕鱼大亨网络版工作组。例如,资源管理工作组主要与sig-node和sig-scheduling合作,以推动对捕鱼大亨网络版中其他资源管理功能的支持。我们确保经常咨询各个SIG的主要贡献者,因为工作组无意代表任何SIG做出系统级决策。
 
一个示例和主要好处是工作组与sig-node的关系。在考虑顶部的功能设计之前,我们能够确保完成多个版本的节点可靠性工作(在1.6中完成)。这些设计是由用例驱动的:研究各种工作负载的技术要求,然后根据对最大横截面的可测量影响进行分类。

目标工作量和用例

工作组的主要设计原则之一是,用户体验必须保持整洁,可移植,同时还要展现企业和应用程序所需的基础架构功能。
 
在不代表任何承诺的情况下,我们希望在时间上充裕,捕鱼大亨网络版可以最佳地运行金融服务工作负载,机器学习/培训,网格调度程序,地图缩减,动画工作负载等。作为一个用例驱动的小组,我们负责潜在的应用程序集成,这也可以促进互补的独立软件供应商的生态系统在捕鱼大亨网络版上的繁荣发展。

venn-kubernetes.png

为什么这样

捕鱼大亨网络版 很好地涵盖了通用Web托管功能,那么为什么要努力扩展捕鱼大亨网络版的工作负载覆盖范围呢?事实是,当今捕鱼大亨网络版优雅地涵盖了工作负载,仅占全球计算使用量的一小部分。我们拥有巨大的机会来安全有条不紊地扩展可以在捕鱼大亨网络版上最佳运行的工作负载集。

迄今为止,在扩大工作负荷范围方面已取得明显进展:

  • 有状态的应用程序,例如Zookeeper,etcd,MySQL,Cassandra,ElasticSearch
  • 作业,例如处理当天日志的定时事件或任何其他批处理
  • 通过Alpha GPU支持进行机器学习和计算绑定工作负载加速 总的来说,致力于捕鱼大亨网络版的人们从他们的客户那里得知我们需要走得更远。在2014年容器的巨大普及之后,业界人士围绕着一个更现代的,基于容器的,数据中心级的工作负载协调器盘旋,人们开始计划下一个架构。

因此,我们开始倡导从整体概念到特定功能,扩大捕鱼大亨网络版涵盖的工作负载范围。我们的目标是将控制权和选择权交到用户手中,帮助他们自信地朝着他们选择的任何基础架构战略迈进。在这种倡导中,我们很快发现了一群志趣相投的公司,他们对扩大捕鱼大亨网络版可以协调的工作负载类型感兴趣。这样,工作组诞生了。

资源管理工作组的起源

经过广泛的开发/功能 讨论区 在2016年捕鱼大亨网络版开发者峰会之后 CloudNativeCon |西雅图KubeCon ,我们决定 正式化 我们组织松散的小组。 2017年1月,捕鱼大亨网络版 资源管理工作组 成立了。这个小组(由Red Hat的Derek Carr和Google的Vishnu Kannan领导)最初是作为临时倡议提供的,旨在为sig-node和sig-scheduling提供指导。但是,由于工作组内目标的跨领域性质以及 路线图 很快发现,资源管理工作组在最初的几个月内成为自己的实体。

最近,来自Google(@ bgrant0607)的Brian Grant在他的网站上发布了以下图片 Twitter提要 。此图像有助于说明每个SIG的角色,并显示资源管理工作组适合整个项目组织的位置。

C_bDdiWUAAAcB2y.jpg {.big-img}

为了帮助引导这项工作,资源管理工作组于2017年5月举行了首次面对面的启动会议。感谢Google的主持!

20170502_100834.jpg

来自Intel,NVIDIA,Google,IBM,Red Hat的人们。和微软(以及其他)参加了。 
您可以阅读为期3天的会议的结果 这里 .

该小组按优先级列出的功能列表,以增加捕鱼大亨网络版上的工作负载覆盖范围,如 宪章 资源管理工作组的成员包括:

  • 支持对性能敏感的工作负载(专用内核,cpu固定策略,NUMA)
  • 集成新的硬件设备(GPU,FPGA,Infiniband等)
  • 改善资源隔离(本地存储,大页面,缓存等)
  • 提高服务质量(绩效SLO)
  • 绩效基准
  • 与上述功能相关的API和扩展 讨论清楚表明,对各种工作负载的需求之间存在巨大的重叠,因此我们应该对需求进行重复数据删除,并从总体上进行研究。

工作量特征

最初定位的用例集具有以下一个或多个特征:

  • 确定性性能(解决长尾延迟)
  • 单个节点内以及共享控制平面的节点组内的隔离
  • 对高级硬件和/或软件功能的要求
  • 可预测,可重现的放置:应用程序需要围绕放置的精细保证  资源管理工作组正在带头进行功能设计和开发,以支持这些工作负载要求。我们的目标是为这些方案提供最佳实践和模式。

初始范围

在我们最近面对面的几个月中,我们讨论了如何在保持可移植性和纯净用户体验的同时安全地抽象资源,同时仍然满足应用程序要求。工作组发布了多个版本 路线图 其中包括4个中短期目标,目标工作负荷之间有很大的重叠:

  • 设备管理器(插件)建议

    • 捕鱼大亨网络版 应该提供对硬件设备的访问,例如NIC,GPU,FPGA,Infiniband等。
  • CPU管理器

    • 捕鱼大亨网络版 应该为用户提供一种通过``保证的QoS''层请求静态CPU分配的方法。此阶段不支持NUMA。
  • 捕鱼大亨网络版 中的HugePages支持

    • 捕鱼大亨网络版 应该为用户提供一种消费任何大小的大页面的方式。
  • 资源类别提案

    • 捕鱼大亨网络版 应该为CPU和内存以外的设备实现一个抽象层(类似于StorageClasses),该层允许用户以可移植的方式使用资源。例如,容器如何请求内存最少的GPU?

参与和总结

我们的章程文件包括 联系我们 部分,其中包含指向我们的邮件列表,Slack频道和Zoom会议的链接。以前的会议记录已上传到 优酷 。我们计划在2017年的捕鱼大亨网络版开发者峰会上讨论这些主题以及更多内容。 CloudNativeCon |酷比康 在奥斯丁。请参加我们的会议之一(欢迎用户,客户,软件和硬件供应商参加),并为工作组做贡献!