Align on p50 rather than avg for all instance metrics

Ankcorn · Ankcorn · commit 321a936fd73f · 2025-12-08T19:48:42.000Z
diff --git a/datadog-dashboard.json b/datadog-dashboard.json
@@ -113,7 +113,7 @@
 					{
 						"id": 21,
 						"definition": {
-							"title": "CPU Load by Application (Avg)",
+							"title": "CPU Load by Application (P50)",
 							"title_size": "16",
 							"title_align": "left",
 							"show_legend": true,
@@ -127,7 +127,7 @@
 										{
 											"name": "query1",
 											"data_source": "metrics",
-											"query": "avg:cloudflare.containers.cpu{stat:avg,$application_name} by {application_name}"
+											"query": "avg:cloudflare.containers.cpu{stat:p50,$application_name} by {application_name}"
 										}
 									],
 									"response_format": "timeseries",
@@ -193,7 +193,7 @@
 										{
 											"name": "query1",
 											"data_source": "metrics",
-											"query": "avg:cloudflare.containers.cpu{stat:avg,$application_name} by {application_name}",
+											"query": "avg:cloudflare.containers.cpu{stat:p50,$application_name} by {application_name}",
 											"aggregator": "avg"
 										}
 									],
@@ -217,7 +217,7 @@
 										{
 											"name": "query1",
 											"data_source": "metrics",
-											"query": "avg:cloudflare.containers.cpu{stat:avg,$application_name} by {placement_id}"
+											"query": "avg:cloudflare.containers.cpu{stat:p50,$application_name} by {placement_id}"
 										}
 									],
 									"response_format": "timeseries",
@@ -241,7 +241,7 @@
 					{
 						"id": 31,
 						"definition": {
-							"title": "Memory Usage by Application (Avg)",
+							"title": "Memory Usage by Application (P50)",
 							"title_size": "16",
 							"title_align": "left",
 							"show_legend": true,
@@ -255,7 +255,7 @@
 										{
 											"name": "query1",
 											"data_source": "metrics",
-											"query": "avg:cloudflare.containers.memory{stat:avg,$application_name} by {application_name}"
+											"query": "avg:cloudflare.containers.memory{stat:p50,$application_name} by {application_name}"
 										}
 									],
 									"response_format": "timeseries",
@@ -321,7 +321,7 @@
 										{
 											"name": "query1",
 											"data_source": "metrics",
-											"query": "avg:cloudflare.containers.memory{stat:avg,$application_name} by {application_name}",
+											"query": "avg:cloudflare.containers.memory{stat:p50,$application_name} by {application_name}",
 											"aggregator": "avg"
 										}
 									],
@@ -345,7 +345,7 @@
 										{
 											"name": "query1",
 											"data_source": "metrics",
-											"query": "avg:cloudflare.containers.memory{stat:avg,$application_name} by {placement_id}"
+											"query": "avg:cloudflare.containers.memory{stat:p50,$application_name} by {placement_id}"
 										}
 									],
 									"response_format": "timeseries",
@@ -557,20 +557,20 @@
 					{
 						"formulas": [
 							{
-								"alias": "CPU Avg",
+								"alias": "CPU P50",
 								"formula": "query1",
 								"limit": { "count": 50, "order": "desc" }
 							},
 							{ "alias": "CPU P90", "formula": "query2" },
-							{ "alias": "Memory Avg (GB)", "formula": "query3 / 1000000000" },
+							{ "alias": "Memory P50 (GB)", "formula": "query3 / 1000000000" },
 							{ "alias": "Memory P90 (GB)", "formula": "query4 / 1000000000" },
 							{ "alias": "Disk P90 (GB)", "formula": "query5 / 1000000000" }
 						],
 						"queries": [
 							{
 								"name": "query1",
 								"data_source": "metrics",
-								"query": "avg:cloudflare.containers.cpu{stat:avg,$application_name} by {application_name}",
+								"query": "avg:cloudflare.containers.cpu{stat:p50,$application_name} by {application_name}",
 								"aggregator": "avg"
 							},
 							{
@@ -582,7 +582,7 @@
 							{
 								"name": "query3",
 								"data_source": "metrics",
-								"query": "avg:cloudflare.containers.memory{stat:avg,$application_name} by {application_name}",
+								"query": "avg:cloudflare.containers.memory{stat:p50,$application_name} by {application_name}",
 								"aggregator": "avg"
 							},
 							{
diff --git a/readme.md b/readme.md
@@ -84,7 +84,18 @@ Use `instances.total.max - instances.total.healthy` to calculate available capac
 
 **Tags:** `account_id`, `application_id`, `application_name`, `deployment_id`, `placement_id`, `stat`
 
-The `stat` tag indicates the aggregation: `avg`, `p90`, `p99`, `max` (bandwidth metrics don't have a stat tag).
+The `stat` tag indicates the aggregation: `p50`, `p90`, `p99`, `max` (bandwidth metrics don't have a stat tag).
+
+## Datadog Dashboard
+
+A pre-built dashboard is included in `datadog-dashboard.json`. To import it:
+
+1. In Datadog, go to **Dashboards** → **New Dashboard** → **New Dashboard**
+2. Click the cog icon (⚙️) in the top right
+3. Select **Import dashboard JSON**
+4. Paste the contents of `datadog-dashboard.json`
+
+See [Datadog's documentation](https://docs.datadoghq.com/dashboards/configure/#copy-import-or-export-dashboard-json) for more details.
 
 ## Workflow Behavior
 
@@ -94,4 +105,5 @@ The exporter runs as a Cloudflare Workflow triggered every minute via cron. Each
 - **Delay**: 1 second initial delay
 - **Backoff**: Exponential (1s, 2s, 4s)
 
-Steps will automatically retry on transient failures (API errors, network issues).
+Steps will automatically retry on transient failures (API errors, network issues).
+
diff --git a/src/api/cloudflare.ts b/src/api/cloudflare.ts
@@ -27,10 +27,6 @@ query GetCloudchamberMetrics($accountTag: string!, $datetimeStart: Time, $dateti
   viewer {
     accounts(filter: {accountTag: $accountTag}) {
       cloudchamberMetricsAdaptiveGroups(limit: 10000, filter: {applicationId_in: $applicationIds, datetimeMinute_geq: $datetimeStart, datetimeMinute_leq: $datetimeEnd}) {
-        avg {
-          memory
-          cpuLoad
-        }
         max {
           memory
           cpuLoad
diff --git a/src/metrics.ts b/src/metrics.ts
@@ -37,8 +37,8 @@ export function formatMetricsForContainer(
 			{
 				metric: "cloudflare.containers.cpu",
 				type: "gauge",
-				points: [[ts, group.avg.cpuLoad]],
-				tags: [...baseTags, "stat:avg"],
+				points: [[ts, group.quantiles.cpuLoadP50]],
+				tags: [...baseTags, "stat:p50"],
 			},
 			{
 				metric: "cloudflare.containers.cpu",
@@ -65,8 +65,8 @@ export function formatMetricsForContainer(
 			{
 				metric: "cloudflare.containers.memory",
 				type: "gauge",
-				points: [[ts, group.avg.memory]],
-				tags: [...baseTags, "stat:avg"],
+				points: [[ts, group.quantiles.memoryP50]],
+				tags: [...baseTags, "stat:p50"],
 			},
 			{
 				metric: "cloudflare.containers.memory",
@@ -90,6 +90,12 @@ export function formatMetricsForContainer(
 
 		// Disk metrics
 		metrics.push(
+			{
+				metric: "cloudflare.containers.disk",
+				type: "gauge",
+				points: [[ts, group.quantiles.diskUsageP50]],
+				tags: [...baseTags, "stat:p50"],
+			},
 			{
 				metric: "cloudflare.containers.disk",
 				type: "gauge",
diff --git a/src/types.ts b/src/types.ts
@@ -28,11 +28,6 @@ export const Container = z.looseObject({
 
 // GraphQL Metrics Response Schemas
 
-const MetricsAvgSchema = z.object({
-	cpuLoad: z.number(),
-	memory: z.number(),
-});
-
 const MetricsMaxSchema = z.object({
 	cpuLoad: z.number(),
 	memory: z.number(),
@@ -66,7 +61,6 @@ const MetricsSumSchema = z.object({
 /** Metrics group from GraphQL API */
 export type MetricsGroup = z.infer<typeof MetricsGroup>;
 export const MetricsGroup = z.object({
-	avg: MetricsAvgSchema,
 	max: MetricsMaxSchema,
 	dimensions: MetricsDimensionsSchema,
 	quantiles: MetricsQuantilesSchema,
diff --git a/test/metricsformatting.test.ts b/test/metricsformatting.test.ts
@@ -24,8 +24,8 @@ describe("formatMetricsForContainer", () => {
 			TEST_TIMESTAMP,
 		);
 
-		// 4 CPU + 4 Memory + 3 Disk + 2 Bandwidth = 13 metrics per group
-		expect(metrics).toHaveLength(13);
+		// 4 CPU + 4 Memory + 4 Disk + 2 Bandwidth = 14 metrics per group
+		expect(metrics).toHaveLength(14);
 	});
 
 	it("formats multiple metrics groups", () => {
@@ -37,8 +37,8 @@ describe("formatMetricsForContainer", () => {
 			TEST_TIMESTAMP,
 		);
 
-		// 2 groups * 13 metrics = 26 metrics
-		expect(metrics).toHaveLength(26);
+		// 2 groups * 14 metrics = 28 metrics
+		expect(metrics).toHaveLength(28);
 	});
 
 	it("includes correct tags", () => {
@@ -61,7 +61,7 @@ describe("formatMetricsForContainer", () => {
 
 		const cpuMetric = metrics.find(
 			(m) =>
-				m.metric === "cloudflare.containers.cpu" && m.tags.includes("stat:avg"),
+				m.metric === "cloudflare.containers.cpu" && m.tags.includes("stat:p50"),
 		);
 
 		expect(cpuMetric).toBeDefined();
@@ -99,8 +99,8 @@ describe("formatContainerMetrics", () => {
 			TEST_TIMESTAMP,
 		);
 
-		// 4 CPU + 4 Memory + 3 Disk + 2 Bandwidth = 13 metrics per group
-		expect(metrics).toHaveLength(13);
+		// 4 CPU + 4 Memory + 4 Disk + 2 Bandwidth = 14 metrics per group
+		expect(metrics).toHaveLength(14);
 	});
 
 	it("formats metrics for multiple containers with multiple groups", () => {
@@ -121,8 +121,8 @@ describe("formatContainerMetrics", () => {
 			TEST_TIMESTAMP,
 		);
 
-		// 3 groups * 13 metrics = 39 metrics
-		expect(metrics).toHaveLength(39);
+		// 3 groups * 14 metrics = 42 metrics
+		expect(metrics).toHaveLength(42);
 	});
 
 	it("includes correct tags for each metric", () => {
@@ -150,7 +150,7 @@ describe("formatContainerMetrics", () => {
 
 		const cpuMetric = metrics.find(
 			(m) =>
-				m.metric === "cloudflare.containers.cpu" && m.tags.includes("stat:avg"),
+				m.metric === "cloudflare.containers.cpu" && m.tags.includes("stat:p50"),
 		);
 
 		expect(cpuMetric).toBeDefined();
@@ -161,20 +161,14 @@ describe("formatContainerMetrics", () => {
 		);
 		expect(cpuMetric?.tags).toContain("deployment_id:deploy-test");
 		expect(cpuMetric?.tags).toContain("placement_id:place-test");
-		expect(cpuMetric?.tags).toContain("stat:avg");
+		expect(cpuMetric?.tags).toContain("stat:p50");
 	});
 
 	it("uses correct metric values from the group", () => {
 		const group = createMockMetricsGroup({
-			avg: {
-				cpuLoad: 0.42,
-				memory: 123456789,
-				rxBandwidthBps: 0,
-				txBandwidthBps: 0,
-			},
 			max: { cpuLoad: 0.99, memory: 999999999, diskUsage: 5000000000 },
 			quantiles: {
-				cpuLoadP50: 0.3,
+				cpuLoadP50: 0.42,
 				cpuLoadP90: 0.8,
 				cpuLoadP99: 0.95,
 				memoryP50: 100000000,
@@ -200,12 +194,12 @@ describe("formatContainerMetrics", () => {
 			TEST_TIMESTAMP,
 		);
 
-		// Check CPU avg
-		const cpuAvg = metrics.find(
+		// Check CPU p50
+		const cpuP50 = metrics.find(
 			(m) =>
-				m.metric === "cloudflare.containers.cpu" && m.tags.includes("stat:avg"),
+				m.metric === "cloudflare.containers.cpu" && m.tags.includes("stat:p50"),
 		);
-		expect(cpuAvg?.points[0]).toEqual([TEST_TIMESTAMP, 0.42]);
+		expect(cpuP50?.points[0]).toEqual([TEST_TIMESTAMP, 0.42]);
 
 		// Check CPU max
 		const cpuMax = metrics.find(
diff --git a/test/mocks/data.ts b/test/mocks/data.ts
@@ -51,10 +51,6 @@ export const mockContainers: Container[] = [
  */
 export const mockMetricsGroups: MetricsGroup[] = [
 	{
-		avg: {
-			cpuLoad: 0.25,
-			memory: 268435456, // 256 MB
-		},
 		max: {
 			cpuLoad: 0.75,
 			memory: 402653184, // 384 MB
@@ -83,10 +79,6 @@ export const mockMetricsGroups: MetricsGroup[] = [
 		},
 	},
 	{
-		avg: {
-			cpuLoad: 0.15,
-			memory: 134217728, // 128 MB
-		},
 		max: {
 			cpuLoad: 0.45,
 			memory: 201326592, // 192 MB
@@ -149,11 +141,6 @@ export function createMockMetricsGroup(
 	overrides: Partial<MetricsGroup> = {},
 ): MetricsGroup {
 	return {
-		avg: {
-			cpuLoad: 0.25,
-			memory: 268435456,
-			...overrides.avg,
-		},
 		max: {
 			cpuLoad: 0.75,
 			memory: 402653184,

Original file line number	Diff line number	Diff line change
`@@ -113,7 +113,7 @@`
`113`	`113`	`{`
`114`	`114`	`"id": 21,`
`115`	`115`	`"definition": {`
`116`		`- "title": "CPU Load by Application (Avg)",`
	`116`	`+ "title": "CPU Load by Application (P50)",`
`117`	`117`	`"title_size": "16",`
`118`	`118`	`"title_align": "left",`
`119`	`119`	`"show_legend": true,`
`@@ -127,7 +127,7 @@`
`127`	`127`	`{`
`128`	`128`	`"name": "query1",`
`129`	`129`	`"data_source": "metrics",`
`130`		`- "query": "avg:cloudflare.containers.cpu{stat:avg,$application_name} by {application_name}"`
	`130`	`+ "query": "avg:cloudflare.containers.cpu{stat:p50,$application_name} by {application_name}"`
`131`	`131`	`}`
`132`	`132`	`],`
`133`	`133`	`"response_format": "timeseries",`
`@@ -193,7 +193,7 @@`
`193`	`193`	`{`
`194`	`194`	`"name": "query1",`
`195`	`195`	`"data_source": "metrics",`
`196`		`- "query": "avg:cloudflare.containers.cpu{stat:avg,$application_name} by {application_name}",`
	`196`	`+ "query": "avg:cloudflare.containers.cpu{stat:p50,$application_name} by {application_name}",`
`197`	`197`	`"aggregator": "avg"`
`198`	`198`	`}`
`199`	`199`	`],`
`@@ -217,7 +217,7 @@`
`217`	`217`	`{`
`218`	`218`	`"name": "query1",`
`219`	`219`	`"data_source": "metrics",`
`220`		`- "query": "avg:cloudflare.containers.cpu{stat:avg,$application_name} by {placement_id}"`
	`220`	`+ "query": "avg:cloudflare.containers.cpu{stat:p50,$application_name} by {placement_id}"`
`221`	`221`	`}`
`222`	`222`	`],`
`223`	`223`	`"response_format": "timeseries",`
`@@ -241,7 +241,7 @@`
`241`	`241`	`{`
`242`	`242`	`"id": 31,`
`243`	`243`	`"definition": {`
`244`		`- "title": "Memory Usage by Application (Avg)",`
	`244`	`+ "title": "Memory Usage by Application (P50)",`
`245`	`245`	`"title_size": "16",`
`246`	`246`	`"title_align": "left",`
`247`	`247`	`"show_legend": true,`
`@@ -255,7 +255,7 @@`
`255`	`255`	`{`
`256`	`256`	`"name": "query1",`
`257`	`257`	`"data_source": "metrics",`
`258`		`- "query": "avg:cloudflare.containers.memory{stat:avg,$application_name} by {application_name}"`
	`258`	`+ "query": "avg:cloudflare.containers.memory{stat:p50,$application_name} by {application_name}"`
`259`	`259`	`}`
`260`	`260`	`],`
`261`	`261`	`"response_format": "timeseries",`
`@@ -321,7 +321,7 @@`
`321`	`321`	`{`
`322`	`322`	`"name": "query1",`
`323`	`323`	`"data_source": "metrics",`
`324`		`- "query": "avg:cloudflare.containers.memory{stat:avg,$application_name} by {application_name}",`
	`324`	`+ "query": "avg:cloudflare.containers.memory{stat:p50,$application_name} by {application_name}",`
`325`	`325`	`"aggregator": "avg"`
`326`	`326`	`}`
`327`	`327`	`],`
`@@ -345,7 +345,7 @@`
`345`	`345`	`{`
`346`	`346`	`"name": "query1",`
`347`	`347`	`"data_source": "metrics",`
`348`		`- "query": "avg:cloudflare.containers.memory{stat:avg,$application_name} by {placement_id}"`
	`348`	`+ "query": "avg:cloudflare.containers.memory{stat:p50,$application_name} by {placement_id}"`
`349`	`349`	`}`
`350`	`350`	`],`
`351`	`351`	`"response_format": "timeseries",`
`@@ -557,20 +557,20 @@`
`557`	`557`	`{`
`558`	`558`	`"formulas": [`
`559`	`559`	`{`
`560`		`- "alias": "CPU Avg",`
	`560`	`+ "alias": "CPU P50",`
`561`	`561`	`"formula": "query1",`
`562`	`562`	`"limit": { "count": 50, "order": "desc" }`
`563`	`563`	`},`
`564`	`564`	`{ "alias": "CPU P90", "formula": "query2" },`
`565`		`- { "alias": "Memory Avg (GB)", "formula": "query3 / 1000000000" },`
	`565`	`+ { "alias": "Memory P50 (GB)", "formula": "query3 / 1000000000" },`
`566`	`566`	`{ "alias": "Memory P90 (GB)", "formula": "query4 / 1000000000" },`
`567`	`567`	`{ "alias": "Disk P90 (GB)", "formula": "query5 / 1000000000" }`
`568`	`568`	`],`
`569`	`569`	`"queries": [`
`570`	`570`	`{`
`571`	`571`	`"name": "query1",`
`572`	`572`	`"data_source": "metrics",`
`573`		`- "query": "avg:cloudflare.containers.cpu{stat:avg,$application_name} by {application_name}",`
	`573`	`+ "query": "avg:cloudflare.containers.cpu{stat:p50,$application_name} by {application_name}",`
`574`	`574`	`"aggregator": "avg"`
`575`	`575`	`},`
`576`	`576`	`{`
`@@ -582,7 +582,7 @@`
`582`	`582`	`{`
`583`	`583`	`"name": "query3",`
`584`	`584`	`"data_source": "metrics",`
`585`		`- "query": "avg:cloudflare.containers.memory{stat:avg,$application_name} by {application_name}",`
	`585`	`+ "query": "avg:cloudflare.containers.memory{stat:p50,$application_name} by {application_name}",`
`586`	`586`	`"aggregator": "avg"`
`587`	`587`	`},`
`588`	`588`	`{`