RedHatInsights · patilsuraj767 · Nov 15, 2023 · Oct 30, 2023 · Oct 30, 2023 · Nov 3, 2023
diff --git a/internal/logging/logging.go b/internal/logging/logging.go
@@ -62,12 +62,13 @@ func GetLogger() *logrus.Entry {
 }
 
 func Set_request_details(data types.KafkaMsg) *logrus.Entry {
-	return log.WithFields(logrus.Fields{
+	log = log.WithFields(logrus.Fields{
 		"request_id":    data.Request_id,
 		"account":       data.Metadata.Account,
 		"org_id":        data.Metadata.Org_id,
 		"source_id":     data.Metadata.Source_id,
 		"cluster_uuid":  data.Metadata.Cluster_uuid,
 		"cluster_alias": data.Metadata.Cluster_alias,
 	})
+	return log
 }
diff --git a/internal/utils/aggregator.go b/internal/utils/aggregator.go
@@ -6,10 +6,12 @@ import (
 	"github.com/go-gota/gota/dataframe"
 	"github.com/go-gota/gota/series"
 
+	"github.com/redhatinsights/ros-ocp-backend/internal/logging"
 	w "github.com/redhatinsights/ros-ocp-backend/internal/types/workload"
 )
 
 func Aggregate_data(df dataframe.DataFrame) dataframe.DataFrame {
+	log = logging.GetLogger()
 	df = df.FilterAggregation(
 		dataframe.And,
 		dataframe.F{Colname: "owner_kind", Comparator: series.Neq, Comparando: ""},
@@ -40,6 +42,33 @@ func Aggregate_data(df dataframe.DataFrame) dataframe.DataFrame {
 
 	df = df.Mutate(s.Col("X0")).Rename("k8s_object_type", "X0")
 	df = df.Mutate(s.Col("X1")).Rename("k8s_object_name", "X1")
+
+	// filter out only valid workload type
+	df = df.Filter(
+		dataframe.F{
+			Colname:    "k8s_object_type",
+			Comparator: series.In,
+			Comparando: []string{
+				w.Daemonset.String(),
+				w.Deployment.String(),
+				w.Deploymentconfig.String(),
+				w.Replicaset.String(),
+				w.Replicationcontroller.String(),
+				w.Statefulset.String(),
+			}},
+	)
+
+	// Validation to check if metrics for cpuUsage, memoryUsage and memoryRSS are missing
+	df, no_of_dropped_records := filter_valid_csv_records(df)
+	if no_of_dropped_records != 0 {
+		invalidDataPoints.Add(float64(no_of_dropped_records))
+		log.Infof("Invalid records in CSV - %v", no_of_dropped_records)
+	}
+
+	if df.Nrow() == 0 {
+		return df
+	}
+
 	dfGroups := df.GroupBy(
 		"namespace",
 		"k8s_object_type",
@@ -87,3 +116,25 @@ func Aggregate_data(df dataframe.DataFrame) dataframe.DataFrame {
 	df = dfGroups.Aggregation(columnsAggregationType, columnsToAggregate)
 	return df
 }
+
+func filter_valid_csv_records(main_df dataframe.DataFrame) (dataframe.DataFrame, int) {
+	df := main_df.FilterAggregation(
+		dataframe.And,
+		dataframe.F{Colname: "memory_rss_usage_container_sum", Comparator: series.GreaterEq, Comparando: 0},
+		dataframe.F{Colname: "memory_rss_usage_container_max", Comparator: series.GreaterEq, Comparando: 0},
+		dataframe.F{Colname: "memory_rss_usage_container_min", Comparator: series.GreaterEq, Comparando: 0},
+		dataframe.F{Colname: "memory_rss_usage_container_avg", Comparator: series.GreaterEq, Comparando: 0},
+		dataframe.F{Colname: "memory_usage_container_sum", Comparator: series.GreaterEq, Comparando: 0},
+		dataframe.F{Colname: "memory_usage_container_max", Comparator: series.GreaterEq, Comparando: 0},
+		dataframe.F{Colname: "memory_usage_container_min", Comparator: series.GreaterEq, Comparando: 0},
+		dataframe.F{Colname: "memory_usage_container_avg", Comparator: series.GreaterEq, Comparando: 0},
+		dataframe.F{Colname: "cpu_usage_container_sum", Comparator: series.GreaterEq, Comparando: 0},
+		dataframe.F{Colname: "cpu_usage_container_max", Comparator: series.GreaterEq, Comparando: 0},
+		dataframe.F{Colname: "cpu_usage_container_min", Comparator: series.GreaterEq, Comparando: 0},
+		dataframe.F{Colname: "cpu_usage_container_avg", Comparator: series.GreaterEq, Comparando: 0},
+	)
+
+	no_of_dropped_records := main_df.Nrow() - df.Nrow()
+
+	return df, no_of_dropped_records
+}
diff --git a/internal/utils/metrics.go b/internal/utils/metrics.go
@@ -0,0 +1,13 @@
+package utils
+
+import (
+	"github.com/prometheus/client_golang/prometheus"
+	"github.com/prometheus/client_golang/prometheus/promauto"
+)
+
+var (
+	invalidDataPoints = promauto.NewCounter(prometheus.CounterOpts{
+		Name: "rosocp_invalid_datapoints_total",
+		Help: "The total number of invalid datapoints(rows) found in CSVs recevied",
-		Name: "rosocp_invalid_datapoints_total",
-		Help: "The total number of invalid datapoints(rows) found in CSVs recevied",
+		Name: "rosocp_total_invalid_datapoints",
+		Help: "The total number of invalid datapoints(rows) found in received CSVs",
-		Name: "rosocp_invalid_datapoints_total",
-		Help: "The total number of invalid datapoints(rows) found in CSVs recevied",
+		Name: "rosocp_total_invalid_datapoints",
+		Help: "The total number of invalid datapoints(rows) found in received CSVs",
+	})
+)