AP and MAP metrics

mike-chesnokov · Feb 26, 2021 · 8d4503f · 8d4503f
1 parent 4f1a25f
commit 8d4503f
Show file tree

Hide file tree

Showing 9 changed files with 64 additions and 4 deletions.
diff --git a/README.md b/README.md
@@ -1,5 +1,5 @@
-# kaggle_utils
-Python utils for kaggle
+# ML utils
+Machine Learning Python utils:
 
 - `metrics_utils.py`: functions for metrics calculation;
 - `lightgbm_utils.py`: LightGBM functions (cross-validation with Out Of Fold predictions and etc.);

diff --git a/kaggle_utils/blending_utils.py → utils/blending_utils.py b/kaggle_utils/blending_utils.py → utils/blending_utils.py
diff --git a/kaggle_utils/face_recognition_utils.py → utils/face_recognition_utils.py b/kaggle_utils/face_recognition_utils.py → utils/face_recognition_utils.py
diff --git a/kaggle_utils/feature_processing_utils.py → utils/feature_processing_utils.py b/kaggle_utils/feature_processing_utils.py → utils/feature_processing_utils.py
diff --git a/kaggle_utils/lightgbm_utils.py → utils/lightgbm_utils.py b/kaggle_utils/lightgbm_utils.py → utils/lightgbm_utils.py
@@ -13,7 +13,7 @@
 )
 from sklearn.model_selection import KFold
 
-from kaggle_utils.metrics_utils import rmse, rmse_lgb
+from utils.metrics_utils import rmse, rmse_lgb
 
 
 kf = KFold(n_splits=5, random_state=7, shuffle=False)

diff --git a/kaggle_utils/metrics_utils.py → utils/metrics_utils.py b/kaggle_utils/metrics_utils.py → utils/metrics_utils.py
@@ -1,6 +1,5 @@
 # Functions for metrics calculation
 import numpy as np
-import pandas as pd
 from sklearn.metrics import mean_squared_error, roc_auc_score
 
 
@@ -130,3 +129,64 @@ def gini_lgb(preds, dtrain):
 def auc_lgb(preds, dtrain):
     actuals = np.array(dtrain.get_label()) 
     return 'auc', roc_auc_score(actuals, preds), True
+
+# Average Precision (AP@k) and Mean Average Precision (MAP@k)
+# from https://github.com/benhamner/Metrics/blob/master/Python/ml_metrics/average_precision.py
+
+
+def apk(actual, predicted, k=5):
+    """
+    Computes the average precision at k.
+    This function computes the average precision at k between two lists of
+    items.
+    Parameters
+    ----------
+    actual : list
+             A list of elements that are to be predicted (order doesn't matter)
+    predicted : list
+                A list of predicted elements (order does matter)
+    k : int, optional
+        The maximum number of predicted elements
+    Returns
+    -------
+    score : double
+            The average precision at k over the input lists
+    """
+    if len(predicted) > k:
+        predicted = predicted[:k]
+
+    score = 0.0
+    num_hits = 0.0
+
+    for ind, pred in enumerate(predicted):
+        if pred in actual and pred not in predicted[:ind]:
+            num_hits += 1.0
+            score += num_hits / (ind + 1.0)
+
+    if not actual:
+        return 0.0
+
+    return score / min(len(actual), k)
+
+
+def mapk(actual, predicted, k=5):
+    """
+    Computes the mean average precision at k.
+    This function computes the mean average prescision at k between two lists
+    of lists of items.
+    Parameters
+    ----------
+    actual : list
+             A list of lists of elements that are to be predicted
+             (order doesn't matter in the lists)
+    predicted : list
+                A list of lists of predicted elements
+                (order matters in the lists)
+    k : int, optional
+        The maximum number of predicted elements
+    Returns
+    -------
+    score : double
+            The mean average precision at k over the input lists
+    """
+    return np.mean([apk(act, pred, k) for act, pred in zip(actual, predicted)])
diff --git a/kaggle_utils/plotting_utils.py → utils/plotting_utils.py b/kaggle_utils/plotting_utils.py → utils/plotting_utils.py
diff --git a/kaggle_utils/pytesseract_ocr_utils.py → utils/pytesseract_ocr_utils.py b/kaggle_utils/pytesseract_ocr_utils.py → utils/pytesseract_ocr_utils.py
diff --git a/kaggle_utils/text_processing_utils.py → utils/text_processing_utils.py b/kaggle_utils/text_processing_utils.py → utils/text_processing_utils.py