From a441dbb8b0e8aa62532eebb2282455a87844bfc8 Mon Sep 17 00:00:00 2001
From: harrykeightley <harrykeightley@users.noreply.github.com>
Date: Fri, 8 Sep 2023 04:43:53 +0000
Subject: [PATCH] deploy: cff43a06888f093623e69be35e23f8d2a9cde76a

---
 datasets/index.html      |  26 +++++--
 datasets/processing.html |  54 ++++++++++----
 trainer/index.html       |  22 +++++-
 trainer/job.html         |  15 +++-
 trainer/metrics.html     | 157 +++++++++++++++++++++++++++++++++++++++
 trainer/trainer.html     |  18 +++--
 6 files changed, 258 insertions(+), 34 deletions(-)
 create mode 100644 trainer/metrics.html
diff --git a/datasets/index.html b/datasets/index.html
index a85597f..a7de9c7 100644
--- a/datasets/index.html
+++ b/datasets/index.html
@@ -150,7 +150,12 @@ <h2 id="parameters">Parameters</h2>
         processor: The processor to apply over the dataset
     &#34;&#34;&#34;
 
-    def prepare_dataset(batch: Dict) -&gt; Dict[str, List]:
+    logger.debug(f&#34;Dataset pre prep: {dataset}&#34;)
+    logger.debug(f&#34;Dataset[train] pre prep: {dataset[&#39;train&#39;][&#39;transcript&#39;]}&#34;)
+    logger.debug(f&#34;Tokenizer vocab: {processor.tokenizer.vocab}&#34;)  # type: ignore
+
+    def _prepare_dataset(batch: Dict) -&gt; Dict[str, List]:
+        # Also from https://huggingface.co/blog/fine-tune-xlsr-wav2vec2
         audio = batch[&#34;audio&#34;]
 
         batch[&#34;input_values&#34;] = processor(
@@ -158,16 +163,23 @@ <h2 id="parameters">Parameters</h2>
         ).input_values[0]
         batch[&#34;input_length&#34;] = len(batch[&#34;input_values&#34;])
 
-        with processor.as_target_processor():
-            batch[&#34;labels&#34;] = processor(batch[&#34;transcript&#34;]).input_ids
+        batch[&#34;labels&#34;] = processor(text=batch[&#34;transcript&#34;]).input_ids
 
         return batch
 
-    return dataset.map(
-        prepare_dataset,
-        remove_columns=dataset.column_names[&#34;train&#34;],
+    column_names = [dataset.column_names[key] for key in dataset.column_names.keys()]
+    # flatten
+    columns_to_remove = list(chain.from_iterable(column_names))
+
+    dataset = dataset.map(
+        _prepare_dataset,
+        remove_columns=columns_to_remove,
         num_proc=PROCESSOR_COUNT,
-    )</code></pre>
+    )
+
+    logger.debug(f&#34;Dataset post prep: {dataset}&#34;)
+    logger.debug(f&#34;Training labels: {dataset[&#39;train&#39;][&#39;labels&#39;]}&#34;)
+    return dataset</code></pre>
 </details>
 </dd>
 <dt id="elpis.datasets.process_batch"><code class="name flex">
diff --git a/datasets/processing.html b/datasets/processing.html
index 2d97427..e0c08df 100644
--- a/datasets/processing.html
+++ b/datasets/processing.html
@@ -27,10 +27,12 @@ <h1 class="title">Module <code>elpis.datasets.processing</code></h1>
 <span>Expand source code</span>
 </summary>
 <pre><code class="python">import os
+from itertools import chain
 from pathlib import Path
 from typing import Any, Dict, List, Optional
 
 from datasets import Audio, DatasetDict, load_dataset
+from loguru import logger
 from transformers import Wav2Vec2Processor
 
 PROCESSOR_COUNT = 4
@@ -88,7 +90,12 @@ <h1 class="title">Module <code>elpis.datasets.processing</code></h1>
         processor: The processor to apply over the dataset
     &#34;&#34;&#34;
 
-    def prepare_dataset(batch: Dict) -&gt; Dict[str, List]:
+    logger.debug(f&#34;Dataset pre prep: {dataset}&#34;)
+    logger.debug(f&#34;Dataset[train] pre prep: {dataset[&#39;train&#39;][&#39;transcript&#39;]}&#34;)
+    logger.debug(f&#34;Tokenizer vocab: {processor.tokenizer.vocab}&#34;)  # type: ignore
+
+    def _prepare_dataset(batch: Dict) -&gt; Dict[str, List]:
+        # Also from https://huggingface.co/blog/fine-tune-xlsr-wav2vec2
         audio = batch[&#34;audio&#34;]
 
         batch[&#34;input_values&#34;] = processor(
@@ -96,16 +103,23 @@ <h1 class="title">Module <code>elpis.datasets.processing</code></h1>
         ).input_values[0]
         batch[&#34;input_length&#34;] = len(batch[&#34;input_values&#34;])
 
-        with processor.as_target_processor():
-            batch[&#34;labels&#34;] = processor(batch[&#34;transcript&#34;]).input_ids
+        batch[&#34;labels&#34;] = processor(text=batch[&#34;transcript&#34;]).input_ids
 
         return batch
 
-    return dataset.map(
-        prepare_dataset,
-        remove_columns=dataset.column_names[&#34;train&#34;],
+    column_names = [dataset.column_names[key] for key in dataset.column_names.keys()]
+    # flatten
+    columns_to_remove = list(chain.from_iterable(column_names))
+
+    dataset = dataset.map(
+        _prepare_dataset,
+        remove_columns=columns_to_remove,
         num_proc=PROCESSOR_COUNT,
-    )</code></pre>
+    )
+
+    logger.debug(f&#34;Dataset post prep: {dataset}&#34;)
+    logger.debug(f&#34;Training labels: {dataset[&#39;train&#39;][&#39;labels&#39;]}&#34;)
+    return dataset</code></pre>
 </details>
 </section>
 <section>
@@ -195,7 +209,12 @@ <h2 id="parameters">Parameters</h2>
         processor: The processor to apply over the dataset
     &#34;&#34;&#34;
 
-    def prepare_dataset(batch: Dict) -&gt; Dict[str, List]:
+    logger.debug(f&#34;Dataset pre prep: {dataset}&#34;)
+    logger.debug(f&#34;Dataset[train] pre prep: {dataset[&#39;train&#39;][&#39;transcript&#39;]}&#34;)
+    logger.debug(f&#34;Tokenizer vocab: {processor.tokenizer.vocab}&#34;)  # type: ignore
+
+    def _prepare_dataset(batch: Dict) -&gt; Dict[str, List]:
+        # Also from https://huggingface.co/blog/fine-tune-xlsr-wav2vec2
         audio = batch[&#34;audio&#34;]
 
         batch[&#34;input_values&#34;] = processor(
@@ -203,16 +222,23 @@ <h2 id="parameters">Parameters</h2>
         ).input_values[0]
         batch[&#34;input_length&#34;] = len(batch[&#34;input_values&#34;])
 
-        with processor.as_target_processor():
-            batch[&#34;labels&#34;] = processor(batch[&#34;transcript&#34;]).input_ids
+        batch[&#34;labels&#34;] = processor(text=batch[&#34;transcript&#34;]).input_ids
 
         return batch
 
-    return dataset.map(
-        prepare_dataset,
-        remove_columns=dataset.column_names[&#34;train&#34;],
+    column_names = [dataset.column_names[key] for key in dataset.column_names.keys()]
+    # flatten
+    columns_to_remove = list(chain.from_iterable(column_names))
+
+    dataset = dataset.map(
+        _prepare_dataset,
+        remove_columns=columns_to_remove,
         num_proc=PROCESSOR_COUNT,
-    )</code></pre>
+    )
+
+    logger.debug(f&#34;Dataset post prep: {dataset}&#34;)
+    logger.debug(f&#34;Training labels: {dataset[&#39;train&#39;][&#39;labels&#39;]}&#34;)
+    return dataset</code></pre>
 </details>
 </dd>
 </dl>
diff --git a/trainer/index.html b/trainer/index.html
index fef0731..dd319bc 100644
--- a/trainer/index.html
+++ b/trainer/index.html
@@ -43,6 +43,10 @@ <h2 class="section-title" id="header-submodules">Sub-modules</h2>
 <dd>
 <div class="desc"></div>
 </dd>
+<dt><code class="name"><a title="elpis.trainer.metrics" href="metrics.html">elpis.trainer.metrics</a></code></dt>
+<dd>
+<div class="desc"></div>
+</dd>
 <dt><code class="name"><a title="elpis.trainer.trainer" href="trainer.html">elpis.trainer.trainer</a></code></dt>
 <dd>
 <div class="desc"></div>
@@ -62,7 +66,7 @@ <h2 class="section-title" id="header-functions">Functions</h2>
 <span>def <span class="ident">train</span></span>(<span>job: <a title="elpis.trainer.job.TrainingJob" href="job.html#elpis.trainer.job.TrainingJob">TrainingJob</a>, output_dir: pathlib.Path, dataset_dir: pathlib.Path, cache_dir: Optional[pathlib.Path] = None, log_file: Optional[pathlib.Path] = None) ‑> pathlib.Path</span>
 </code></dt>
 <dd>
-<div class="desc"><p>Trains a model for use in transcription.</p>
+<div class="desc"><p>Fine-tunes a model for use in transcription.</p>
 <h2 id="parameters">Parameters</h2>
 <p>job: Info about the training job, e.g. training options.
 output_dir: Where to save the trained model.
@@ -82,7 +86,7 @@ <h2 id="returns">Returns</h2>
     cache_dir: Optional[Path] = None,
     log_file: Optional[Path] = None,
 ) -&gt; Path:
-    &#34;&#34;&#34;Trains a model for use in transcription.
+    &#34;&#34;&#34;Fine-tunes a model for use in transcription.
 
     Parameters:
         job: Info about the training job, e.g. training options.
@@ -125,6 +129,7 @@ <h2 id="returns">Returns</h2>
             eval_dataset=dataset[&#34;test&#34;],  # type: ignore
             tokenizer=processor.feature_extractor,
             data_collator=data_collator,
+            compute_metrics=create_metrics(job.metrics, processor),
         )
 
         logger.info(f&#34;Begin training model...&#34;)
@@ -138,9 +143,9 @@ <h2 id="returns">Returns</h2>
         logger.info(f&#34;Model written to disk.&#34;)
 
         metrics = trainer.evaluate()
+        logger.info(&#34;==== Metrics ====&#34;)
         trainer.log_metrics(&#34;eval&#34;, metrics)
         trainer.save_metrics(&#34;eval&#34;, metrics)
-        logger.info(&#34;==== Metrics ====&#34;)
         logger.info(metrics)
 
         return output_dir</code></pre>
@@ -153,7 +158,7 @@ <h2 class="section-title" id="header-classes">Classes</h2>
 <dl>
 <dt id="elpis.trainer.TrainingJob"><code class="flex name class">
 <span>class <span class="ident">TrainingJob</span></span>
-<span>(</span><span>model_name: str, dataset_name: str, options: <a title="elpis.trainer.TrainingOptions" href="#elpis.trainer.TrainingOptions">TrainingOptions</a>, status: <a title="elpis.trainer.TrainingStatus" href="#elpis.trainer.TrainingStatus">TrainingStatus</a> = TrainingStatus.WAITING, base_model: str = 'facebook/wav2vec2-base-960h', sampling_rate: int = 16000)</span>
+<span>(</span><span>model_name: str, dataset_name: str, options: <a title="elpis.trainer.TrainingOptions" href="#elpis.trainer.TrainingOptions">TrainingOptions</a>, status: <a title="elpis.trainer.TrainingStatus" href="#elpis.trainer.TrainingStatus">TrainingStatus</a> = TrainingStatus.WAITING, base_model: str = 'facebook/wav2vec2-base-960h', sampling_rate: int = 16000, metrics: Tuple[str, ...] = ('wer', 'cer'))</span>
 </code></dt>
 <dd>
 <div class="desc"><p>A class representing a training job for a model</p></div>
@@ -171,6 +176,7 @@ <h2 class="section-title" id="header-classes">Classes</h2>
     status: TrainingStatus = TrainingStatus.WAITING
     base_model: str = BASE_MODEL
     sampling_rate: int = SAMPLING_RATE
+    metrics: Tuple[str, ...] = METRICS
 
     def to_training_args(self, output_dir: Path, **kwargs) -&gt; TrainingArguments:
         return TrainingArguments(
@@ -205,6 +211,7 @@ <h2 class="section-title" id="header-classes">Classes</h2>
             status=TrainingStatus(data.get(&#34;status&#34;, TrainingStatus.WAITING)),
             base_model=data.get(&#34;base_model&#34;, BASE_MODEL),
             sampling_rate=data.get(&#34;sampling_rate&#34;, SAMPLING_RATE),
+            metrics=data.get(&#34;metrics&#34;, METRICS),
         )
 
     def to_dict(self) -&gt; Dict[str, Any]:
@@ -222,6 +229,10 @@ <h3>Class variables</h3>
 <dd>
 <div class="desc"></div>
 </dd>
+<dt id="elpis.trainer.TrainingJob.metrics"><code class="name">var <span class="ident">metrics</span> : Tuple[str, ...]</code></dt>
+<dd>
+<div class="desc"></div>
+</dd>
 <dt id="elpis.trainer.TrainingJob.model_name"><code class="name">var <span class="ident">model_name</span> : str</code></dt>
 <dd>
 <div class="desc"></div>
@@ -259,6 +270,7 @@ <h3>Static methods</h3>
         status=TrainingStatus(data.get(&#34;status&#34;, TrainingStatus.WAITING)),
         base_model=data.get(&#34;base_model&#34;, BASE_MODEL),
         sampling_rate=data.get(&#34;sampling_rate&#34;, SAMPLING_RATE),
+        metrics=data.get(&#34;metrics&#34;, METRICS),
     )</code></pre>
 </details>
 </dd>
@@ -477,6 +489,7 @@ <h1>Index</h1>
 <ul>
 <li><code><a title="elpis.trainer.data_collator" href="data_collator.html">elpis.trainer.data_collator</a></code></li>
 <li><code><a title="elpis.trainer.job" href="job.html">elpis.trainer.job</a></code></li>
+<li><code><a title="elpis.trainer.metrics" href="metrics.html">elpis.trainer.metrics</a></code></li>
 <li><code><a title="elpis.trainer.trainer" href="trainer.html">elpis.trainer.trainer</a></code></li>
 <li><code><a title="elpis.trainer.utils" href="utils.html">elpis.trainer.utils</a></code></li>
 </ul>
@@ -494,6 +507,7 @@ <h4><code><a title="elpis.trainer.TrainingJob" href="#elpis.trainer.TrainingJob"
 <li><code><a title="elpis.trainer.TrainingJob.base_model" href="#elpis.trainer.TrainingJob.base_model">base_model</a></code></li>
 <li><code><a title="elpis.trainer.TrainingJob.dataset_name" href="#elpis.trainer.TrainingJob.dataset_name">dataset_name</a></code></li>
 <li><code><a title="elpis.trainer.TrainingJob.from_dict" href="#elpis.trainer.TrainingJob.from_dict">from_dict</a></code></li>
+<li><code><a title="elpis.trainer.TrainingJob.metrics" href="#elpis.trainer.TrainingJob.metrics">metrics</a></code></li>
 <li><code><a title="elpis.trainer.TrainingJob.model_name" href="#elpis.trainer.TrainingJob.model_name">model_name</a></code></li>
 <li><code><a title="elpis.trainer.TrainingJob.options" href="#elpis.trainer.TrainingJob.options">options</a></code></li>
 <li><code><a title="elpis.trainer.TrainingJob.sampling_rate" href="#elpis.trainer.TrainingJob.sampling_rate">sampling_rate</a></code></li>
diff --git a/trainer/job.html b/trainer/job.html
index 9155b68..47c06d6 100644
--- a/trainer/job.html
+++ b/trainer/job.html
@@ -31,13 +31,14 @@ <h1 class="title">Module <code>elpis.trainer.job</code></h1>
 from dataclasses import dataclass, fields
 from enum import Enum
 from pathlib import Path
-from typing import Any, Dict
+from typing import Any, Dict, Tuple
 
 import torch
 from transformers import TrainingArguments
 
 BASE_MODEL = &#34;facebook/wav2vec2-base-960h&#34;
 SAMPLING_RATE = 16_000
+METRICS = (&#34;wer&#34;, &#34;cer&#34;)
 
 
 class TrainingStatus(Enum):
@@ -80,6 +81,7 @@ <h1 class="title">Module <code>elpis.trainer.job</code></h1>
     status: TrainingStatus = TrainingStatus.WAITING
     base_model: str = BASE_MODEL
     sampling_rate: int = SAMPLING_RATE
+    metrics: Tuple[str, ...] = METRICS
 
     def to_training_args(self, output_dir: Path, **kwargs) -&gt; TrainingArguments:
         return TrainingArguments(
@@ -114,6 +116,7 @@ <h1 class="title">Module <code>elpis.trainer.job</code></h1>
             status=TrainingStatus(data.get(&#34;status&#34;, TrainingStatus.WAITING)),
             base_model=data.get(&#34;base_model&#34;, BASE_MODEL),
             sampling_rate=data.get(&#34;sampling_rate&#34;, SAMPLING_RATE),
+            metrics=data.get(&#34;metrics&#34;, METRICS),
         )
 
     def to_dict(self) -&gt; Dict[str, Any]:
@@ -133,7 +136,7 @@ <h2 class="section-title" id="header-classes">Classes</h2>
 <dl>
 <dt id="elpis.trainer.job.TrainingJob"><code class="flex name class">
 <span>class <span class="ident">TrainingJob</span></span>
-<span>(</span><span>model_name: str, dataset_name: str, options: <a title="elpis.trainer.job.TrainingOptions" href="#elpis.trainer.job.TrainingOptions">TrainingOptions</a>, status: <a title="elpis.trainer.job.TrainingStatus" href="#elpis.trainer.job.TrainingStatus">TrainingStatus</a> = TrainingStatus.WAITING, base_model: str = 'facebook/wav2vec2-base-960h', sampling_rate: int = 16000)</span>
+<span>(</span><span>model_name: str, dataset_name: str, options: <a title="elpis.trainer.job.TrainingOptions" href="#elpis.trainer.job.TrainingOptions">TrainingOptions</a>, status: <a title="elpis.trainer.job.TrainingStatus" href="#elpis.trainer.job.TrainingStatus">TrainingStatus</a> = TrainingStatus.WAITING, base_model: str = 'facebook/wav2vec2-base-960h', sampling_rate: int = 16000, metrics: Tuple[str, ...] = ('wer', 'cer'))</span>
 </code></dt>
 <dd>
 <div class="desc"><p>A class representing a training job for a model</p></div>
@@ -151,6 +154,7 @@ <h2 class="section-title" id="header-classes">Classes</h2>
     status: TrainingStatus = TrainingStatus.WAITING
     base_model: str = BASE_MODEL
     sampling_rate: int = SAMPLING_RATE
+    metrics: Tuple[str, ...] = METRICS
 
     def to_training_args(self, output_dir: Path, **kwargs) -&gt; TrainingArguments:
         return TrainingArguments(
@@ -185,6 +189,7 @@ <h2 class="section-title" id="header-classes">Classes</h2>
             status=TrainingStatus(data.get(&#34;status&#34;, TrainingStatus.WAITING)),
             base_model=data.get(&#34;base_model&#34;, BASE_MODEL),
             sampling_rate=data.get(&#34;sampling_rate&#34;, SAMPLING_RATE),
+            metrics=data.get(&#34;metrics&#34;, METRICS),
         )
 
     def to_dict(self) -&gt; Dict[str, Any]:
@@ -202,6 +207,10 @@ <h3>Class variables</h3>
 <dd>
 <div class="desc"></div>
 </dd>
+<dt id="elpis.trainer.job.TrainingJob.metrics"><code class="name">var <span class="ident">metrics</span> : Tuple[str, ...]</code></dt>
+<dd>
+<div class="desc"></div>
+</dd>
 <dt id="elpis.trainer.job.TrainingJob.model_name"><code class="name">var <span class="ident">model_name</span> : str</code></dt>
 <dd>
 <div class="desc"></div>
@@ -239,6 +248,7 @@ <h3>Static methods</h3>
         status=TrainingStatus(data.get(&#34;status&#34;, TrainingStatus.WAITING)),
         base_model=data.get(&#34;base_model&#34;, BASE_MODEL),
         sampling_rate=data.get(&#34;sampling_rate&#34;, SAMPLING_RATE),
+        metrics=data.get(&#34;metrics&#34;, METRICS),
     )</code></pre>
 </details>
 </dd>
@@ -461,6 +471,7 @@ <h4><code><a title="elpis.trainer.job.TrainingJob" href="#elpis.trainer.job.Trai
 <li><code><a title="elpis.trainer.job.TrainingJob.base_model" href="#elpis.trainer.job.TrainingJob.base_model">base_model</a></code></li>
 <li><code><a title="elpis.trainer.job.TrainingJob.dataset_name" href="#elpis.trainer.job.TrainingJob.dataset_name">dataset_name</a></code></li>
 <li><code><a title="elpis.trainer.job.TrainingJob.from_dict" href="#elpis.trainer.job.TrainingJob.from_dict">from_dict</a></code></li>
+<li><code><a title="elpis.trainer.job.TrainingJob.metrics" href="#elpis.trainer.job.TrainingJob.metrics">metrics</a></code></li>
 <li><code><a title="elpis.trainer.job.TrainingJob.model_name" href="#elpis.trainer.job.TrainingJob.model_name">model_name</a></code></li>
 <li><code><a title="elpis.trainer.job.TrainingJob.options" href="#elpis.trainer.job.TrainingJob.options">options</a></code></li>
 <li><code><a title="elpis.trainer.job.TrainingJob.sampling_rate" href="#elpis.trainer.job.TrainingJob.sampling_rate">sampling_rate</a></code></li>
diff --git a/trainer/metrics.html b/trainer/metrics.html
new file mode 100644
index 0000000..3df4ed7
--- /dev/null
+++ b/trainer/metrics.html
@@ -0,0 +1,157 @@
+<!doctype html>
+<html lang="en">
+<head>
+<meta charset="utf-8">
+<meta name="viewport" content="width=device-width, initial-scale=1, minimum-scale=1" />
+<meta name="generator" content="pdoc 0.10.0" />
+<title>elpis.trainer.metrics API documentation</title>
+<meta name="description" content="" />
+<link rel="preload stylesheet" as="style" href="https://cdnjs.cloudflare.com/ajax/libs/10up-sanitize.css/11.0.1/sanitize.min.css" integrity="sha256-PK9q560IAAa6WVRRh76LtCaI8pjTJ2z11v0miyNNjrs=" crossorigin>
+<link rel="preload stylesheet" as="style" href="https://cdnjs.cloudflare.com/ajax/libs/10up-sanitize.css/11.0.1/typography.min.css" integrity="sha256-7l/o7C8jubJiy74VsKTidCy1yBkRtiUGbVkYBylBqUg=" crossorigin>
+<link rel="stylesheet preload" as="style" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/10.1.1/styles/github.min.css" crossorigin>
+<style>:root{--highlight-color:#fe9}.flex{display:flex !important}body{line-height:1.5em}#content{padding:20px}#sidebar{padding:30px;overflow:hidden}#sidebar > *:last-child{margin-bottom:2cm}.http-server-breadcrumbs{font-size:130%;margin:0 0 15px 0}#footer{font-size:.75em;padding:5px 30px;border-top:1px solid #ddd;text-align:right}#footer p{margin:0 0 0 1em;display:inline-block}#footer p:last-child{margin-right:30px}h1,h2,h3,h4,h5{font-weight:300}h1{font-size:2.5em;line-height:1.1em}h2{font-size:1.75em;margin:1em 0 .50em 0}h3{font-size:1.4em;margin:25px 0 10px 0}h4{margin:0;font-size:105%}h1:target,h2:target,h3:target,h4:target,h5:target,h6:target{background:var(--highlight-color);padding:.2em 0}a{color:#058;text-decoration:none;transition:color .3s ease-in-out}a:hover{color:#e82}.title code{font-weight:bold}h2[id^="header-"]{margin-top:2em}.ident{color:#900}pre code{background:#f8f8f8;font-size:.8em;line-height:1.4em}code{background:#f2f2f1;padding:1px 4px;overflow-wrap:break-word}h1 code{background:transparent}pre{background:#f8f8f8;border:0;border-top:1px solid #ccc;border-bottom:1px solid #ccc;margin:1em 0;padding:1ex}#http-server-module-list{display:flex;flex-flow:column}#http-server-module-list div{display:flex}#http-server-module-list dt{min-width:10%}#http-server-module-list p{margin-top:0}.toc ul,#index{list-style-type:none;margin:0;padding:0}#index code{background:transparent}#index h3{border-bottom:1px solid #ddd}#index ul{padding:0}#index h4{margin-top:.6em;font-weight:bold}@media (min-width:200ex){#index .two-column{column-count:2}}@media (min-width:300ex){#index .two-column{column-count:3}}dl{margin-bottom:2em}dl dl:last-child{margin-bottom:4em}dd{margin:0 0 1em 3em}#header-classes + dl > dd{margin-bottom:3em}dd dd{margin-left:2em}dd p{margin:10px 0}.name{background:#eee;font-weight:bold;font-size:.85em;padding:5px 10px;display:inline-block;min-width:40%}.name:hover{background:#e0e0e0}dt:target .name{background:var(--highlight-color)}.name > span:first-child{white-space:nowrap}.name.class > span:nth-child(2){margin-left:.4em}.inherited{color:#999;border-left:5px solid #eee;padding-left:1em}.inheritance em{font-style:normal;font-weight:bold}.desc h2{font-weight:400;font-size:1.25em}.desc h3{font-size:1em}.desc dt code{background:inherit}.source summary,.git-link-div{color:#666;text-align:right;font-weight:400;font-size:.8em;text-transform:uppercase}.source summary > *{white-space:nowrap;cursor:pointer}.git-link{color:inherit;margin-left:1em}.source pre{max-height:500px;overflow:auto;margin:0}.source pre code{font-size:12px;overflow:visible}.hlist{list-style:none}.hlist li{display:inline}.hlist li:after{content:',\2002'}.hlist li:last-child:after{content:none}.hlist .hlist{display:inline;padding-left:1em}img{max-width:100%}td{padding:0 .5em}.admonition{padding:.1em .5em;margin-bottom:1em}.admonition-title{font-weight:bold}.admonition.note,.admonition.info,.admonition.important{background:#aef}.admonition.todo,.admonition.versionadded,.admonition.tip,.admonition.hint{background:#dfd}.admonition.warning,.admonition.versionchanged,.admonition.deprecated{background:#fd4}.admonition.error,.admonition.danger,.admonition.caution{background:lightpink}</style>
+<style media="screen and (min-width: 700px)">@media screen and (min-width:700px){#sidebar{width:30%;height:100vh;overflow:auto;position:sticky;top:0}#content{width:70%;max-width:100ch;padding:3em 4em;border-left:1px solid #ddd}pre code{font-size:1em}.item .name{font-size:1em}main{display:flex;flex-direction:row-reverse;justify-content:flex-end}.toc ul ul,#index ul{padding-left:1.5em}.toc > ul > li{margin-top:.5em}}</style>
+<style media="print">@media print{#sidebar h1{page-break-before:always}.source{display:none}}@media print{*{background:transparent !important;color:#000 !important;box-shadow:none !important;text-shadow:none !important}a[href]:after{content:" (" attr(href) ")";font-size:90%}a[href][title]:after{content:none}abbr[title]:after{content:" (" attr(title) ")"}.ir a:after,a[href^="javascript:"]:after,a[href^="#"]:after{content:""}pre,blockquote{border:1px solid #999;page-break-inside:avoid}thead{display:table-header-group}tr,img{page-break-inside:avoid}img{max-width:100% !important}@page{margin:0.5cm}p,h2,h3{orphans:3;widows:3}h1,h2,h3,h4,h5,h6{page-break-after:avoid}}</style>
+<script defer src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/10.1.1/highlight.min.js" integrity="sha256-Uv3H6lx7dJmRfRvH8TH6kJD1TSK1aFcwgx+mdg3epi8=" crossorigin></script>
+<script>window.addEventListener('DOMContentLoaded', () => hljs.initHighlighting())</script>
+</head>
+<body>
+<main>
+<article id="content">
+<header>
+<h1 class="title">Module <code>elpis.trainer.metrics</code></h1>
+</header>
+<section id="section-intro">
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">from typing import Callable, Dict, Optional, Sequence
+
+import evaluate
+import numpy as np
+from loguru import logger
+from transformers import EvalPrediction, Wav2Vec2Processor
+
+
+def create_metrics(
+    metric_names: Sequence[str], processor: Wav2Vec2Processor
+) -&gt; Optional[Callable[[EvalPrediction], Dict]]:
+    # Handle metrics
+    if len(metric_names) == 0:
+        return
+
+    # Note: was using evaluate.combine but was having many unexpected errors.
+    metrics = {name: evaluate.load(name) for name in metric_names}
+
+    def compute_metrics(pred: EvalPrediction) -&gt; Dict:
+        # taken from https://huggingface.co/blog/fine-tune-xlsr-wav2vec2
+        pred_logits = pred.predictions
+
+        pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id  # type: ignore
+
+        # Taken from: https://discuss.huggingface.co/t/code-review-compute-metrics-for-wer-with-wav2vec2processorwithlm/16841/3
+        if type(processor).__name__ == &#34;Wav2Vec2ProcessorWithLM&#34;:
+            pred_str = processor.batch_decode(pred_logits).text
+        else:
+            pred_ids = np.argmax(pred_logits, axis=-1)
+            pred_str = processor.batch_decode(pred_ids)
+
+        # We do not want to group tokens when computing the metrics
+        label_str = processor.batch_decode(pred.label_ids, group_tokens=False)
+
+        logger.debug(f&#34;METRICS-&gt;pred: {pred_str} label:{label_str}&#34;)
+
+        result = {
+            name: metric.compute(predictions=pred_str, references=label_str)
+            for name, metric in metrics.items()
+        }
+        logger.debug(f&#34;Metrics Result: {result}&#34;)
+        return result
+
+    return compute_metrics</code></pre>
+</details>
+</section>
+<section>
+</section>
+<section>
+</section>
+<section>
+<h2 class="section-title" id="header-functions">Functions</h2>
+<dl>
+<dt id="elpis.trainer.metrics.create_metrics"><code class="name flex">
+<span>def <span class="ident">create_metrics</span></span>(<span>metric_names: Sequence[str], processor: transformers.models.wav2vec2.processing_wav2vec2.Wav2Vec2Processor) ‑> Optional[Callable[[transformers.trainer_utils.EvalPrediction], Dict]]</span>
+</code></dt>
+<dd>
+<div class="desc"></div>
+<details class="source">
+<summary>
+<span>Expand source code</span>
+</summary>
+<pre><code class="python">def create_metrics(
+    metric_names: Sequence[str], processor: Wav2Vec2Processor
+) -&gt; Optional[Callable[[EvalPrediction], Dict]]:
+    # Handle metrics
+    if len(metric_names) == 0:
+        return
+
+    # Note: was using evaluate.combine but was having many unexpected errors.
+    metrics = {name: evaluate.load(name) for name in metric_names}
+
+    def compute_metrics(pred: EvalPrediction) -&gt; Dict:
+        # taken from https://huggingface.co/blog/fine-tune-xlsr-wav2vec2
+        pred_logits = pred.predictions
+
+        pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id  # type: ignore
+
+        # Taken from: https://discuss.huggingface.co/t/code-review-compute-metrics-for-wer-with-wav2vec2processorwithlm/16841/3
+        if type(processor).__name__ == &#34;Wav2Vec2ProcessorWithLM&#34;:
+            pred_str = processor.batch_decode(pred_logits).text
+        else:
+            pred_ids = np.argmax(pred_logits, axis=-1)
+            pred_str = processor.batch_decode(pred_ids)
+
+        # We do not want to group tokens when computing the metrics
+        label_str = processor.batch_decode(pred.label_ids, group_tokens=False)
+
+        logger.debug(f&#34;METRICS-&gt;pred: {pred_str} label:{label_str}&#34;)
+
+        result = {
+            name: metric.compute(predictions=pred_str, references=label_str)
+            for name, metric in metrics.items()
+        }
+        logger.debug(f&#34;Metrics Result: {result}&#34;)
+        return result
+
+    return compute_metrics</code></pre>
+</details>
+</dd>
+</dl>
+</section>
+<section>
+</section>
+</article>
+<nav id="sidebar">
+<h1>Index</h1>
+<div class="toc">
+<ul></ul>
+</div>
+<ul id="index">
+<li><h3>Super-module</h3>
+<ul>
+<li><code><a title="elpis.trainer" href="index.html">elpis.trainer</a></code></li>
+</ul>
+</li>
+<li><h3><a href="#header-functions">Functions</a></h3>
+<ul class="">
+<li><code><a title="elpis.trainer.metrics.create_metrics" href="#elpis.trainer.metrics.create_metrics">create_metrics</a></code></li>
+</ul>
+</li>
+</ul>
+</nav>
+</main>
+<footer id="footer">
+<p>Generated by <a href="https://pdoc3.github.io/pdoc" title="pdoc: Python API documentation generator"><cite>pdoc</cite> 0.10.0</a>.</p>
+</footer>
+</body>
+</html>
\ No newline at end of file
diff --git a/trainer/trainer.html b/trainer/trainer.html
index 74211d3..b8add76 100644
--- a/trainer/trainer.html
+++ b/trainer/trainer.html
@@ -28,14 +28,16 @@ <h1 class="title">Module <code>elpis.trainer.trainer</code></h1>
 </summary>
 <pre><code class="python">from contextlib import nullcontext
 from pathlib import Path
-from typing import Optional
+from typing import Dict, Optional
 
 from loguru import logger
-from transformers import AutoModelForCTC, AutoProcessor, Trainer
+from tokenizers import Tokenizer
+from transformers import AutoModelForCTC, AutoProcessor, EvalPrediction, Trainer
 
 from elpis.datasets import create_dataset, prepare_dataset
 from elpis.trainer.data_collator import DataCollatorCTCWithPadding
 from elpis.trainer.job import TrainingJob
+from elpis.trainer.metrics import create_metrics
 from elpis.trainer.utils import log_to_file
 
 
@@ -46,7 +48,7 @@ <h1 class="title">Module <code>elpis.trainer.trainer</code></h1>
     cache_dir: Optional[Path] = None,
     log_file: Optional[Path] = None,
 ) -&gt; Path:
-    &#34;&#34;&#34;Trains a model for use in transcription.
+    &#34;&#34;&#34;Fine-tunes a model for use in transcription.
 
     Parameters:
         job: Info about the training job, e.g. training options.
@@ -89,6 +91,7 @@ <h1 class="title">Module <code>elpis.trainer.trainer</code></h1>
             eval_dataset=dataset[&#34;test&#34;],  # type: ignore
             tokenizer=processor.feature_extractor,
             data_collator=data_collator,
+            compute_metrics=create_metrics(job.metrics, processor),
         )
 
         logger.info(f&#34;Begin training model...&#34;)
@@ -102,9 +105,9 @@ <h1 class="title">Module <code>elpis.trainer.trainer</code></h1>
         logger.info(f&#34;Model written to disk.&#34;)
 
         metrics = trainer.evaluate()
+        logger.info(&#34;==== Metrics ====&#34;)
         trainer.log_metrics(&#34;eval&#34;, metrics)
         trainer.save_metrics(&#34;eval&#34;, metrics)
-        logger.info(&#34;==== Metrics ====&#34;)
         logger.info(metrics)
 
         return output_dir</code></pre>
@@ -121,7 +124,7 @@ <h2 class="section-title" id="header-functions">Functions</h2>
 <span>def <span class="ident">train</span></span>(<span>job: <a title="elpis.trainer.job.TrainingJob" href="job.html#elpis.trainer.job.TrainingJob">TrainingJob</a>, output_dir: pathlib.Path, dataset_dir: pathlib.Path, cache_dir: Optional[pathlib.Path] = None, log_file: Optional[pathlib.Path] = None) ‑> pathlib.Path</span>
 </code></dt>
 <dd>
-<div class="desc"><p>Trains a model for use in transcription.</p>
+<div class="desc"><p>Fine-tunes a model for use in transcription.</p>
 <h2 id="parameters">Parameters</h2>
 <p>job: Info about the training job, e.g. training options.
 output_dir: Where to save the trained model.
@@ -141,7 +144,7 @@ <h2 id="returns">Returns</h2>
     cache_dir: Optional[Path] = None,
     log_file: Optional[Path] = None,
 ) -&gt; Path:
-    &#34;&#34;&#34;Trains a model for use in transcription.
+    &#34;&#34;&#34;Fine-tunes a model for use in transcription.
 
     Parameters:
         job: Info about the training job, e.g. training options.
@@ -184,6 +187,7 @@ <h2 id="returns">Returns</h2>
             eval_dataset=dataset[&#34;test&#34;],  # type: ignore
             tokenizer=processor.feature_extractor,
             data_collator=data_collator,
+            compute_metrics=create_metrics(job.metrics, processor),
         )
 
         logger.info(f&#34;Begin training model...&#34;)
@@ -197,9 +201,9 @@ <h2 id="returns">Returns</h2>
         logger.info(f&#34;Model written to disk.&#34;)
 
         metrics = trainer.evaluate()
+        logger.info(&#34;==== Metrics ====&#34;)
         trainer.log_metrics(&#34;eval&#34;, metrics)
         trainer.save_metrics(&#34;eval&#34;, metrics)
-        logger.info(&#34;==== Metrics ====&#34;)
         logger.info(metrics)
 
         return output_dir</code></pre>