Skip to content

Latest commit

 

History

History
33 lines (24 loc) · 1.63 KB

README.md

File metadata and controls

33 lines (24 loc) · 1.63 KB

Matching

Мастерская №2

В рамках проекта мы поработали с реальными сырыми данными от одного из крупнейших маркетплейсов страны. Была поставлена задача сопоставления и поиска наиболее похожих товаров.

Цель проекта: Подобрать и обучить модель на исходных данных, способную найти 5 похожих товаров для валиадационной выборки из датасета base, основываясь на метрики accuracy@5.

Задачи:

  • Загрузка датасетов и предварительный обзор;
  • EDA;
  • Построение Baseline-моделей и выбор наилучшего варианта;
  • Предобработка данных перед обучением;
  • Обучение модели и анализ результатов

Интерументы: В проекте использовались алгоритмы реализованные в библиотеки FAISS, обучение происходило на GPU.

Исследованы модели FlatL2 IVF и HNSW.

Показатели метрик для валидационной выборки:

  • FlatL2
    • Accuracy@5 13.286
  • IVF
    • Accuracy@5 13.155
  • HNSW
    • Accuracy@5 11.431

Далее использовалась модель FlatL2

Итоговые результаты для валидационной выборки:

  • FlatL2
    • Accuracy@5 69.569