DiaBERT – инструмент для распознавания временных меток в голосовых данных

В этом репозитории находится Backend часть с моделями. Вторую часть с веб-интерфейсом можно найти здесь - https://github.com/VadimKirillov/ASR_DiaBERT

Это решение обеспечивает точное распознавание речи (ASR) с помощью модели Whisper-large-v3-turbo из аудиофайлов с последующим преобразованием в текстовый формат с помощью LLM Vikhr-Nemo-12B, структурированный в виде JSON. Есть возможность сохранения в DOCX.

Ссылка на работающий сервис [Будет выключено после демонстрации] - https://vadimkirillov-asr-diabert-94b6.twc1.net/

🔥 Новости

[2024/12/13] 🚀🚀 Решение опубликовано.

✨ Особенности:

Распознавание речи (ASR):
- Используется модель Whisper-large-v3-turbo, которая обеспечивает высокую точность распознавания речи на основе голосового ввода.
- Поддержка различных языков и устойчивость к шумам.
Выделение временных меток:
- Сервис с помощью LLM автоматически определяет начало и конец каждой фразы или действия говорящего.
- Выдает точные временные метки (начало и конец) для каждой записи.
Анализ содержания разговора:
- Используется модель Vikhr-Nemo-12B, которая анализирует распознанный текст и выделяет ключевые действия или темы, обсуждаемые говорящим в определенные временные промежутки.
- Результаты предоставляются в формате JSON, что упрощает дальнейшую обработку и интеграцию с другими системами.

💡 Обзор возможностей

🔊 Ввод (Аудиозапись, распознается с помощью Whisper):

text = "С 10:00 до 11:00 я работал над проектом. С 11:00 до 12:00 у меня было совещание с командой."

💭 После обработки LLM:

{
    "С 10:00 до 11:00 я работал над проектом. С 11:00 до 12:00 у меня было совещание с командой.": [
        {
            "start": "10:00",
            "end": "11:00",
            "action": "работал над проектом"
        },
        {
            "start": "11:00",
            "end": "12:00",
            "action": "совещание с командой"
        }]
}

Доступен удобный веб-интерфейс

⚡️ Способы применения

Голосовые команды для учета времени: Теперь отчеты во временных табелях можно создавать с помощью голосовых команд, что делает процесс максимально удобным и быстрым.
Сохранение в DOCX одним кликом: Отчеты легко сохраняются в формате DOCX всего одной кнопкой, обеспечивая самый удобный и эффективный учет времени.

🛠️ Установка:

Клонировать репозиторий

git clone https://github.com/VadimKirillov/ASR_DiaBERT

Установить зависимости в виртуальное окружение

pip3 install virtualenv
virtualenv myenv
. myenv/bin/activate
pip install -r requirements.txt

Для запуска приложения необходимо ввести в консоль

python main_api.py

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
executors		executors
models		models
prompts		prompts
routes		routes
services		services
utils		utils
12b_nemo_vikhr_AUDIO.ipynb		12b_nemo_vikhr_AUDIO.ipynb
README.md		README.md
main_api.py		main_api.py
requirements.txt		requirements.txt
Разговор-по-телефону.mp3		Разговор-по-телефону.mp3

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DiaBERT – инструмент для распознавания временных меток в голосовых данных

🔥 Новости

✨ Особенности:

💡 Обзор возможностей

⚡️ Способы применения

🛠️ Установка:

About

Releases

Packages

Languages

DanilaAniva/DiabertASRBackend

Folders and files

Latest commit

History

Repository files navigation

DiaBERT – инструмент для распознавания временных меток в голосовых данных

🔥 Новости

✨ Особенности:

💡 Обзор возможностей

⚡️ Способы применения

🛠️ Установка:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages