- Hadoop – набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов
- Hive – система управления базами данных на основе платформы Hadoop
- Spark – фреймворк с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop
- HBase – СУБД класса NoSQL с открытым исходным кодом, проект экосистемы Hadoop
- Airflow – инструмент, позволяющий удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных (введение от Адиля Хаштамова)
- Kafka – распределённая, горизонтально масштабируемая система, обеспечивающая наращивание пропускной способности как при росте числа и нагрузки со стороны источников, так и количества систем-подписчиков (конспект)
- Cassandra – распределённая система управления базами данных, относящаяся к классу NoSQL-систем и рассчитанная на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных, представленных в виде хэша
- BigQuery – RESTful веб-сервис для интерактивного широкомасштабного анализа больших наборов данных, расположенных в Google Storage (вики)
- Vertica – аналитическая колоночная СУБД, которая эффективно сжимает, хранит, быстро отдает данные (конспект)
- InfluxDB – программное обеспечение с открытым исходным кодом для хранения временных рядов (конспект)
- h5py – Python-интерфейс для двоичного формата данных HDF5.