Программы и библиотеки для BigData

Hadoop – набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов
Hive – система управления базами данных на основе платформы Hadoop
Spark – фреймворк с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop
HBase – СУБД класса NoSQL с открытым исходным кодом, проект экосистемы Hadoop
Airflow – инструмент, позволяющий удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных (введение от Адиля Хаштамова)
Kafka – распределённая, горизонтально масштабируемая система, обеспечивающая наращивание пропускной способности как при росте числа и нагрузки со стороны источников, так и количества систем-подписчиков (конспект)
Cassandra – распределённая система управления базами данных, относящаяся к классу NoSQL-систем и рассчитанная на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных, представленных в виде хэша
BigQuery – RESTful веб-сервис для интерактивного широкомасштабного анализа больших наборов данных, расположенных в Google Storage (вики)
Vertica – аналитическая колоночная СУБД, которая эффективно сжимает, хранит, быстро отдает данные (конспект)
InfluxDB – программное обеспечение с открытым исходным кодом для хранения временных рядов (конспект)
h5py – Python-интерфейс для двоичного формата данных HDF5.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

software_big_data.md

software_big_data.md

Программы и библиотеки для BigData

Files

software_big_data.md

Latest commit

History

software_big_data.md

File metadata and controls

Программы и библиотеки для BigData