Skip to content

Latest commit

 

History

History
13 lines (12 loc) · 3.13 KB

software_big_data.md

File metadata and controls

13 lines (12 loc) · 3.13 KB

Программы и библиотеки для BigData

  • Hadoop – набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов
  • Hive – система управления базами данных на основе платформы Hadoop
  • Spark – фреймворк с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop
  • HBase – СУБД класса NoSQL с открытым исходным кодом, проект экосистемы Hadoop
  • Airflow – инструмент, позволяющий удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных (введение от Адиля Хаштамова)
  • Kafka – распределённая, горизонтально масштабируемая система, обеспечивающая наращивание пропускной способности как при росте числа и нагрузки со стороны источников, так и количества систем-подписчиков (конспект)
  • Cassandra – распределённая система управления базами данных, относящаяся к классу NoSQL-систем и рассчитанная на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных, представленных в виде хэша
  • BigQuery – RESTful веб-сервис для интерактивного широкомасштабного анализа больших наборов данных, расположенных в Google Storage (вики)
  • Vertica – аналитическая колоночная СУБД, которая эффективно сжимает, хранит, быстро отдает данные (конспект)
  • InfluxDB – программное обеспечение с открытым исходным кодом для хранения временных рядов (конспект)
  • h5py – Python-интерфейс для двоичного формата данных HDF5.