By Ури Ласерсон, Шон Оуэн, Сэнди Райза, Акаш Тандон, Джош Уиллс
Ури Ласерсон, Шон Оуэн, Сэнди Райза, Акаш Тандон, Джош Уиллс, 2023
Эта книга предлагает практические методы для анализа больших объемов данных с использованием Python и фреймворка Spark. Она знакомит с моделью программирования Spark и основами PySpark. Каждая глава посвящена отдельному аспекту анализа данных, демонстрируя очистку и предварительную обработку данных с помощью PySpark и Python.
Подробно рассматривается машинное обучение с использованием Spark, а также весь конвейер PySpark для комплексной аналитики — от исследования данных до оценки моделей. Особое внимание уделяется производственным приложениям, обработке изображений и библиотеке Spark NLP.
Uri Laserson, Sean Owen, Sandy Ryza, Akash Tandon, Josh Wills, 2023
This book focuses on practical methods for analyzing large datasets using Python and the Spark framework, introducing the Spark programming model and the PySpark open-source system. Each chapter explores a distinct aspect of data analysis, demonstrating data cleaning and preprocessing with PySpark and Python.
It delves into machine learning with Spark and the complete PySpark pipeline for comprehensive big data analytics, from data exploration to model evaluation. Emphasis is placed on production applications, image processing, and the Spark NLP library.