Интерактивный курс

Обработка данных в Python

На этом курсе вы узнаете, как обрабатывать ваши данные в Python для анализа.

О курсе

Одни из самых важных вещей в анализе данных — это сбор необработанных данных и их подготовка к дальнейшему анализу. Обычно говорят, что исследователи тратят 80% своего времени на очистку и подготовку данных и только 20% своего времени на их анализ. Этот курс предоставит вам все навыки, необходимые для обработки сырых данных в Python, от обучения поиска проблем в ваших данных до устранения пропущенных значений и выбросов. В конце курса вы примените все методы, которые вы изучили, к конкретному примеру для очистки реального набора данных Gapminder.

План занятий

Тематическое исследование

В последней главе вы примените все методы очистки данных, которые вы изучили в этом курсе, к приведению в порядок реального, грубого датасета, полученного из Gapminder Foundation. Как только вы закончите, у вас будет не только чистый и аккуратный датасет, но и вы будете готовы начать работу над своими собственными проектами по науке данных с использованием Python.

Приведение в порядок данных для анализа

Вы узнаете о принципах аккуратных данных и, что более важно, почему вам нужно заботиться о них и как обработанные данные делают анализ более эффективным. Вы попрактикуетесь обрабатывать данные и чистить от лишнее, используя такие методы, как поворот и плавление.

Изучение ваших данных

Допустим, вы только что получили новый датасет и вам не терпится начать анализ. Но с чего начать, и как вы можете быть уверены, что ваш датасет чистый? Эта глава познакомит вас с очисткой данных в Python. Вы узнаете, как исследовать свои данные принимая во внимание возможные проблемы, например выбросы, пропущенные значения и дублирующиеся строки

Очистка данных для анализа

Погрузитесь в более важные аспекты подготовки данных. Вы узнаете об обработке строк и сопоставлении с образцом, чтобы работать с неструктурированными данными, а затем изучите методы, чтобы добавить отсутствующие или убрать дублирующие данными. Вы также узнаете ценный навык программной проверки ваших данных на предмет согласованности, что добавит уверенность в том, что ваш код работает правильно и что результаты вашего анализа надежны.

Объединение данных для анализа

Способность преобразовывать и объединять ваши данные — важнейший навык в науке о данных, потому что ваши данные не всегда могут быть загружены в один монолитный файл или таблицу. Большой набор данных можно разбить на отдельные датасеты для облегчения хранения и совместного использования. Но важно уметь проводить анализ на одном датасете. Вам нужно будет научиться объединять датасеты или очищать каждый набор данных отдельно, чтобы потом можно было объединить их для анализа.