Интерактивный курс

Введение в импорт данных в Python

Вы научитесь импортировать данные в Python из различных источников: Excel, SQL, SAS и прямо из Интернета.

О курсе

Как специалист по Data Science, вам нужно будет очищать данные, разбирать и изменять их, визуализировать, строить прогностические модели и интерпретировать эти модели. Однако прежде чем вы сможете это сделать, вам нужно знать, как получить данные в Python. В этом курсе вы узнаете много способов импорта данных в Python: из простых файлов, таких как .txt и .csv; из файлов, встроенных в другое программное обеспечение, таких как электронные таблицы Excel, файлы Stata, SAS и MATLAB; и из реляционных баз данных, таких как SQLite и PostgreSQL.

План занятий

Введение и неструктурированные файлы

В этой главе вы узнаете, как импортировать данные в Python из всех типов неструктурированных файлов, которые являются простой и распространенной формой хранения данных. Ранее вы узнали, как использовать NumPy и pandas, — вы узнаете, как использовать эти пакеты для импорта неструктурированных файлов и настройки импорта.
Использование pandas для импорта неструктурированных файлов как DataFrames (2)
Заключение по импорту данных
Использование pandas для импорта неструктурированных файлов как DataFrames (1)
Настройка импорта pandas
Импорт разных типов данных
Работа со смешанными типами данных (2)
Популярная викторина: что такое неструктурированные файлы?
Изучение вашего рабочего каталога
Импорт неструктурированных файлов с использованием pandas
Почему нам нравятся неструктурированные файлы и Zen of Python
Важность неструктурированных файлов в науке о данных
Использование NumPy для импорта неструктурированных файлов
Настройка вашего импорта NumPy
Добро пожаловать на курс!
Импорт целых текстовых файлов
Импорт текстовых файлов построчно
Импорт неструктурированных файлов с помощью NumPy
Работа со смешанными типами данных (1)
Популярная викторина: примеры неструктурированных файлов

Работа с реляционными базами данных в Python

В этой главе вы узнаете, как извлекать нужные данные из реляционных баз данных, что является важным навыком для любого специалиста Data Science. Вы узнаете о реляционных моделях, о том, как создавать запросы SQL, как фильтровать и упорядочивать записи SQL и как выполнять расширенные запросы, объединяя таблицы базы данных.

Импорт данных из других типов файлов

Вы узнали, как импортировать неструктурированные файлы, но есть много других типов файлов, с которыми вам, возможно, придется поработать как специалисту по данным. В этой главе вы узнаете, как импортировать данные в Python из широкого спектра важных типов файлов. К ним относятся pickle-файлы, электронные таблицы Excel, файлы SAS и Stata, файлы HDF5, тип файла для хранения большого количества числовых данных и файлы MATLAB.