ISBN :
Возрастное ограничение : 12
Дата обновления : 06.02.2024
3. Основные операции с DataFrame
Просмотр данных:
```python
# Вывести первые n строк DataFrame
print(df.head())
# Вывести последние n строк DataFrame
print(df.tail())
```
Индексация и выбор данных:
```python
# Выбор столбца по имени
age = df['Возраст']
# Выбор строки по индексу
row = df.loc[0]
```
Фильтрация данных:
```python
# Фильтрация по условию
filtered_df = df[df['Возраст'] > 25]
```
Добавление новых столбцов:
```python
# Добавление нового столбца
df['Зарплата'] = [50000, 60000, 45000]
```
Операции с группами:
```python
# Группировка данных по столбцу 'Город' и вычисление среднего значения возраста в каждой группе
grouped_df = df.groupby('Город')['Возраст'].mean()
```
4. Визуализация данных с Pandas
Pandas также предоставляет встроенные средства для визуализации данных. Например, гистограмму можно построить следующим образом:
Давайте разберем пошагово строки кода:
– Импорт библиотек:
```python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
```
Здесь мы импортируем необходимые библиотеки. `pd` – это стандартное соглашение для обозначения библиотеки Pandas. `matplotlib.pyplot` используется для создания графиков, а `seaborn` – библиотека для стилизации графиков и добавления дополнительных функций визуализации.
– Создание данных:
```python
data = {'Имя': ['Анна', 'Борис', 'Виктория'],
'Возраст': [25, 30, 22],
'Город': ['Москва', 'Санкт-Петербург', 'Киев']}
df = pd.DataFrame(data)
```
Мы создаем простой DataFrame с тремя колонками: 'Имя', 'Возраст' и 'Город'. Эти данные представляют собой три записи с именами, возрастами и городами.
Настраиваем стиль seaborn:
```python
sns.set(style="whitegrid")
```
Эта строка устанавливает стиль для графика с помощью библиотеки seaborn. Здесь мы выбрали стиль "whitegrid", который добавляет белую сетку на фоне графика.
– Создаем гистограмму:
```python
plt.figure(figsize=(8, 6))
sns.histplot(df['Возраст'], bins=20, kde=True, color='skyblue')
```
Здесь мы создаем гистограмму для столбца 'Возраст' из DataFrame. `figsize=(8, 6)` устанавливает размер графика. `bins=20` указывает количество столбцов в гистограмме. `kde=True` добавляет оценку плотности на гистограмму. `color='skyblue'` задает цвет графика.
– Добавляем подписи и заголовок:
```python
plt.xlabel('Возраст', fontsize=12)
plt.ylabel('Частота', fontsize=12)
plt.title('Гистограмма возрастов', fontsize=14)
```
Эти строки добавляют подписи к осям и заголовок для улучшения понимания графика
– Добавляем сетку:
```python
plt.grid(axis='y', linestyle='–', alpha=0.7)
```
Эта строка добавляет горизонтальную сетку для лучшей читаемости.
– Показываем график:
```python
plt.show()
```
И наконец, эта строка отображает график.
Этот код создает красивую гистограмму с данными о возрасте и демонстрирует базовые шаги визуализации данных с использованием библиотек Pandas, Matplotlib и Seaborn в Python.
Pandas предоставляет эффективные инструменты для работы с табличными данными, что делает его широко используемым в анализе данных, машинном обучении и других областях. DataFrame позволяет легко выполнять множество операций, от фильтрации и группировки данных до визуализации результатов. Это делает Pandas мощным инструментом для аналитики и обработки данных в Python.
Приведем примеры фильтрации, сортировки и агрегации данных с использованием библиотеки Pandas на основе предположимого DataFrame с информацией о людях:
В этом примере мы использовали фильтрацию для выбора только тех записей, где возраст больше 25 лет.
Здесь мы отсортировали DataFrame по столбцу 'Возраст' в порядке убывания.
В данном примере мы использовали агрегацию для расчета среднего возраста и суммы зарплаты для каждого города.
Эти примеры показывают базовые операции фильтрации, сортировки и агрегации данных с Pandas, которые могут быть полезны при работе с табличными данными.
2.3. Matplotlib
Matplotlib – это библиотека для визуализации данных в языке программирования Python. Она предоставляет множество инструментов для создания различных типов графиков и диаграмм. Давайте рассмотрим несколько основных видов графиков и диаграмм, которые можно создать с помощью Matplotlib.
1. Линейный график
Линейный график подходит для визуализации зависимости одной переменной от другой. Рассмотрим пример:
```python
import matplotlib.pyplot as plt
# Создаем данные для примера
Все книги на сайте предоставены для ознакомления и защищены авторским правом