ISBN :
Возрастное ограничение : 16
Дата обновления : 19.06.2023
# Преобразование матрицы оценок в разреженную матрицу
sparse_ratings = csr_matrix(ratings)
# Применение SVD для получения матриц U, Sigma и Vt
U, Sigma, Vt = svds(sparse_ratings, k)
# Построение диагональной матрицы Sigma
Sigma = np.diag(Sigma)
return U, Sigma, Vt
# Функция рекомендации фильмов для пользователя
def recommend_movies(user_id, ratings, U, Sigma, Vt, num_recommendations=5):
user_ratings = ratings[user_id]
predicted_ratings = np.dot(np.dot(U[user_id, :], Sigma), Vt)
# Исключение уже оцененных фильмов из рекомендаций
predicted_ratings[user_ratings != 0] = -1
top_movies = np.argsort(predicted_ratings)[::-1][:num_recommendations]
return top_movies
# Пример использования
user_id = 0
k = 2 # Размерность скрытого пространства
U, Sigma, Vt = perform_svd(ratings, k)
recommended_movies = recommend_movies(user_id, ratings, U, Sigma, Vt)
print(f"Рекомендуемые фильмы для пользователя {user_id}:")
for movie_id in recommended_movies:
print(f"Фильм {movie_id}")
```
В данном примере используется алгоритм Singular Value Decomposition (SVD) для выполнения сингулярного разложения матрицы оценок пользователей. Полученные матрицы U, Sigma и Vt представляют собой аппроксимацию исходной матрицы оценок с использованием латентного пространства низкой размерности.
Функция `perform_svd` выполняет сингулярное разложение матрицы оценок с помощью функции `svds` из модуля `scipy.sparse.linalg`. Разложение возвращает матрицы U, Sigma и Vt.
Функция `recommend_movies` принимает идентификатор пользователя, матрицу оценок, а также матрицы U, Sigma и Vt в качестве аргументов. Она вычисляет предсказанные оценки для пользователя и рекомендует фильмы, имеющие наивысшие предсказанные оценки, исключая уже оцененные фильмы.
В приведенном примере выводится список рекомендованных фильмов для пользователя с идентификатором 0. Количество рекомендаций задается параметром `num_recommendations`.
Singular Value Decomposition (SVD), или Сингулярное разложение, является мощным алгоритмом линейной алгебры, который используется в различных областях, включая рекомендательные системы, сжатие данных, обработку изображений и многие другие.
Сингулярное разложение позволяет представить матрицу в виде произведения трех матриц: U, Sigma и Vt. Формально, для матрицы A размерности m x n SVD определяется следующим образом:
A = U * Sigma * Vt,
где U – матрица размерности m x m, содержащая левые сингулярные векторы,
Sigma – диагональная матрица размерности m x n, содержащая сингулярные значения,
Vt – транспонированная матрица размерности n x n, содержащая правые сингулярные векторы.
Сингулярные значения в матрице Sigma являются неотрицательными числами и упорядочены по убыванию. Они представляют собой меру важности каждого сингулярного вектора и определяют вклад каждого сингулярного вектора в исходную матрицу A.
При использовании SVD в рекомендательных системах, например, матрица A представляет собой матрицу оценок пользователей, где строки соответствуют пользователям, а столбцы – элементам (фильмам, продуктам и т.д.). SVD разделяет матрицу на скрытые факторы, представленные сингулярными векторами, и связывает их с пользователями и элементами. Это позволяет рекомендовать пользователям элементы, которые им могут понравиться, на основе сходства с другими пользователями или элементами.
Алгоритм SVD имеет несколько вариаций, которые могут быть использованы в зависимости от контекста и требований задачи. Некоторые из них включают Truncated SVD (SVD с ограниченным числом сингулярных значений), Implicit Matrix Factorization (IMF) и другие.
SVD является мощным инструментом для анализа данных и позволяет снизить размерность данных, извлекать важные признаки и находить скрытые паттерны. Вместе с тем, алгоритм SVD требует значительных вычислительных ресурсов и может столкнуться с проблемами при обработке больших объемов данных. Поэтому для больших наборов данных используются приближенные методы SVD или альтернативные алгоритмы, такие как алгоритмы матричной факторизации.
Однако, SVD по-прежнему остается важным инструментом в области рекомендательных систем и других задач, где требуется анализ больших матриц данных.
Контекстная фильтрация
Еще одним распространенным методом является контентная фильтрация. Контентная фильтрация – это метод рекомендательных систем, который основывается на анализе характеристик элементов и предпочтений пользователей. В контексте контентной фильтрации, каждый элемент (товар, статья, фильм и т.д.) характеризуется набором признаков или характеристик, которые описывают его содержание или свойства.
Процесс контентной фильтрации начинается с анализа характеристик элементов и их значимости для пользователей. Характеристики элементов могут включать такие атрибуты, как автор, жанр, ключевые слова, рейтинги и другие свойства, которые могут быть извлечены из содержания элемента или предоставлены вручную.
Далее, на основе характеристик элементов, строится профиль пользователя, который отражает его предпочтения и интересы. Профиль пользователя может быть создан путем анализа предыдущих взаимодействий пользователя с элементами, например, его рейтинги или история просмотров.
Затем, используя различные алгоритмы сходства, производится сравнение между профилем пользователя и характеристиками элементов. Целью является определение степени сходства между предпочтениями пользователя и характеристиками элементов.
На основе этого сравнения, система ранжирует и рекомендует пользователю элементы, которые наиболее соответствуют его предпочтениям. Например, если пользователь предпочитает фильмы определенного жанра, система может рекомендовать ему фильмы схожего жанра.
Преимуществом контентной фильтрации является то, что она не требует данных о предпочтениях других пользователей, так как она полностью основана на анализе характеристик элементов и предпочтениях пользователя. Это делает ее особенно полезной в случаях, когда у нас ограниченное количество данных о взаимодействиях пользователей.
Однако, контентная фильтрация также имеет свои ограничения. В частности, она может столкнуться с проблемой ограниченности характеристик элементов, особенно если характеристики не полностью охватывают аспекты предпочтений пользователя. Также возникает проблема обновления профиля пользователя и характеристик элементов с течением времени.
Метод является важным в рекомендательных систем, который позволяет рекомендовать пользователю элементы на основе их сходства с предпочтениями и характеристиками элементов. Она может быть эффективным инструментом в различных областях, таких как маркетинг, интернет-торговля, медиа и другие, где персонализированные рекомендации имеют важное значение для улучшения пользовательского опыта и увеличения продаж.
Рекомендательные системы также могут использовать гибридные подходы, комбинируя несколько методов для получения более точных и релевантных рекомендаций. Например, можно использовать коллаборативную фильтрацию для нахождения похожих пользователей и контентную фильтрацию для нахождения похожих элементов, и затем объединить результаты для формирования итоговых рекомендаций.
Рекомендательные системы являются мощным инструментом для улучшения пользовательского опыта, увеличения продаж и удержания клиентов. Они позволяют бизнесу создавать персонализированные рекомендации, основанные на данных и поведении пользователей, что способствует улучшению конкурентоспособности и достижению бизнес-целей.
Ниже приведен пример программы контентной фильтрации:
```python
# Импорт необходимых библиотек
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# Загрузка данных
data = pd.read_csv('movies.csv')
# Создание матрицы TF-IDF на основе описаний фильмов
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(data['description'].fillna(''))
# Вычисление матрицы сходства косинусной мерой
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
# Функция для получения рекомендаций похожих фильмов
def get_recommendations(title, cosine_sim, data, top_n=5):
indices = pd.Series(data.index, index=data['title']).drop_duplicates()
idx = indices[title]
sim_scores = list(enumerate(cosine_sim[idx]))
sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
sim_scores = sim_scores[1:top_n+1]
movie_indices = [i[0] for i in sim_scores]
return data['title'].iloc[movie_indices]
# Пример использования функции для получения рекомендаций
movie_title = 'The Dark Knight Rises'
recommendations = get_recommendations(movie_title, cosine_sim, data)
print(f"Рекомендации для фильма '{movie_title}':")
print(recommendations)
```
Программа выполняет следующие шаги:
1. Импортируются необходимые библиотеки. Библиотека `pandas` используется для работы с данными в виде таблицы, а библиотеки `TfidfVectorizer` и `cosine_similarity` из модуля `sklearn.feature_extraction.text` и `sklearn.metrics.pairwise` соответственно используются для работы с текстовыми данными и вычисления сходства между ними.
2. Загружаются данные о фильмах из файла 'movies.csv' с помощью функции `read_csv()` из библиотеки `pandas`. Данные обычно содержат информацию о фильмах, включая их названия, описания и другие атрибуты.
3. Создается объект `TfidfVectorizer`, который преобразует текстовые описания фильмов в числовые векторы с использованием метода TF-IDF. TF-IDF (Term Frequency-Inverse Document Frequency) – это статистическая мера, используемая для оценки важности термина в документе. Он позволяет выделить ключевые слова и характеристики фильмов.
4. С помощью метода `fit_transform()` объекта `TfidfVectorizer` преобразуется список описаний фильмов в матрицу TF-IDF. Эта матрица представляет собой числовое представление описаний фильмов, где каждый столбец соответствует определенному термину, а каждая строка – конкретному фильму.
5. Вычисляется матрица сходства между фильмами с использованием метода `cosine_similarity()` из модуля `sklearn.metrics.pairwise`. Косинусное сходство измеряет угол между двумя векторами и предоставляет меру их сходства. В данном случае, матрица сходства показывает степень сходства между каждой парой фильмов на основе их описаний.
6. Определяется функция `get_recommendations()`, которая принимает название фильма, матрицу сходства и данные о фильмах. Внутри функции происходит следующее:
– Создается объект `pd.Series` с индексами, соответствующими названиям фильмов и значениями, соответствующими их индексам в данных.
– Получается индекс выбранного фильма.
– Вычисляется список схожести выбранного фильма с остальными фильмами.
– Список сортируется по убыванию схожести.
– Выбираются топ-N фильмов на основе сходства.
– Возвращается список рекомендуемых фильмов.
7. Запрашивается у пользователя название фильма, для которого необходимо получить рекомендации.
8. Вызывается функция `get_recommendations()` с передачей ей названия фильма, матрицы сходства и данных о фильмах.
9. Выводятся на экран рекомендованные фильмы.
Программа использует алгоритм контентной фильтрации на основе TF-IDF и косинусного сходства для рекомендации фильмов на основе их текстовых описаний. Она преобразует текстовые данные в числовые векторы с использованием TF-IDF и затем вычисляет сходство между фильмами. Рекомендуемые фильмы выбираются на основе сходства с выбранным фильмом. Это позволяет предлагать пользователю фильмы, которые имеют схожие характеристики и описания с фильмами, которые он предпочитает.
Глава 3: Подготовка данных для машинного обучения
Все книги на сайте предоставены для ознакомления и защищены авторским правом