Webchains
Библиотека под Python, позволяющая легко составить, кластеризовать и интерпретировать цепочки пользовательских событий.
1. Установите библиотеку, если она еще не установлена.
!pip install webchains

2. Импортируйте функции из библиотеки и pandas.
from webchains import matrix, adaptation
import pandas as pd

3. Загрузите необходимые данные. Необходимо, чтобы в обрабатываемом датасете были следующие столбцы:
– event_name: имя события
– event_time: время события
– session_web_id: ID сессии события
df = pd.read_csv('Имя файла')

4. Следующий шаг – предобработка датасета. Используем функцию adaptation
df2 = adaptation(df)

Иногда нужны не все сессии, а только те, в которых, содержится одно или несколько определенных событий. В таком случае добавляем в функцию дополнительный параметр со списком этих событий. Можно передавать как одно, так и несколько событий, перечисляя их через запятую:
df2 = adaptation(df, event = ['имя нужного события'])

5. Последний шаг – отрисовка матрицы переходов.
matrix(df2)

По умолчанию в матрице указаны абсолютные значения переходов. Для представления матрицы в процентном виде нужно прописать дополнительный параметр percent = True
matrix(df2, percent = True)
Каждая строка – это переходы с события в сроке к другим событиям в процентном отношении. В данном примере после старта сессии 16.64% пользователей перешли к событию screen_view, 11.41% пользователей перешли к событию phs_check_photo и т.п. Таким образом мы можем отследить самую популярную цепочку событий: начинаем с события start_session - ищем самое большое процентное значение - смотрим, с каким столбцом пересекается строка - повторяем шаги, но уже начиная с того события, с которым произошло пересечение. Повторяем до тех пор, пока не произойдет пересечения со столбцом end_session.

Возможны несколько тупиков:
– пересечение со столбцом other. В этот столбец попадают все события, которые случались слишком редко, чтобы попасть в основную таблицу. Однако, так как таких событий очень много, то обычно с любого события значительный процент переходит в other. При пересечении с other просто ищем следующий по размеру процент
– пересечение с самим собой. Если событие пересекается с самим собой, то это значит что оно просто выполнялось несколько раз подряд. Опять же, просто ищем следующий по размеру процент.
This site was made on Tilda — a website builder that helps to create a website without any code
Create a website