Анализ социальных сетей позволяет решить целый ряд интересных практических задач в экономике, психологии, социологии. Важнейшие из них связаны с классификацией пользователей социальных сетей по различным критериям, что позволяет прогнозировать их поведение. К примеру, для кадровых агентств важна классификация на успешных и неуспешных в профессиональном плане, для учебных заведений важна классификация на успешных и неуспешных в плане академической успеваемости. Банки и страховые компании могут классифицировать обращающихся к ним на склонных и не склонных к противоправным действиям.
Обычно сбор данных осуществляется с использованием API (открытый либо с регистрацией в нем своего сервиса), а также с краулингом html-страниц с их последующим парсингом и вычленением нужных данных.При этом социальные сети не позволяют осуществлять быстрый сбор данных. Существуют ограничения на количество запросов в единицу времени.
Также проблемой является получение достоверной информации, ведь пользователь социальной сети формирует в ней свое особое лицо. Также для исследователей представляет интерес окружение пользователя, то есть его друзей, подписчиков и т.д. Ведь по нескольким лицам, близко связанным с человеком, можно сделать важные выводы о самом человеке, его интересах. Однако выявить интенсивность взаимодействия людей в социальной сети не всегда представляется возможным, так как они могут общаться только между собой, не демонстрируя свое общение.
Собранная информация постоянно меняется, а если речь идет о миллионах и сотнях миллионов пользователей, то важной становится проблема обработки большого количества данных. Собранные данные позволяют классифицировать пользователей, однако обычно пользователь не указывает в одной сети все свои данные. Поэтому актуально исследование аккаунтов одного пользователя в разных социальных сетях. Или даже нескольких аккаунтов одного пользователя в одной социальной сети. Это позволяет более точно охарактеризовать пользователя, понять, насколько он подходит для занятия вакантной должности, для принятия в учебное заведение, для оказания ему финансовых услуг и т.д.
В настоящее время есть ошибочное мнение, что применение методов машинного обучения является панацеей при решении трудно формализуемых задач. Тогда как именно машинное обучение требует чёткой формализации проблемы. Роль компьютера – это многократное повторение действий. Это многократность и несёт сложность для человека, порой задачу невозможно обсчитать без применения вычислительной техники. Ну а постановка задачи и её формализация, пригодная для подачи в вычислительную систему, выполняется непосредственно исследователем. Действительно, давайте посмотрим, что из себя представляет, например, искусственная нейронная сеть. Допустим, стоит задача прогнозирования значений некоторого показателя Y в зависимости от значений нескольких факторов. Нейросеть в это задаче представляет из себя сложную функцию, зависящую от параметров, которая аппроксимирует значения исследуемого показателя Y:
Обучение нейросети это подбор параметров Wij методами приближённых вычислений, причём вид функции закладывается в программу заранее. Согласитесь, трудно ожидать хоть сколько-нибудь приемлемых результатов, если исследователь не продумал вид зависимости, предварительно не изучив обрабатываемые данные. Таким образом, методы статистического анализа и теории вероятностей должны предварять грамотное использование методов машинного обучения. Иначе, использование нейросети, как чёрного ящика в надежде на чудо, не может привести к хорошим результатам.