Алексей Чурин: "Big Data меняет традиционные подходы к работе с данными"

Гигантский поток неструктурированной информации, ежедневно генерируемой в мире, получил маркетинговое название Big Data. О том, как операторы связи могут поставить "большие данные" на службу бизнесу, в интервью корреспонденту ComNews Даниле Шеповальникову рассказывает Алексей Чурин, директор по развитию бизнеса компании IBM в телекоммуникационном секторе.
- Какой трактовки термина Big Data придерживается корпорация IBM?
- В трактовке IBM термин Big Data обозначает данные, которые соответствуют как минимум одному из трех критериев: объемы, исчисляющиеся десятками и сотнями Тбайт, высокая скорость потока, то есть генерации данных, при которой компания не успевает структурировать их, а также разнообразие и разнородность одновременно поступающей информации (транзакции, почтовые сообщения, видео, графика, сообщения в социальных сетях и т.д.), обработка и анализ которой могут приносить пользу для бизнеса компании. Чаще всего Big Data соответствуют как минимум двум из перечисленных критериев. При этом четко проложить границу между "большими" и всеми остальными данными невозможно, но, на мой взгляд, применять термин Big Data корректно по отношению к данным объемом от 50-60 Тбайт и больше.
- В 2011 году Gartner назвал Big Data трендом номер два в развитии информационно-технологической инфраструктуры. Каковы основные предпосылки этого явления?
- Термин Big Data возник в связи с тем, что объемы цифровых данных, порождаемых в мире, стали очень большими и продолжают стремительно расти. В качестве подтверждения этого тренда можно привести любопытные цифры: каждый день социальная сеть микроблогов Twitter генерирует более 12 Тбайт информации, за этот же период Facebook порождает около 25 Тбайт логов, а все поставщики OTT-контента в Интернете – несколько Пбайт информации. Еще одним источником генерации больших данных является телеметрия. В связи с этим возникает резонный вопрос: что делать со всеми этими данными и как их можно использовать для решения текущих задач бизнеса.
- Кто первым на рынке заговорил о Big Data как об инструменте для развития бизнеса?
- Крупные интернет-компании, такие как Google или Amazon, уже давно имеют дело с большим объемом разнородных данных, и они первыми наглядно продемонстрировали миру, как из таких данных можно извлекать дополнительную пользу. Следом за ними производители различных товаров постепенно начали анализировать информацию в социальных сетях и в Интернете для того, чтобы скорректировать оценку спроса и маркетинговую политику. Интернет-пользователи стали ценным ресурсом, так что любая информация на личных страницах социальных сетей, форумов и других онлайн-ресурсов может стать дополнительным источником информации для тех, кто сумеет ею воспользоваться. ИT-вендоры стали активнее продвигать на рынке технологии, упрощающие работу с Big Data, которые еще недавно воспринимались как игрушки и не имели широкого практического применения. Например, появились технологии, способные по некоторым косвенным признакам сопоставить псевдоним пользователя в Twitter или в каких-либо социальных сетях с его реальным именем и контактными данными и даже понять по его записям в Интернете, что он является клиентом каких-то компаний. А эти компании, в свою очередь, проанализировав его записи, могут выяснить, чем этот клиент доволен или, напротив, недоволен в их работе. Иными словами, большие данные были всегда, но технологии и практика их использования для получения дополнительного бизнес-эффекта появились совсем недавно. Аналитики не случайно говорят об этом тренде, поскольку такие возможности есть, и они могут обеспечить качественный скачок в развитии бизнеса.
- Для предприятий каких секторов экономики проблемы Big Data наиболее актуальны?
- Задачи обработки и анализа больших данных актуальны для любых клиентоориентированных отраслей, включая банковский сектор, телекоммуникации, ритейл и многое другое. Они могут, к примеру, начать анализировать социальные сети и информацию в Интернете, чтобы узнать, что о них пишут люди и интернет-СМИ - то есть начать работать с большими данными и тем самым выйти на новый уровень взаимодействия с клиентами. Кроме того, задача обработки больших данных характерна для компаний, обладающих множеством информационных систем. Эти системы ежедневно порождают огромное количество информации: лог-файлы, клиентские данные, данные о потреблении товаров и услуг, финансовых транзакциях, технологических событиях и операциях и т.п. – это тоже большие данные. И в масштабах всей инфраструктуры зачастую трудно понять, совокупность каких событий и факторов привела к сбою или недоступности сервисов и недовольству клиентов. Возможность предвидеть такие сбои благодаря анализу больших данных и заблаговременно устранять их тоже является неоспоримым конкурентным преимуществом. Многие нефтедобывающие, энергетические и экологические компании ввиду специфики деятельности используют всевозможные телеметрические датчики. Анализ поступающей с них информации также позволяет предвидеть ряд событий и заранее подготовиться к реакции на них. Аналогичные задачи стоят перед предприятиями, осуществляющими комплексную безопасность различных объектов и нуждающимися в анализе разнородной информации со всевозможных датчиков и камер наблюдения. Big Data меняет традиционные подходы к работе с данными в организациях. Бизнес все чаще испытывает потребность в оперативном получении самой разнообразной информации по запросу - для ее последующего анализа, чего используемые ныне информационные технологии на предприятиях зачастую обеспечить не могут.
- Какие решения для повышения эффективности работы с большими объемами данных предлагает корпорация IBM?
- Таких решений для Big Data в портфеле IBM можно обозначить целых список. В рамках нашего обсуждения стоит отметить, например, IBM InfoSphere Streams – программную платформу для анализа потока разнородных данных в реальном времени, "на лету", в момент их поступления и без необходимости предварительного сохранения. Помимо этого у нас есть система IBM InfoSphere BigInsights для работы с огромными массивами неструктурированных данных, а также программно-аппаратные комплексы класса IBM Netezza, предназначенные для анализа структурированных данных большого объема (от нескольких Тбайт до Пбайта). Также мы предлагаем клиентам масштабируемую платформу IBM InfoSphere Information Server, предназначенную для хранения, преобразования и последующего анализа больших данных практически неограниченного объема. Система IBM SPSS предлагает решение класса Data Mining. IBM Content Analytics – продукт для анализа текстовых данных и извлечения полезной информации.
К своему 100-летнему юбилею IBM создала систему искусственного интеллекта IBM Watson. Эта система способна анализировать большие объемы данных и на основе сложных алгоритмов контент-аналитики подбирать правильные ответы на задаваемые ей вопросы. Watson успешно участвовала в телевикторине Jeopardy! (известной в России как "Своя игра"), где соревновалась с реальными игроками.
В частности, в лабораториях IBM в Цюрихе подобная система в пилотном режиме используется в качестве ассистента врачей: она делает первичный анализ симптомов пациента и, обрабатывая за несколько секунд огромные объемы разнородной информации, извлекает из них знания и выдает соответствующие рецепты и рекомендации. Это как раз один из наглядных примеров практического использования перечисленных технологий, работающих с большими данными средствами целого ряда продуктов IBM.
- Какие возможности открывают решения класса Big Data перед телекоммуникационными компаниями?
- Операторы связи могут использовать анализ больших объемов данных в качестве инструмента для управления лояльностью абонентов, снижения их оттока и стимулирования использования определенных продуктов или услуг посредством определенных маркетинговых программ, а также детализированного сегментирования абонентов с целью выделения целевых групп по массе различных критериев, включая их поведенческие особенности. Как и в мире, для отечественного рынка мобильной связи это крайне актуальные задачи, поскольку его рост в условиях перенасыщения практически остановился. Фактически у сотовых операторов есть два пути роста доходов: первый - развитие новых бизнес-моделей и запуск новых услуг, лежащих в том числе и за рамками традиционной телеком-индустрии, и второй – удержание существующих абонентов. Чтобы идти по второму пути, операторам необходимо иметь как можно больше разносторонних сведений о своих клиентах. Пользуясь услугами связи, абоненты порождают огромные объемы такой информации. Используя ее, операторы могут понять, с какими проблемами сталкиваются его клиенты при использовании сервисов связи, довольны ли они качеством предоставляемых сервисов и даже что они об этом думают, какие онлайн-ресурсы и с какой целью они посещают, в какие города и по каким номерам звонят и т.д. Вся эта информация – огромное подспорье для проведения целевых маркетинговых кампаний и акций.
- Что мешало операторам начать это делать уже давно?
- Ранее анализ всех этих данных осложнялся тем, что классические информационные системы бизнес-аналитики не справлялись с такими объемами. Решения класса Big Data научились предсказывать отток клиентов, создавая сложные модели поведения клиентов на основании анализа всех их звонков в компанию с учетом множества заданных факторов, использовать всевозможную сетевую статистику (в том числе полученную посредством систем глубокого анализа трафика) и даже ту информацию, которую пользователи оставляют в Интернете.
- Каким образом можно использовать эту информацию?
- Экспертные системы способны анализировать поведение абонентов в течение продолжительного периода времени. На основе этого анализа системы могут выдавать оператору предупреждения о возможном уходе к другому оператору тех или иных абонентов, а также рекомендовать, какие действия необходимо предпринять, чтобы этих абонентов удержать. Это и называется предсказание оттока. Согласно исследованию IBM, посвященному различным аспектам потребления телекоммуникационных сервисов в мире, российские абоненты больше других склонны жаловаться на операторов связи в глобальной Сети друзьям и знакомым и меньше склонны звонить в call-центры и объяснять свои проблемы операторам напрямую. Благодаря этой особенности анализ сообщений в социальных сетях и на других публичных интернет-площадках может стать эффективным инструментом для управления лояльностью абонентов. В частности, уже существуют системы, которые позволяют близко к реальному времени анализировать основные площадки в Интернете, где пользователи что-то пишут о себе, и эту неструктурированную информацию превращать в структурированные данные. На мой взгляд, это то, что должно быть крайне интересно российским операторам, поскольку такую информацию можно использовать для всевозможных маркетинговых акций и ходов, направленных на повышение лояльности абонентов, их удержание или даже переманивание клиентов от конкурентов. Если, к примеру, в каком-то регионе абонент жалуется на то, что ему не хватает скорости доступа в Интернет или не достает какого-то дополнительного сервиса, то для оператора это может стать поводом проанализировать спрос на услуги в конкретном регионе и, возможно, расширить там их набор или повысить их качество.
- Подобные модели применения решений класса Big Data подходят только для крупных операторов связи?
- Задачи по эффективной обработке больших данных актуальны и для малых операторов связи. Если они хотят закрепиться на том рынке, который сложился в России, им нужно искать и занимать определенные ниши и четко понимать, как и за счет чего они удержат абонентов. В каком-то смысле малым операторам даже легче, потому что инфраструктура у них проще, а большие данные - меньше, благодаря чему они имеют возможность внедрять решения Big Data быстрее и дешевле более крупных конкурентов, которым гораздо сложнее консолидировать информацию со всех регионов присутствия.
- Что вы рекомендуете операторам, заинтересованным во внедрении решений для работы с большими данными?
- В эпоху Big Data компаниям надо, в первую очередь, научиться не бояться мыслить за пределами текущей бизнес-модели и попытаться понять, какую реальную пользу они могли бы извлечь из технологической возможности обрабатывать большие данные. А после этого можно приступать к обоснованному внедрению соответствующих решений, но не пытаться объять необъятное, а для начала автоматизировать лишь какой-то небольшой участок работы с большими данными, четко определив, зачем это делается и какой результат будет считаться удовлетворительным. Чтобы после завершения проекта перейти к его масштабированию или другим насущным задачам в области Big Data, а не остановиться на этапе пилотных и тестовых запусков. И еще очень важно постоянно держать в голове особенности правового поля в области персональных данных, которое тесно соприкасается с темой Big Data.
- Насколько глобальные изменения в ИТ-инфраструктуре ожидают операторов в связи с внедрением решений Big Data?
- Системы класса Big Data являются эволюционным развитием тех решений или технологий, которые в той или иной степени уже используются операторами связи. Поэтому для перехода на такие системы не требуется какое-то глобальное обновление ИТ-инфраструктуры. Кроме того, сами системы класса Big Data содержат в себе механизмы оптимизации работы с данными. Например, система IBM Netezza создана на базе архитектуры MPP (Massively Parallel Processing – массово-параллельная обработка) с использованием специализированных комплексов, в которых места хранения и обработки информации максимально приближены друг к другу. Это позволяет значительно повысить скорость анализа данных, а также увеличить ее производительность в сравнении с традиционными хранилищами информации в десятки и даже сотни раз при той же совокупной стоимости владения.