как поступают с данными во 2-й по посещаемости соцсети в России / Хабр
У Одноклассников не отнять главного — это вторая по посещаемости соцсеть в России (4-е место среди всех сайтов Рунета). А, например, в Армении и вовсе первая. Миллионы людей ежедневно заходят на сайт сети и оставляют там терабайты данных, которые можно анализировать. Какие данные соцсеть собирает с пользователей? На каком стеке можно влегкую обрабатывать десятки терабайт данных в сутки? И всегда ли больше данных — лучше?
Мы взяли интервью у Дмитрия Бугайченко, который рассказал нам про Big Data в Одноклассниках.
Дмитрий Бугайченко. Закончил Санкт-Петербургский Государственный Университет в 2004 году, там же защитил кандидатскую по формально-логическим методам в 2007. Почти 9 лет проработал в аутсорсинге, не теряя контакта с университетом и научной средой. Анализ больших данных в Одноклассниках стал для Дмитрия уникальным шансом совместить теоретическую подготовку и научный фундамент с разработкой реальных и востребованных продуктов.
Пара слов о вас и том, как давно вы занимаетесь машинным обучением и Big Data.
Дмитрий Бугайченко: Думаю, меня можно отнести к той категории программистов, которые не хотели просто программировать за деньги в своем ли или чужом бизнесе, а тяготели к тем областям, где вопросов пока больше, чем ответов, и для их решения нужно действительно задействовать весь свой потенциал и багаж знаний. Именно поэтому, скорее всего, я и пришел в область анализа данных. Первые мои серьезные проекты, связанные с тем, что принято считать «бигдатой», начались в конце 2011 года.
Можно ли озвучить суточную аудиторию сети и приблизительный объем данных, генерируемых пользователями?
Дмитрий Бугайченко: Можно. Наша суточная аудитория — это 40 миллионов человек, дневной объем данных (не считая объема загружаемых фото/видео) измеряется десятками терабайт.
Какие данные о пользователях вы собираете, и как они используются?
Дмитрий Бугайченко: Хороший вопрос. Хотел бы сразу отметить, что в Одноклассниках мы очень много внимания уделяем вопросам соблюдения приватности пользователей и этическим вопросам хранения и использования данных. Кроме того, мы уважаем и соблюдаем законодательство РФ, регламентирующее вопросы, связанные со сбором и использованием персональных данных. Практически все данные, с которыми мы работаем, в том или ином виде доступны и обычным пользователям соцсети через веб-интерфейс и мобильные приложения (посты, «классы», комменты и т. д.), а используем мы эти данные, в первую очередь, для улучшения user experience — стараемся упростить для пользователей получение нового интересного контента, понять их потребности, снизить негатив и т.д.
Дмитрий Бугайченко: Анализ мультимедийных (фото, видео, звука) объектов действительно сопряжен с рядом сложностей. Эти данные идут в работу либо при реализации специфичных функций (например, дедупликации), либо на тех этапах, когда из «классических» данных по активности уже выжали 80% результата и надо дожимать оставшиеся 20%, подключая другие данные.
Какие инструменты задействуются при обработке данных? Расскажите про вашу кухню Big Data.
Дмитрий Бугайченко: Рассказывать про нее можно долго и увлекательно, что мы не раз делали на различных митапах, конференциях и DataFest-е. Если совсем вкратце — мы используем по большей части распространенные открытые технологии и паттерны анализа. Для сбора данных задействована очередь Apache Kafka, хранение Hadoop + Parquet, анализ, в зависимости от контекста: классический MapReduce, Spark, Hive, Pig, Samza, Spark Streaming, Python со scykit-learn и K, TensorFlow и Caffe для нейросетей. Новые технологии и паттерны внедряем достаточно активно, но с оглядкой на то, чтобы их внедрение было объективно оправдано, а не просто «потому что модно».
Случалось ли, что в процессе работы со временем вам приходилось переключаться с одного инструмента на другой? Если да, то по какой причине? Бывало ли так, что какой-то инструмент чуть лучше, но из-за него нагрузка на серверы выше, и затраты на обслуживание сводят на нет все преимущество?
Дмитрий Бугайченко: Поиск новых возможностей для роста, будь то технологии или алгоритмы, — это часть нашей повседневной работы. Но мы всегда стараемся рационально оценивать альтернативы: «хайп» вокруг технологии — это повод на неё посмотреть, но стоит ли инвестировать в ее внедрение, решается после оценки затрат и потенциального эффекта. Кроме того, в плане внедрения новых подходов мы стараемся придерживаться правила «одного нового» (либо новая задача на известных технологиях/алгоритмах, либо новая технология/алгоритм в известной задаче), хотя это и не догма.
Если же говорить про компромисс между производительностью и другими свойствами (удобство использования, качества прогноза моделей и т. д.), то здесь решения тоже принимаются рационально — если потенциальный эффект достаточен, мы дорабатываем открытые решения так, чтобы они давали приемлемую для наших задач производительность.
Если бы сейчас, уже с текущим опытом, вы вернулись на пять лет назад, что бы вы сделали по-другому?
Дмитрий Бугайченко: В целом, на мой взгляд, канва развития нашей инфраструктуры работы с данными была выстроена грамотно, но несколько моментов, конечно, есть. В первую очередь, сразу бы использовали Hadoop для аналитики вместо решений на базе SQL. Раньше бы начали внедрять интерактивные инструменты аналитики (Hive, Hue). Это позволило бы сделать существенно более быстрый старт, так как работа с SQL и сложная процедура выкладки изменений алгоритмов серьезно замедляли работу.
С другой стороны, соответствующие технологии на тот момент были куда как менее зрелые, так что вероятность обратного эффекта тоже не нулевая. Не раз бывало, что при внедрении молодой технологии ее приходится активно патчить, что существенно усложняет переход на новые версии в будущем. Так что, будь у нас машина времени, думаю, рисковать мы бы не стали.
Как вы считаете, текущая система обработки данных оптимальна? И что можно было бы улучшить?
Дмитрий Бугайченко
Анализ данных безумно интересен сам по себе, но можно ли как-то в цифрах озвучить, стоит ли вообще этим заниматься? Какой «выхлоп» для соцсети от того, что вы анализируете данные пользователей? Можно ли сказать, как в случае Одноклассников монетизируется (не обязательно именно в деньгах) Big Data?
Дмитрий Бугайченко: Это очень сложный вопрос с неоднозначным ответом. Все зависит от того, как и где внедряется анализ. Если, например, мы пытаемся заменить подборки контента, сделанные редакторами на основе собственных предпочтений или мнения о предпочтениях пользователей, то внедрение подборок на базе анализа данных может дать кратный прирост пользовательской активности (в нашей практике встречался и десятикратный рост). Если же, например, те же подборки строятся грамотными людьми на основе данных, но без использования машинного обучения, то часто внедрение алгоритмов для решения тех же задач дает куда более скромные результаты, измеряемые процентами.
Каким должен быть минимальный объем данных, чтобы социальная сеть адаптировалась под пользователя? И есть ли какой-то предел личных данных, когда дальше улучшения практически не происходит?
Дмитрий Бугайченко: Большинство наших систем начинают адаптироваться под пользователя с первого клика. При этом необходимый объем данных до «насыщения» сильно зависит от предметной области. И да, больше — не всегда лучше. При получении слишком большого количества данных система может перенасытится, создав для пользователя «пузырь мнений», когда рекомендации получаются релевантные, но неинтересные. Борьба с такими «пузырями» — это отдельная нетривиальная тема.
Есть ли какой-то симбиоз с другими проектами mail.ru в области Big Data? Ваши решения тиражируются на весь холдинг, или, наоборот, вы перенимаете удачные решения коллег?
Дмитрий Бугайченко: Обмен как идеями, так и данными активно идет в обе стороны. На самом деле, сторон больше, чем две, так как машинное обучение практикуют многие. Например, ВКонтакте строит свою аналитическую инфраструктуру во многом ориентируясь на наш опыт, в Поиск@Mail.Ru есть интересные эффективные реализации обучения деревьев, на которые смотрим мы и т.д.
Я думаю, вы помните нашумевшую историю в Das Magazin о том, как американского президента Трампа якобы привели к победе через рекламные объявления в социальных сетях, подобранные под конкретного пользователя на основании анализа их активности. Как профессионал, скажите, насколько эта история может соответствовать реальности? И если да, возможно ли такое таргетирование — не обязательно политическое — в Одноклассниках?
Дмитрий Бугайченко: На мой взгляд, история вполне реальна. Более того, по меркам области это вполне себе штатная история — персонализированное таргетирование с успехом используется в бизнесе уже годами, просто тут его применили в политической рекламной кампании. Персонализированное таргетирование в Одноклассниках, конечно, возможно и в бизнесе уже используется.
Друзья, 21 октября в рамках конференции SmartData Дмитрий Бугайченко будет выступать с новым докладом «От клика к прогнозу и обратно: Data Science пайплайны в OK». Приходите!
Купино школа 2 одноклассники — kos158 — LiveJournal
?
|
Новости и последние обновления Classmates(.
.. продолжение стр. 2)Школьная политика, предвзятые учителя препятствуют обучению детей иммигрантов
(Phys.org) — США. Политика размещения в старших классах по принципу «утони или плыви», которая продвигает учащихся-иммигрантов на курсы, к которым они лингвистически и академически не готовы, или, наоборот, направляет всех новичков на курсы коррекции …
Социальные науки
8 марта 2013 г.
Мой одноклассник, робот: ученик из США учится дистанционно
(AP) — В школьном коридоре учительница из США ведет своих учеников в библиотеку, ведя гуськом ряд хихикающих мальчиков и девочек, что совершенно обычно, пока вы не доберетесь до гладкого белого робота с видеоэкраном, показывающим…
Робототехника
15 февраля 2013 г.
От издевательств к отношениям: картографирование нашего онлайн-общения
Когда мы обычно думаем о детях, ставших жертвами школьных издевательств, на ум приходит изолированная молодежь, которая не вписывается в общество. Однако новое исследование показывает, что, когда это преследование происходит в Интернете, жертвы, как правило, …
Социальные науки
20 января 2013 г.
Социальные науки
10 января 2013 г.
Исследование: дети могут осознавать популярность к 3-му классу
(Phys.org) Социальные цели детей в начале учебного года могут предсказать, станут ли они более или менее популярными к концу этого учебного года, говорится в новом исследовании, проведенном в Университете Иллинойса. ..
Социальные науки
6 сентября 2012 г.
Химия, под которую можно танцевать
Специалист по психобиологии Калифорнийского университета в Лос-Анджелесе Ананта Сингараджа признается, что не любила химию до того, как в этом квартале начала изучать популярный курс органической химии профессора Нила Гарга (Chemistry 14D).
Социальные науки
18 июня 2012 г.
Социальные науки
25 мая 2012 г.
Отчет: 8-классники все еще отстают в науке
Федеральное правительство заявило в четверг, что восьмиклассники в США преуспевают в науке лучше, чем два года назад, но семь из 10 по-прежнему не считаются способными.
Социальные науки
10 мая 2012 г.
Верховный суд США отклоняет дела о высказываниях в Интернете
Верховный суд США во вторник отказался рассматривать два дела, связанные с тремя отдельными инцидентами, связанными с защитой свободы слова учащихся государственных школ в Интернете.
Интернет
17 января 2012 г.
Польша возлагает надежды на мечтательных студентов
Наивные юноши, живущие на родине Николая Коперника, занялись созерцанием небесных тел, как отец современной астрономии, но с помощью телескопов, о которых он мог только мечтать.
Исследование космического пространства
1 января 2012 г.
одноклассников — Уилл Крам
Одноклассники — это мобильное приложение, которое помогает молодым специалистам сменить профессию. Приложение предназначено для того, чтобы сделать для своих пользователей две вещи: познакомить их с альтернативными работами, которые могут им понравиться, и связать их с учебными ресурсами и людьми, которые помогут им начать новую карьеру.
Проблема
Автоматизация может заставить до 800 миллионов человек сменить профессию к 2030 году. Более половины американских рабочих эмоционально отстранены от своей работы, при этом 55% работников частного сектора описывают свою работу как «просто то, чем они зарабатывают на жизнь». этика может делать и становиться кем угодно, почему неудовлетворенность рабочих так высока?
Общество заставляет детей специализироваться и добиваться успеха как можно раньше. Но когда они добираются до рабочей силы, многие разочаровываются тем путем, по которому они идут. А миллениалы — самое многочисленное и быстрорастущее поколение рабочей силы в США — более склонны требовать от своей работы целеустремленности, чем предыдущие поколения. Так что, если половина из 56 миллионов работающих сегодня миллениалов недовольна… это потенциальный рынок в 28 миллионов человек.3
Для тех, кто хочет перемен, настоящий вопрос: ч как начать? Особенно, если они финансово зависят от своей текущей работы. Есть много недорогих ресурсов как для тех, кто ищет работу, так и для тех, кто ищет знания, но между ними большой разрыв. И ни один из этих недорогих ресурсов не использует возможности группы или взаимного обучения — одного из самых больших преимуществ очных занятий. Итак, игнорируя идею «группового поиска работы» как бессмысленную, я сосредоточился на групповом обучении, которое переходит в поиск работы, и разработал «Одноклассники», ваш проводник в дикий мир онлайн-образования.
Решение
Одноклассники помогают пользователям находить профессии, которые могут их заинтересовать, и находить учебные ресурсы, необходимые для развития навыков, связанных с этими работами. А Classmates дополняет существующую экосистему онлайн-курсов своими «классами», где небольшие группы новых учащихся могут общаться и делиться советами и ресурсами.
В неформальном опросе 19 молодых специалистов 84% отдали предпочтение очному обучению. Они сказали, что это потому, что им было легче учиться и сохранять мотивацию в составе группы. Но двое сказали, что предпочитают онлайн. Оба посещали курсы, чтобы начать корректировку карьеры, и предпочитали онлайн из-за гибкости, которую он предоставлял — они могли учиться по своему собственному графику. Что делает Classmates, так это сочетает в себе гибкость онлайн-общения с личным сообществом.
Classmates бесплатна для пользователей и приносит деньги за счет: партнерских отношений с платными образовательными платформами, которые дают нам «плату за поиск» для студентов, и целевой рекламы в наших классах. Этот доход поможет нам продолжать расти и послужит нашей более важной цели: подготовить работников к необходимости смены карьеры, которую может принести автоматизация.
Профессии будущего будут зависеть от критического мышления, творческого мышления и эмоциональной интуиции, поэтому Classmates рекомендует профессии, в которых используются эти навыки. И хотя невозможно предсказать, какие новые рабочие места могут появиться по мере трансформации экономики, существуют профессии, ориентированные на оказание услуг, которые, по нашему мнению, всегда будут нужны сообществам.
Процесс
Я начал с того, что использовал интенсивную технику пост-ит под названием «картирование сценариев», чтобы набросать, как мои два персонажа — «старый пес» и «молодой щенок» — могут взаимодействовать с частью программного обеспечения, предназначенного для помощи им найти новую работу. Вызывая вопросы, которые могут возникнуть у пользователя на каждом этапе, я смог быстро создать обширный список потенциальных функций для моего окончательного дизайнерского предложения.
Затем я создал онлайн-опрос, чтобы проверить свои предположения о поведении пользователей и узнать больше об их опыте обучения взрослых. Он получил 19ответов со средним возрастом 26 лет — оптимальная точка для моей целевой демографической группы. Как и ожидалось, почти все они сменили работу за последние 2 года — 84% — и 26% — за последние 6 месяцев. Наиболее распространенными причинами смены работы были поиск лучших возможностей для обучения, роста и самореализации. Все это подтвердило то, что я уже подозревал и что предположили мои вторичные исследования: миллениалы часто меняют работу, потому что они ставят свои собственные цели и ценности выше планов какой-либо одной компании.
Отношения респондентов с классами обучения взрослых были более сложными. Многие из тех, кто посещал курсы, делали это для того, чтобы подготовиться к карьерному росту, но некоторые также посещали курсы просто для удовольствия от творческой реализации. (Остается неясным, представляют ли они разные потребности и типы пользователей или разные выражения одной и той же профессиональной неудовлетворенности.