Большие данные как инструмент территориального развития

Алексей Новиков

Президент компании Habidatum, географ, урбанист, специалист в области замеров и аналитики спонтанных городских данных, руководитель «Проектной мастерской» 2020 года кафедры территориального развития им. В.Л.Глазычева РАНХиГС, канд. геогр. наук.

Независимый член аудиторского совета при Министерстве финансов РФ и независимый член экспертного совета в Федеральном центре проектного финансирования Внешэкономбанка.

Преподаватель и участник исследовательских проектов в Оксфордском университете, Бирмингемском университете, Международном университете Флориды.

В наш информационно-технологический век данные являются неотъемлемой частью жизни. Как рождаются эти данные? Всегда ли они носят спонтанный характер или есть сферы, в которых они вполне предсказуемы и управляемы?

Само определение больших данных подразумевает, что они спонтанные и неструктурированные. Если бы их было просто много, или они были бы структурированы, они напоминали бы обычную статистику. Большие данные ставят задачу специальной обработки и интерпретации. Неструктурированные (спонтанные) большие данные мы получаем как побочный продукт от телекомов, платежных систем, социальных сетей. Они содержат массу того, чего не содержат обычные данные. Самый ценный параметр таких данных – время. Поскольку они собираются каждую секунду, мы изучаем их, интерпретируя как воплощение времени, ритма, изменения обстоятельств, которые они фиксируют. У больших данных в отличии от статистики иная природа, на их основе можно создавать совершенно новые и ранее немыслимые индикаторы.

Как бы Вы оценили степень развитости российского рынка больших данных в сравнении с мировым рынком? Сегодня все исследования, обсуждения, которые мы встречаем по вопросу больших данных, касаются, как правило, Москвы, Московской области, Московской агломерации. С чем связано не столь активное использование этого инструмента в регионах?

Россия на фоне других стран выглядит очень хорошо. В целом мы почти как Великобритания – и по законодательству, которое позволяет использовать большие данные, и по техническим параметрам, которые есть у телекомов или платежных систем. У нас есть прекрасные операторы фискальных данных, которые отслеживают траты людей через кассовые аппараты. Я имею в виду не персональные, а именно агрегированные данные. Уровень технической оснащенности провайдеров больших данных в России и проникновение их услуг – мобильных телефонов, мобильных операторов, платежных карточек – очень высок. В этом отношении у России очень хорошее положение по сравнению с США, Великобританией, многими странами Европы. В Германии с этим вообще очень сложно, потому что там законодательство, которое в основном позволяет работать только с открытыми данными, а не с проприетарными.

Основная российская проблема заключается в том, что официально на большие данные никто толком не может сослаться: это можно сделать в качестве исследования, но сослаться при проработке документов не получается. Сейчас над этим работает Росстат. Они решили использовать большие данные для уточнения своих индикаторов, прежде всего в части статистики цен торговли, туризма и миграции. Сейчас муниципальная статистика опирается в основном на выборочные обследования, которые характеризуют муниципальный уровень в целом, а не каждый муниципалитет. Если в регионе есть 50 муниципалитетов, статистическое ведомство обследует лишь несколько из них и распространяет результат всю совокупность муниципалитетов. Однако по каждому из 50 оно не собирает данные – слишком дорого. С помощью больших данных это можно будет сделать напрямую по каждому муниципалитету. Для этого в любом случае понадобится колоссальная работа, потому что у источников больших данных в части статистики цен (налоговая служба, оператор фискальных данных, крупный банк) может не быть полного регионального покрытия методик классификации данных, а если у всех источников и есть какие-то классификации, то они могут не сходиться. Кроме того, Росстат хочет сделать набор сигнальных индикаторов, которые могут быть собраны «под зонтиком» Росстата, но не являться статусными с точки зрения возможности входа в крупные государственные программы.

Другая проблема связана с тем, что совсем маленькие города не подходят для исследований, потому что там, где невысокая плотность населения, покрытие, например, сотами телекоммуникационного оператора не очень хорошее. В крупных городах можно использовать не только данные телекома, но и данные так называемых агрегаторов GPS. Они дают детальную агрегированную статистику, исключая персональные данные. Однако операторы GPS собирают данные с мобильных приложений тогда, когда ими пользуются люди. Несмотря на то, что это составляет около 10% от всей активности, такие данные во много раз превышают любую выборку, которой пользуются при социологических опросах. Поэтому, если правильно ее структурировать, это прекрасная информация, которой можно пользоваться для расчета экономического потенциала территорий.

экспо.jpgАналитические компании Habidatum и Mathrioshka на Smart City Expo and World Congress в Барселоне

Известное выражение про ложь и статистику наводит на следующий вопрос: с объективной точки зрения что есть бó‎льшая ложь – большие данные или официальная статистика? С учетом их достоверности и репрезентативности, существующих цифровых диспропорций в обществе, возможности и доступности использования приложений и так далее.

Я совсем не разделяю скепсис по поводу статистики, поскольку в любых исследованиях, сборе данных, всегда существует элемент погрешности, и он абсолютно неустраним как в обычной статистике, так и в больших данных. Это вообще предрассудок, если, конечно, не брать какие-то вопиющие случаи, когда данными специально манипулируют. Если не манипулировать, а пытаться понять, что происходит в городе, то уровень ошибки вполне допустим как в классической статистике, так и в статистике больших данных. Тут есть другой момент. Многие исследователи и государственные служащие смотрят на большие данные перфекционистским взглядом, ожидая 100%-й точности. Откуда такой взгляд взялся – непонятно, потому что найти абсолютно точные данные невозможно.

Я могу привести пример из прошлого опыта, когда я работал в Thomson Reuters. Помимо финансовой информации, компания вела Web of Science. Это система цитирования, на основе которой определяется качество публикаций ученых. Фактически есть две конкурирующие компании – Web of Science и Scopus. Им очень важно атрибутировать каждую статью правильно. Речь идет о терабайтах информации, и все делается автоматически. Процент допустимой ошибки – около 4. Другими словами, вы можете где-то в одной из 25 попыток увидеть, что статью атрибутировали неверно. И дальше встает вопрос: а стоит ли вообще эту систему использовать? И ответ очень простой: конечно, стоит. Потому что для 100%-й точности допустимые сейчас 4% ошибки придется уточнять вручную. И стоимость этого процесса будет настолько высока, что система вообще теряет смысл. Поэтому лучше смириться с этой ошибкой и получить из 25 случаев 24 корректных. Многие исследователи пользуются выборками. А это даже не проценты, а сотые части процента от всей обследуемой совокупности, то есть очень небольшой объем. А большие данные позволяют покрыть 100% обследуемой совокупности. Да, в big data есть очень небольшой процент погрешности, но информация, которую эти данные позволяют получить, с лихвой покрывает неточности.

Достаточно часто мы оставляем цифровые следы импульсивно, например, какими-то приложениями пользуемся постоянно, а какими-то – периодически. Насколько устойчивы эти данные, в основу каких решений они могут быть положены – стратегических или тактических?

Очень интересный вопрос. Если наблюдать за данными каждую минуту, это будет выглядеть как бесконечное изменение. Поэтому очень важно выбрать временной лаг, который нужен для оценки того, что вам необходимо понять. Если нужно понять ритм в пределах дня, то данные, конечно, можно агрегировать по часам. Это очень интересная статистика, которая показывает активность в городе. Не просто в пространстве, а реально сколько территория работает по времени. И, как ни странно, это помогает именно при разработке стратегии, а не тактики. Потому что ритмы, о которых мы говорим, очень устойчивы. Если мы видим изменение всего ритма, а не просто потока, это, как правило, свидетельство очень мощного, структурного изменения на территории. За это можно зацепиться и понять, к чему ведет процесс изменений, и долгосрочно спрогнозировать, каким образом это сигнальное изменение может сказаться на характеристике этой территории.

На основе каких факторов или подходов определяются эти временные ритмы? Они связаны с отраслевыми или какими-то иными признаками?

Самое интересное – как раз уйти от отраслевой структуры и перейти к территориальной. Большие данные в исследовании городов или при разработке концепций территориального развития дают возможность понять экономический смысл территории как таковой, а не отдельных отраслей. Есть два принципиально разных подхода: один изучает экономику города, а второй – экономику в городе. В основном все смотрят на экономику в городе, как будто город – это некое пространство, напичканное отдельными экономическими объектами. Однако у нас речь идет об экономике городского пространства, когда важен эффект агломерации, соседства, паттернов мобильности. Попытка идти от самой территории, возможность получить дополнительную стоимость, аналитическую и экономическую ценность, с точки зрения больших данных оптимальна. Например, я бы не отделял потребительский рынок от других сегментов экономики, а смотрел на коммерческую активность населения в разных местах и в разное время. Коммерческая активность проецируется на потребительскую активность и на ретейл, на который мы смотрим не через отраслевую составляющую, а именно через территорию. Мы понимаем эффективность или неэффективность сочетаний этих объектов ретейла по специальной матрице: если мы видим магазин высокой моды, понимаем примерно, что вокруг него должно быть. Матрица, которая позволяет при планировании и мастер-планировании предполагать, какой там функционал будет размещаться. Как правило, это всегда микс.

Отраслевая история может хорошо работать не столько при анализе экономики в целом, сколько при исследовании, например, рынка недвижимости. Когда мы анализируем городскую недвижимость, конечно, важно понимать классы, типы активов: отели, офисы, склады, жилые дома, торговые центры. Их очень много, они разнообразны, и у каждого есть определенный спрос на окружающую территорию. Часто важно оценить стоимость этого актива. И если собственник актива может управлять зданием, то окружающей территорией он не управляет. Эта территория существует независимо от него, а ведь это главный фактор цены на этот объект недвижимости. Как посчитало агентство Moody’s, примерно 80% объясняющей силы в колебаниях цены на недвижимость – это локальный рынок вокруг объекта, а не сам объект. Локация задает тип наилучшего использования объекта недвижимости – так называемый best use. Вот если у вас тут отель, и мы анализируем best use места с помощью больших данных, то в результате анализа может оказаться, что лучше бы тут был склад. Вы, конечно, можете содержать в этом месте отель, но целесообразнее переоборудовать его в склад, потому что территория с точки зрения спроса и локального рынка лучше приспособлена именно для этих целей.

Алексей Новиков на лекции в Институте Генплана Москвы (источник: genplanmos.ru)
Стенд Habidatum и Mathrioshka на Smart City Expo and World Congress в Барселоне (источник: habidatum.com)
Chronotope - инструмент пространственно-временной аналитики (источник: habidatum.com)
Chronotope - инструмент пространственно-временной аналитики (источник: habidatum.com)
Алексей Новиков на лекции в СКФУ (ncfu.ru)
Зона покрытия 3G в России (tadviser.ru)
Пример оценки Location Risk Score (источник: habidatum.com)
Пример оценки Location Risk Score (источник: habidatum.com)
Пример оценки Location Risk Score (источник: habidatum.com)

Другими словами, большие данные – большие помощники в территориальном планировании и развитии…

Конечно, в территориальном развитии большие данные особенно ценны. Когда пытаемся оценить экономическую отдачу территории, мы говорим либо о ренте, либо о потенциале этой территории. Как посчитать ренту, когда у нас есть огромное количество разнородных объектов, и нет никакого интегрального показателя, который мог бы дать общую оценку? Большие данные позволяют получить информацию по концентрации людей, их мобильности и тратам в каждый конкретный момент времени, по разнообразию бизнеса, с учетом, например, часов работы учреждений. Так можно оценить коммерческий потенциал территории. Можно сопрягать эти данные разным образом, чтобы получить метрики экономического потенциала всей территории, а не только какого-то конкретного объекта в определенное время.

лрсс.JPGLocation Risk Score в Нью-Йорке (источник: habidatum.com)

На примере описанного Вами кейса: есть отель, а по результатам исследования целесообразно разместить склад. Как прийти к этому выводу? Какие данные нужно собирать именно в рамках территориального развития на каждой стадии этого процесса?

Это сейчас наш основной продукт, который мы предлагаем рынку. Продукт называется Location Risk Score, то есть это оценка риска локации. Кроме этого мы используем данные по так называемому dwell time. Это не просто концентрация людей на территории, а человеко-часы – сколько времени группа людей проводит совместно в той или иной точке пространства. Сейчас эта метрика стала неожиданно важным элементом для пространственно-временной организации режима использования общественных пространств в условиях карантина. Важно не заразиться, а не просто не быть в толпе, потому что толпа, если вы быстро через нее проходите, менее опасна для вас, чем несколько часов, проведённых в замкнутом пространстве, с небольшим количеством людей.

Второе – нужны данные, связанные с совокупностью предоставляемых в этом месте услуг. Это конкретные предприятия и разнообразие их услуг. Например, у вас есть 10 бизнес-единиц. Если все 10 – рестораны, это одно дело, а если все 10 представляют собой и рестораны, и химчистки, и кинотеатры, то это другая ситуация, она более устойчивая.

Третий тип данных – траты людей в этом месте. Может, например, в одной из локаций быть много людей и мало трат, тогда скорее всего это транзитное пространство. В таком случае, вероятно, имеет смысл его перепланировать, насытить услугами, и дать людям возможность там ради этого задержаться.

Эти три компонента больших данных – данные мобильности, данные платежных систем, данные изменения функционала – мы собираем в одну метрику, которая называется риском локации. Метрика считается не в отношении конкретной точки, а в отношении территории, ограниченной изохронами доступности вокруг нее. Изохрона задается временем, за которое можно эту точку достичь пешком, на автомобиле и на общественном транспорте. Мы задаем параметры доступности для каждого типа актива и считаем Location Risk Score для каждой локации. Если, например, вы владеете здесь рестораном, и эта локация получает первый ранг именно для ресторанов, значит, правильно, что в ней находится ресторан, а не склад.

В первую очередь эта методика подходит тем, кто управляет большими портфелями коммерческой недвижимости или портфелями кредитов, обеспеченных объектами коммерческой недвижимости. После карантина началось банкротство у многих ретейл-предприятий, на рынок вышло колоссальное количество объектов недвижимости, которые находились в залоге. Их оценка крайне затруднена, поскольку стоимость и востребованность сегодня низкие. И чтобы понять их коммерческий потенциал, потенциальную оценку через несколько лет, приходится использовать Location Risk Score. А место, как мы знаем, это около 80% всей стоимости объекта недвижимости. Поэтому даже при том, что у вас нет реальной цены на объект сейчас, справедливая цена может быть определена потенциально, с помощью этого индикатора. Данные собираются постоянно, они меняют свои коэффициенты, и вы видите, какой риск локации у вашего конкурента, какой риск локации у ваших объектов. Например, построили метро рядом – насколько это повлияло на best use вашей локации? Это парадоксальная вещь, кстати, потому что кажется, что метро это всегда большой подарок. Если это ретейл, то, конечно, да: построили метро, сразу появилось огромное количество людей. Однако если ваш торговый центр был, например, предназначен для премиум-класса, который приезжал на автомобилях, а тут появился средний класс на метро, то либо этот рынок проходит мимо вас, либо вы должны перестроиться из премиума в средний. Такие инфраструктурные «подарки» могут оказаться большим вызовом для владельцев недвижимости. В городе много всего контринтуитивного, начиная с того, что чем больше дорог строится, тем больше машин появляется. Без данных что-либо планировать и исследовать довольно сложно.

Вы упомянули, что индикатор предназначен для использования в первую очередь собственниками больших активов. Насколько это применимо, например, при мастер-планировании? Могут ли выступать пользователями таких инструментов городские администрации для оценки экономического потенциала территории, особенно в период, когда стоит задача комплексного развития бывших промышленных зон, обновления инфраструктуры территорий, развития общественных пространств? Целесообразно ли применение таких технологий в проектах развития города или это та ситуация, когда стоимость исследований будет несопоставима с ожидаемым эффектом?

Это архиважно для разработок концепции городской среды, ведь коэффициент Location Risk Score – фактически коэффициент устойчивости места. Он напрямую связан с его разнообразием. Средовые проекты создаются в формате mixed used (англ. «смешанное использование» – прим. ред.). На одной территории сосуществует много разных функций и, как правило, важные городские проекты уходят в эту плоскость, даже популистские концепции типа 15-минутного города. Идея проста: в пределах 15 минут под рукой должно быть все, что нужно, то есть некоторое разнообразие. На примере «Винзавода» (центр современного искусства «Винзавод» в Москве, один из первых креативных кластеров в России – прим. ред.) можно сказать, что временная дельта между тем, что показывали данные на момент, когда «Винзавод» был заброшенной территорией, и тем, что показывают сейчас, дает возможность игрокам на рынке недвижимости получить так называемый арбитраж. Если мы посмотрим на карту любого регионального города и увидим какие-то территории, которые на самом деле обладают очень низким рангом по шкале Location Risk Score, но по своей структуре могут стать клонами «Винзавода», могут привлечь людей и стать центрами потребления, это дает возможность инвесторам направить средства с меньшим риском в конкретный район.

Когда мы делали анализ кадастровой стоимости земли по разным городам России, получалось, что территория с грамотной планировкой, которая не разрушает пешеходный поток, а предоставляет возможность людям там остаться, дает в долгосрочной перспективе более высокую стоимость земли, чем рыночная сделка на данный момент времени. Сама структура планировки и функционал, который обычно на нее «садится», те потоки людей, которые она формирует, – важнейший элемент экономического здоровья города. Сейчас мастер-планирование построено на экономическом потенциале территории, и планировка территории является его важнейшим фактором. При одних и тех же инвестициях в девелопмент в этом месте можно получить дополнительный миллиард долларов. А можно создать упущенную возможность на тот же миллиард долларов – например, построить микрорайон в советском стиле, который разрушает пешеходный поток, не совместим с использованием личного автомобиля, и где все же личный автомобиль — важнейшее средство транспорта, поэтому там создаются пробки, люди уезжают оттуда в центр города или крупные ТРЦ за потреблением услуг первой необходимости, бизнес местных услуг не развивается.

Есть ли какой-то этап территориального развития, где нецелесообразно использование спонтанных данных?

Наверное, сейчас уже в какой-то степени спонтанные данные используются везде, потому что концепция планирования сильно изменилась. Как говорил замечательный городской социолог Зигмунд Бауман, нам не нужно планирование, нам нужна система готовности. Мир непредсказуем: социально-демографический состав людей, их активность в городе, их занятость изменились, весь рынок труда радикально поменялся. Переход на удаленную работу начался гораздо раньше пандемии в крупных агломерациях. Например, порядка 30-40% людей на вопрос о занятости отвечают, что у них много денег и много свободного времени. Они могут себе позволить не работать каждый рабочий день, у них график сдвинут на вечер. А современный город в морфологическом смысле – это проекция трудового законодательства, восьмичасового рабочего дня. Утром на работу, потом с работы, а дальше – самый лакомый кусок города: с семи вечера до часу ночи. Город не спланирован для другого рабочего графика, но теперь стихийно развивается вокруг альтернативных паттернов использования пространства и времени, особенно в центральной части. Такого рода мощные сдвиги порождают так называемое третье место, потому что работа из дома – это не выход по многим позициям, а вот работа «рядом с домом» или «откуда угодно» – другой более интересный вариант.  Те 20-25% людей, находящихся на удаленке сейчас, могут продолжить работать в таком формате, только будут сидеть не дома, а где-то в городе, и среда должна к этому подготовиться. Когда мы говорим о системе готовности, без больших данных не обойтись, даже в самом элементарном их значении. Просто посмотреть, как меняется концентрация людей по времени в течение дня. Сейчас появилась такая тема – темпоральная сегрегация. В одном районе может пребывать много разных диаспор, но они между собой могут не пересекаться, потому что в разное время там оказываются. Это мы увидели впервые на примере Хаммерсмита, района в Лондоне, который считался по всем путеводителям самым космополитическим, и выяснили, что публика кластеризуется по отдельным временным интервалам: мусульмане утром, ЛГБТ — вечером, во время бранча — мамы с детьми, во время ланча — белые воротнички. И спектр услуг для каждой из диаспор свой, и время свое. В результате уровень цен повышен, потому что эффективное время работы заведений, рассчитанных на свою целевую аудиторию, составляет не более трех-четырех часов, а аренду нужно платить за весь день. Всегда требуются пространственно-временные данные для того, чтобы это понимать. К сожалению, пока в канцелярских документах это скорее удивляет, может быть, некоторых даже раздражает, но в документах, не привязанных к нормативным документам, например, в мастер-плане использование больших данных очень распространено. Мы видим эту потребность.

hammer.jpg hammer_people.jpg

Район Хаммерсмит в Лондоне (источник:co-rep.co.uk)

Кто является переводчиком собранной информации, чтобы это корректно легло в техническое задание и дальнейшую работу для стратегов или архитекторов, чтобы были разработаны правильные решения, чтобы тот самый миллиард долларов был в плюс, а не в минус. Это какие-то профессиональные организации или это могут быть команды in-house?

По-моему опыту, in-house – очень дорого и тяжело. Это могут себе позволить крупные организации. Рынок до сих пор выглядит очень беспомощно. С одной стороны, есть огромное желание со стороны дата-провайдеров монетизировать данные. У них было понимание, что запросто их продадут. С другой стороны, никто не понимает, сколько стоят данные. Запредельные цены всех, естественно, пугают. Сейчас все потихонечку приходят к пониманию, что главная проблема даже не в цене, а в непонимании того, что предложить рынку и в каком сегменте. Чтобы это сделать, нужно этот рынок знать, нужно точно понимать, зачем и какие данные по мобильности нужны городскому планировщику, ретейлеру, отельеру. Более того, например, данные по мобильности, могут дать вам хороший результат, но они дадут в тысячу раз более интересный результат, если их сочленить с данными по тратам. Эти данные производят две разных организации, два разных дата-провайдера. Поэтому нужны посредники, которые, с одной стороны, понимают, как устроены данные, а с другой – понимают, на какой рынок они выходят.

Институт посредничества важен: он не просто помогает найти общий язык тем, кто хочет монетизировать данные, и тем, кто хочет использовать, но еще имеет особый статус. Данные предоставляет не просто провайдер, а компания, которая отвечает своей репутацией за качество метрики и данных. Институт доверия в отношении данных – самый важный. Все может работать только тогда, когда вы имеете дело с неким брендом, который независим, неподкупен, который не будет халтурить. Особенно со статистикой это важно, манипулирование статистикой – всегда очень опасная история. И здесь независимость посредника, исключающего манипуляции, – главная гарантия.

Какие данные на сегодняшний день являются самыми доступными и распространенными, и в каких Вы видите перспективу роста?

На самом деле очень много доступных. Во-первых, все мобильные операторы. Вся наша четверка (МТС, «Билайн», «Мегафон», Tele2 – прим. ред.) прекрасно сотрудничает с компаниями типа Habidatum и сама продает данные довольно успешно. Вторая когорта – операторы фискальных данных. Их данные показывают, каким образом устроена территориальная дифференциация трат людей. Также есть соцсети, они интересны с точки зрения семантического анализа предпочтений людей. Существует много побочных сервисов, которые также представлены на рынке: сервисы погоды, различного рода стримы, связанные с использованием космических спутников, с физическим состоянием территории, коммунальные платежи, информация по загрязнению атмосферы и так далее.

Какие барьеры, риски и вызовы использования больших данных Вы видите применительно к российским регионам?

Барьеры чисто технические, вроде проблемы покрытия. Например, нужен источник, который бы покрывал всю страну, но его нет. Второй технический барьер – это разница классификаций. Если вы запросите данные у какого-нибудь телекома, например, у «Билайна» и «Мегафона» по пассажиропотоку на вокзале, то данные будут разные, потому что у телекомов разные классификации и разные подходы. В этом нет ничего страшного, но какая-то стыковочная классификация должна быть. То же самое с административными источниками данных. Например, у ОФД есть своя классификация, а у налоговой службы она отличается. Стыковка важна для того, чтобы данные могли быть нормально использованы и проанализированы. Другая проблема – стоимость данных, возможность их обрабатывать, хранить долгое время, чтобы иметь временные ряды.

Должно быть разумное регулирование использования проприетарных данных: сейчас рынок более-менее стихийный, и одной из проблем может быть чрезмерное его регулирование. На международном уровне есть GDPR (General Data Protection Regulation (англ. «Общий регламент по защите данных» – прим. ред.), европейское регулирование, которое охраняет персональную информацию и накладывает ответственность за охрану персональных данных на дата- провайдеров. С другой стороны, оно же дает возможность использовать агрегированную и анонимизированную информацию.  Регулирование в таком виде – то, что нужно.

Какие еще могут быть барьеры и вызовы? Появляется много новых провайдеров больших данных, новых типов данных. Некоторые могут отмереть, другие могут занять их место. К этому надо тоже быть готовым. Я вот думал, что мобильные операторы будут доминировать на рынке, но есть масса альтернативных источников, и это хорошо: развитие конкуренции, возможность опираться на разные источники данных. Это методологический вызов, который нужно решать компаниям-посредникам.

Каков порядок стоимости таких данных на сегодняшний день?

Все зависит от проекта. Когда создается мастер-план, это не превышает десятой доли всех затрат. Это дешевле, чем обратиться в архитектурное бюро для разработки мастер-плана. Расходы на данные, которыми пользуется бюро, разумеется, меньше, чем плата за его работу. Это намного дешевле чем, например, социологическое исследование, которое зачастую нет возможности провести. А большие данные позволяют получить поток информации, при этом можно открутить на пару лет назад-вперед.

На Ваш взгляд, с развитием рынка стоимость больших данных и метрик, сформированных на их основе, будет падать или существенно не изменится?

Она уже падает. Смысл сегмента состоит в том, что это быстрые и удобные для сравнения форматы данных, которые относительно дешевы. Это постепенно станет тем, что называется commodity (англ. «товар» – прим. ред.), единица стоимости такого рода информации будет дешеветь. Когда провайдер не знает, кому продать, а тот, кто хочет купить, не понимает, сколько это стоит, мы сталкиваемся с совершенно чудовищным искажением в цене. А когда все стандартизовано, когда много провайдеров и более-менее понятен рынок, тогда удельная цена падает. Это commodity, к которому мы все должны иметь доступ, от частных лиц до организаций.

То есть в какой-то момент некие признаки общественного блага у него должны появиться?

Да. Общественные блага бывают разных типов, и вот это общественное благо типа toll (англ. «плата», «сбор» – прим. ред.), как, например, платные дороги или платный вход на пляж.

Подходы к правовому регулированию рынка данных каких стран были бы интересны для совершенствования подходов в России?

До сих пор Россия была в тройке ведущих стран с точки зрения работы с большими данными. С одной стороны, рынок отрегулирован хорошо и на стороне дата-провайдера, и с точки зрения защиты персональных данных, с другой – уже существует рынок больших данных. Все, что касается IP (интеллектуальное право – прим. ред.), например. В России с этим непросто. Регулирование интеллектуальной собственности в России необходимо совершенствовать. А с точки зрения использования больших данных рынка все относительно прилично выглядит.

С какими открытиями или курьезными ситуациями Вы сталкивались, работая с большими данными в российских регионах?

Самые интересное открытие, которое мне запомнились это темпоральная сегрегация. А из курьезов – «водоплавающие» жители города. Как-то, изучая данные мобильности населения в одном из крупных городов, мы обнаружили в озере посреди города большое количество людей. Очевидная ошибка дата-провайдера: при перегрузке сотовой станции система перебросила данные на свободные вышки в окрестностях городского озера. Это нормально, так положено, но потом важно сделать обратное перераспределение данных. А поскольку в результате сбоя данные назад не перераспределили, то вот и обнаружилось большое количество «водоплавающих» жителей. Мы смотрим на эти данные, понимаем, где ошибка, работаем с дата-провайдером. Для этого в том числе и нужен посредник. Если не знать этих нюансов, можно и за чистую монету принять.