Чем больше сборников, тем менее они полны и полезны пользователю, но тем выше производимый ими на начальство эффект
Требования к информации |
Длинные ряды |
Пересмотр данных |
Долой бумагу! |
Текущие тенденции |
Несопоставимость |
Публикация методик |
О сайте и кураторе
Российская статистика неудобна для пользователя – и рядового, и самого квалифицированного. Предпринять несколько несложных шагов, которые сделают статистику более «user-friendly», вполне возможно. Но для этого нужно излечиться от желания угодить начальству, на стол которого так хорошо ложатся книжки с красивыми обложками.
Практика публикации статистических данных порождает проблемы доступа к информации и снижает эффективность работы с нею пользователей, пишет экономист Высшей школы экономики Владимир Бессонов в докладе
«Взгляд на российскую статистику со стороны пользователя». Работать со статданными
крайне неудобно
Прямая речь
«Чтобы добиться изменений, нужно 10 лет долбить систему»
Директор Института информационного развития ВШЭ Владимир Бессонов
о публикации статистической информации:
Особых иллюзий относительно быстрой реакции на мои предложения у меня нет. Чтобы добиться заметных подвижек, нужно лет 10 «долбить систему». И чиновники, и коллеги, видевшие
эти предложения, реагируют позитивно, но со сдержанным оптимизмом. Изменения происходят, только когда набирается критическая масса людей, предъявляющих спрос на новое. Нужно, чтобы созрел социальный заказ, чтобы повысился интерес к изменению формы статистических публикаций. Так, рост инфляции в 2007 г. повысил интерес к этой области и заставил предпринять определенные изменения. Но даже публикация потребительской корзины для расчета инфляции – половинчатый шаг: товары в ней представлены укрупненными группами.
У руководства Росстата нет понимания, что нужны системные изменения, нет осознания масштаба проблем.
Между тем, через некоторое время могут возникнуть более серьезные проблемы – на первичном уровне. Люди, на чьих плечах держится статистика, находятся в пред- и постпенсионном возрасте. А дальше идет «выпавшее поколение». Воспроизводства кадрового потенциала нет. Можно хорошо обучить будущих статистиков, но тогда им будет не очень интересно работать в Росстате.
Мало отдельных изменений – нужно, чтобы изменилось представление статистиков о смысле их деятельности. Вот, скажем, Росстат начал публиковать некоторые данные в удобном для исследователей формате csv. Но это отдельные редко появляющиеся цифры, а длинных, непротиворечивых и регулярно пересматриваемых рядов данных по-прежнему нет. Статистики просто не представляют, для решения каких задач нужна их информация.
До 1990-х гг. наша статистика была абсолютно оторвана от мировой, жила в состоянии автаркии. Инструменты для решения плановых задач – межотраслевой баланс – были доведены до совершенства. А задачи измерять экономическую динамику, которая может развиваться независимым от плана образом, у них просто не было. Поэтому используются сравнения с прошлым годом, поэтому с таким трудом приживаются методики сезонной корректировки. В течение 60 лет статистика развивалась в вакууме, за это время не осталось ни учебников, ни преподавателей, учащих анализу краткосрочной динамики. Поэтому и уровень понимания краткосрочных тенденций в правительстве, судя по высказываниям чиновников, не слишком высок.
Объяснить статистикам, что нужны длинные ряды, сезонная корректировка показателей, что первичной должна стать публикация данных в интернете, – все равно, что рассказывать чукче, что такое ананас. У них система образов другая. Как в том анекдоте: «Видел соленый огурец? – Да. – Так вот, ананас, это совсем на него не похоже». Нужен сложный и долгий путь системных изменений.
.
Бессонов – весьма искушенный пользователь. Ему принадлежит
несколько интересных исследований об искажениях в статистике, которые возникли в начале 1990-х гг. из-за резкой смены модели потребления, ассортимента продукции и высокой инфляции. Бессонов
создал портал, предоставляющий довольно удобный доступ к основным макроэкономическим показателям.
UPDATE. Замруководителя Росстата Константин Лайкам в интервью Slon.ru обещает, что через месяц статистические публикации
станут более удобными.
ТРЕБОВАНИЯ К ИНФОРМАЦИИ
Традицию публикации статистических данных и методик их построения Росстат унаследовал от Госкомстата СССР. Но с тех времен возникла масса технических средств, позволяющих сделать работу с информацией более удобной. Появились новые категории пользователей статистической информации – аналитики, исследователи, сотрудники коммерческого сектора, журналисты. Преобразование статистики сильно отстает и от технического прогресса, и от их потребностей.
Потребность пользователя проста – с минимальными издержками и без задержек получать статданные (полные и непротиворечивые) и понимать, что они означают. Ценность официальной статистики снижается, если через электронные и печатные публикации недоступна исчерпывающая информация о способах построения показателей, если получение информации связано с высокими издержками, а публикации противоречат друг другу и запаздывают.
Росстат делает шаги навстречу пользователю. Так, лишь пару лет назад, все без исключения пользователи статистики получили бесплатный доступ к публикуемым на сайте Росстата материалам. За это время сайт стал значительно богаче и удобнее организован, больше печатных изданий стало публиковаться в электронном виде.
Статистикам, конечно, и самим нелегко. Правительство решило
отложить до выхода из кризиса не самое затратное мероприятие – перепись. Говорят, из-за этого Росстат может покинуть его руководитель Владимир Соколин. Перенос переписи демонстрирует место статистики в списке приоритетов государства.
Еще более возмутительно отсутствие у России собственных панельных исследований. Для социально-экономической аналитики нужны не только обычные средние показатели, но и результаты подробных опросов одних и тех же домохозяйств (репрезентативные панели). Такие данные позволяют смотреть, как изменилось социально-экономическое положение одной и той же семьи за несколько лет. В развитых странах именно на этих данных основано подавляющее число исследований. И это – главный
позор нашей статистики: данные для единственного подобного
источника для России – RLMS – до сих пор собираются университетом Северной Каролины.
ДЛИННЫЕ РЯДЫ
Хватит о том, чего нет, – теперь о том, что есть, но в «неправильном» виде. Временные ряды Росстата – одна из главных проблем, знакомая каждому исследователю. В последнем «Российском статистическом ежегоднике» основные показатели приведены за 1970, 1980, 1990, 1995 и 2000 – 2007 гг., приводит пример Бессонов: «Едва ли можно придумать содержательную задачу, требующую исходных данных в такой форме». Понятно, что ценность этих отрывочных данных близка к нулю – пользователям нужны длинные непрерывные ряды данных.
Понятно, что в бумажный сборник все не «впихнешь». Но почему нельзя выложить на сайте полную версию с рядами данных в Excel или в формате
CSV?
Задача восстановления полного (без пропусков) длинного временного ряда по публикациям Росстата – трудоемкая и часто весьма нетривиальная, отмечает Бессонов: «Нужно обложиться разными выпусками одного и того же сборника и, действуя в обратном хронологическом порядке, восстанавливать ряд, следя за тем, чтобы в итоге каждому году соответствовала итоговая оценка показателя, а не одна из предварительных». На технических работников это дело не возложишь, да и студентам поручать нельзя: надолго отобьет охоту работать с реальными данными, пишет исследователь. С пропусками публикуются даже данные о темпах роста, что совсем бессмысленно, поскольку по ним невозможно восстановить исходный показатель в базисном виде, сетует Бессонов.
Все исследователи давно знают об этой особенности Росстата. Она им дорого стоит: многие институты и центры вынуждены содержать специалистов, основная работа которых – вести для внутреннего пользования базы данных, которые мог бы поддерживать Росстат. Не говоря уже о том, что это Сизифов труд: сначала Росстат «трамбует» данные в сборниках, а потом потребитель информации пытается эти данные «расшифровать». Эта проблема радикально снижает ценность опубликованной информации: как если бы в хорошем автомобиле установить кресло водителя задом наперед, объясняет Бессонов. Ведь все, кроме максимально длинных рядов – это «статистическая некондиция».
ПЕРЕСМОТР ДАННЫХ
Даже аккуратное восстановление годовых данных не дает гарантии получения правильного ряда: методика могла измениться и наверняка изменилась. Изменив методику, российские статистики практически никогда не публикуют полностью пересчитанный ретроспективный ряд. Но если, допустим, за один из временных промежутков показатель вырос быстрее, чем полагали раньше, то изменяется точка отсчета для следующего периода. Показатели перестают согласовываться друг с другом. Вдобавок сборники в принципе отстают от времени: пока очередной том выходит из печати, у Росстата появляется новая оценка последнего из временных отрезков, вошедшего в книгу.
ДОЛОЙ БУМАГУ!
Многие проблемы с нашей статистикой происходят из-за того, что основной формой публикации для Росстата по-прежнему являются книжки, а не данные в электронной форме. В сборниках не только не хватает информации – в них еще много лишнего, отмечает Бессонов. Часто публикуются и исходные цифры, и рассчитанные на их основе пропорции, – это избыточная информация. А иногда публикуются только пропорции или средние темпы роста за несколько лет. Это совсем бессмысленно – рассчитать среднее при доступности исходных данных пользователь и сам сумеет, а вот обратное действие невозможно. Таких «примитивных аналитических показателей», как называет их Бессонов, в сборниках Росстата довольно много. Вот бумага и заканчивается.
В итоге сборники представляют собой типичное «ни то ни се». Краткосрочных трендов они не отслеживают в силу длины издательского цикла. Долгосрочные тренды бумага не вмещает. Тогда «на какой класс содержательных задач ориентированы сборники, во исполнение какого замысла они публикуются именно в таком неизменном виде?» – задает риторический вопрос Бессонов. И сам же отвечает: «Книгу с красивой обложкой можно положить начальству как доказательство эффективной работы. Чем больше сборников, тем менее они полны и полезны пользователю, но тем выше производимый ими эффект на начальство».
Решить эту проблему очень просто: основной формой публикации должен стать свободный интернет-доступ «к правильно организованным, полным электронным базам непротиворечивых, неизбыточных и актуальных данных», которые можно экспортировать в статистические программы, используемые пользователями. Длинный ряд должен быть доступен как единый информационный объект (а не разбросанные по сборникам фрагменты), в каждой базе должен быть лишь один вариант значения показателя за данный промежуток времени – с самыми свежими данными. Публикуемые сейчас Росстатом таблицы трудно импортировать в программы пользователя – чаще всего их приходится вводить заново. Еще один этап Сизифова труда.
А за сборниками можно оставить начальственно-презентационную функцию и роль путеводителей, облегчающих первичное знакомство со статистикой. Их теперь так много не нужно.
ТЕКУЩИЕ ТЕНДЕНЦИИ
Аналогичный подход применим и к интернет-изданиям, функция которых – отслеживать текущие тренды. Сейчас есть два ряда изданий – так называемые
«краткие» и
«полные» доклады. Разница в их выпуске – примерно полторы недели (во втором докладе больше показателей). Если бы показатели публиковались в электронных базах по мере их получения статистиками, многие данные были бы доступны быстрее.
С этими электронными сборниками те же две проблемы – длинные ряды данных не выстроены, публикация пересмотренных цифр неаккуратна. В «кратких» докладах Росстат не публикует временных рядов для большинства показателей (их приходится восстанавливать). Ко времени их выхода данные за предыдущие месяцы могут быть уточнены, но исследователи узнают об этом только 2 недели спустя, после выхода «полного» доклада. Из-за этого вменяемый анализ нередко становится возможным только с опозданием почти на две недели.
Еще хуже с длинными рядами ежемесячных показателей. Сейчас, отмечает Бессонов, публикуются ряды данных с 1999 г., а раньше – с 1993 г. Полностью ряд с 1993 по текущее время не представлен нигде. В Штатах промышленный индекс начинается с 1919 г., а индекс потребительских цен – с 1913 г. Весьма обидно пренебрежительное отношение самих статистиков к ежемесячным рядам показателей как к не имеющим ценности, сетует Бессонов. Краткосрочные ряды данных удаляются с сайта по прошествии пары лет. Нужно, чтобы принципом для статистиков стала необходимость сохранять на сайте все когда-либо опубликованные ими в любой форме материалы.
Все эти проблемы опять-таки решаются путем создания и публикации электронной базы данных. В то время как нынешние публикации, даже существующие в электронной форме, повторяют форму несуществующего печатного издания, очень точно замечает Бессонов. «Новое вино в старые мехи» – интернет-изданию в версии Росстата присущи проблемы,
типичные для бумаги.
НЕСОПОСТАВИМОСТЬ
Если пару месяцев назад вы прочитали в газетах, что американский ВВП в I квартале упал на 3,5%, ВВП Евросоюза – на 4,6%, а российский – на 9,8%, это не повод расстраиваться и говорить, что наша экономика сильнее отреагировала на кризис, чем страны, где он зародился. Эти цифры несопоставимы.
В большинстве стран мира статистики
считают экономические индексы в отношении к предыдущему периоду, делая при этом очистку от сезонности и аннуализацию данных (представление в годовом выражении). Сезонная корректировка позволяет отбросить случайные колебания и увидеть тренд.
Росстат поступает иначе – он оценивает рост в отношении к предыдущему периоду и к тому же периоду прошлого года. По идее, второй способ оценки не должен ничего добавлять к первому, он только, как говорит Бессонов «провоцирует массовое использование заведомо неадекватных приемов анализа, приводящих к неверным содержательным выводам». Для анализа экономической динамики сравнение с прошлым годом – «информационный мусор». Равно как и публикация данных «нарастающим итогом» («инфляция с начала года по апрель составила…», «промышленность за январь – июль выросла на…»). Но некоторые показатели публикуются только в таком виде.
Сопоставление, например, скорости роста или спада ВВП и промышленности России и других стран возможно только после сезонной корректировки и аннуализации данных. И Минэкономразвития, и исследователи из негосударственных центров выполняют ее самостоятельно, получая разные результаты. На массиве данных Росстата было бы проще построить единую корректную методику учета сезонности. Это позволило бы отказаться от устаревшего сравнения краткосрочных показателей с прошлым годом.
Таким образом, большинство показателей нужно было бы публиковать в двух формах – базисные цифры и сравнение с предыдущим периодом после сезонной корректировки. Росстат эту работу понемногу начинает делать, но публикует пока в виде графиков, не давая результатов в числовой форме. «Гора родила мышь», – резюмирует Бессонов.
Плохо и с сопоставимостью данных во времени. Из-за перехода на отраслевой классификатор ОКОНХ данные после 1995 г. несопоставимы с более ранними. Такой же слом произошел с переходом на международный классификатор ОКВЭД. Сцепку старых и новых данных исследователи вынуждены производить сами, тогда как Росстат с его массивом данных справились бы с этим лучше любых других пользователей, отмечает Бессонов.
ПУБЛИКАЦИЯ МЕТОДИК
В СССР методики были тайной за семь печатями. Только после
статьи автора этих строк в «Ведомостях» в 2006 г. Росстат начал размещать на сайте состав потребительской корзины, по которой считается инфляция. И то указывая лишь крупные группы товаров. Но без публикации методик невозможно понять, как получен показатель, как его интерпретировать. Кроме того, методики получения данных регулярно меняются. Поскольку в рамках длинных рядов часть показателей получена с использованием одного варианта методики, а часть – другого, пользователю нужен полный временной ряд всех действовавших вариантов методики и указание, когда действовал каждый из них. Вместо всего этого сейчас Росстат, как правило, публикует один вариант методики. И не факт, что опубликован действующий вариант.
Дальше, публикуемые методики неполны, в них есть только общие принципы построения показателей, отмечает Бессонов. Статистики не указывают веса товаров и их групп, их изменение с течением времени, составы корзин товаров-представителей (по которым статистики судят об остальной совокупности товаров). Нет достаточной информации о дефляторах, о том, как, когда и на основании чего производится уточнение предварительного показателя.
Такая ситуация заставляет предполагать, что нередко описание методики может идеализировать реальный процесс расчета показателей. Например, некоторых данных нет, или они нерепрезентативны, а методика описывает не как на самом деле идет счет, а как его нужно было бы делать в соответствии с международными нормами, пишет Бессонов. Не говоря уже о том, что в описаниях не отражается ни изменение формул, ни внеплановое уточнение системы весов.
О САЙТЕ И КУРАТОРЕ
Итак, сайт в идеале должен состоять из базы данных и pdf-версий печатных изданий. Пока базы в сколько-нибудь приемлемом виде нет (нынешняя база
состоит из таблиц, а не из рядов показателей, которые можно импортировать в другие программы). База помогает лишь подготовке таблиц, какие готовят сами статистики для публикации в статистических сборниках, констатирует Бессонов.
С форматом pdf сотрудники Росстата познакомились совсем недавно. Электронные версии книжек и краткосрочных показателей выходят в программах word и excel (несколько файлов, упакованных в архивы, затем запакованные в архив второго уровня). Одна и та же информация дублируется в
html и в текстовом
архиве. «Осознают ли отвечающие за этот участок сотрудники Росстата, какой ущерб его репутации наносится подобным способом опубликования», – спрашивает Бессонов.
Кстати, точно в таком же виде выходит ежемесячный мониторинг Минэкономразвития, а его удобного архива на сайте ведомства нет. Так что ожидать, что экономическое ведомство – куратор Росстата – подскажет ему, как удобнее организовывать информацию, не приходится. Пока сайт остается для статистиков вторичным способом распространения информации по сравнению с бумагой. Надежд на быстрые изменения нет и у Бессонова. Чтобы произошли системные изменения, нужно десятилетие бить в одну точку, сказал он в разговоре со Slon.ru.