Хранилища данных - статьи

       

Сравнение статистических данных ЕС и РФ


Имея два источника сведений о внешнеэкономической деятельности, можно попытаться сопоставить данные, одновременно анализируя всю совокупность ТНВЭД. Если сравнивать данные по группам товаров, то разница значений еще не может привести к каким-либо выводам, поскольку существуют естественные причины отклонения в данных ЕС и РФ:

  • ошибки ввода;
  • округление веса до целого значения в тоннах (в базе EC);
  • округление стоимости до целого значения в долл. (в базе РФ);
  • несоответствие даты декларирования товара в РФ и стране-контрагенте (данные агрегированы до месяца, однако даты декларирования могут относиться к разным месяцам);
  • разница курсов валют в момент вывоза и ввоза товара;
  • различия в классификации ТНВЭД и ГС в РФ и EC, в результате чего некоторые товары могут быть учтены по разным группам ТНВЭД/ГС в статистике РФ и EC.

    В то же время не могут быть непосредственно использованы оригинальные переменные: вес нетто и стоимость, так как различные группы товаров характеризуются различной ценой и характерными объемами перемещаемых товаров. Кроме того, цель анализа — не выявление расхождений между данными ЕС и РФ, а определение величины риска, связанной с данной группой товаров, т. е. величины относительного несоответствия между данными. В связи с этим в качестве основных переменных выбраны относительные разности по стоимости и весу нетто, определяемые как:

    COST_RF, COST_ES — статистическая стоимость товаров данной группы по статистике РФ и EC соответственно, NETTO_RF, NETTO_ES — аналогичные показатели для веса нетто. Нормировка на минимальные значения обоснована, поскольку неизвестно истинное значение стоимости и веса, кроме того, это приближает распределение значений переменных к известному статистическому распределению (хотелось бы иметь распределение, хотя бы отдаленно напоминающее гауссово). Сравнить данные по всем группам можно, построив гистограмму для описанных переменных, показывающую, как часто встречается то или иное значение переменной (ось Х — значения переменной, Y — количество случаев, когда переменная принимала данное значение).


    Oracle Darwin имеет утилиту для построения одно и двухмерных гистограмм данных, которой мы и воспользовались. На рис. 1 показаны нормированные распределения для относительного отклонения стоимости и веса для экспорта и импорта.





    Рис. 1. Распределение относительных отклонений стоимости и веса между данными ЕС и РФ
    Если бы различия между данными ЕС и РФ носили «естественный» характер, без фальсификации, то распределения были бы симметричными, а импорт совпадал бы с экспортом. И действительно, график, характеризующий вес, выглядит достаточно симметричным, а распределения для импорта и экспорта практически совпадают. Совершенно иная картина наблюдается в отношении стоимости. Если экспорт более или менее симметричен, то в случае импорта мы имеем гораздо больше случаев с заниженной по сравнению с данными ЕС стоимостью ввозимых товаров (отрицательные значения переменной dcost): вес груза легко проконтролировать, в то время как измерить стоимость невозможно. Кроме того, для большинства товарных групп таможенная пошлина взимается именно со стоимости. Однако при более подробном анализе становится ясным, что подозрительные аномалии наблюдаются и в поведении переменной netto. На рис. 2 показано совместное распределение относительных отклонений по стоимости и весу.





    Рис. 2. Совместные распределения относительных отклонений стоимости веса. Слева — экспорт, справа — импорт
    Поскольку выбранные нами переменные не являются полностью независимыми (стоимость = цена х вес), то ожидаемое распределение должно выглядеть как наклоненный на 45 градусов эллипс. Именно так выглядит распределение для экспорта. В случае же импорта вновь видны характерные фальсификации. Встречаются группы товаров, для которых при небольшом отклонении веса стоимость занижена на порядок. И есть товарные группы, в которых присутствует завышение веса при относительно правильной стоимости импортируемого товара. На первый взгляд это кажется странным. Зачем завышать вес ввозимого товара?

    Оказывается, этому есть простое объяснение.


    Вес груза декларируется верно, но фальсифицируется наименование товара — в декларации указывается близкий по характеристикам товар с меньшей ставкой таможенной пошлины. В результате для определенных групп товаров наблюдается существенный прирост импорта по сравнению с данными ЕС. Эта схема ухода от таможенных платежей хорошо известна таможенным органам как «товар прикрытия».

    Даже использование таких простейших способов анализа данных как гистограмма позволило выделить наличие определенных тенденций и оценить масштаб искажения данных. Более того, уже на этом этапе возможно сформулировать определенные критерии для отбора групп товаров наиболее подверженных фальсификациям. В то же время распределения, приведенные на рис. 1 и 2, показывают, что сделанный нами выбор переменных был не очень удачным с точки зрения алгоритмов кластеризации — плотность данных довольно монотонно падает от центра к краям распределения. Чтобы воспользоваться алгоритмами кластеризации нам пришлось переопределить переменные, введя следующие переменные:





    Основное отличие новых переменных — ограниченный диапазон принимаемых значений:



    Распределение, аналогичное приведенному на рис. 2, в новых переменных показано на рис. 3.





    Рис. 3. Совместное распределение относительных отклонений по стоимости (dCOSTmean) и весу (dNETTOmean) для случаев импорта
    В данном случае налицо как минимум три кластера, а применение алгоритма Darwin Match позволило легко выделить 4 кластера (рис. 4).





    Рис. 4. Кластеры совместного распределения относительных отклонений по стоимости (dCOSTmean) и весу (dNETTOmean) для случаев импорта
    Интересно, что последний из кластеров (кластер 4) не идентифицируется «глазом» как отдельный кластер (рис. 3), в то время как ему соответствует наиболее насыщенная недостоверно оформленными декларациями область, что хорошо видно, если найденные кластеры представить в наших первоначальных координатах (рис. 5).





    Рис. 5. Найденный с помощью Darwin Match кластер в переменных netto-cost
    Конечно, в случае двух переменных кластеризация может быть легко выполнена визуально по построенной гистограмме, нам же здесь было важно показать возможность использования алгоритма и выбрать подходящие переменные, которые могут быть использованы в более сложном анализе.


    Содержание раздела