Хранилища данных - статьи




Сравнение статистических данных ЕС и РФ - часть 3


Вес груза декларируется верно, но фальсифицируется наименование товара — в декларации указывается близкий по характеристикам товар с меньшей ставкой таможенной пошлины. В результате для определенных групп товаров наблюдается существенный прирост импорта по сравнению с данными ЕС. Эта схема ухода от таможенных платежей хорошо известна таможенным органам как «товар прикрытия».

Даже использование таких простейших способов анализа данных как гистограмма позволило выделить наличие определенных тенденций и оценить масштаб искажения данных. Более того, уже на этом этапе возможно сформулировать определенные критерии для отбора групп товаров наиболее подверженных фальсификациям. В то же время распределения, приведенные на рис. 1 и 2, показывают, что сделанный нами выбор переменных был не очень удачным с точки зрения алгоритмов кластеризации — плотность данных довольно монотонно падает от центра к краям распределения. Чтобы воспользоваться алгоритмами кластеризации нам пришлось переопределить переменные, введя следующие переменные:

Основное отличие новых переменных — ограниченный диапазон принимаемых значений:

Распределение, аналогичное приведенному на рис. 2, в новых переменных показано на рис. 3.

Рис. 3. Совместное распределение относительных отклонений по стоимости (dCOSTmean) и весу (dNETTOmean) для случаев импорта

В данном случае налицо как минимум три кластера, а применение алгоритма Darwin Match позволило легко выделить 4 кластера (рис. 4).

Рис. 4. Кластеры совместного распределения относительных отклонений по стоимости (dCOSTmean) и весу (dNETTOmean) для случаев импорта

Интересно, что последний из кластеров (кластер 4) не идентифицируется «глазом» как отдельный кластер (рис. 3), в то время как ему соответствует наиболее насыщенная недостоверно оформленными декларациями область, что хорошо видно, если найденные кластеры представить в наших первоначальных координатах (рис. 5).

Рис. 5. Найденный с помощью Darwin Match кластер в переменных netto-cost

Конечно, в случае двух переменных кластеризация может быть легко выполнена визуально по построенной гистограмме, нам же здесь было важно показать возможность использования алгоритма и выбрать подходящие переменные, которые могут быть использованы в более сложном анализе.




Содержание  Назад  Вперед