Закон ципфа и фрактальная природа социальных и экономических явлений. И.В

Джордж Ципф

Основным источником информации в интернете являются тексты. Естественно, что и продвижение сайтов в поисковые ТОПы по большей части связано с правильным написанием подобного контента. Но написать текст мало – надо еще и оформить его согласно разнообразным SEO правилам и рекомендациям. Из них можно выделить наиболее популярные и всеми используемые:

Минимум тошноты, воды и спама.
Правильная структура размещаемого материала (заголовки, списки).
Вписывание ключей.

Это все азы, поэтому их использует большая часть оптимизаторов. Но сайтов на просторах интернета становится все больше, поэтому некоторые из их владельцев ищут другие варианты для успешности продвижения своего продукта. И здесь часть из них вспоминают про некий закон Ципфа. Но мало того, что они начинают затачивать собственные сочинения под сервис, работающий на основе утверждений английского ученого, жившего хрен знает сколько лет назад, так они еще и заставляют наемных копирайтеров ломать себе голову над ним!

Но доктор Айтупит бдит, поэтому, аки Черный Плащ, спешит на помощь интернет писакам, чтобы разобраться с эффективностью данного метода по продвижению сайтов в Топы самых известных поисковиков.

Проверка по закону Ципфа

По сути, только две важнейших характеристики:

Тошноту проверяемого контента.
Естественность.

Первый минус этого продукта заключается именно в показателях тошноты: разработчики явно не учли, что существует классическая и академическая вариация этой SEO характеристики. А большинству людей, работающих в этой сфере, известно, что для снижения показателей каждого из вариантов используются совершенно разные способы (об этом доктор Айтупит постарается рассказать в одной из следующих своих ). Но «Ципфо-сервис» не сообщает об этом своим пользователям, что иногда может привести к некоторым затруднениям. Не буду долго мучить и скажу, что в данном случае подразумевается только классическая тошнота.

Переходим к «Естественности». Что оно такое? Я долго искал адекватную информацию по этому вопросу. Но нашел только постоянное переписывание каких-то заумных слов, понять смысл которых невозможно без пары бутылок пива. Нет, конечно, может быть я и тупой, но каждый из вас способен понять это:

«..эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье - в три раза реже, чем первое, и так далее..»

Эмпирическая, блин, закономерность… Это же надо было такое написать! Ну да ладно – Сатана ему не простит. Не это самое интересное! Интересно то, что автором сего изречения является американский лингвист, который жил в середине прошлого века, когда об интернете знал только Джордж Лукас и Леонид Ильич Брежнев. То есть, существуют люди, которые считают, что современные поисковики просто обязаны выполнять анализ по закону Ципфа? Пардонте, Мусье, но с хрена ли?..

Наверное, некоторые читатели после вышенаписанных слов решат, что автор сего опуса является типичным балаболом? Я постараюсь привести достойные аргументы, чтобы переубедить вас!

– Требование соответствия параметров текста закону Ципфа или, если быть точным, всяческим “сервисам”, якобы проверяющим тексты на такое соответствие – профанация чистейшей воды. Такое условие является бессмысленным как с точки зрения качества текста, так и с точки зрения его оптимизации для поисковых систем.

– Проверка по Ципфу – это сродни SEO-амулетам и фен-шую – слышал звон, да не знаю, где он. А так как в SEO вообще много псевдонаучной мистификации из-за изначальной закрытости алгоритмов поисковых систем, то проверка по Ципфу очень гармонично присоседилась к более релевантным показателям качества – плотности ключей и уникальности, результаты которых в свою очередь тоже нужно принимать постольку-поскольку.

Никаких домыслов с моей стороны – честно скоммунизженные слова, написанные по поводу данного закона!

И я готов подписаться под каждым словом Жеки с Адвего. Давайте пофантазируем. Представьте, что перед вами стоит некий автомат. Вам требуется подойти и набрать на его табло произвольную комбинацию цифр. Правильного числа никто не знает, поэтому каждый раз размер выигрыша разнится. Некоторые люди просто вводят значения и уходят, другие начинают изобретать какие-то системы: танцуют румбу, три раза плюют строго под углом в пятнадцать градусов, съедают козюльку, засохшую три дня назад и так далее. И тут одну из последних везет – он срывает куш! Почему ему повезло – хрен знает. Может просто угадал комбинацию, а может козюлька волшебная была. Но на следующий день этот человек приходит к автомату и устанавливает рядом столик, за которым предлагает всем желающим обязательно попробовать перед набором цифры его методику…

Все равно не убедил? Тогда воспользуюсь тяжелой артиллерией – проведу эксперимент.

Наглядная проверка текста по закону Ципфа

Для предстоящей работы я решил взять несколько разных ключевых фраз и проверить тексты на соответствие закону Ципфа, расположенные в разных местах ТОПа нашей отечественной поисковой системы Yandex. Приступим.

Первый ключ – «Строительство домой из бруса».

Выбираю сайт, который расположен вверху поискового рейтинга, делаю анализ:

Что имеем: естественность – 80, тошнота – 5.9.

Перехожу на страницу ниже в поисковике, выбираю сайт из третьего десятка, провожу анализ:

Результат: естественность – 82, тошнота – 6.16.

Опускаюсь на десяток позиций ниже и повторяю процедуру:

Итог: Е – 86, Т – 8.6.

Но в ТОПе то другое стоит! Мало? Повторяем проверку. Берем следующий ключ. Допустим – лечение геморроя.

Результат: Е – 70, Т – 11.23.

Ниже на два десятка позиций:

Итог: Е – 91, Т – 4.90.

Еще на страницу ниже:

Результат: Е – 91, Т – 4.12.

Заключение

Как видно из проведенного анализа, лучшие показатели естественности текстовых материалов по закону Ципфа совершенно не дают гарантию на успешность конкуренции с текстами, расположенными на других интернет-ресурсах. Впрочем, решать все равно вам…

В процессе выборов избиратели выражают свое отношение к тем или иным политическим деятелям или партиям, отдавая свой голос за того или иного кандидата или партию. Возникает вопрос – существуют ли какие-либо закономерности, описывающие распределение голосов избирателей между различными кандидатами или партиями? Если никаких закономерностей нет, то возможны любые соотношения между числами голосов, полученных кандидатами или партиями, а также между этими числами голосов и, например, явкой избирателей или числом недействительных бюллетеней. Если же существуют определенные закономерности в распределении голосов, то возможны не все варианты их распределения. На материале многих выборов в самых различных странах была выявлена статистическая связь, существующая между числами голосов, полученных на выборах различными кандидатами и партиями. Было установлено, что эта связь описывается следующей простой зависимостью:

Если по одной оси отложить в логарифмическом масштабе число голосов N(i), полученных каждым кандидатом, а по другой оси, также в логарифмическом масштабе, место i, занятое тем же кандидатом в ходе выборов, то полученные точки с достаточным приближением располагаются вдоль прямой линии:

ln N(i) = A - B x lni (1)

Справедливость приведенного уравнения была подтверждена в серии работ российских специалистов по математической политологии (Собянин, Суховольский, 1995), выполнивших анализ результатов выборов народных депутатов России в 1990 году, выборов Президента России в 1991 и 1996 годах, а также данных о выборах в ряде стран, начиная с выборов президента Франции в 1848 году, где победил Луи-Наполеон Бонапарт.

Этот математический результат нетривиален по своей природе. Специалистам – физикам, химикам, металлургам, демографам, экологам и представителям многих других областей знания, имеющих дело с большими массивами статистических данных, хорошо известно, что указанная численная закономерность носит общий характер и описывает ситуацию "свободной конкурентной борьбы" за распределение конечного количества каких-либо условных "благ". Оказывается, все мыслимое многообразие объектов, ситуаций и причинно-следственных связей не меняет характера этой зависимости: коль скоро имеется свободная конкуренция, ее результаты в любом случае укладываются на "логарифмическую прямую" – меняются лишь константа A и крутизна наклона прямой B. И наоборот: коль скоро имеются отклонения от условий свободной конкуренции, точки неминуемо отклоняются от прямой – и тем дальше, чем значительнее "факторы несвободы". Так, например, "конкуренция" городов за численность проживающего в них населения приводит в цивилизованных странах именно к такой зависимости. Между тем, в СССР такие города, как Москва, Ленинград и некоторые другие центры значительно отклонялись от "прямой свободной конкуренции" – вследствие административных ограничений, связанных с паспортным режимом. Аналогичным образом, свободная конкуренция приводит к той же зависимости между размерами крупнейших состояний и "местом", занимаемым их владельцами в списке таких состояний – разумеется, в тех частях света, где такие списки существуют. В точности таков же известный зоологам закон распределения хищников по массе (при отсутствии антропогенных факторов), и т.д.

Впервые закономерности этого рода установил итальянский социолог и математик В.Парето, занимаясь распределением жителей страны по величине их богатства; впоследствии к подобным же выводам пришел американский лингвист Дж.К. Ципф, изучая распределение частоты употребления слов в текстах. Различные варианты написанного выше соотношения носят название закона Ципфа – Парето. Методы анализа, связанные с изучением ранговых распределений, получили широкое распространение в лингвистике, наукометрии, экологии. Соблюдение соотношения (1) для избирательного процесса означает, что существует "свободная конкуренция" всех кандидатов, имеющих возможность беспрепятственно объяснять избирателям свои политические взгляды и политическую платформу.

Выполнение закона Ципфа – Парето для избирательного процесса означает, что каждый из кандидатов, каждая из партий и политических групп избирателей, голосующих по определенному типу, обладает своей собственной политической платформой, не перекрывающейся со всеми остальными. Имеющиеся кандидаты должны перекрывать все возможные предпочтения, имеющиеся у избирателей; тогда доля избирателей, ищущих свой выбор вне предлагаемого списка кандидатов, достаточно мала, и уравнение (1) с высокой точностью описывает распределение голосов избирателей. В противном случае в распределении (1) могут возникнуть пустые "ниши", и весь анализ усложняется.

Расчет параметров A и B, входящих в уравнение (1), производится по данным о численности избирателей, голосовавших за разных кандидатов или за разные политические группы, с помощью методов регрессионного анализа. Параметр A в уравнении (1) представляет собой логарифм числа избирателей, отдавших свои голоса за кандидата-лидера. Величина B – коэффициент предпочтения – характеризует наклон прямой (1) и служит численной мерой однородности выбора избирателей. Если B = 0, это означает, что у избирателей нет никаких предпочтений одних партий или кандидатов перед другими, и что все они получили на выборах одинаковое число голосов. Напротив, при больших значениях крутизны B партии-аутсайдеры получают очень мало голосов по сравнению с партиями-лидерами (однако, на практике параметр B почти никогда не бывает больше единицы). Если же замечаются отклонения от прямой типа (1), то при сделанных выше предположениях это указывает на отсутствие условий свободной политической конкуренции. Это может быть вызвано либо наличием каких-то дополнительно действующих внешних факторов, например, запугивания избирателей возможными политическими и экономическими репрессиями в случае голосования (или неголосования) за того или иного кандидата, либо прямой фальсификацией результатов выборов при подсчете голосов в избирательных комиссиях разного уровня. На рисунке 2 приведен типичный график рангового распределения численности голосовавших на выборах в России. Как можно видеть, между численностями различных групп избирателей и рангами этих групп (т.е. местами кандидатов) в логарифмических координатах (по обеим осям) практически наблюдается линейная связь.

Тип распределения голосов, поданных за различных кандидатов или партии, помогает выявить фальсификацию результатов выборов. В простейшем случае фальсификации, если в урны подброшено какое-то число бюллетеней, заполненных в пользу какого-то кандидата или партии, то оказывается, что ранговое распределение числа голосов, поданных за отдельных кандидатов, не изображается прямой. Но если исключить данные о кандидате, в пользу которого проводились фальсификации, то для остальных кандидатов (или партий) ранговое распределение будет соответствовать теоретическому. В рассматриваемом случае можно оценить число подброшенных бюллетеней по разнице между числом голосов, полученных таким кандидатом по официальным данным, и числом, найденным из уравнения рангового распределения после исключения данных, относящихся к упомянутому кандидату. На рисунке 3 приведено распределение голосов, поданных – по данным избирательной комиссии – за кандидатов на должность главы администрации Липецкой области на выборах, состоявшихся весной 1993 года. Это распределение очевидным образом далеко от прямой. В этом случае суд, прошедший в 1995 году, подтвердил наличие фальсификаций в пользу кандидата, занявшего первое место.

Всем привет! В последнее время все чаще от коллег слышу о требовании в ТЗ оценивать качество текста по закону Ципфа. И далеко не все понимают, как нужно редактировать текст под этот закон. В сегодняшней статье попробую рассказать, как наиболее простым способом улучшить параметр, а также уточню почему хорошим авторам на самом деле это не нужно.

Определить качество текста по закону Ципфа можно по нескольким сервисам. Но, наиболее адекватным я считаю PR-CY, тут сочетается правильная формула с простым и понятным интерфейсом. Именно его я и использовал при подготовке этого материала.

Что такое закон Ципфа

Для начала стоит разобраться, что это такое. Если верить Википедии, сформулировал эту закономерность в 1908 году Жан-Батист Эсту, первоначально относился этот закон к стенографии. Первое известное широкой общественности применение закономерности относится к демографии, а точнее к распределению численности населения в городах, использовал ее Феликс Ауэрбах.

Современное название закономерность получила в 1949 году благодаря лингвисту Джорджу Ципфу. Он показал с ее помощью градацию распределения богатства среди населения. И только потом закон стали применять для определения читабельности текстов.

Как рассчитывается

Чтобы правильно использовать этот закон нужно понимать, как он работает. Разберем формулу для расчета.

F – частота использования слова;
R – порядковый номер;
C – постоянная величина (число обозначающее самое большое по количеству повторов слово).

На практике более удобной оказывается другая формула, она выглядит понятнее.

Удобнее такой подход так как у нас есть данные по числу повтора максимально распространенного слова. Именно от этого количества и отталкиваются.

Если упростить, то в нашем тексте второе по повторяемости слово должно встречаться в два раза реже, чем первое. Идущее на третьем месте, в три раза и так далее.

Пример подгонки текста

С теорией немного разобрались. Осталось разобраться с практикой. В качестве подопытного текста взял статью из Т-Ж. Почему именно оттуда? Все просто. На текущий момент это один из лучших образчиков любимого многими инфостиля. Ну, и было интересно, что покажет текст, написанный под руководством Максима Ильяхова. Скажу сразу, тексты по этому показателю на уровне, хотя, перелопатив более 40 сайтов вообще не нашел ни одной статьи с плохой естественностью. Также, сразу забегу вперед и скажу, что подопытный текст после подгонки стал намного хуже, несмотря на улучшенный показатель по Ципфа, не стоит сильно заморачиваться по чрезмерному повышению естественности.

Вот что нам показал анализатор после проверки.

Разберем, что там указано. Как видим есть столбец со словами, а также непонятные цифры. В столбце «вхождения» (1) указано сколько раз встречаются словоформы в тексте. В столбце «по Ципфу» (2) рекомендованное количество вхождений. Маркерами 3 и 4 помечены идеальные показатели для второй и третьей позиции. Также стоит обратить внимание на рекомендации, здесь указано сколько слов нужно убрать для достижения идеального сочетания.

Для большего понимания разберем, что насчитал анализатор. За основу возьмем цифру 39 (C), также нам понадобится порядковый номер, обратим внимание на 2 (F) позицию. Берем формулу.

Подставляем.

F=39/2=19,5

Округляем в большую сторону и получаем 20, это и будет необходимым количеством вхождений. Что подтверждает и анализатор. У нас же второе по популярности слово употребляется 28 раз, соответственно 8 повторов нужно будет удалить или заменить.

Разобравшись с принципом работы закона начинаем редактировать. Для этого удаляем или заменяем на синонимы слова, у которых больше вхождений, чем это требуется по Ципфа. В результате получаем вот такую картину.

Как видите, мне удалось увеличить показатель с 83% до 88%. Но, при этом значительно пострадало качество текста. Не стоит стремиться к увеличению этого показателя до 100%. По факту, если у вас уже есть 75%, это отлично и дальше извращаться не стоит.

Полезный совет

Уделяйте внимание не только первым строчкам. Начинайте подгонку с последних позиций в списке, они зачастую оказывают большее влияние на общий показатель, чем первый десяток слов.

Ципфа и SEO

Теперь перейдем к тому, зачем требуется знание этой закономерности копирайтеру. Сеошники заказывая тексты стремятся сделать их наиболее удобными для поисковых систем. Считается (правда, непонятно кем), что закон Ципфа активно используется поисковыми алгоритмами. Доказать или опровергнуть это утверждение сложно. Никаких вменяемых исследований и экспериментов на эту тему мне найти не удалось.

Решил проверить самостоятельно. Для этого взял выдачу по такому конкурентному запросу «пластиковые окна», в Яндексе бралась московская выдача, в Гугле пришлось поколдовать, и он меня вроде тоже определил, как жителя столицы (по крайней мере рекламу мне показал с московской геолокацией). Брал первую страницу выдачи, плюс 49 место. Получилась вот такая табличка.

Если посмотреть внимательнее, можно обратить внимание, в Яндексе выдача более ровная, если смотреть на исследуемую нами закономерность. Но, при этом более высокий показатель не гарантирует победы в борьбе за первое место в топе.

На основании этого можно сказать, если поисковики и применяют данный закон, является он только одним из факторов. И не основным.

Выводы

Ну, вот и все. Теперь вы знаете, что такое качество текста по закону Ципфа, а также можете корректировать этот показатель. На самом деле тут нет ничего сложного, все достаточно просто. Достаточно один раз понять принцип работы этой закономерности.

Первый раз с описанием законом Ципфа я встретился, читая . Суть закона: если слова любого текста ранжировать по частоте использования, то произведение ранга на частоту есть величина постоянная:

F*R =C , где:

F – частота появления слова в тексте;

R – ранг слова (наиболее часто употребляемое слово получает ранг 1, следующее – 2 и т.д.);

С – константа.

Для тех, кто еще хоть немного помнит алгебру:), в приведенной выше формуле легко узнает уравнение гиперболы. Ципф экспериментально определил, что С ≈ 0,1. Так, что графическое изображение закона Ципфа приблизительно следующее:

Рис. 1. Гипербола закона Ципфа.

Скачать заметку в формате , примеры в формате

У гипербол есть замечательно свойство. Если для обеих осей взять логарифмический масштаб, то гипербола будет иметь вид прямой:

Рис. 2. Та же гипербола, но на графике с логарифмическими шкалами

Может возникнуть вопрос: при чем здесь поисковая оптимизация? Так вот, оказывается, что специально сгенерированные тексты, содержащие повышенное число ключевых слов, не вписываются в закон. Поисковые машины (Google, Yandex) проверяют тексты на «естественность», то есть соблюдение закона Ципфа и, либо понижают рейтинг сайтов с «подозрительными» текстами, либо вообще банят такие сайты.

Второй раз я встретился с законом Ципфа у Бенуа Мандельброта в его книге . И этот небольшой раздел мне так понравился, что позвольте привести его полностью.

Неожиданный степенной закон

В 1950 году я был молодым студентом-математиком Парижского университета, подыскивавшим тему для своей диссертации. Мои дядя Золем являл собою местный хрестоматийный образец профессора математики: глубокий теоретик, очень консервативный и, несмотря на то, что родится в Польше, столп французского научного сообщества. Уже в 31-летнем возрасте его избрали профессором на полной ставке престижного Французского колледжа.

То быта эра Николя Бурбаки; за этим собирательным псевдонимом скрывался математический «клуб», который, подобно Дада в искусстве или экзистенциализму в литературе, распространился из Франции и стал на некоторое время чрезвычайно влиятельным на мировой сцене. Абстракция и чистая математика, математика ради математики, были возведены в ранг культа; члены «клуба» презирали прагматизм, прикладную математику и даже математику как инструмент науки. Такой подход был для французских математиков догмой, а для меня, пожалуй, причиной уехать из Франции и поступить на работу в IBM. Я был, к ужасу моего дяди, молодым бунтарем. Работая над своей докторской диссертацией, я часто в конце дня заходил к нему в кабинет поболтать, и нередко эти разговоры перерастали в дискуссию. Однажды, пытаясь как-то скрасить предстоящую долгую и скучную поездку на метро домой, я попросил у него в дорогу что-нибудь почитать. Он сунул руку в мусорную корзину и извлек оттуда несколько скомканных листков бумаги.

– Вот, возьми, – буркнул дядя. – Глупейшая статья, из тех, какие ты любишь.

То был обзор книги социолога Джорджа Кингсли Ципфа. Ципф, достаточно богатый человек, чтобы не думать о куске хлеба насущного, читал в Гарвардском университете лекции по им же придуманной дисциплине, которую он назвал статистической человеческой экологией. В его книге Human Behavior and the Principle of Least Effort (Поведение человека и принцип наименьших усилий) степенные законы рассматривались как вездесущие структуры общественных наук. В фишке степенные законы вполне обычны и выступают формой того, что я ныне называю фрактальным самоповторением в масштабе. У сейсмологов есть математическая формула степенной зависимости количества землетрясений от их силы по знаменитой шкале Рихтера. Или, другими словами: слабые землетрясения обычны, тогда как сильные редки, а частота и сила землетрясений связаны точной формулой. В то время было немногих таких примеров, да и известны они были всего нескольким людям. Ципф, энциклопедист, был одержим навязчивой идеей, будто степенные законы действуют не только в физических науках; им подчиняются все проявления поведения, организации и анатомии человека – даже размеры половых органов.

К счастью, обзор книги, который мне дал дядя, ограничивался только одним необычно изящным примером: частотой слов. В тексте или речи некоторые слова, такие как английские the (определенный артикль) или this («это»), встречаются часто; другие, milreis или momus, появляются редко или вообще никогда (для самых любознательных: первое означает древнюю португальскую монету, второе – синоним слова «критик»). Ципф предложил следующее упражнение: взять любой текст и посчитать, сколько раз в нем появляется каждое слово. Затем присвоить каждому слову ранг: 1 - для самых часто употребляемых слов, 2 - для занимающих второе место по частоте появления и т.д. Наконец, построить график, на котором для каждого ранга указать количество появлении этого слова. Мы получим удивительный рисунок. Кривая не убывает равномерно от самого обычного слова в данном тексте к самому редкому. Сначала она обрушивается с головокружительной быстротой, после чего начинает убывать медленнее, повторяя траекторию лыжника, прыгнувшего с трамплина, а затем приземлившегося и спускающегося по относительно пологому склону заснеженной горы. Образец классической неравномерной шкалы. Ципф, подогнав под свои диаграммы кривую, придумал для нее формулу.

Я был ошеломлен. К концу моей долгой поездки на метро я уже имел тему для половины моей докторской диссертации. Я точно знал, как объяснить математические основания частотного распределения слов, чего Ципф, не будучи математиком, сделать не смог бы. В последующие месяцы меня ждали удивительные открытия. Используя упомянутое уравнение, можно создать мощный инструмент социальных исследований. Улучшенный вариант формулы Ципфа позволял количественно оценить и ранжировать богатство словарного запаса любого человека: высокое значение – богатый лексикон; низкое значение – бедный. Имея такую шкалу, можно измерять различия по словарному запасу между текстами или говорящими. Появляется возможность количественно оценить эрудицию. Правда, мои друзья и консультанты были в ужасе от моей решимости заняться этой странной темой. Ципф, говорили они мне, человек с причудами. Мне показали его книгу, и я согласился, что она отвратительна. Подсчет слов – это не настоящая математика, убеждали меня. Занявшись этой темой, я никогда не найду хорошую работу; и профессором стать мне тоже будет нелегко.

Но я оставался глух к мудрым советам. Мало того, я написал диссертацию вообще без консультантов и даже уговорит одного из университетских бюрократов заверить ее печатью. Я был исполнен решимости пройти избранный путь до конца и применить идеи Ципфа в экономике, ведь не только речь можно свести к степенному закону. Богаты мы или бедны, процветаем или голодаем - все это тоже казалось мне объектом степенного закона.

Мандельброт немного модифицировал формулу Ципфа:

F = C * R -1/ a , где

a – коэффициент, характеризующий богатство словарного запаса; чем больше значение a, тем богаче словарный запас текста, поскольку кривая зависимости частоты появления каждого слова от его ранга убывает медленнее, и, например, редкие слова появляются чаще, чем при меньших значениях a. Именно это свойство Мандельброт предполагал использовать для оценки эрудиции .

С законом Ципфа не всё так гладко, и в конкретных применениях опираться на экспериментально определенный коэффициент a не всегда получается. В то же время закон Ципфа является ни чем иным, как законом Парето «наоборот», поскольку и тот и другой – частные случаи степенных рядов, или… проявление фрактальной природы экономических и социальных систем .

Для себя суть фрактальной природы экономических систем я сформулировал следующим образом. С одной стороны, есть игровая случайность: рулетка, бросание костей. С другой, технологическая/физическая случайность: разброс диаметра вала, изготавливаемого на токарном станке, разброс роста взрослого человека. Все перечисленные явления описываются . Так вот, есть целый ряд явлений не подчиняющихся этому распределению: богатство стран и отдельных людей, колебания цен на акции, курсы валют, частота использования слов, сила землетрясений… Для таких явлений характерным является то, что среднее значение очень сильно зависит от выборки. Например, если взять сто случайных людей разного роста, то добавление к ним самого высокого человека на Земле не сильно изменит средний рост этой группы. Если же посчитать средний доход ста случайных людей, то добавление самого богатого человека планеты – Карлоса Слим Элу (а не Билла Гейтса, как многие могли бы подумать:)) значительно увеличит среднее богатство каждого, примерно, до 500 млн. долларов!

Другим проявлением фрактальности является значительное расслоение выборки. Рассмотрим, например,

Согласитесь, представленная закономерность как две капли воды похожа на кривую Ципфа!

Одно из свойств фрактальности, это самоповторение. Так вот, из 192-х стран мира, перечисленных в списке, 80% мирового богатства сосредоточена всего в 18 странах – 9,4% (18/192). Если же теперь рассмотреть только эти 18 стран, то их суммарное богатство – 46 трлн. долл. – распределено столь же неравномерно. 80% от этих 46 трлн. Сосредоточено в менее чем половине стран, и т.д.

Вы можете спросить: какой практический вывод из всего сказанного? Я бы сказал так:

Социальные и экономические системы не описываются гауссианой. Эти закономерности подчиняются степенным рядам [синоним – фрактальная природа].
Выбросы от среднего существенно более вероятны, чем в соответствии с предсказаниями колоколообразной кривой Гаусса. Более того, выбросы внутренне присущи системе; они не случайны, а закономерны.
Оценки рисков нельзя строить на основе нормального распределения вероятностей редких нежелательных событий.
… не буду лукавить, пока больше ничего придумать не могу… но это не значит, что практических выводов больше нет… просто мои знания этим ограничиваются…

… но согласитесь, ведь красивые закономерности!

О фрактальности см. Бенуа Мандельброт

Надо отметить, что данные из разных источников сильно разнятся, но это не имеет отношения к рассматриваемой здесь теме.