Исследовано распределение первой значащей цифры в числительных связных текстов. Для них приближённо выполняется закон Бенфорда. Отклонения от закона являются статистически устойчивыми авторскими особенностями, позволяющими различать тексты разных авторов. Наблюдается убывание со временем доли единицы в бенфордовском распределении от ранних к поздним авторским текстам. Жанр текста влияет на его бенфордовские особенности.
кандидат физико-математических наук, доцент, кафедра моделирования управляемых систем,
ФГАОУ ВПО «УрФУ имени первого Президента России Б.Н.Ельцина» e-mail: zenkow AT mail.ru г.Екатеринбург, Россия
Ключевые слова: Закон Бенфорда, атрибуция текстов, обработка текстов.
Введение
В последние годы заметно расширилась сфера практического использования известного уже больше ста лет закона Бенфорда [1]. Этот закон описывает вероятность появления определённой первой значащей цифры в разнообразных распределениях величин, взятых из реальной жизни. Вопреки кажущемуся очевидным предположению о том, что любая первая значащая цифра в больших массивах данных должна быть равновероятна, во многих случаях в качестве первой значащей цифры заметно чаще появляется единица! Согласно закону Бенфорда при записи числа в десятичной системе счисления вероятность появления цифры d в качестве его первой значащей цифры
pid)=lg(1+ib (1)
так что d =1 должна встречаться с вероятностью lg 2 « 0,30 , d = 2 - с вероятностью 0,18 и т.д.
Полного объяснения закона Бенфорда, охватывающего все случаи реализации, до сих пор не предложено, хотя и сформулированы некоторые условия, благоприятствующие его появлению [2].
Несмотря на неполноту объяснения, закон Бенфорда успешно применяется в различных областях от аудита бухгалтерской отчётности и выявления фальсификаций на выборах до сейсмологии и стеганографии.
Нами показана перспективность использования закона Бенфорда для задач текстологии [3, 4]. Оказалось, что не только для случайной комбинации текстов (классический пример Бенфорда - подсчет встречаемости числительных на произвольных страницах прессы), но и для связных текстов распределение первых значащих цифр числительных приближается к (1). При этом, в отличие от традиционной методологии применения закона Бенфорда, трактующей отклонения от закона как указание на возможное наличие «фальсификаций» (в широком понимании), нами сделан акцент на сравнении этих отклонений для текстов разных авторов; показано, что эти отклонения являются статистически устойчивыми авторскими особенностями, позволяющими при некоторых условиях различать тексты разных авторов.
В настоящей работе представлены новые направления использования закона Бенфорда в области текстологии и приведены некоторые новые результаты исследований.
Для всех текстов, подвергнутых статистическому анализу, с помощью ЭВМ подсчитывались частоты появления различных первых значащих цифр с учётом количественных и порядковых числительных, выраженных как цифрами, так и (значительно чаще) словесно.
Распознавание авторства текстов
В этом направлении, уже представленном в наших предыдущих публикациях [3, 4], нами получены новые результаты, подкрепляющие сделанные ранее выводы.
На протяжении шестидесяти лет в российском литературоведении оставался нерешённым вопрос об авторстве книги «Роман с кокаином», опубликованной в 1934г. под псевдонимом «М. Агеев». В отсутствие достоверной информации об авторе и каких-либо других значимых литературных публикаций под этим именем получила распространение гипотеза о литературной мистификации. В силу некоторой жанровой и стилистической близости «Романа с кокаином» ранним романам В.В. Набокова перу последнего стали приписывать и роман М. Агеева. Публикация в 19941997гг. ранее неизвестных архивных материалов [5] опровергла эту гипотезу. Хотя данный частный филологический вопрос уже снят, покажем, к каким результатам приводит бенфордовская методология.
Ниже приведены результаты статистического исследования «Романа с кокаином» (Рис. 1) и опубликованных в те же годы произведений Владимира Набокова (Рис. 2, 3). Отметим резкое различие во встречаемости значащей цифры 1 в романе Агеева, с одной стороны, и в романах Набокова, с другой стороны. С учетом длины проанализированных текстов это различие трудно объяснить случайными флуктуациями (в отличие от последующих значащих цифр, для которых даже в книгах одного автора не усматривается общая закономерность). Это характерные авторские различия стилей. Мы склонны связать их с психологическими особенностями, которые, независимо от воли писателя, сказываются на его творчестве. Для Агеева, по указанной выше причине, материал для сравнения отсутствует, но все произведения первого (русскоязычного) периода творчества Владимира Набокова имеют аналогичную встречаемость единицы как первой значащей цифры (с особенностью, указанной ниже - см. следующий раздел).
Агеев, Роман с кокаином
и фактическая частота в тексте
Рис. 1. Распределение первых значащих цифр числительных в «Романе с кокаином» Агеева (1934г.). Результаты здесь и ниже сопоставляются с ожидаемыми согласно закону Бенфорда
Набоков, Отчаянье
■ фактическая частота в тексте
123456789 Первая значащая цифра
Рис. 2. Распределение первых значащих цифр числительных в романе В. Набокова «Отчаянье» (1930г.)
ш фактическая частота в тексте
вероятность по закону Бенфорда
Первая значащая цифра
Рис. 3. Распределение первых значащих цифр числительных в романе В. Набокова "Подвиг" (1931г.)
Итак, приведенный анализ может быть полезен при исследовании вопроса об авторстве текстов.
Эволюция бенфордовских закономерностей в авторском стиле
По корпусу художественных произведений ряда писателей нами изучена эволюция распределения первых значащих цифр числительных на всем протяжении творчества автора.
Продолжим изучение авторских особенностей стиля Набокова. На рис.4, 5 приведены результаты анализа более поздних его произведений, относящихся к концу русскоязычного и к англоязычному периодам творчества. Сравнение рис. 2-5 показывает монотонное убывание доли единицы в бенфордовском распределении от ранних к поздним произведениям. Это - общая закономерность; она обнаружилась и в творчестве других авторов.
Набоков, Дар
я фактическая частота в тексте
■ вероятность по закону Бенфорда
Рис. 4. Распределение первых значащих цифр числительных в романе В. Набокова "Дар" (1937г.)
я фактическая частота в тексте вероятность по закону Бенфорда
Количество числительных в тексте: 272
Первая значащая цифра
Рис. 5. Распределение первых значащих цифр числительных в романе В. Набокова "Прозрачные вещи" (1972 г.)
Влияние жанровых особенностей на бенфордовские характеристики
Если наша гипотеза об авторском стиле верна, то жанр текста должен влиять на его бенфордовские особенности: для произведений художественной репортажной журналистики, оставляющей меньше простора для реализации чисто художнических устремлений автора, должно быть характерно большее согласие с законом Бенфорда, поскольку именно в условиях непреднамеренного отбора данных он и реализуется [2].
Это хорошо подтверждается анализом произведений Светланы Алек- сиевич, удостоенной в 2015г. Нобелевской премии по литературе. Известно, что ее "многоголосая проза» (определение Шведского Нобелевского комитета) является результатом художественного синтеза многочисленных взятых ею интервью, в которых намеренно сохранялись индивидуальные особенности речевой манеры опрошенных. На Рис. 6, 7 представлены результаты анализа двух самых известных книг С. Алексиевич.
Отметим два обстоятельства:
в целом, по всем первым значащим цифрам, согласие с законом Бенфорда оказывается лучшим, чем в приведенных выше примерах. Этот вывод основан не только на визуальном сравнении, но и
подтверждается подсчётом среднего квадратичного отклонения, которое для произведений Алексиевич значимо меньше;
Алексиевич, У войны не женское лицо
Я фактическая частота в тексте
_ вероятность по закону Бенфорда
Первая значащая цифра
Рис. 6. Распределение первых значащих цифр числительных в книге С. Алексиевич "У войны не женское лицо"
Алексиевич, Цинковые мальчики
и фактическая частота в тексте
Первая значащая цифра
Рис. 7. Распределение первых значащих цифр числительных в книге С. Алексиевич "Цинковые мальчики"
2) в целом, по всем первым значащим цифрам, наблюдается очень большое сходство, практическая тождественность распределений для книг Алексиевич - в отличие от произведений Набокова, для которых, как отмечено выше, имеются заметные флуктуации встречаемости значащих цифр конца ряда.
Мы полагаем, что разработанная нами методология может быть полезным дополнением к традиционным текстологическим практикам [6, 7].
Заключение
Закон Бенфорда приближённо выполняется для связных текстов.
Отклонения от закона Бенфорда являются статистически значимыми авторскими особенностями, позволяющими при некоторых условиях различить тексты разных авторов.
Распределение цифр конца ряда {1,2,...,7,8,9} подвержено сильным флуктуациям и непоказательно.
Наблюдается монотонное убывание со временем доли единицы в бенфордовском распределении от ранних к поздним текстам одного и того же автора.
Жанр текста влияет на его бенфордовские особенности.
Список использованных источников
Benford F. The law of anomalous numbers // Proceedings of American Philosophical Society. - 1938. - vol. 78, No. 4. - P. 551-572.
Hill T.P. A Statistical Derivation of the Significant-Digit Law // Statistical Science. - 1995. - vol. 10 - P. 354-363.
Зенков А.В. Отклонения от закона Бенфорда и распознавание авторских особенностей в текстах // Компьютерные исследования и моделирование.
2015. - Т. 7, вып. 1. - С. 197-201.
Зенков А.В., Сазанова Л.А. Отклонения от закона Бенфорда и проблема авторства текстов // BI-технологии в оптимизации бизнес-процессов, Материалы Междунар. науч.-практ. конф., Екатеринбург, 2 дек. 2014. Екатеринбург: Изд-во Урал. гос. экон. ун-та, 2014, С. 65-68.
Сорокина М.Ю., Суперфин Г.Г. // Минувшее: Исторический альманах. Вып. 16. М.; СПб.: Феникс-Атенеум, 1994. С. 265-289.
The Oxford Handbook of Computational Linguistics (Ed. R. Mitkov). Oxford University Press. - Oxford (a.o.), 2003. - 786 p.
The Handbook of Linguistics (Eds. M. Aronoff and J. Rees-Miller). Blackwell Publishing. - Oxford (a.o.), 2004. - 824 p.
Andrei Zenkov,
Ph. D. (Phys.Math.), Associate Professor, department of Modelling of Controllable Systems,
Ural Federal University named after the first President of Russia Boris Yeltsin e-mail: zenkow AT mail.ru Ekaterinburg, Russia
TEXT ANALYSIS IN THE BENFORD METHODOLOGY
Abstract:
The distribution of the first significant digit in numerals of connected texts is considered. Benford's law is found to hold approximately for them. Deviations from Benford's law are statistically significant author peculiarities that allow, under certain conditions, to distinguish between texts with a different authorship. The proportion of digit 1 decreases over time in the Benford distribution from early to late author's text. The text genre affects its Benford features.
Key words:
Benford’s law, text attribution, text processing.
значащий цифра числительный, распределение значащий цифра, рис распределение значащий, фактический частота текст, значащий цифра рис, цифра рис распределение, цифра числительный роман, частота текст вероятность, текст вероятность закон, числительный роман набоков, распределение значащий цифра числительный, рис распределение значащий цифра, значащий цифра числительный роман, цифра рис распределение значащий, значащий цифра рис распределение, текст вероятность закон бенфорд, фактический частота текст вероятность, цифра числительный роман набоков, частота текст вероятность закон, жанр текст влиять бенфордовский,