Атрибуция текста

Материал из Synergy
Перейти к: навигация, поиск

Хронология[править]

В данной области пионером выступил (Mendenhall, 1887, 1901) [1][2]. В первой статье разбирался спор об авторстве Диккенс - Теккерей, а во второй - Шекспир против Бэкона. Критерием авторства служил частотный анализ длин слов, сравнивались гистограммы для разных текстов и если отклонения были значительны, то следовал вывод о том, что авторы данных текстов не совпадают.

Brinegar [3]исследовал вопрос об авторстве 10 писем написанные под псевдонимом Quintus Curtius Snodgrass в 1861 и напечатанные в New Orleans Daily Crescent. Вывод - автор писем не Марк Твен. Метод исследования тот же, что у Mendenhall-а - частотный анализ длин слов. Проверка с помощью критерия согласия [math]\chi^2[/math] и двусторонним [math]t[/math] Стьюдента.

Для определения авторства спорных писем из серии Federalist Papers ученые использовали классификатор Naive Bayes (Mosteller and Wallace, 1964). [4] В противостоянии Гамильтон против Мэдисона, победа в авторстве осталась за последним.

Методология[править]

Attrib diag0.png

  1. Mendenhall, T. A. The characteristic curves of composition. Science, 11, 237-249, 1887.
  2. Mendenhall, T. A. A mechanical solution to a literary problem. Popular Science Monthly, 60, 97-105, 1901.
  3. Brinegar, C. Mark Twain and the Quintus Curtis Snodgrass Letters: A statistical test of authorship, Journal of American Statistical Association, 58(301), 85-96, 1963
  4. Mosteller, F. and Wallace, D. L. 1964. Inference and Disputed Authorship: The Federalist, Series in Behavioral Science:Quantitative Methods ed. Addison-Wesley, Massachusetts.