Original:http://rws.xoba.com/ror/


Приблизительные строки в Rongorongo Corpus.

1. Краткий обзор

Известно начиная с 1940-х годов, что некоторые из сохранившихся таблеток острова Ронгоронго на острове Пасхи имеют параллельные тексты, и за эти годы было найдено несколько новых параллельных частичных совпадений (Barthel, 1958; Guy, 1985; Fischer, 1997; Rongorongo , 2000).

Настоящий проект нацелен на обнаружение частичных совпадений в корпусе существующих планшетов с использованием приближенных методов сопоставления строк. Основной метод - вычисление массива суффиксов (Manber and Myers, 1993) по всему корпусу. Это приводит к объединению всех суффиксов в корпусе, которые начинаются с одного и того же символа. Внутри каждой группы суффиксов, начинающихся с одного и того же глифа, мы вычисляем примерное соответствие строки с использованием алгоритма, описанного во введении к Sankoff and Kruskal (1983). В качестве дополнительного ограничения мы пытаемся сопоставить только строки определенной длины - в этих цепочках инкарнации длиной 5, 10, 15, ..., 120, 125, 130 - и мы настаиваем на максимальном рассогласовании k 20% Базовую длину. Мы также настаиваем на совпадении двух последних символов в двух строках. Таким образом, строка длины 10 может совпадать со строкой длины 9, которая была расстоянием редактирования двух (одна подстановка и одно удаление) от исходной строки до тех пор, пока две строки начинаются и заканчиваются на одном и том же глиф.

Мотивация настаивать на сопоставленных строках, начинающихся с одного и того же символа и заканчивающихся на одном и том же глифе, заключается в уменьшении количества поиска и количества возвращенных «дублирующих» совпадений. Ясно, что если мы имеем две строки s 1 , s 2 с длинами m = | s 1 | И n = | s 2 | Соответственно, и если хотя бы (1-k) * m символов, (1-k) * m> = 2 , должны совпадать, тогда должны быть подстроки s ' 1 и s' 2 соответственно, такие, что s ' 1 [0] = s ' 2 [0] и s' 1 [m '] = s' 2 [n '], где m' = | s ' 1 | И n '= | s' 2 | , Тогда, даже если «истинные» соответствия находятся между s 1 и s 2 , мы сможем найти их путем проверки, посмотрев в контекстах найденных совпадений в s ' 1 и s' 2 .

Обратите внимание, что самая длинная длина, которую мы нашли в этих условиях приблизительным соответствием, составляла 125 знаков, между прямой линией 2, глифом 36 Большого Сантьяго и прямой линией 2, глифом 0 Малого Санкт-Петербурга.

Данные для корпуса и изображений были получены с превосходного веб-сайта rongorongo . Матчи были рассчитаны по «сокращенной» версии набора Бартэля, который по существу является набором Бартеля с удалением различных диакритических знаков. Таким образом, строка типа:

600a-600.711-20cfy.246-50.711-606-1t.6

Будут представлены следующим образом:

600-600-711-20-246-50-711-606-1-6

Это, конечно же, делает неявное предположение, что различные формы глифа, включенные Бартелем по одному и тому же основному числовому коду, фактически являются вариантами одного и того же глифа, а не отдельными глифами.

2. Некоторые результаты

  1. См. Здесь список совпадений, упорядоченных по таблетке (около 197 КБ: будьте терпеливы, это может занять некоторое время для отображения вашего браузера).
  2. См. Здесь список совпадений, упорядоченных по длине совпадения (около 197K: будьте терпеливы, для отображения этого браузера может потребоваться некоторое время).
  3. См. Здесь (или здесь для версии PDF) для сюжета, который дает краткий обзор спичек для всего корпуса. Ключ к аббревиатурам планшета можно найти здесь . На графике красные линии обозначают деления планшета, а бирюзовые линии указывают на линейные деления внутри планшета (с порядком, принятым Бартель, а не Фишером, которые отличаются для некоторых таблеток). Черные точки представляют соответствия, с приблизительным соответствием, скажем, десяти глифов, представленных линией, состоящей из десяти точек. Названия табличек указаны на горизонтальной и вертикальной осях, хотя названия более коротких таблеток, к сожалению, скрыты.

Сюжет сразу же показывает длинные общие части Великого Сантьяго и Великого и Малого Санкт-Петербурга, обсуждаемые в другом месте, а также параллели между Малым Сантьяго и лондонским столом. Также показаны более короткие спички между различными таблетками. Также поражает тот факт, что персонал в Сантьяго, кажется, изолирован, почти ни с чем, кроме самого себя. Причиной этого является, по-видимому, обилие в этом тексте «фаллос» глифа ( Barthel 76 , две формы которого: ), 83% жетонов которого встречаются в Штабе, и вертикального разделителя (закодировано как 999), который больше нигде не встречается. «Глагол« фаллос »привел к заявлению Фишера (1995), что текст в штате Сантьяго является продолжением повторения формул вида X ki` ai ki roto `o Y: ka pu te Z` X, совокупляемых с Y: там Выпустил Z '. Он с тех пор утверждал, что другие тексты также являются продолжением воспитания, хотя и без sans phallus: see, например (Fischer, 1997, стр. 444), где он утверждает, что он «мог продемонстрировать, что изолированные сегменты на [Малом Сантьяго, verso] ». Если бы другие тексты были похожи на персонал Сантьяго, можно было бы ожидать увидеть более приблизительные совпадения. У Фишера есть «объяснение» этого: он предполагает, что во многих других текстах «фаллос» был просто опущен. Конечно, при достаточных предположениях о том, что может присутствовать, любая строка может совпадать с любой другой строкой, поэтому неясно, как можно фальсифицировать заявку Фишера при отсутствии независимых доказательств. Один склонен согласиться с оценкой Гая :

Отсутствие метода Фишера на этом не заканчивается. В другой статье, опубликованной в журнале Rapa Nui Journal , он утверждает, что идентифицировал похожие истории совокупления на «одиннадцати других планшетах, у всех из них отсутствует фаллический суффикс». Другими словами, везде, где он не видел фаллоса, он его снабжал.

В качестве попытки проверить предположение Фишера о «ущемлении фаллоса» мы вычислили те же самые соответствия строк для версии корпуса, где был удалён глиф 76 , символ фаллоса. Предположительно, если многие части других таблеток действительно являются текстами, которые похожи на Staff Santiago, хотя и без явного фаллоса, следует увеличить вероятность поиска совпадений между Персоналом и другими планшетами, удалив нарушителя. Результаты (версия в формате PDF ) были такими же, как и для неподдельной версии корпуса: сотрудники в Сантьяго по-прежнему выступают в роли изолятора.

Обратите внимание, что списки в comp1.html и comp2.html не являются полным набором совпадений , так как мы сохраняем только самое длинное соответствие между строкой n таблетки X и линией m таблицы Y. В общем, эти совпадения, которые не отображаются, являются просто подмножествами тех, которые показаны.

(Я нахожу некоторые случаи, когда отсутствуют фрагменты транскрипции из-за несовершенной обработки текста, полученного с сайта rongorongo.org . Я нахожусь в процессе исправления этих ошибок.)

3. Частичный список ссылок

  1. Бартель, Томас, 1958. Grundlagen zur Entzifferung der Osterinselschrift . Abhandlungen aus dem Gebiet der Auslandskunde 64. Reihe B. vol 36. Hamburg: Cram, de Gruyter & Co.
  2. Фишер, Стивен Роджер. 1995. «Предварительные данные для космогонических текстов в надписях Rapanorongo Rongorongo». Журнал полинезийского общества . 104: 303-21.
  3. Фишер, Стивен Роджер. 1997. rongorongo, Остров Пасхи Сценарий: история, традиции, тексты . Издательство Оксфордского университета.
  4. Гай, Жак. 1985. «На фрагменте таблички« Тахуа ». Журнал полинезийского общества . 94: 367-88.
  5. Манбер, Уди и Э. Майерс. 1993. «Суффиксные массивы: новый метод поиска строки в строке». SIAM J. по вычислительной технике . 22 (5): 935--948
  6. Rongorongo веб-сайт. 2000. http://www.rongorongo.org .
  7. Санков, Давид и Крускал, Иосиф. 1983. Временные деформации, строковые редакторы и макромолекулы: теория и практика сравнения последовательностей . Публикации в CSLI.


Последнее изменение этой страницы: 11 января, 2003.