Original:http://www.edrdg.org/~jwb/paperdir/jmdictart.html

JMdict: японський багатомовний словник

Джеймс Брін
Університет Монаш
Clayton 3800, Австралія
Jwb@csse.monash.edu.au

Реферат

Проект JMdict має на меті складання багатомовної лексичної бази даних з японською мовою як основною мовою. Використовуючи структуру XML, розроблену для поєднання мов та багатого набору лексикографічної інформації, вона досягла приблизно 100 000 записів, більшість записів яких містять переклади на англійську, французьку та німецьку мови. Компіляція передбачає повторне використання інформації, а французькі та німецькі переклади виконуються з окремих лексиконів. Матеріал з інших мов також включається. Файл вільно доступний для дослідницьких цілей та для включення в прикладне програмне забезпечення словника та доступний у декількох системах WWW сервера.

1. Введення

Основним завданням проекту JMdict є складання японсько-багатомовного словника, тобто словника, в якому основні слова знаходяться в японському лексиконі, а також переклади на декількох інших мовах. Це може розглядатися як синтез серії японсько-іншої мови двомовних словників, хоча, як обговорюється нижче, заслуговує на те, щоб ця інформація була зіставлена.

Проект розвинувся, і тепер вже перейшов до більш раннього японсько-англійського словника проекту (EDICT: Electronic Dictionary) (Breen, 1995, 2004a). Оскільки японці є важливою мовою у світовій торгівлі, а також є другою найбільш поширеною мовою, що використовується в WWW, не дивно, що існує значний інтерес до електронних лексичних ресурсів для японців у поєднанні з іншими мовами.

2 цілі проекту та розвиток

Як згадувалося вище, проект JMdict виросло за двомовним проектом словника EDICT. Проект EDICT розпочався на початку 90-х років з відносно простою метою створення японсько-англійського словникового файлу, який можна було б використати в основних програмних пакетах, щоб забезпечити традиційні словникові послуги, а також об'єкти, що допомагають читати японський текст. Формат був (і є) досить простий, що складається з рядків тексту, що складається з японського слова, написаного за допомогою кандзі та / або кани, читання (вимови) цього слова в кані та одного або декількох перекладів англійською мовою.

До кінця 1990-х років цей файл переросли з його скромного походження, досягнувши понад 50 000 записів, і відірвався від паралельного проекту для запису явних імен власників (див. Нижче). Матеріал частково складено зі списків слів, списків словників тощо в загальнодоступному вигляді та доповнено матеріалами, підготовленими великою кількістю користувачів та іншими добровольцями, які бажають внести свій внесок. Хоча це було використано в різних програмних системах, і як джерело лексичного матеріалу в ряді проектів, було ясно, що його структура була недостатньою для лексичних вимог, які роблять користувачі. Зокрема, він не зміг включити відповідну різноманітну інформацію, а також не відображати орфографічні складності вихідної мови. Відповідно, у 1999 році було вирішено запустити новий словниковий проект із включенням інформації з файлу EDICT, але розширив його, включивши переклади з інших мов з японськими записами, що залишилися як поворотні елементи. Цілями проекту були:

  1. Формат файлів, переважно використовуючи визнаний стандарт, який забезпечить готовий доступ та розбір за допомогою різноманітних програмних застосунків;

  2. Обробка орфографічних та варіантів вимови всередині окремого запису. Це поставило перед головною проблемою формат EDICT, оскільки багато японських слів можуть бути написані альтернативним кандзі та різними порціями в кані (окурігана), і можуть мати альтернативні вирази. Формат EDICT вимагає, щоб кожен варіант розглядався як окремий запис, що додавало складність ведення та розширення словника;

  3. Додаткові та більш відповідні позначення граматичної та іншої інформації. Деякі відомості, такі як частина мови або вихідна мова запозичених слів, були додані до файлу EDICT у круглих дужках у полях перекладу, але обсяг було обмежено, а інформацію не можна було легко проаналізувати;

  4. Забезпечення диференціації різних почуттів у перекладах. Хоча основні ознаки полісеми були надані в файл EDICT шляхом додавання (1), (2) тощо до груп перекладів, результат було важко проаналізувати. Також він не підтримав випадку, коли почуття чи нюанси були прив'язані до певної вимови, як це іноді трапляється японською мовою;

  5. Забезпечення включення трансляційних еквівалентів з кількох мов. Файл словника EDICT використовувався у ряді країн, а в кількох неофіційних проектах почали розробляти еквівалентні файли для японських та інших мов цільових мов. Невеликий японо-німецький файл (JDDICT) був випущений у форматі EDICT. Існував значний інтерес у тому, що переклади на різних мовах містяться так, щоб такі речі мали єдиний довідковий файл для кількох мов, перехресні посилання на записи, переклади мовлення тощо, а також виступали в якості фокусу для можливого розвитку Перекладів для ще не представлених мов;

  6. Положення про включення прикладів використання слів. Коли файл розгорнуто, багато користувачів файлу просять деякі форми використання, пов'язані з словами у файлі. Формат EDICT не зміг підтримати це;

  7. Надання перехресних посилань на пов'язані записи;

  8. Продовження генерації файлів формату EDICT. Оскільки велика кількість пакунків та серверів було побудовано за форматом EDICT, продовження надання контенту в цьому форматі вважалося важливим, навіть якщо інформація містила лише піднабір того, що було доступним.

Раннє рішення було використати XML (розширювану мову розмітки) як формат для файлу JMdict, оскільки це передбачало належну гнучкість у форматі, а також передбачалося, що він підтримуватиметься програмами, аналізу бібліотек тощо.

Було вивчено інші доступні формати словників, щоб з'ясувати, чи була доступна відповідна модель форматування. Відомо, що видавці комерційних словників мають добре структуровані бази даних лексичної інформації, а деякі перейшли до XML, але жодна з деталей не була доступною. Велика кількість двомовних словників та списків слів були загальнодоступними; Проте в загальному випадку вони використовували лише дуже прості структури, і ніхто не міг знайти, який охоплював усі вимоги до вмісту проекту. Розділ словника TEI (Ініціатива кодування тексту), який на момент написання має добре розроблену структуру документів для двомовних словників, на цьому етапі був досить обмеженим (Сперберг-Маккуін та інші, 1999). Відповідно розроблено XML DTD (Definition Type), розроблене відповідно до вимог проекту.

Файл EDICT був розібраний і переформатований у структуру JMdict, і в той же час багато хто з орфографічних варіантів були ідентифіковані та об'єднані. Початковий випуск файлу DTD та XML-формату відбувся в травні 1999 року. На цьому етапі в ньому містилися англійські переклади з файлу EDICT та німецькі переклади з файлу JDDICT. Як описано нижче, він з того часу значно розширився, як з точки зору кількості записів, так і в багатомовному режимі.

3 Статус проекту

Файл JMdict був вперше випущений в 1999 році, а оновлені версії випускаються 3-4 рази в рік разом з версіями EDICT-файлу, який створюється одночасно з тих самих файлів даних. Тепер у файлі більше 99300 записів, тобто розмір друкованого словника середнього розміру, і зростання кількості записів зараз досить повільний, причому більшість оновлень стосуються виправлень та розширення існуючих записів.

Файл доступний за ліберальною ліцензією, що дозволяє використовувати її практично для будь-яких цілей безоплатно. Єдина вимога полягає в тому, щоб її використання було повністю визнано та що всі розроблені з нього файли продовжували працювати за однаковими умовами ліцензування.

4 Структура

Структура XML JMdict містить один елемент типу: <entry>, який, у свою чергу, містить порядковий номер, слово kanji, слово кана, елементи інформації та перекладу. Послідовний номер використовується для обслуговування та ідентифікації.

Словесні слова kanji і кана містять дві форми японських словосполучень; Перший використовується для уявлень, що містять принаймні один символ кандзі, тоді як останній для представлення в кані єдиним. Кана слово є фактично вимова, але також є важливим ключем для індексування словникового файлу, оскільки японські словники зазвичай замовляються словами кани. Мінімальний вміст цих полів - це одне слово в словнику "кана". Крім того, кожна запис може містити інформацію про слова (незвичайний орфографічний варіант, архаїчний канджі та ін.) Та частоту використання інформації. Остання повинна бути пов'язана з фактичними словами, а не з вступом в цілому, оскільки деякі комбінації кандзі і кани використовуються частіше, ніж інші. (Наприклад, "合 気 道" та "合氣道" є орфографічними варіантами одного слова (aikidô) , але перший є більш поширеним.)

Кана, використовувана в елементах, слідує сучасній японській орфографії, тобто хірагана використовується для вітчизняних японських слів, а катакана - для позикових слів, ономотопоезних слів і т. Д.

У більшості випадків запис має лише одне кандзі і одне кано (приблизно 75%), або одне кано (лише 15%). У близько 10% записів у одному з елементів є кілька слів. У деяких випадках прочитання кани може бути пов'язане лише з підмножиною слів кандзі в запису. Наприклад, сойоказе (そ よ か ぜ: breeze) можна записати або 微風, або そ よ 風 (останній більш поширений, оскільки そ よ нестандартне читання 微 канаджі). Однак 微風 також може бути вимовляється bifuu (び ふ う) з тим же значенням, але явно ця вимова не може бути пов'язана з формою そ よ 風, так як кана частина читається "soyo". XML не дає елегантного методу для позначення обмеженого відображення між частинами двох елементів, тому, коли таке обмеження потрібно, додаткові мітки використовуються з кожним словом кани, яке подає слово канажі, з яким воно може бути дійсно асоційоване.

Інформаційний елемент містить загальну інформацію про японське слово чи запис у цілому. Вміст дозволяє використовувати код вихідних кодів ISO-639 (для позикових слів), коди діалектів, етимологію, бібліографічну інформацію та інформацію про оновлення.

Область перекладу складається з одного або декількох сенсових елементів, що містять принаймні один глянець. Пов'язаний з кожним змістом це сукупність елементів, що містять частину мови, перехресні посилання, синонім / антонім, використання та іншу інформацію. Також пов'язані з цим почуттям можуть бути коди обмеження, що пов'язують сенс з підмножиною японських слів. Наприклад, 水 気 може бути вимовляється suiki (す い き) і mizuge (み ず け); Обидва означають "вологість", але колишня сама по собі може також означати "водянку".

Елемент "глянець" має атрибут із зазначенням цільової мови перекладу. За його відсутності, вважається, що блиск на англійській мові. Існує також атрибут із зазначенням статі, якщо, наприклад, частина мови є іменником, а блиск - на мові з гендерними іменниками. На малюнку 1 показаний трохи спрощений приклад запису. Елементи <ke_pri> і <re_pri> вказують, що слово є частиною певного набору загальних слів.

<entry>
<ent_seq>1206730</ent_seq>
<k_ele>
<keb>学校</keb>
<ke_pri>ichi1</ke_pri>
</k_ele>
<r_ele>
<reb>がっこう</reb>
<re_pri>ichi1</re_pri>
</r_ele>
<sense>
<pos>&n;</pos>
<gloss>school</gloss>
<gloss g_lang="nl" g_gend="fg">school</gloss>
<gloss g_lang="fr" g_gend="fg">école</gloss>
<gloss g_lang="ru" g_gend="fg">школа</gloss>
<gloss g_lang="de" g_gend="fg">Schule</gloss>
<gloss g_lang="de" g_gend="fg">Lehranstalt</gloss>
</sense>
</entry>

Рис. 1: Приклад JMdict запис

Потенціал мати кілька слів кандзі та кани в одній публікації привертає увагу до питань омонімії, гомографії та полісемії, а також політики щодо їх вирішення, зокрема критерії об'єднання словників кандзі та кани в єдине входження. Оскільки японці мають порівняно обмежений набір фонем, існує велика кількість гомосексуальних слів. Наприклад, більш ніж двадцять різних слів мають представлення кани こ う じ ょ う(kôjô). Якщо ми вважаємо, що гомографія розглядається як лише слова, написані цілком або частково з кандзі, їх існує відносно мало, однак вони існують, наприклад, 川 柳, коли читаю せ ん り ゅ う(senryû) означає комікс, але читаючи か わ や な ぎ(kawayanagi) Означає різноманітне дерево верби.

Правило комбінування, яке було застосовано при складанні файлу JMdict, виглядає наступним чином:

  1. Розглядають кожну основну запис як триплет, що складається з: подання кандзі, відповідність канове подання, почуття;
  2. Якщо для будь-яких основних записів два або більше членів триплету однакові, об'єднайте їх в одну запис;
    1. Якщо записи відрізняються у поданні кандзі чи кани, додайте їх як альтернативні форми;
    2. Якщо записи відрізняються у сенсі, трактуються як випадок полисеми;
  3. В інших випадках залиште записи окремо.

Це правило було успішно застосоване в більшості випадків. Виникають основні проблеми, коли значення схожих або пов'язаних, як і у випадку записів: (放 す, は な す, щоб розділити; встановити безкоштовно; розвернутися) і (離す, はなす, розділити; розділити; розділити ), Де слова кани однакові, і значення збігаються. Японські словники поділяються на 放す і 離す; Деякі зберігають їх як окремі записи, а інші - як одну запис із двома основними змінами. (Ці два слова виходять із загального джерела.)

5 частин мови та пов'язані з цим питання

Оскільки мови відрізняються по частинах мови (POS), запис цих даних у двомовних словниках може бути проблемою (Al-Kasimi, 1977). Традиційно двомовні словники з японською мовою не дозволяють записувати будь-яку інформацію про POS, залишаючи її користувачеві, щоб вивести цю інформацію з перекладу та прикладів (якщо такі є). На ранніх етапах проекту EDICT інформація про POS була навмисно утримана до мінімуму, наприклад, вказуючи, де глагол був транзитивним або неперехідним, коли це не було видно з перекладу, головним чином для збереження місця для зберігання. Оскільки існує безліч переваг для позначення POS у файлі електронного словника, POS-елемент був включений в структуру JMdict, а загальнодоступні класифікації POS використовувалися для заповнення більшої частини файлу. Близько 30% записів залишаються для класифікації; В основному, іменники або короткі іменні фрази.

У інтересах економити простір було прийнято раннє рішення, щоб уникнути переліку похідних форм слів. Наприклад, японський прикметник 高い(такай), що означає "високий, високий, дорогий", породжує форми 高さ(takasa) "висота" і 高く(такаку) "високо". Оскільки цей процес є дуже регулярним, багато японських словників не містять записів для похідних форм, а деякі двомовні словники йдуть за цим прикладом. Іншим таким прикладом є звичайна форма дієслова, яка іноді називається "словесним іменником", яка створюється шляхом додавання дієслова する(suru) "робити" до відповідних іменників. Дієслово "вчитися" - 勉強する(benkyōsuru), де 勉強 - це іменник, що означає "вивчення" в цьому контексті. Знову ж таки, японські словники часто не включають ці форми як основні слова, вважаючи за краще вказувати в тілі запису, що формування можливо.

Відсутність таких похідних форм означає, що при побудові перекладу потрібно дотримуватися обережності, щоб користувач легко зміг визначити відповідний переклад однієї з похідних форм.

У багатомовному контексті відсутність вихідних форм може мати інші проблеми. Як повідомлялося, запис дієслів す る тільки в їхній формі бази значень призводить до певного дискомфорту серед німецьких користувачів, оскільки орфографічна конвенція німецької мови капіталізує перші букви іменників, але не дієслова (у файлі WaDokuJT діє дієслово в якості окремих записів з цієї причини )

6 Включення та підтримка кількох мов

Як згадувалося вище, частина зацікавленості в тому, що записи з перекладами на різних мовах походять від складання декількох файлів словника на основі чи подібного до файлу EDICT. Існує ряд питань, пов'язаних із включенням матеріалів з інших файлів словника, зокрема тих, що стосуються політики компіляції: охоплення, обробка згладжених форм і т. Д. (Breen, 2002). Існує також основна проблема редагування та Зміст матеріалу, який має потенціал стати більш складним, оскільки кожна мова включається.

Підхід, прийнятий з JMdict, полягає в тому, щоб:

  1. Підтримувати основний японо-англійський файл із добре документованою структурою та набором правил включення та редагування;
  2. Заохочувати розробку та підтримку еквівалентних файлів іншими мовами в поєднанні з японською мовою, яка може використовувати матеріал JMdict / EDICT за необхідності;
  3. Періодично створювати повний багатомовний JMdict з різних компонентів.
Цей підхід виявився успішним, оскільки він відділив компіляцію файлу від поточного редагування компонентів і залишив останню в руках тих, хто має навички та мотивацію для виконання завдання.

На момент написання в JMdict файл має понад 99300 записів (японська та англійська), з яких 83 500 мають німецькі переклади, 58 000 - французькі переклади, 4 800 - російські переклади та 530 - голландські переклади. Підготовлено приблизно 4500 іспанських переказів, з перспективами, що в найближчим часом буде доступно близько 20 000.

Основними джерелами цих додаткових перекладів є:

  1. Французькі переклади з двох проектів:
    1. Приблизно 17 500 записів надходили з проекту "Словник для франкais-japonais" (Desperrier, 2002), проект з перекладу найбільш поширених японських слів з файлу EDICT на французьку мову;
    2. Ще 40 500 записів, зроблених з 仏語補完計画 (французько-японський проект поповнення) на http://francais.sourceforge.jp/ (цей проект також базується на файлі EDICT.)
  2. Німецькі переклади з проекту WaDokuJT (Apel, 2002). Це великий файл із понад 300 000 записів; Однак, на відміну від JMdict, він включає в себе багато фраз, власних імен та викривлених форм дієслів і т. Д. Перекриття охоплення з JMdict досить високе, що призводить до великої кількості записів, включених до файлу JMdict.

Одне з проблем, які можуть призвести до проблем при включенні перекладів з інших файлів проекту, полягає в тому, щоб вирівнювати переклади, коли запис має кілька сенсів. У випадку французької перекладу, координатор проекту позначив переклади багатозначних записів з кодом смислу, таким чином дозволяючи правильно вставити переклади під час складання остаточного файлу. Для інших мов переклади додаються до набору перекладів англійською мовою. Відповідне поводження з кількома сенсами є предметом майбутньої роботи.

7 прикладів використання слова

Коли проект був запущений та розроблений DTD, було передбачено, що будуть включені набори двомовних прикладів використання вхідних слів. З цієї причини елемент <example> був пов'язаний з кожним змістом, щоб дозволити для таких прикладів фрази, речення і т. Д. Бути включеними.

На практиці був зроблений зовсім інший підхід. З наявністю в 2001 році великого корпусу паралельних японських / англійських речень (Tanaka, 2001) було вирішено зберегти корпус недоторканими, а замість цього забезпечити об'єднання вибраних пропозицій з корпусу зі словами за допомогою словника програмного забезпечення ( Брін, 2003b). Ця стратегія, яка вимагала, щоб тіла, який потрібно було розібрати, для вилучення набору індексних слів для кожного речення, виявилося ефективним на рівні застосування. Це також має перевагу відокремлення змісту файлу словника від тексту прикладу corpus.

8 пов'язаних проектів

Окрім кількох невеликих слів із кількома європейськими мовами, єдиним великим поточним проектом, який намагається зібрати всеосяжну багатомовну базу даних, є проект Papillon (наприклад, Boitet et al., 2002). Див. Http://www.papillon-dictionary.org/ для повного переліку публікацій. Концепція Papillon включає в себе зв'язки на основі слів, як це було запропоновано в (Sérasset, 1994), з тоншою лексичною структурою, заснованою на Теорії сенсу тексту (MTT) (Mel'cuk, 1984-1996). На момент написання бази даних Papillon все ще перебуває в процесі заселення лексичною інформацією.

Тісно пов'язаний з проектом JMdict - це японський мовний словник з іменованим об'єктом (JMnedict). Це база даних з 400 000 японських назв місць та осіб, а також не японських назв у їхній японській орфографічній формі разом із романізованою транскрипцією японців (Breen, 2004b). Деякі географічні назви мають опис англійською мовою: мис, острів та ін., Які в процесі розповсюдження на інші мови. Файл JMnedict знаходиться у форматі XML з подібною структурою до JMdict.

Іншою багатомовною лексичною базою є KANJIDIC2 (Breen, 2004c), в якому міститься широкий спектр інформації про 13 039 кандзі у стандартах JIS X 0208, JIS X 0212 та JIS X 0213. Серед інформації для кожного кандзі це набір показань на японському, китайському та корейському мовах, а також широке значення кожного кандзі на англійській, німецькій та іспанській мовах. Готується набір португальських значень. База даних знаходиться у форматі XML.

9 додатків

Хоча існує цілий ряд експериментальних систем із використанням файлу JMdict, в даний час єдиною системою, що використовує повний багатомовний файл, є сервер Papillon. На малюнку 2 показано відображення цього сервера під час пошуку слова 川 柳. Авторський сервер WWWJDIC (Breen, 2003a) використовує японо-англійські компоненти файлу. Малюнок 3 являє собою витяг з дисплея WWWJDIC для слова 小人, який є прикладом запису з декількома кановими словами та сенсами, обмеженими читанням. (Маркери (P) вказують на більш поширені показники.)

Papillonex.gif

Рис. 2: Приклад папілонів для 川 柳

Wwwjzex.gif

Рис. 3: Приклад WWWJDIC для 小人

Японський словниковий файл EDICT, який створюється з тієї ж бази даних, що й файл JMdict, як і раніше, є основним некомерційним японсько-англійським лексичним ресурсом і використовується у великій кількості додатків і серверів, а також в Ряд дослідницьких проектів.

10 Висновок

Проект JMdict успішно розробив багатомовну лексичну базу даних з використанням японської мови як основної мови. Таким чином, він досяг лексичного покриття, порівнянний з друкованими словниками середнього розміру, і його компоненти використовуються у широкому діапазоні застосувань та дослідницьких проектів. Він також продемонстрував потенціал для повторного використання матеріалу з пов'язаних та співпрацюючих проектів лексики. Файли проекту JMdict легко доступні для використання дослідниками та розробниками, і вони можуть бути значним лексичним ресурсом у багатомовному контексті.

Список літератури

Аль-Касамі, AM 1977 мовознавство та двомовні словники, Е. Д. Брілл, Лейден

Apel, U. 2002. WaDokuJT - База японсько-німецьких словників, семінар Papillon 2002, NII, Токіо

Boitet, C, Mangeot-Lerebours, M, Sérasset, G. 2002 Проект PAPILLON: спільна робота з побудови багатомовної лексичної бази даних для отримання словників та словників з відкритим кодом, Proc. 2-го семінару NLPXML 2002, Post COLING 2002 семінар, під ред. Уїлкок, Іде і Ромарі, Тайбей, Тайвань.

Breen, JW 1995. Побудова електронного японо-англійського словника, конференція JSAA, Брісбен.

Breen, JW 2002. Практичні проблеми та проблеми створення багатомовного лексикону, семінар Papillon 2002, NII, Токіо.

Брін, JW 2003a. Японський словник WWW в "Мовному викладі на перехресті", Інститут Монаш Азії, Monash Univ. Прес

Брін, JW 2003b. Приклади використання слова в електронному словнику, семінар Papillon 2003, Саппоро.

Брін, JW 2004a. Проект EDICT, http://www.csse.monash.edu.au/~jwb/edict.html

Брін, JW 2004b. Проект ENAMDICT / JMnedict, http://www.csse.monash.edu.au/~jwb/enamdict_doc.html

Брін, JW 2004c. Проект KANJIDIC2, http://www.csse.monash.edu.au/~jwb/kanjidic2/

Desperrier, JM. 2002. Аналіз результатів спільного проекту створення японсько-французького словника, семінар Papillon 2002, NII, Токіо.

Мельчук, I, та ін. 1984-1996 рр. DEC: словник вивчення та комбінації французької сучасності, узагальнює лексико-семантику, Vols I-IV, Montreal Univ. Прес

Sérasset, G. 1994. SUBLIM: un Système Universel de Bases Lexicales Multilingues et NADIA: spécialisation aux basees lexicales interlingues par acceptances, (докторська дисертація) Joseph Furier University, Grenoble

Сперберг-Маккуїн, КМ. І Burnard, L. (ред.) 1999. Рекомендації для електронного кодування та обміну текстом. Оксфордський університет. Прес

Tanaka, Y. 2001. Складання багатомовного паралельного корпусу PACLING 2001, Японія.