fbpx

Каталог статей

Каталог статей для размещения статей информационного характера

Культура та мистецтво

Як визначити мову документа?

Визначити належність тексту до того чи іншого мови, при цьому не маючи професійних навичок, можна трьома способами:
– запитати у кого-то (головний мінус – цього комусь все одно доведеться скористатися одним з двох варіантів);
– спробувати пізнати мову за зустрічається в тексті географічними назвами. Але, по-перше, відразу виключаються всі мови не на основі кирилиці або латиниці, по-друге, таких назв може і не бути (або до мови тексту вони можуть не мати відношення);
– скористатися спеціальними програмами.
Ось про спеціальних програмах і піде мова. Щоб скористатися визначником мови, достатньо ввести в спеціальне поле будь-буквену частину тексту і натиснути кнопку «Визначити мову». Однак відразу ж обговоримо 2 головних мінуса таких програм:
– необхідно мати електронний варіант тексту (набраний у текстовому редакторі), щоб з нього скопіювати частину (в крайньому випадку – якісно видрукуваний паперовий варіант, який можна розпізнати за допомогою сканера або просто підібрати в Інтернеті необхідні символи);
– програма визначає лише ті мови, які заклали в неї розробники (список мов, як правило, додається).
Для випробування пропонованих в мережі програм-перекладачів були обрані наступні:
– Розробка компанії Xerox.
– Програма Talenknobbel Результат тут видається у вигляді списку з 19 мов і, відповідно, ступеня схожості введеного тексту з кожним з них.
– Програма Polyglot 3000. Онлайнову версію знайти не вдалося, тому програму довелося завантажити з сайту розробника (благо, вона безкоштовна і «важить» трохи більше 2 Мб).
– Перевірка буде полягати у введенні фраз на різних мовах по черзі в кожний з визначників і порівняння результатів.
I. Тестуємо першою прийшла на розум німецької фразою «ich bin»:
Вирок першої програми – німецький.
А ось друга не справляється навіть з такої простенької завданням і вказує на те, що фраза найбільше схожа на …латинь. І все б нічого, але в списку 19 мов німецький за ступенем схожості стоїть аж на 15-му місці. Третя програма мова визначати відмовилася, зазначивши лише, що введений текст латиницею.
II. Ускладнюємо завдання і вводимо данський текст.
Що означає фраза «Herved attesterer jeg underskriften af registratoren» ми не знаємо, але для експерименту це не так важливо. Результат той же: перша програма знову не помиляється, а друга і третя знову не вгадують, показуючи максимальну схожість з норвезькою мовою.
III. Задаємо китайські ієрогліфи.
Результат загадковий: перші дві програми нічого не показали, а третя визначила тільки сімейство мов.
IV. Ставимо витончений досвід: надаємо програмами можливість визначити одну з мов колишньої Югославії (жорстоко, але що ж робити).
Беремо словенська: «Namestnik nacelnika oddelka Drzavne davcne uprave». Результат змушує нас розпрощатися з одним із тестованих (Talenknobbel), оскільки в якості відповіді він визначає мова африкаанс (африканський діалект нідерландської). Як кажуть, хороша програма, шкода, що не працює. Інші два учасника, на диво, без проблем справляються з завданням.
V. Наостанок, перевіримо їх одним із східних мов з арабською писемністю. Візьмемо фарсі.
«???? ??? ??? ???? ?? ?? ???? ??? ??? ???? ??? ?????? ?? ???????? ?? ?? ??????? ???? ???». (якщо у вас не виходить скопіювати цей приклад, повірте нам на слово).
Перша програма, на жаль, не справляється, зате відмінно це робить третя. Наш вирок – дуже навіть непогано. Дві з трьох програм функціонують справно і на них можна без особливих побоювань покластися.
Ну а якщо у вас немає можливості це зробити, зверніться за допомогою до всезнаючим фахівцям бюро перекладів. У них напевно такі програми теж встановлено.
Автор: Олексій Жерновенков
Керівник відділу позаштатних перекладачів Гольфстрім
Джерело: Бюро перекладів-Гольфстрім