Як визначити мову документа?
Визначити належність тексту до того чи іншого мови, при цьому не маючи професійних навичок, можна трьома способами:
– запитати у кого-то (головний мінус – цього комусь все одно доведеться скористатися одним з двох варіантів);
– спробувати пізнати мову за зустрічається в тексті географічними назвами. Але, по-перше, відразу виключаються всі мови не на основі кирилиці або латиниці, по-друге, таких назв може і не бути (або до мови тексту вони можуть не мати відношення);
– скористатися спеціальними програмами.
Ось про спеціальних програмах і піде мова. Щоб скористатися визначником мови, достатньо ввести в спеціальне поле будь-буквену частину тексту і натиснути кнопку «Визначити мову». Однак відразу ж обговоримо 2 головних мінуса таких програм:
– необхідно мати електронний варіант тексту (набраний у текстовому редакторі), щоб з нього скопіювати частину (в крайньому випадку – якісно видрукуваний паперовий варіант, який можна розпізнати за допомогою сканера або просто підібрати в Інтернеті необхідні символи);
– програма визначає лише ті мови, які заклали в неї розробники (список мов, як правило, додається).
Для випробування пропонованих в мережі програм-перекладачів були обрані наступні:
– Розробка компанії Xerox.
– Програма Talenknobbel Результат тут видається у вигляді списку з 19 мов і, відповідно, ступеня схожості введеного тексту з кожним з них.
– Програма Polyglot 3000. Онлайнову версію знайти не вдалося, тому програму довелося завантажити з сайту розробника (благо, вона безкоштовна і «важить» трохи більше 2 Мб).
– Перевірка буде полягати у введенні фраз на різних мовах по черзі в кожний з визначників і порівняння результатів.
I. Тестуємо першою прийшла на розум німецької фразою «ich bin»:
Вирок першої програми – німецький.
А ось друга не справляється навіть з такої простенької завданням і вказує на те, що фраза найбільше схожа на …латинь. І все б нічого, але в списку 19 мов німецький за ступенем схожості стоїть аж на 15-му місці. Третя програма мова визначати відмовилася, зазначивши лише, що введений текст латиницею.
II. Ускладнюємо завдання і вводимо данський текст.
Що означає фраза «Herved attesterer jeg underskriften af registratoren» ми не знаємо, але для експерименту це не так важливо. Результат той же: перша програма знову не помиляється, а друга і третя знову не вгадують, показуючи максимальну схожість з норвезькою мовою.
III. Задаємо китайські ієрогліфи.
Результат загадковий: перші дві програми нічого не показали, а третя визначила тільки сімейство мов.
IV. Ставимо витончений досвід: надаємо програмами можливість визначити одну з мов колишньої Югославії (жорстоко, але що ж робити).
Беремо словенська: «Namestnik nacelnika oddelka Drzavne davcne uprave». Результат змушує нас розпрощатися з одним із тестованих (Talenknobbel), оскільки в якості відповіді він визначає мова африкаанс (африканський діалект нідерландської). Як кажуть, хороша програма, шкода, що не працює. Інші два учасника, на диво, без проблем справляються з завданням.
V. Наостанок, перевіримо їх одним із східних мов з арабською писемністю. Візьмемо фарсі.
«???? ??? ??? ???? ?? ?? ???? ??? ??? ???? ??? ?????? ?? ???????? ?? ?? ??????? ???? ???». (якщо у вас не виходить скопіювати цей приклад, повірте нам на слово).
Перша програма, на жаль, не справляється, зате відмінно це робить третя. Наш вирок – дуже навіть непогано. Дві з трьох програм функціонують справно і на них можна без особливих побоювань покластися.
Ну а якщо у вас немає можливості це зробити, зверніться за допомогою до всезнаючим фахівцям бюро перекладів. У них напевно такі програми теж встановлено.
Автор: Олексій Жерновенков
Керівник відділу позаштатних перекладачів Гольфстрім
Джерело: Бюро перекладів-Гольфстрім