Русско-китайский параллельный корпус НКРЯ

Нкря

Страница не найдена (ошибка 404)

This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.

Necessary
Always Enabled

Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.

Non-necessary

Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.

Bad title

The requested page title is invalid. It may be empty, contain unsupported characters, or include a non-local or incorrectly linked interwiki prefix. You may be able to locate the desired page by searching for its name (with the interwiki prefix, if any) in the search box.

Possible causes are:

  • an attempt to load a URL such as https://en.wikipedia.org/wiki/| (the | character is unsupported);
  • an attempt to load a URL pointing to a «non-local» interwiki page (usually those not run by the Wikimedia Foundation). For example, the URL https://en.wikipedia.org/wiki/meatball:WikiPedia will give this error, because the «meatball:» interwiki prefix is not marked as local in the interwiki table. Certain interwiki prefixes are marked as local in the table. For example, the URL https://en.wikipedia.org/wiki/meta:Main_Page can be used to load meta:Main_Page. All interlanguage prefixes are marked as local, and thus URLs such as https://en.wikipedia.org/wiki/fr:Accueil will work as expected. However, non-local interwiki pages can still be accessed by interwiki linking or by entering them in the search box. For example [[meatball:WikiPedia]] can be used on a page, like this: meatball:WikiPedia.

Retrieved from «https://en.wikipedia.org/wiki/Special:Badtitle»

  • Privacy policy
  • About Wikipedia
  • Disclaimers
  • Contact Wikipedia
  • Code of Conduct
  • Developers
  • Statistics
  • Cookie statement
  • Mobile view

404: Page not found

Sorry, we’ve misplaced that URL or it’s pointing to something that doesn’t exist. Head back home to try finding it again.

Проект выполнен при поддержке:
— Центра академического развития студентов в рамках Конкурса инициативных коллективных исследовательских проектов студентов Национального исследовательского университета «Высшая школа экономики»
— Комиссии по поддержке образовательных инициатив ФГН НИУ ВШЭ в рамках Конкурса проектных групп для обучающихся НИУ ВШЭ ФГН (название проекта — «Лингвоспецифическая разметка китайских текстов в Русско-китайском параллельном корпусе НКРЯ»)

404: Page not found

Sorry, we’ve misplaced that URL or it’s pointing to something that doesn’t exist. Head back home to try finding it again.

Проект выполнен при поддержке:
— Центра академического развития студентов в рамках Конкурса инициативных коллективных исследовательских проектов студентов Национального исследовательского университета «Высшая школа экономики»
— Комиссии по поддержке образовательных инициатив ФГН НИУ ВШЭ в рамках Конкурса проектных групп для обучающихся НИУ ВШЭ ФГН (название проекта — «Лингвоспецифическая разметка китайских текстов в Русско-китайском параллельном корпусе НКРЯ»)

Нкря

Канал об обновлениях, пополнениях и советах по работе с НКРЯ не только для лингвистов, но и для всех интересующихся русским языком.
Сайт Корпуса http://ruscorpora.ru

About
Blog
Apps
Platform

НКРЯ Национальный корпус русского языка
1.27K subscribers

Обновлен дизайн сайта НКРЯ. Главная страница и страницы с информацией о корпусе теперь отображаются в новом интерфейсе. Существенно переработаны и дополнены тексты о проекте, обновлена информация о структуре и составе корпусов в составе НКРЯ. Появился новый раздел «Вопросы и ответы», который позволяет узнать об основных особенностях корпуса.

Частично также обновлена английская версия сайта. Новый сайт адаптирован под мобильные устройства.

Страницы поиска и выдачи пока остаются в старом интерфейсе. Постепенно все страницы корпуса перейдут на новый интерфейс. Просим вас активно пользоваться новой версией сайта и сообщать нам о всех замеченных ошибках.

791 views 15:08
Channel photo updated

В мае в новой версии Корпуса произошли следующие изменения:

Основной корпус пополнен до 375 млн словоупотреблений. В него вошли, в частности, тексты дневников и воспоминаний XIX—XXI вв. из проекта «Прожито», художественная литература, журналистика и переписка XIX — начала XX в. (как в старой, так и в новой орфографии), включая массовую литературу, проза XX — начала XXI в., коллекция современных путеводителей, собрание современных научных текстов разных жанров (тезисы, программы, учебные пособия, задачи, конспекты), коллекция производственно-технических инструкций и пособий.

В древнерусском корпусе появилась возможность сортировки текстов по метатекстовым признакам (дата создания, дата изготовления списка, жанр).

465 views 17:30
Channel name was changed to « НКРЯ Национальный корпус русского языка »

В июне в новой версии Корпуса произошли следующие изменения:

Увеличен размер выдачи в Excel в основном и газетных корпусах: теперь при большом количестве результатов поиска можно скачать 5000 результатов в таблицу Excel из любого режима выдачи.

В мультимедийном корпусе доступен поиск жестов по основному органу vs. по активному органу. Исправлен ряд мелких ошибок мультимедийного корпуса.

448 views 11:33

Начиная с августа поиск по всем корпусам Национального корпуса русского языка доступен только в новой версии. Старая версия корпуса закрыта.

Улучшена работа русского и англо-русского мультиязычных корпусов, в них исправлен ряд мелких ошибок.

419 views 20:07

Пополнен Параллельный корпус. В чешско-русскую часть включены материалы современных чешских СМИ, а также художественная проза и публицистика XIX—XXI веков. Во французско-русскую часть включены художественные и научные тексты. Объем параллельного корпуса вырос до 166 млн словоформ.

359 views 09:03

Существенно обновлен интерфейс поиска по основному корпусу. Мы постарались сделать поиск более современным и учесть пожелания, связанные с удобством работы.

Для тех пользователей, которые только знакомятся с новым интерфейсом или с корпусом, на главной странице появился новый функционал «Обзор возможностей». Задав слово или словосочетание, вы увидите, какие виды результатов поиска можно получить в НКРЯ, узнаете о возможных ошибках при задании запроса и сможете перейти к поиску по корпусу.

В интерфейсе основного корпуса произошли следующие изменения:

В форме лексико-грамматического поиска по основному корпусу блоки с условиями на слово теперь расположены не сверху вниз, а слева направо. Это позволяет самостоятельно добавить нужное количество слов и для каждого из них задать только те условия, которые необходимы для исследования. В наборе условий, доступных в основном корпусе, теперь появилось отдельное поле «Словоформа».

В верхней части всплывающего окна при выборе значений атрибутов появляется формула поиска, объединяющая выбранные значения. Во всплывающих окнах для выбора атрибутов текстов списки значений теперь учитывают изменения в разметке текстов: тексты с новым атрибутом сразу можно найти, а атрибуты, тексты с которыми отсутствуют в корпусе, не отображаются в списке.

Подкорпус теперь можно задать как до, так и после задания запроса, а вместо всплывающих окон с большим количеством значений для художественных и нехудожественных текстов сделан компактный выбор из списков.

Как параметры запроса, так и параметры подкорпуса запоминаются, их можно отредактировать в любой момент.

На странице с результатами поиска отображаются все параметры запроса и параметры подкорпуса (если он задан). Все настройки и выбор способа сортировки теперь сосредоточены в верхней части страницы и сохраняются в браузере пользователя.

Этот список изменений далеко не полон, подробнее об изменениях можно почитать в руководстве пользователя.

Существенно изменилось также внутреннее устройство системы. Основной корпус переведен на корпусную платформу нового поколения, разработанную в рамках гранта МОН № 075-15-2020-793. Корпусная платформа, конфигурация корпусов и пользовательский интерфейс теперь представляют собой отдельные, но системно связанные посредством API части НКРЯ.

Планируется постепенный перевод остальных корпусов на новый интерфейс и новую платформу.
Просим вас активно пользоваться новой версией сайта и сообщать нам о всех замеченных ошибках.

405 views 17:47

В наших больших корпусах появились новые типы разметки с использованием нейросетевых методов — это лексико-грамматическая разметка с автоматическим разрешением омонимии и автоматическая синтаксическая разметка. Сегодня поиск по такой разметке открыт в Газетном корпусе региональных СМИ, на следующем этапе он станет доступен для основного и газетного корпусов.
На всем объёме регионального корпуса автоматически разведены морфологические омонимы: например, существительное печь теперь размечено иначе, чем глагол печь, а дательный падеж — чем предложный. Можно искать такие синтаксические параметры, как разные типы сложных предложений, предикативных групп (клауз), дополнения, связки, обращения и многое другое. Синтаксическая разметка в региональном корпусе устроена иначе, чем в отдельном синтаксическом корпусе, и сильнее ориентирована на синтаксис составляющих.
Просим вас активно пользоваться новыми возможностями поиска и сообщать нам о всех замеченных ошибках.

В синтаксическом корпусе существенно пополнена информация о текстах: теперь пользователю показываются пол автора, сфера функционирования, тема и тип текста, издание и дата разметки. Для предложений с неоднословными оборотами (типа потому что или по меньшей мере) показывается два варианта структуры предложения: с пословным разбором и с разбором, где оборот представлен как одно слово. Объем корпуса вырос до 1,5 млн словоупотреблений.

455 views 17:59

Знаете ли вы, что в новом интерфейсе основного корпуса есть несколько способов поделиться результатами поиска?

* копирование короткой ссылки на результаты поиска
* копирование отдельного примера
* скачивание примеров в файл

435 views 15:23

Акцентологический корпус пополнен до 133,8 млн словоупотреблений.
Устный корпус пополнен до 13,9 млн словоупотреблений.

378 views 06:07

Обновлен интерфейс поиска по газетному и региональному корпусам. Мы включили газетные корпуса в Обзор возможностей, переработано и дополнено их описание на русском и английском языках.

В новом интерфейсе сайта ruscorpora.ru произошли следующие изменения:

На главной странице, нажав на ссылку «все корпуса», теперь можно открыть полный список, состоящий из 38 корпусов (включая все двуязычные пары параллельного корпуса, все исторические корпуса и др.). Перейти на форму поиска по любому корпусу можно, кликнув на его название.
На странице «Статистика» также приведен полный список корпусов с данными о количестве текстов, предложений и словоупотреблений.

Усовершенствованы формы поиска и отбора подкорпуса для всех корпусов, переведенных на новый интерфейс. Форма лексико-грамматического поиска развернута по умолчанию, при желании пользователь может раскрыть строку запроса поиска точных форм. Поле ввода леммы отображается первым в списке полей. При отборе подкорпуса предоставлена возможность выбрать диапазон дат обновления версий корпуса.

С помощью меню на кнопке «Искать» пользователь теперь может выбрать предпочтительный для себя вид выдачи (конкорданс, KWIC, графики, n-граммы). Выбор пользователя автоматически запоминается в браузере и показывается при следующих посещениях.

Во всплывающем окне при клике на слово в тестовом режиме отображаются «Похожие слова», т.е. слова, которые близко связаны с данным словом по смыслу и употребляются в схожих контекстах. Коэффициент близости слов, приведенный в скобках, подсчитывается с помощью моделей дистрибутивной семантики, построенных на материале основного корпуса НКРЯ и предоставленных проектом RusVectōrēs. Подробнее об этом эксперименте см. здесь.

Планируется постепенный перевод остальных корпусов на новый интерфейс и новую платформу. Просим вас активно пользоваться новой версией сайта и сообщать нам о всех замеченных ошибках.

ruscorpora.ru
Национальный корпус русского языка: поиск

Сайт Национального корпуса русского языка предоставляет пользователю возможности лингвистического поиска по корпусам, доступ к статистическим данным и инструме…

395 views edited 16:38

В корпусе региональных СМИ появилась возможность искать коллокации. Для поиска применяется статистический подход, то есть коллокациями считаются такие сочетания слов, которые встречаются совместно чаще, чем случайно. Для подсчета используются меры Dice, Loglikelihood, t-score, mi3 и агрегированная мера (геометрическое среднее мер t-score и mi3)

Подробнее о новой функциональности см. здесь

Параллельный корпус пополнен до 168,8 млн словоупотреблений. Новыми текстами расширены английская, немецкая, французская, испанская и чешская языковые пары.

Церковнославянский корпус пополнен до 5,3 млн словоупотреблений. В него частично вошли «Зеленые минеи» издания 2002 года в гражданской печати. Церковнославянский корпус получил более подробную метатекстовую разметку: все тексты размечены по дате издания, произведения Нового времени снабжены датировками и указаниями на авторство, а новые (с XVIII в.) литургические тексты – еще и сведениями об их разработке и утверждении.

Старорусский корпус пополнен до 8,8 млн словоупотреблений. Новые тексты – это том «Библиотеки литературы древней Руси», посвященный XVII веку (прозаические повести и песни), ранние тексты из «Писем и бумаг Петра Великого», посольская книга XVI в. по связям с Крымским ханством. Исправлена и дополнена морфологическая разметка ранее включенных в корпус текстов.

ruscorpora.ru
Национальный корпус русского языка: поиск

Сайт Национального корпуса русского языка предоставляет пользователю возможности лингвистического поиска по корпусам, доступ к статистическим данным и инструме…

399 views 14:59

В составе Национального корпуса русского языка создан Панхронический корпус. Он объединяет три исторических – древнерусский, корпус берестяных грамот и старорусский – и основной корпус. В совокупности Панхронический корпус охватывает тысячелетие истории русского языка, от 1020-х до 2020-х годов. В Панхроническом корпусе можно сформулировать запрос и найти результаты одновременно на всем этом хронологическом диапазоне.

Для этого мы унифицировали подачу лексической, орфографической и семантической разметки. Лемму можно задавать и в раннедревнерусском виде (съвѣдѣтель), и в позднем/старорусском (свѣдѣтель или свидѣтель), и в современном виде (свидетель): по каждому из этих запросов находятся и древние, и современные примеры. Точно так же в разном облике можно указывать и словоформы. Исторические тексты получили лексико-семантическую аннотацию.

ruscorpora.ru
Национальный корпус русского языка: поиск

Сайт Национального корпуса русского языка предоставляет пользователю возможности лингвистического поиска по корпусам, доступ к статистическим данным и инструме…

537 views 14:50

Корпус берестяных грамот пополнен текстами археологических находок 2021-го года, опубликованными в 2022-ом году: это очередные грамоты из Великого Новгорода и Старой Руссы, а также первая грамота из Переяславля Рязанского (современной Рязани).

В составе НКРЯ появился корпус «От 2 до 15», включающий 75 прозаических произведений отечественных и зарубежных авторов, которые читают современные дети и подростки. Главная отличительная особенность нового корпуса — автоматическая разметка фрагментов текста по возрасту читателей, которым эти фрагменты должны быть понятны. Модель работает в экспериментальном режиме, поэтому в разметке пока могут встречаться ошибки.

Существенно обновлен интерфейс обучающего корпуса, корпус подключен к «Обзору возможностей», обновлено и уточнено описание корпуса.

Разработан раздел «Упражнения на основе Корпуса», в котором представлены упражнения, составленные на материале Обучающего корпуса и других корпусов НКРЯ. Упражнения относятся к разным разделам школьного курса русского языка и предназначены для самостоятельной работы на уроке и дома, а также для контроля знаний. Мы планируем развивать и пополнять раздел новыми заданиями и приглашаем учителей и преподавателей принять в этом участие. Присылайте свои уникальные упражнения на адрес [email protected] с темой письма «Упражнения», и мы разместим их в этом разделе.

ruscorpora.ru
Национальный корпус русского языка: поиск

Сайт Национального корпуса русского языка предоставляет пользователю возможности лингвистического поиска по корпусам, доступ к статистическим данным и инструме…

434 views 15:42

Каждый корпус в составе НКРЯ получил свой собственный Портрет. Функционал «Портрет корпуса» задуман как инструмент, позволяющий пользователю НКРЯ проанализировать особенности корпуса и оценить, подходит ли корпус для решения его исследовательских или учебных задач. В портрет корпуса на данном этапе входит:
* описание корпуса
* частотный словарь (только в корпусе Региональных СМИ)

Все корпуса НКРЯ размечены тегами, позволяющими классифицировать корпуса по историческому периоду, типам текстов, наличию специфической разметки и т.д.

При наличии пользовательского подкорпуса пользователи также получают доступ к «Портрету подкорпуса». С помощью этого инструмента, нажав на (i) в шапке подкорпуса, можно увидеть список отобранных текстов, а также сравнить статистические характеристики подкорпуса и корпуса. Например, можно сравнить частотные словари регионального корпуса и отобранного в нем подкорпуса.

В 2023 году в портретах корпуса и подкорпуса появится больше статистических данных.

ruscorpora.ru
Портреты корпусов НКРЯ

Оценить, подходит ли корпус для решения задач исследования или преподавания, проанализировать специфику корпуса
Узнать, как создавался корпус, ключевых людей…

591 views 15:46

НКРЯ подвел итоги 2022-го года в Корпусе. Изменений в этом году много – объем Корпуса вырос в полтора раза и достиг 1,5 млрд словоупотреблений, в составе НКРЯ появилось два новых корпуса – Панхронический и «От 2 до 15», корпус берестяных грамот стал параллельным, в региональном корпусе появились автоматически снятая омонимия и новый функционал, связанный с сочетаемостью и частотностью. Закрыта старая версия Корпуса. Кроме того, НКРЯ переходит на новый интерфейс. Подробнее все изменения показаны на рисунке.

1.0K views 13:06

Существенно обновлен интерфейс старорусского корпуса, корпус подключен к обзору возможностей.

В региональном корпусе появился новый вид выдачи — Частотность, с помощью которого можно проанализировать статистическое распределение результатов поиска по леммам, словоформам и набору грамматических признаков. Частотность рассчитывается на основе разборов с автоматически снятой омонимией по случайной подвыборке размером 1 млн результатов поиска. Пользователи могут управлять уровнем доверительной вероятности для сравнения доверительных интервалов частотности.

Синтаксический корпус пополнен на 30 тыс. словоупотреблений.
Диалектный корпус пополнен до 604 тыс. словоупотреблений.

В частотных словарях корпуса и подкорпуса теперь выводится 500 лемм вместо 100.

ruscorpora.ru
Национальный корпус русского языка: поиск

Сайт Национального корпуса русского языка предоставляет пользователю возможности лингвистического поиска по корпусам, доступ к статистическим данным и инструме…

636 views 16:09

Существенно улучшена функциональность основного корпуса: в нем появилась лексико-грамматическая разметка с автоматическим разрешением омонимии и автоматическая синтаксическая разметка. Теперь в основном корпусе разведены морфологические омонимы, а также появилась возможность задавать поиск по таким синтаксическим параметрам, как типы сложных предложений, предикативных групп (клауз), дополнения, связки, обращения и многим другим. Новая разметка сделала доступными в основном корпусе все новейшие функции, появившиеся ранее в корпусе региональных СМИ: Поиск коллокаций, Частотный словарь, Частотность выдачи.

Кроме того, в основном и газетных корпусах появилась возможность задавать поиск лемм и словоформ с использованием регулярных выражений (β-версия), а также статистика корпуса и подкорпуса в виде таблицы с объемом в текстах и словах, географической карты (только для корпуса региональных СМИ) и диаграммы значений метаатрибутов, что дает пользователям возможность сравнивать заданный подкорпус с корпусом, в том числе визуально.

Существенно обновлен интерфейс церковнославянского корпуса, корпус подключен к обзору возможностей.

Мультимедийный корпус пополнен до 5,7 млн словоупотреблений.
Параллельный корпус пополнен до 168 млн словоупотреблений. В нем появились новые языковые пары: сербско-русская и словенско-русская (по 2 млн словоупотреблений каждая), а также небольшие пилотные корейско-русская и хинди-русская языковые пары с транслитерацией и словарной поддержкой. Последние две пары впервые в истории параллельного корпуса включают выровненные поэтические тексты. Пополнены новыми текстами также чешско-русская и испанско-русская языковые пары.

ruscorpora.ru
Национальный корпус русского языка: поиск

Сайт Национального корпуса русского языка предоставляет пользователю возможности лингвистического поиска по корпусам, доступ к статистическим данным и инструме…

653 views 16:02

Чтобы увидеть в одном месте всё, что мы знаем об интересующем слове, теперь можно воспользоваться функционалом Портрет слова. На сегодняшний день в Портрет слова входят:
— грамматические и семантические свойства слова
— Похожие слова β (только в основном корпусе)
— примеры употребления слова в корпусе
— распределение примеров по годам и по видам текстов

Для быстрого доступа к Портрету слова и другим возможностям корпуса, а также к Руководству пользователя, теперь можно воспользоваться баннерами на главной странице ruscorpora.ru.

Вид выдачи Частотность усовершенствован:
— Добавлен столбец «Вхождения»
— По просьбе наших активных пользователей в столбцах со словами и с расстояниями теперь можно отключить группировку и получить частотность сочетания слов с любым расстоянием между ними (в пределах расстояния, заданного в исходном запросе). Кроме того, можно выставить группировку по лемме/словоформе/грамматическим признакам только для части слов, а данные по остальным словам получить без группировки. Например, по запросу красивый + существительное можно получить распределение частотности всех существительных, встречающихся в результатах поиска, а можно посмотреть общую частотность для сочетания с любым существительным
— Объем скачанной таблицы с «сырыми» данными может достигать 5000 строк

В частотном словаре подкорпуса добавлена возможность сортировки по разнице рангов леммы в корпусе и подкорпусе. Например, в корпусе текстов, написанных женщинами, при выборе этой сортировки можно получить сначала список слов, входящих в первые 500 только в подкорпусе (девочка, папа, сестра, помочь, стараться, страшный и др.), а потом представленные с повышенной частотностью по сравнению со всем корпусом (семья, муж, квартира, рядом, рассказать, проблема, искусство и др.)

В составе НКРЯ появился новый корпус текстов «Русская классика», включающий художественную прозу, публицистические и эпистолярные произведения из представительных академических собраний сочинений русских классических писателей XIX – начала XX вв.: Пушкина, Баратынского, Гоголя, Толстого, Тургенева, Чехова и других (значительная часть этих текстов входят и в Основной или Поэтический корпус). Сейчас корпус представлен в бета-версии («Русская классика β»), планируется его пополнение новыми авторами и произведениями. Объем корпуса – более 17,5 млн словоупотреблений.

Существенно обновлен интерфейс Корпуса берестяных грамот, корпус подключен к обзору возможностей. Для поиска доступна раннедревнерусская лемма (не только слати, но и сълати). Важное нововведение – оригинал и переводы теперь выводятся в две колонки, в правой колонке можно выбрать перевод – русский или один из двух английских.

ruscorpora.ru
Национальный корпус русского языка: поиск

Сайт Национального корпуса русского языка предоставляет пользователю возможности лингвистического поиска по корпусам, доступ к статистическим данным и инструме…

Нкря

новая эра в общении

Теперь пользователи могут отправлять подарки друзьям. Получатель сможет добавить подарок в свой профиль или превратить его в звёзды.

5 окт. 2024

С сегодняшнего дня группы и каналы могут раздавать Звёзды Telegram в качестве призов в розыгрышах. Кроме того, в браузере Telegram теперь можно открыть любую статью в режиме быстрого…

Источники:

https://sysblok.ru/nlp/korpus-dlja-vseh-kak-ispolzujut-nkrja/&rut=12b17ce9401d791bf72ee1f41281c723ecb32edb4e51aa84a39c08c5cdf37e36
https://en.wikipedia.org/wiki/Russian_National_Corpus&rut=e3a702aaf9303db8836b0a51550a2bc7c159f6fc888578aa0da67ea3f23b3c5c
http://ruzhcorp.ruscorpora.ru/&rut=4a881a33116d5ab26d13f123a2f1cae8cc8f7a508d009fd837efb501d2a3ae53
http://ruzhcorp.ruscorpora.ru/cn/&rut=52f0f722d5aebcf33bc626732e47135f76cc019e6e8bab03f8b104718f2953ee
https://t.me/s/ruscorpora?before=26&rut=18918d9a94804459d089fafc082af39639236f6f2b3c64b0d7bb0d9f10e1ade4
https://t.me/ruscorpora&rut=54fce2a0a341d772623311157f344bab396065091a785a57af7befb51c7851e6