Машинный фонд русского языка

Машинный фонд русского языка

Машинный фонд русского языка — проект создания большого представительного корпуса русского языка. Опыт МФРЯ используется при разработке, начиная с 2004 года, Национального корпуса русского языка.

Содержание

Программа по созданию МФРЯ

Отдел Машинного фонда русского языка был создан в 1985 г. по инициативе академика А. П. Ершова, после состоявшейся в 1983 г. специальной всесоюзной конференции[1]Под руководством член-корреспондента АН СССР Ю. Н. Караулова была разработана "Комплексная программа научных исследований и прикладных разработок по созданию Машинного фонда русского языка на 1996—2000 годы и информатизации исследований в Институте русского языка АН СССР.

В создании Машинного фонда русского языка (1986—1990 гг) принимали участие более 40 организаций-соисполнителей, среди них Московский, Санкт-Петербургский, Харьковский, Гродненский, Сыктывкарский и Саратовский университеты.

Под комплексной информатизацией научных исследований и прикладных разработок в русистике понималось:

  • Последовательное оснащение отделов Института русского языка и организаций-соисполнителей современными вычислительными машинами с перспективой объединения их в локальную сеть (не выполнено)
  • Последовательное накопление на машинных носителях и в базах данных главнейших источников, необходимых как для научного изучения русского языка, так и для осуществления прикладных разработок (выполнено частично)
  • Создание программных средств, необходимых как для подготовки научных трудов по филологии, так и для проведения прикладных разработок (разработаны 2 программы под MS DOS и переведены в электронный вид несколько словарей);
  • Развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке) как составной части академической русистики, являющихся, с одной стороны, проводником результатов фундаментальных исследований в практику, а с другой — источником новых идей и данных для фундаментальной науки. (программа не реализована)

Реализация программы (1985—1992)

За 8 лет работы отделом Машинного фонда русского языка (частично с участием соисполнителей) были осуществлены:

  • Разработка концепции и архитектуры Машинного фонда русского языка [2].
  • Разработка концепции терминологического банка данных [3]
  • Накопление значительного количества источников — накоплены на машинных носителях и частично в базах данных текстовые источники русской литературы XIX—XX вв., главнейшие словари русского языка, Краткая академическая грамматика, некоторые другие материалы справочного характера, созданы текстовые корпусы поэзии, художественной прозы, общественно-политических и технических текстов [4]
  • Разработка программы 2-ух программ под управлением MS DOS:
 — UNILEX-T для изготовления частотных словарей, словоуказателей (индексов слов к текстам) и конкордансов и работы с последними [5]
 — UNILEX-D для создания словарных баз данных и работы с последними.[6]
  • Разработка программно-источниковых пакетов (их разработка была остановлена), например:
Автоматический Синтаксический словарь русского языка
Автоматический словарь синонимов русского языка
Автоматический вариант Словаря русского языка С. И. Ожегова
Автоматический словарь глагольного управления в русском языке.[7]

Деятельность отдела МФ русского языка (1992—1998)

Полномасштабные испытания систем обработки лингвистических данных UNILEX путем участия в подготовке Орфографического словаря и Словаря поэзии XX в.

Ускоренное накопление новых источников на основе электронных изданий газет и сканирования произведений русского классической литературы. Полный архив источников Машинного фонда русского языка сейчас составляет более 100 млн словоупотреблений;

Работа над словарем языка Ф. М. Достоевского[8]

Накопление источников в целях широкого дистрибутивно-статистического исследования русской прозы последней трети XIX в. и газет конца XX в.,

Накопление и анализ дистрибутивно-статистических данных, подготовка публикаций сводных данных [9]

Анализ деятельности по развитию МФ русского языка

Концепция развития МФ русского языка (1983 год)

  • создание компонентов лингвистического обеспечения задач информатики и
  • информатизация научных исследований в русистике.

Оказалось, что[источник не указан 431 день]

  • информатизация русистики требует использования всех достижений прикладной (вычислительной) лингвистики.
  • использование достижений прикладной лингвистики в русистике может быть осуществлено только на достаточно богатой источниковой базе и должно быть нацелено на выдачу результатов в полиграфической форме.

Современные задачи создания МФРЯ

  • дистрибутивно-статистический анализ и накопления лингвистических ресурсов в интернете
  • накопление источников на сайтах Фонда
  • дальнейшее развитие функций Автоматической словарной картотеки Фонда
  • конструирование глобальной лингвостатистической обработки всех текстовых источников Фонда в интерактивном режиме [10]

Примечания

  1. Материалы опубликованы в книге Машинный фонд русского языка: идеи и суждения, М.: Наука, 1989
  2. Опубликована в книге В. М. Андрющенко Концепция и архитектура Машинного фонда русского языка, М.: 1989
  3. Опубликована в книге Лингвистическая концепция терминологического банка данных Машинного фонда русского языка (проект), под ред. А. С. Герда, М.: 1989
  4. содержание Архива источников было опубликовано в Бюллетене Машинного фонда русского языка, вып. 1; сейчас оно сильно устарело и нынешнее состояние архива лучше всего отражено здесь:[1] [2]
  5. Разработчик Ж. Г. Аношкина
  6. Разработчик Л. И. Колодяжная
  7. Описания в Бюллетене Машинного фонда русского языка, вып. 1-3).
  8. под руководством Ю. Н. Караулова
  9. первый результат такой публикации — книга А. Я. Шайкевича, В. М. Андрющенко и Н. А. Ребецкой «Статистический словарь языка Ф. М. Достоевского»
  10. образец такой обработки представлен в Статистическом словаре языка Достоевского). В. М. Андрющенко

Литература

  • Ершов А. П. Машинный фонд русского языка: внешняя постановка, в кн. «Машинный фонд русского языка: идеи и суждения», Наука, Москва: 1986.
  • Сборник «Машинный фонд русского языка: идеи и суждения», Наука, Москва: 1986.
  • Андрющенко В. М. Концепция и архитектура Машинного фонда русского языка, Наука, Москва: 1989.
  • Андрющенко В. М. Разработка комбинированных изданий (книга+CD+Internet), в: Московский лингвистический журнал, т.7 № 1, 2003.
  • Лесников С. В. Машинный фонд русского языка в публикациях (1985—1998)
  • Шайкевич А. Я. Дистрибутивно-статистический анализ в семантике, в: Принципы и методы семантических исследований, Наука, Москва: 1976.
  • Шайкевич А. Я. Гипотезы о естественных классах и возможность количественной таксономии в лингвистике, в: Гипотеза в современной лингвистике, Наука, Москва: 1979.
  • Шайкевич А. Я., Андрющенко В. М., Ребецкая Н. А. Статистический словарь языка Достоевского, Изд-во «Языки славянской культуры», Москва: 2003.

См. также

Национальный корпус русского языка

Ссылки


Wikimedia Foundation. 2010.

Игры ⚽ Нужен реферат?

Полезное


Смотреть что такое "Машинный фонд русского языка" в других словарях:

  • Машинный Фонд русского языка — проект создания большого представительного корпуса русского языка в СССР в 1980 е годы. Содержание 1 История 2 Литература 3 См. также 4 Ссылки …   Википедия

  • Диалектологический атлас русского языка — …   Википедия

  • Герд, Александр Сергеевич — В Википедии есть статьи о других людях с такой фамилией, см. Герд. Александр Сергеевич Герд Дата рождения: 23 июня 1936(1936 06 23) (76 лет) Научная сфера …   Википедия

  • Нина Леонтьева — Нина Николаевна Леонтьева русский лингвист, специалист по структурной и прикладной лингвистике (ПЛ), преподаватель. Содержание 1 Биография 1.1 Основные труды 1.1.1 1958 1.1.2 1959 1.1.3 1961 …   Википедия

  • Нина Николаевна Леонтьева — русский лингвист, специалист по структурной и прикладной лингвистике (ПЛ), преподаватель. Содержание 1 Биография 1.1 Основные труды 1.1.1 1958 1.1.2 1959 1.1.3 1961 …   Википедия

  • Русистика — как филологический термин имеет двоякое содержание. В широком понимании русистика  это область филологии, занимающаяся русским языком, литературой, словесным фольклором; в узком смысле слова русистика  наука о русском языке в его истории и… …   Лингвистический энциклопедический словарь

  • Лесников — Лесников, Сергей Владимирович Лесников Сергей Владимирович Сергей Владимирович Лесников (род. 3 июня …   Википедия

  • Лесников, Сергей Владимирович — Лесников Сергей Владимирович Сергей Владимирович Лесников (род. 3 июня 1959, Микунь) российский лингвист, специалист в области информатики и информационных технологий, компьютерной лингвистики, математической лингвистики и русистики, кандидат… …   Википедия

  • Сергей Владимирович Лесников — Лесников Сергей Владимирович Сергей Владимирович Лесников (род. 3 июня 1959, Микунь) российский лингвист, специалист в области информатики и информационных технологий, компьютерной лингвистики, математической лингвистики и русистики, кандидат… …   Википедия

  • Сергей Лесников — Лесников Сергей Владимирович Сергей Владимирович Лесников (род. 3 июня 1959, Микунь) российский лингвист, специалист в области информатики и информационных технологий, компьютерной лингвистики, математической лингвистики и русистики, кандидат… …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»