Kafe-sviaz.ru

Финансовый журнал
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Математические методы анализа текстов

Математические методы анализа текстов (ВМиК МГУ) / 2017

Материал из MachineLearning.

Содержание

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.

Обработка естественного языка (Natural Language Processing) — широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.

Контакты

  • Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
  • Лектор: Виктор Китов
  • Семинаристы: Анна Потапенко, Мурат Апишев
  • Почта курса: nlp.msu@gmail.com.
  • Здесь вы в любой момент можете оставить анонимный отзыв или предложение.

Правила игры

  • Оценка за курс: за семестровую работу можно получить до 70 баллов (без учёта призовых баллов конкурса), на экзамене — 30 баллов (10 за тройку, 20 за четвёрку и 30 за пятёрку). Итоговая оценку за курс определяется следующей шкалой: 40+ баллов = 3, 60+ баллов = 4, 80+ баллов = 5. Автоматом ставится только оценка 5.
  • Виды активностей:
    • Практические работы (ориентировочно 4 задания)
    • Конкурс на Kaggle в рамках группы
    • Разбор научной статьи в области NLP (выступление или реферат)
  • Практические задания выполняются на языке Python с использованием внешних библиотеки. Помимо кода ожидается отчет c подробными выводами. Задания, присланные позже дедлайнов, не принимаются. При обнаружении плагиата все участники получают 0 баллов.
  • Выбрать статью для разбора можно самому (и написать об этом на почту курса!) или взять одну из списка (будет пополняться).

Экзамен

Выставление оценок по общим баллам:

Программа курса

  • Предварительная обработка текста
    • Токенизация, лемматизация, выделение коллокаций, регулярные выражения
  • Модели для работы с последовательностями
    • Скрытая марковская модель, модели максимальной энтропии и условные случайные поля
    • Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
  • Синтаксический анализ
  • Классификация текстов
  • Вероятностные модели
    • Модель языка, N-граммы, сглаживание, концепция шумного канала
    • Применение в задачах исправления опечаток и машинного перевода
  • Глубокие нейронные сети в анализе текстов.
  • Тематические модели, дистрибутивная семантика, векторные представления слов.
  • Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
  • Определение тональности текстов.
Домашние задания

Внимание: необходимо выбрать статью для разбора и написать об этом на почту курса!

Статистические методы анализа литературного текста

Содержание

АТРИБУТОР

Программа-атрибутор представляет собой лингвистический процессор для автоматического сравнения и классификации текстов по параметрам индивидуального авторского стиля. Первая версия программы настроена для сравнения художественных прозаических текстов, в основном романов.Источник

Задача проекта

— чтение и обработка присылаемого пользователем текста неизвестного происхождения

Цель проекта

— распознания автора текста или выдачи списка наиболее близких к нему по стилистике авторов из числа входящих в некоторый заранее заданный перечень «эталонных» авторов.

Исторический аспект

Первая выставленная в Интернете версия лингвоанализатора, использующая в качестве стилевых признаков буквосочетания (бинарные), принадлежит Д.Хмелеву и работает с августа 1999 года источник.

В эталонную выборку, на которой происходило обучение атрибутора, попали в основном романы и повести отечественных писателей 19 — 20 веков. Начальная выборка была получена от Д.Хмелева и состояла в основном из фантастических романов, собранных на сайте Русская фантастика. Оказалось, что в ней много мусора — произведений, написанных в соавторстве, коллективно и т.п., много технически дефектных файлов. В результате очистки выборки — выбрасывания лишнего и добавления недостающего — сейчас она состоит из произведений 103 авторов. Пополнение шло за счет ресурсов известных электронных библиотек, наибольшее количество текстов было получена в библиотеке Максима Мошкова. Источник

Теоретический аспект

Распознавание автора текста с использованием цепей А.А.Маркова Статья Д.Хмелёва

Методологический аспект

Предусмотрены три варианта вывода:

Скорее всего, этот текст принадлежит . Этот вывод означает, что в нашей выборке имеются тексты присланного на исследования писателя. Автора этого текста в нашей базе, по-видимому, нет. Этот вывод означает, что присланный текст содержит особенности индивидуального стиля, по которым он достаточно резко отличается от имеющихся в выборке писателей.

Этот текст, по-видимому, не содержит индивидуальных стилистических черт.

Этот вывод означает, что присланный текст по стилистике не совпадает определенно ни с одним из имеющихся в выборке писателей и, в то же время, не имеет резких отличий сразу от нескольких из них.

Возможны как минимум два объяснения. Во-первых, расплывчатость стилистических показателей может быть связана с неоднородностью стилистики — отдельные фрагменты текста могут быть написаны настолько по-разному, что суммарный показатель оказывается излишне усредненным. Существует достаточно много художественных текстов, где стилистическая чересполосица (так сказать «полифония») входит в писательский замысел. Во-вторых, расплывчатость стиля может появляться вследствие подражательности или коллективного авторства, особенно в том случае, когда соавторы пишут по главам. Для того, чтобы оценить исследуемый текст, его нужно скопировать в окно атрибутора. Для этого необходимо открыть этот текст в текстовом редакторе или просмотровике и левой кнопкой мыши выделить его целиком или выделить достаточный для атрибуции фрагмент. После этого требуется нажать правую кнопку мыши и в появившемся меню выбрать пункт «Копировать» («Copy»). В результате текст оказывается скопированным в буфер операционной системы. После этого необходимо стать курсором в окно атрибутора и нажать правую кнопку мыши. В появившемся меню выбрать пункт «Вставить» («Paste») и дождаться, пока текст появится в окне. После этого можно нажимать кнопку «Начать атрибуцию» и через некоторое время смотреть на полученный результат.Статья Тимашева А.Н.

Читать еще:  Метод анализа временных рядов

В качестве признаков для анализа и оценки индивидуального авторского стиля в этой версии атрибутора используются трехбуквенные сочетания — триады. Обработку проходят все слова текста, причем начало и конец слова дополняются пробелами, которые также учитываются в триадах. Например, слово «собака» разбирается на следующие цепочки _со соб оба бак ака ка_ . Одинаковые триады суммируются, из собранных по тексту триад получается профиль, который является поисковым образом, характеризующим авторский стиль.

В обработку попадают все слова текста за исключением имен собственных. Есть довольно много текстов, особенно это касается фантастических романов, где употребляются экзотические имена и названия, содержащие непривычные для русского языка буквосочетания. Во избежание их влияния на характеристики стиля, которое иногда оказывалось достаточно сильным, они были удалены из рассмотрения.

В лингвистическом смысле трехбуквенные сочетания представляют собой интегральную характеристику, объединяющую сразу несколько разнородных стилевых признаков. При такой методике отдельными триадами в подсчет попадают распределения однобуквенных и парами триад — двухбуквенных служебных слов, а это значительная часть наиболее частотных предлогов, союзов, частиц и междометий, которые традиционно считаются значимыми стилеметрическими показателями. По этой причине двухбуквенные и четырех- и более буквенные цепочки менее показательны, что и было выявлено в процессе проверки их различительной силы.Статья Тимашева А.Н.

Остальные буквосочетания так или иначе отображают и грамматические явления (частоту грамматических частей употребленных в тексте слов), и лексические (буквосочетания из основы слова), причем нерасчлененно. Хотя различительная сила отдельных буквосочетаний очевидно неодинакова, в данной версии атрибутора при оценке и взвешивании это пока не учитывается.

Конечно, использование буквосочетаний для решения стилеметрических проблем является паллиативом и, скорее, удачным инженерным полурешением, нежели предметно обусловленным приемом. В данном случае, для первой версии он-лайновой программы нам показалось привлекательной простота обработки, обуславливающая высокую скорость работы программы. Использование морфологических и синтаксических процессоров или достаточно представительных словарей, хотя и придает атрибуции иное качество, позволяя решать стилеметрические вопросы с достаточной в смысле доказывания определенностью, пока еще слишком тяжеловесно для перенесения на интернет-страницы.

Чтобы избежать ошибок, связанных со сравнением статистически несопоставимых объектов, объем исследуемого текста ограничен снизу. Для сравнения не принимаются тексты размером меньше 20 Кб (примерно 20 страниц). Если размер файла недостаточен, вместо вывода появляется надпись: Объем этого текста ( Поиск

Исследовательская работа на НОУ по математике «Анализ газетной публицистики средствами математики»

При пользовании «Инфоуроком» вам не нужно платить за интернет!

Минкомсвязь РФ: «Инфоурок» включен в перечень социально значимых ресурсов .

НОУ «Школа «Альфа и Омега»

Анализ газетной публицистики средствами математики

Выполнила: Шибеев Роман, ученик 8 класса.

Руководитель: Вардугина Валентина Николаевна, учитель математики.

Глава 1. Связь математики и лингвистики

1.1. Математическая лингвистика………………….……………. 4

1.2. Теория графов в математике и лингвистике …………………………7

Глава 2. Анализ текстов математическими методами

2.1. Математика и анализ художественных текстов ……………………. 10

2.2. Анализ публицистических статей…….……………………………. 15

Лингвистика и математика… Казалось бы, что общего могут иметь такие разные науки, а тем более как такая строгая, сухая, наполненная формулами и значками математика может помочь тонкой и неосязаемой материи, как язык? На самом деле в языкознании математика находит довольно широкое применение. Говоря о применении математических методов при изучении языка, мы не имеем в виду, что можно говорить и писать в повседневной жизни на языке математики. Речь идет об использовании математики в науке о языке, о точных методах решения возникающих в лингвистике проблем.

Мало кому известно как с помощью математики можно исследовать тексты, какие возможности открывает математика для ученных языкознания и просто заинтересовавшихся людей, что и определяет актуальность данного исследования.

Читать еще:  Содержание анализа затрат на предприятии

Цель данного исследования – анализ газетной публицистики средствами математики, а именно использование теории графов в лингвистике. Соответственно, гипотезой исследования будет научное предположение о том, что по графу статьи можно определить индивидуальный стиль писателя, а также установить авторство текста.

Объектом исследования являются публицистические статьи корреспондента «Бизнес-курс» Алена Булавка.

Предметом – графы статей.

Задачи: 1) собрать и обработать информацию по теме исследования;

2) изучить анализ художественных текстов;

3) проанализировать с помощью теории графов публицистические статьи омского корреспондента Алена Булавка ;

4) соотнести результаты анализа статей и сделать вывод о индивидуальном стиле корреспондента;

В нашей работе мы планируем использовать как общеучебные методы (анализ, синтез классификация и обобщение), так и специальные.

Глава 1. Связь математики и лингвистики

Математическая л ингвистика

Когда во второй половине 50-х годов некоторые молодые лингвисты задумались о применении математических методов для исследования структуры языка и начали сотрудничать с математиками, это вызвало у очень многих их коллег удивление и даже шок — ведь они с детства были убеждены, что гуманитарные науки, одной из которых является лингвистика, с математикой и другими «точными» науками не имеют и не могут иметь ничего общего.

Возникшее в Древней Греции учение о грамматических категориях уже представляло собой описание ряда важнейших аспектов строения языка с помощью абстрактных моделей, близких по стилю к тем моделям, которые были созданы древнегреческими математиками для описания пространственных форм. Первые попытки использовать для описания языкового «идеала математической гармонии» настоящие математические средства были предприняты лишь в середине ХХ столетия.

Можно указать две причины такого «запоздания». Во-первых, наука о языке после значительных шагов, сделанных в античную эпоху, снова начала по-настоящему развиваться только в XIX столетии, но в течение всего этого столетия главное внимание лингвистов было обращено на историю языка, и лишь в следующем веке, который вообще был для гуманитарных наук веком структурализма, лингвистика впервые после античного периода обратилась к изучению языковых структур, но уже на новом уровне. Когда лингвисты осознали, что язык представляет собой, говоря словами Ф. де Соссюра, «систему чистых отношений», т. е. систему знаков, физическая природа которых несущественна, а существенны только отношения между ними, стала совершенно очевидна параллель между языком и математическими конструкциями, которые тоже являются «системами чистых отношений», и уже в начале ХХ столетия тот же де Соссюр мечтал об исследовании языка математическими средствами.

Во-вторых, в математике в начале Нового времени вышли на первый план количественные методы, и только в XIX веке математики снова начали строить неколичественные абстрактные модели, отличавшиеся от античных более высоким уровнем абстракции, а также — что для нашей темы особенно важно — тем, что они могли использоваться для описания значительно более широкого круга явлений, чем пространственные формы; нередко такие модели оказывались удобным и даже необходимым средством для изучения явлений, о которых строившие их математики вовсе не думали и даже не знали об их существовании. Среди этих моделей были и те, которые впоследствии получили применение в лингвистике; особенно интенсивное развитие математических дисциплин, содержанием которых было их построение, пришлось на первую половину ХХ столетия. Поэтому встреча математики и лингвистики в середине этого столетия была вполне закономерна.

Одним из результатов этой встречи было возникновение новой математической дисциплин — математической лингвистики, предметом которой является разработка математического аппарата для лингвистических исследований. Центральное место в математической лингвистике занимает теория формальных грамматик, по характеру используемого в ней аппарата родственная математической логике и в особенности теории алгоритмов. Она доставляет формальные методы описания правильных языковых единиц различных уровней, а также, что особенно важно, формальные методы описания преобразований языковых единиц — как на одном уровне, так и межуровневых. К теории формальных грамматик примыкает теория синтаксических структур, значительно более простая в отношении аппарата, но не менее важная для лингвистических приложений. В математической лингвистике разрабатываются также аналитические модели языка, в которых на основе тех или иных — считающихся известными — данных о «правильных текстах» производятся формальные построения, результатом которых является описание каких-то «составных частей» механизма языка.

Математическая лингвистика – особенная сфера научно-практической деятельности, поскольку она связана с применением точных методов в изучении языка. Исследовательские проблемы, решаемые матлингвистами, разнообразны. К фундаментальным можно отнести такую задачу, как создание математических моделей языка. Применение алгебраических методов, методов теории множеств, математической логики, теории информации, теории вероятностей, математической статистики во многих случаях позволяет не просто формализовать лингвистические данные, но сделать необозримую и богатейшую языковую субстанцию более доступной для наблюдения. Поэтому математическое моделирование помогает найти убедительное объяснение многим явлениям языка.

Читать еще:  Системный анализ как метод исследования систем

Как утверждал физик П. Дирак, во всякой науке ровно столько истины, сколько в ней математики – и это в полной мере касается науки о языке. Если говорить о прикладных задачах математической лингвистики, то это разработка лингвистического и программного обеспечения интеллектуальных систем, систем машинного перевода, систем синтеза и анализа звучащей речи, создание электронных словарей, информационный поиск, автоматическое реферирование и многое другое. Существует ещё ряд практических задач, где немалую роль играет математическая лингвистика: это моделирование знаний и систематизация терминологии предметных областей (различных направлений техники, медицины, экономики), моделирование речевого взаимодействия (в сфере СМИ, рекламы, политического дискурса), лингвистическая экспертиза правовых документов.

Справедливо считать, что математическая лингвистика – молодое направление, сформировавшееся в середине 20 века. Активное развитие математической лингвистики (шире, прикладной лингвистики и языковой инженерии) в мировой науке было обусловлено необходимостью решения проблемы автоматической обработки, хранения, поиска и передачи информации на естественном языке.

1.2 Теория графов в математике и лингвистике

Зарождение теории графов можно отнести к концу XVIII в., к работам А.Эйлера, посвященным решению математических, развлекательных задач. В ХХ в. толчком к развитию теории служат задачи, возникающие в физике, химии, электротехнике, биологии, экономике, социологии, а также во многих математических дисциплинах. Современная теория графов включает различные подходы к решению соответствующих задач: комбинаторно-логические, геометрические, теоретико-вероятностные.

Теория графов — область дискретной математики, особенностью кото-рой является геометрический подход к изучению объектов. Основной объект данной теории граф. Граф задается множеством вершин и набором неупорядоченных и упорядоченных пар вершин. Неупорядоченная пара вершин называется ребром, упорядоченная дугой. Граф, содержащий только ребра, называется неориентированным; граф, содержащий только дуги, ориентированным. Пара вершин может соединяться двумя и более ребрами (дугами одного направления; направление дуги отвечает упорядоченности соответствующей пары вершин).

Графы обычно изображаются в виде геометрических фигур, так что вершины графа изображаются точками, а ребра – линиями, соединяющими те точки, соответствующим вершинам которых ребра инцидентны.

Конструкторам хорошо известно, что построение сложного объекта удобно начинать, когда под руками есть чертеж, т. е. модель будущего объекта. Здесь лингвистика прибегает к помощи математики. Если не знать некоторых важных математических понятий и не уметь ими пользоваться, удобного синтаксического чертежа нарисовать не удастся. Оказывается, что чертеж в синтаксисе не только отвечает целям наглядности, но и способствует обнаружению новых, ранее неизвестных языковых фактов.

Здесь на помощь лингвистам пришла относительно новая область математики – теория графов. Графом называется произвольное множество объектов с заданными на нем отношениями. Элементы этого множества называются узлами или вершинами графа. Если узлами графа являются синтаксические единицы, а отношения являются синтаксическими, то граф называется синтаксическим. Граф обычно рисуют на плоскости. При изображении графа узлы рисуются в виде точек со стоящими при них надписями, а отношения изображаются в виде стрелок, направленных от первого члена отношения ко второму. Изображение графа тоже называют графом. В зависимости от получающихся при этом геометрических фигур графы называют деревьями. Графы могут быть линейными, иерархическими или звездными.

Графы могут применяться как классификационные и как графы зависимостей. Разные варианты графов можно встретить во многих работах по синтаксису. Так, например, в грамматике непосредственно составляющих принято представлять синтаксическую структуру предложения в виде дерева, позволяющего показать направление каждой синтаксической связи. В каждой паре единиц элементы делятся на главный и зависимый, а дерево зависимостей отражает все множество связей.

Несмотря на сравнительно простое определение, синтаксический граф реального предложения – это настолько сложный объект, что с ним трудно иметь дело при решении прикладных задач и, в частности, при построении синтаксических алгоритмов. В формальной лингвистике обычно имеют дело с относительно простым частным случаем графов – с деревьями. Деревом в теории графов называется граф, на который накладываются определенные ограничения:

существует единственный узел, в который не входит ни одна стрелка (этот узел называется корнем дерева);

в каждый узел, кроме корня, входит ровно одна стрелка;

длинный граф не содержит циклов (т. е. невозможно, двигаясь из какого-нибудь узла в направлении стрелок, вернуться в тот же самый узел).

Синтаксическое дерево отражает не все синтаксические связи, а только некоторые, в известном смысле наиболее важные.

Ссылка на основную публикацию
Adblock
detector