Хорошо

Что такое обработка естественного языка?

Последний ответ май 03, 2022 13:17:01 363 6 5 0 0

В этой публикации вы узнаете, что такое NLP (Neuro-Linguistic Processing или Natural Language Processing) — это нейро-лингвистическая обработка или обработка естественного языка).

 

Что такое обработка естественного языка?

NLP, называемое обработкой естественного языка, - это наука, которая позволяет компьютерам понимать, анализировать и генерировать естественные языки. Общий процесс исследования заключается в разработке модели, которая может выражать языковые способности - предлагать различные методы для постоянного улучшения способности языковой модели - разрабатывать различные прикладные системы на основе языковой модели - и постоянно улучшать языковую модель.

NLP могут понимать естественные языки одним из следующих способов:

 1. Понимание естественного языка, основанного на правилах, заключается в разработке программы путем создания серии правил и последующего решения проблемы естественного языка с помощью программы. Вход - это правило, а выход - программа.

 2. Понимание естественных языков на основе статистического машинного обучения заключается в использовании большого количества данных для обучения модели с помощью алгоритма машинного обучения, а затем использования модели для решения задач естественного языка. Входными данными являются данные и желаемый результат, а выходными данными - модель.

Что такое Обработка естественного языка?

 

Что умеет NLP?

1. Сегментация

 Китайский можно разделить на слова, словосочетания, фразы, предложения, абзацы и документы. Чтобы выразить значение, слово не может использоваться для выражения значения. По крайней мере, одно слово может лучше выразить смысл. Поэтому в качестве основной единицы используется слово Комбинация фраз, предложений, абзацев и документов зависит от конкретного сценария относительно того, является ли вводимая компьютером фраза или предложение, абзац или документ. Поскольку в китайском языке не используются пробелы для разделения слов, компьютеры не могут различать слова в тексте, поэтому требуется сегментация слов. В настоящее время существует два распространенных метода сегментации слов:

 (1) На основе правил : эвристика (эвристическая) и таблица ключевых слов.

 (2) Методы машинного обучения / статистики : HMM (скрытая модель Маркова) и CRF (условное случайное поле).

Текущая ситуация: словесная технология сегментации сформировалась, и словесная точность сегментации доступна. Нам доступны многие сторонние библиотеки, такие как Jieba. Поэтому на практике для сегментации слов мы используем метод «Jieba + пользовательский словарь».

 

2. Слово вектор

 Текст «Ты мне нравишься» теперь разделен на «я», «нравится» и «ты» посредством сегментации слов. Эти три слова используются в качестве входных данных для компьютера и не могут быть поняты компьютером. Поэтому мы преобразуем эти слова в слова, понятные компьютеру, то есть кодирование слов. В настоящее время слова обычно выражаются в виде векторов слов, которые используются в качестве пространства ввода и представления для машинного обучения. В настоящее время существует два типа репрезентативного пространства:

 

(1) Дискретное представление:

 А. One-hot

 Предположим, что корпус составляет:

I like you. Do you have feelings for me?

 Словарь {"me": 1, "like": 2, "you": 3, "Do": 4, "have": 5, "feelings": 6, "for": 7}. There Есть семь измерений.

 Следовательно, one-hot означает:

 "I": [1, 0, 0, 0, 0]

 "Like": [0, 1, 0, 0, 0]

 ········

 "Me": [0, 0, 0, 0, 1,]

 То есть слово представлено измерением.

 

B. Сумка слова : сумма векторов всех слов используется как вектор документа.

 Итак, I like you означает [1, 1, 1, 0, 0, 0].

Bi-gram и N-gram (языковая модель): рассматривается последовательность слов, и словосочетания используются для представления вектора слов.

 Идея, лежащая в основе этих трех подходов, заключается в том, что разные слова представляют разные измерения, то есть «единица» (слово или комбинация) является измерением.

2) Распределенное представление: word2vec, указывающее вектор матрицы совпадений. Идея заключается в том, что "слово может быть выражено словом рядом с ним".

 Дискретное или распределенное пространство представления имеет свои преимущества и недостатки. Заинтересованные читатели могут обратиться к данным для собственного понимания, которое здесь не описано. Есть одна проблема. Чем больше корпус, тем больше слов и больший размер вектора слов. В этом случае объем хранилища и вычислений в пространстве увеличивается экспоненциально. Поэтому, при обработке вектора слова инженеры обычно уменьшают размер, что означает, что некоторая информация теряется.

 

3. Автоматическая абстракция

Автоматический краткий обзор относится к автоматическому абстрагированию ключевого текста или знаний из исходного текста. Зачем мне автоматический дайджест? Есть две основные причины: (1) Информационная перегрузка. Нам нужно извлечь наиболее полезный и ценный текст из большого количества текстов. (2) Стоимость ручного резюме очень высока. В настоящее время существует два метода автоматического абстрагирования: экстрактивный. Некоторые ключевые предложения взяты из исходного текста и образуют аннотацию. Другой способ - абстрактный, когда компьютер понимает исходный текст, а затем выражает его своим собственным смыслом. В настоящее время автоматическая абстрактная технология является наиболее широко используемой в области новостей. В эпоху информационной перегрузки он помогает пользователям узнавать самые ценные новости в кратчайшие сроки. Кроме того, то, как извлекать структурированные знания из неструктурированных данных, также станет основным направлением для роботов, отвечающих на вопросы.

 

4. Идентификация юридического лица

 Распознавание сущностей относится к идентификации определенных категорий сущностей в тексте, таких как имена, места, числа и имена собственные. Он используется в поиске информации, автоматических вопросах и ответах, графике знаний и других областях. Цель идентификации сущности - сообщить компьютеру, что слово принадлежит определенному типу сущности, помогая определить намерение пользователя.

 

Какие трудности возникают при обработке естественного языка?

Нарушение приговора

Формально называемый «устранением неоднозначности границ предложения», этот процесс разрыва уже не труднодостижим, но, тем не менее, является критическим процессом, особенно в случае сильно неструктурированных данных, которые включают структурированную информацию. Приложение, которое нарушает работу, должно быть достаточно интеллектуальным, чтобы разделять абзацы на соответствующие блоки предложений; однако очень сложные данные не всегда могут быть доступны в легко узнаваемых формах предложений. Эти данные могут существовать в форме таблиц, графиков, обозначений, разрывов страниц и т.д., Которые необходимо соответствующим образом обработать, чтобы машина могла извлекать значения так же, как человек подошел бы к интерпретации текста.

 

Пометка частей речи (POS) и создание графиков зависимостей

Люди в большей или меньшей степени понимают; нет необходимости, кроме формального изучения этого языка, для дальнейшего понимания отдельных частей речи в разговоре или чтении, как они были изучены в прошлом. Чтобы машина могла обучаться, она должна формально понимать соответствие каждого слова, то есть то, как слово позиционирует себя в предложении, абзаце, документе или корпусе. В общем, приложения NLP используют набор инструментов POS-тегов, которые назначают POS-тег для каждого слова или символа в заданном тексте. Впоследствии положение каждого слова в предложении определяется графом зависимостей, созданным в той же процедуре. Эти теги POS могут быть дополнительно обработаны для создания значимых единичных или составных словарных терминов.

 

Создание соответствующего словарного запаса

Используя эти POS-теги и графы зависимостей, можно сгенерировать мощный словарь и впоследствии интерпретировать его машиной способом, сопоставимым с человеческим пониманием. Рассмотрим следующий абзац:

«Все сотрудники несут ответственность за управление рисками, а окончательная ответственность лежит на совете директоров. У нас сильная культура риска, которая воплощается в четкой и последовательной коммуникации и соответствующем обучении всех сотрудников. В Группе применяется комплексная система управления рисками с корпоративным управлением и соответствующими инструментами управления рисками. Эта структура подкрепляется нашей культурой риска и ценностями HSBC ». - Годовой отчет HSBC 2017

Предложения обычно достаточно просты, чтобы их можно было проанализировать с помощью базовой программы NLP. Но чтобы иметь реальную ценность, алгоритм также должен уметь генерировать, как минимум, следующие термины из словаря:

Сотрудники; Управление рисками; Полная подотчетность; Доска; Сильная культура риска; Четкое и последовательное общение; Соответствующее обучение всех сотрудников; Комплексная система управления рисками; Управление и соответствующие инструменты управления рисками; Структура; Культура риска; Ценности HSBC

К сожалению, большинство программных приложений NLP не приводят к созданию сложного словарного запаса.

 

Связывание различных компонентов словарного запаса

В последнее время были разработаны новые подходы, которые могут выполнять извлечение связи между любыми двумя словарными терминами, сгенерированными из документа (или «корпуса»). Word2vec, модель на основе векторного пространства, назначает векторы каждому слову в корпусе, эти векторы в конечном итоге фиксируют отношение каждого слова к близко встречающимся словам или набору слов. Но статистических методов, таких как Word2vec, недостаточно для определения лингвистики или семантических отношений между парами словарных терминов.

В приведенном выше примере «Все сотрудники несут ответственность за управление рисками, а окончательная подотчетность возлагается на Совет», два словарных термина, «Совет» и «управление рисками» связаны с Советом, имеющим конечную ответственность, но поскольку эти два термина статистически далеки, степень родственной связи между этой парой не может быть установлена ни лингвистически, ни семантически. Требуется более сложный алгоритм для выявления взаимосвязей, существующих между словарными терминами, а не только словами.

 

Установка контекста

Одна из самых важных и сложных задач во всем процессе NLP - обучить машину извлекать контекст из обсуждения внутри документа. Рассмотрим следующие два предложения:

«Мне нравится работать в банке».

«Мне нравится работать на берегу реки».

Контекст этих предложений совершенно разный. Сегодня существует несколько методов, помогающих обучить машину понимать различия между предложениями. Некоторые из популярных методов используют индивидуализированные графы знаний, в которых, например, возможны обе возможности на основе статистических расчетов. Когда новый документ находится под наблюдением, машина будет обращаться к графику, чтобы определить настройку, прежде чем продолжить.

Одной из проблем при построении графа знаний является специфика предметной области. Графы знаний нельзя сделать универсальными в практическом смысле. В приведенном выше примере «получать удовольствие от работы на берегу» означает «работу, или работу, или профессию», а «получать удовольствие от работы на берегу реки» - это просто любой вид работы или деятельности, которые можно выполнять на берегу реки. Два предложения с совершенно разными контекстами в разных областях могут сбить с толку машину, если ей придется полагаться исключительно на графы знаний. Поэтому критически важно улучшить методы, используемые с помощью вероятностного подхода, для получения контекста и правильного выбора предметной области.

 

Извлечение семантических значений

Лингвистического анализа словарных терминов может быть недостаточно, чтобы машина правильно применила полученные знания. Чтобы успешно применить обучение, машина должна глубже понимать семантику каждого словарного термина в контексте документов. В качестве примера рассмотрим два предложения:

«Согласно ОПБУ США, прибыли и убытки от активов AFS включаются в чистую прибыль».

«Согласно МСФО, прибыли и убытки от активов AFS включаются в совокупный доход».

Оба предложения имеют контекст прибылей и убытков в непосредственной близости от некоторой формы дохода, но результирующая информация, необходимая для понимания, полностью различается между этими предложениями из-за разной семантики. Это комбинация, охватывающая как лингвистические, так и семантические методологии, которые позволят машине действительно понимать значения в выбранном тексте

 

Итоги

Обработка естественного языка - это теория и технология использования машин для обработки человеческого языка.

Машинная обработка естественного языка может быть реализована либо с помощью лингвистических правил, либо можно использовать статистическое моделирование.

Современное направление исследований NLP охватывает различные лингвистические монограммы в лингвистике.

Битовый анализ, а также глубокие исследования и богатство на прикладном системном уровне.

 

Результаты

Хотя многие технологии обработки естественного языка были реализованы и сыграли свою роль в реальном производстве, однако вполне естественно, что мы не добились прорыва в семантических знаниях в расшифровке языковых двусмысленностей.

Обработке речи и пониманию еще предстоит пройти долгий путь.


  • x

Bestyyyyyyy
Админ Опубликовано 2022-4-29 03:36:38
Ставь лайк если дочитал от начала до конца! (ставь дизлайк этому комментарию если уже надоели призывы ставить лайки, сколько можно действительно?!)
Развернуть
  • x

mrppa
mrppa Опубликовано 2022-4-29 10:43 (0) (0)
Лайк ))  
FlamInga
FlamInga Опубликовано 2022-5-2 23:28 (0) (0)
 
sergey2000
Author Опубликовано 2022-5-1 11:50:17
Полезно
Развернуть
  • x

FlamInga
FlamInga Опубликовано 2022-5-2 23:28 (0) (0)
 
Rinat
Author Опубликовано 2022-5-3 13:17:01
Интересно читать
Развернуть
  • x

Комментарий

Выполните вход в систему, чтобы ответить на пост. Вход | Регистрация
Отправить

Внимание! В целях защиты правовых интересов Вас, сообщества и третьих лиц, не публикуйте любой материал, содержащий политические высказывания, порнографию, упоминание азартных игр, употребление наркотиков, а также материал, нарушающий коммерческую тайну или содержащий персональные данные пользователей. Также не предоставляйте данные от вашей учетной записи. Вы будете нести ответственность за все действия, выполняемые под вашим аккаунтом. Подробная информация: “Пользовательское соглашение.”

My Followers

Авторизуйтесь и пользуйтесь всеми преимуществами участника!

Вход

Заблокировать
Вы уверены, что хотите заблокировать этого пользователя?
Пользователи из вашего черного списка не могут комментировать ваши посты, не могут упоминать вас, не могут отправлять личные сообщения.
Напоминание
Пожалуйста, привяжите свой мобильный номер чтобы получить бонус за приглашение.
О защите информации
Благодарим за использование Huawei ICT Club! Мы хотим рассказать вам о том, как мы собираем, используем и храним ваши данные. Пожалуйста, внимательно ознакомьтесь с Политикой конфиденциальности и Пользовательским соглашением.