В ворде вектор: Как поставить вектор в Ворде

Содержание

Справка по компоненту преобразования слов в векторы — Azure Machine Learning

Twitter LinkedIn Facebook Адрес электронной почты

Статья
11/29/2022
Чтение занимает 5 мин

В этой статье описывается, как использовать компонент преобразования слов в векторы в конструкторе Машинного обучения Azure для выполнения следующих задач:

Применение различных моделей Word2Vec (Word2Vec, FastText, предварительно обученная модель GloVe) к блоку текстов, указанному в качестве входных данных.
Создание словаря с внедрением слов.

Этот компонент использует библиотеку Gensim. Дополнительные сведения о Gensim см. на официальном веб-сайте, где представлены учебники и описания алгоритмов.

Дополнительные сведения о преобразовании слов в векторы

Преобразование слов в векторы или векторизация слов — это процесс обработки естественного языка. В процессе используются языковые модели для сопоставления слов с пространством векторов. Векторное пространство представляет каждое слово с помощью вещественного вектора. Этот метод также позволяет словам с аналогичными значениями иметь похожие представления.

Используйте внедрения слов в качестве начальных входных данных для последующих задач NLP, таких как классификация текста, анализ тональности.

Существует множество различных технологий внедрения слов, но в этом компоненте реализованы три широко используемых метода. Два из них, Word2Vec и FastText — это модели онлайн-обучения. Третий — это предварительно обученная модель, glove-wiki-gigaword-100.

Интерактивные обучающие модели обучены на основе входных данных. Предварительно обученные модели обрабатываются автономно на более крупном блоке текста (например, Википедии, Google News), который обычно содержит около 100 000 000 000 слов. Внедрение слов остается постоянным во время векторизации. Предварительно обученные модели слов предоставляют такие преимущества, как сокращенное время обучения, более качественно закодированные векторы слов и повышенная общая производительность.

Ниже приведены некоторые сведения об этих методах.

Word2Vec — одна из самых популярных методик для обучения внедрению слов с помощью неглубокой нейронной сети. Теория обсуждается в этом документе, который можно скачать в формате PDF-файла: Эффективная оценка представлений слов в пространстве векторов. Реализация в этом компоненте выполнена с использованием библиотеки Gensim для Word2Vec.
Теория FastText объясняется в этом документе, который можно скачать в формате PDF-файла: Наполнение векторов слов информацией о подсловах. Реализация в этом компоненте выполнена с использованием библиотеки Gensim для FastText.
Предварительно обученная модель GloVe — это glove-wiki-gigaword-100. Это коллекция предварительно обученных векторов, полученных на основе блока текстов Википедии, который содержит 5 600 000 000 токенов и 400 000 слов без учета регистра. Можно скачать в формате PDF-файла: GloVe: Global Vectors для представления слов.

Настройка преобразования слов в векторы

Для этого компонента требуется набор данных, содержащий столбец текста. Предпочтительнее предварительно обработанный текст.

Добавьте компонент Преобразование слов в векторы в конвейер.
В качестве входных данных для компонента укажите набор данных, содержащий один или несколько текстовых столбцов.
Для параметра Целевой столбец выберите только один столбец, содержащий текст для обработки.
Поскольку этот компонент создает словарь на основе текста, содержимое столбцов будет разным, что приводит к формированию разного содержимого словаря. Поэтому компонент принимает только один целевой столбец.
Для стратегии Word2Vec
выберите одну из моделей: предварительно заданная на английском языке модель GloVe, Gensim Word2Vec и Gensim FastText.
Если стратегия Word2Vec — Gensim Word2Vec или Gensim FastText:
- Для алгоритма обучения Word2Vec выберите одну из таких моделей: Skip_gram и CBOW. Их различие описано в исходном документе (PDF).
  По умолчанию используется метод Skip_gram.
- Для параметра Длина внедрения слова укажите размерность векторов слов. Этот параметр соответствует параметру size в Gensim.
  Размер внедрения по умолчанию — 100.
- Для параметра Размер окна контекста укажите максимальное расстояние между прогнозируемым словом и текущим словом.
  Этот параметр соответствует параметру window в Gensim.
  Размер окна по умолчанию равен 5.
- Для параметра Число эпох укажите количество эпох (итераций) в совокупности. Соответствует параметру iter в Gensim.
  Количество эпох по умолчанию: 5.
Для параметра Максимальный размер словаря укажите максимальное количество слов в созданном словаре.
Если количество уникальных слов превышает максимальное значение, удалите редко используемые слова.
Размер словаря по умолчанию — 10 000.
Для параметра Минимальное количество слов укажите минимальное число слов. Компонент будет игнорировать все слова с частотой ниже этого значения.
Значение по умолчанию — 5.
Отправьте конвейер.

Примеры

Компонент выводит один результат:

Словарь с внедрениями. Содержит созданный словарь, а также внедрение каждого слова, одно измерение занимает один столбец. Одно измерение занимает один столбец.

В следующем примере показано, как работает компонент преобразования слов в векторы. Он использует преобразование слов в векторы с параметрами по умолчанию для предварительно обработанного набора данных «Википедия SP 500».

Исходный набор данных

Набор данных содержит столбец категории, а также полный текст, взятый из Википедии. В следующей таблице показано несколько типичных примеров.

текст
nasdaq 100 component s p 500 component foundation founder location city apple campus 1 infinite loop street infinite loop cupertino california cupertino california location country united states…
br nasdaq 100 nasdaq 100 component br s p 500 s p 500 component industry computer software foundation br founder charles geschke br john warnock location adobe systems…
s p 500 s p 500 component industry automotive industry automotive predecessor general motors corporation 1908 2009 successor. ..
s p 500 s p 500 component industry conglomerate company conglomerate foundation founder location city fairfield connecticut fairfield connecticut location country usa area…
br s p 500 s p 500 component foundation 1903 founder william s harley br arthur davidson harley davidson founder arthur davidson br walter davidson br william a davidson location…

Выходной словарь с внедрениями

В следующей таблице приводятся выходные данные этого компонента. В качестве входных данных использовался набор данных SP 500 из Википедии. В крайнем левом столбце указывается словарь. Его вектор внедрения представлен значениями оставшихся столбцов в той же строке.

Словарь	Размерность внедрения 0	Размерность внедрения 1	Размерность внедрения 2	Размерность внедрения 3	Размерность внедрения 4	Размерность внедрения 5	…	Размерность внедрения 99
nasdaq	–0,375865	0,609234	0,812797	–0,002236	0,319071	0,591986	. ..	0,364276
Компонент	0,081302	0,40001	0,121803	0,108181	0,043651	–0,091452	…	0,636587
s	–0,34355	–0,037092	–0,012167	0,151542	0,601019	0,084501	…	0,149419
p	–0,133407	0,073244	0,170396	0,326706	0,213463	–0,700355	…	0,530901
foundation	–0,166819	0,10883	–0,07933	–0,073753	0,262137	0,045725	…	0,27487
founder	–0,297408	0,493067	0,316709	–0,031651	0,455416	–0,284208	…	0,22798
location	–0,375213	0,461229	0,310698	0,213465	0,200092	0,314288	…	0,14228
city	–0,460828	0,505516	–0,074294	–0,00639	0,116545	0,494368	. ..	–0,2403
apple	0,05779	0,672657	0,597267	–0,898889	0,099901	0,11833	…	0,4636
campus	–0,281835	0,29312	0,106966	–0,031385	0,100777	–0,061452	…	0,05978
infinite	–0,263074	0,245753	0,07058	–0,164666	0,162857	–0,027345	…	–0,0525
loop	–0,391421	0,52366	0,141503	–0,105423	0,084503	–0,018424	…	–0,0521

В этом примере была использована модель Gensim Word2Vec по умолчанию для стратегии Word2Vec, Алгоритм обучения — это Skip-gram. Длина внедрения слов составляет 100, поэтому у нас есть 100 столбцов.

Технические примечания

В этом разделе содержатся советы и ответы на часто задаваемые вопросы.

Отличие модели интерактивного обучения от предварительно обученной модели
В этом компоненте «Преобразование слов в векторы» использованы три различных стратегии, две модели интерактивного обучения и одна модель предварительно заданная модель. Модели интерактивного обучения используют входной набор данных в качестве обучающих данных, а также создают словари и векторы слов во время обучения. Предварительно заданная модель уже обучена гораздо большими блоками текстов, например текстов Википедии или Twitter. Предварительно обученная модель на самом деле представляет собой набор пар слов и внедрения.
Предварительно обученная модель GloVe суммирует словарь из входного набора данных и создает вектор внедрения для каждого слова из предварительно обученной модели. Без онлайн-обучения использование предварительно обученной модели может сэкономить время обучения. Она обеспечивает лучшую производительность, особенно если размер входного набора данных относительно мал.
Размер внедрения:
Как правило, длина внедрения слова равна нескольким сотням. Например, 100, 200, 300. Небольшой размер внедрения означает небольшое векторное пространство, которое может привести к конфликтам внедрения слов.
Длина внедрения слов исправлена для предварительно обученных моделей. В этом примере размер внедрения glove-wiki-gigaword-100 равен 100.

Дальнейшие действия

Ознакомьтесь с набором доступных компонентов для Машинного обучения Azure.

Список специфических ошибок для компонентов конструктора см. в статье с кодами ошибок Машинного обучения.

azure-docs.ru-ru/convert-word-to-vector.md at master · MicrosoftDocs/azure-docs.ru-ru · GitHub

title	titleSuffix	description	services	ms.service	ms.subservice	ms.topic	author	ms.author	ms.date	ms.openlocfilehash	ms.sourcegitcommit	ms. translationtype	ms.contentlocale	ms.lasthandoff	ms.locfileid
Преобразовать слово в вектор: ссылка на модуль	Azure Machine Learning	Узнайте, как использовать три предоставленных модели преобразования слов в векторы для извлечения словаря и его соответствующих внедрений слов из корпуса текста.	machine-learning	machine-learning	core	reference	likebupt	keli19	05/19/2020	5fad3e4862b0c40c9edd00a5b9d47b245e529396	772eb9c6684dd4864e0ba507945a83e48b8c16f0	MT	ru-RU	03/19/2021	91536738

В этой статье описывается, как использовать модуль Convert Word to Vector в Машинное обучение Azure Designer для следующих задач:

Примените различные модели Word2Vec (Word2Vec, Фасттекст, предварительно обученную модель специализированный) к совокупностиму тексту, указанному в качестве входных данных.
Создание словаря с внедрением слов.

В этом модуле используется библиотека Gensim. Дополнительные сведения о Женсим см. на официальном веб-сайте, который содержит учебники и описание алгоритмов.

Дополнительные сведения о преобразовании слов в векторы

Преобразование слов в векторы или векторы слов — это процесс обработки естественного языка (NLP). В процессе используются языковые модели для преобразования слов в пространство вектора. Векторное пространство представляет каждое слово с помощью вектора вещественных чисел. Это также позволяет словам с аналогичными значениями иметь похожие представления.

Используйте внедрение слов в качестве начального ввода для NLP нисходящих задач, таких как классификация текста и анализ тональности.

В разных технологиях внедрения слов в этом модуле реализовано три широко используемых метода. Две, Word2Vec и Фасттекст — это модели оперативного обучения. Вторая — это предварительно обученная модель специализированный-wiki-гигаворд-100.

Интерактивные обучающие модели обучены на основе входных данных. Предварительно обученные модели обрабатываются автономно на более крупном текстовом совокупности (например, в Википедии, Google News), который обычно содержит около 100 000 000 000 слов. Встраивание Word остается постоянным во время векторной вставки слов. Предварительно обученные модели Word предоставляют такие преимущества, как сокращение времени обучения, улучшенные векторы слов, а также повышение общей производительности.

Ниже приведены некоторые сведения о методах.

Word2Vec — одна из самых популярных методик для изучения внедрения слов с помощью неполной нейронной сети. Теория обсуждается в этом документе, который можно скачать в виде PDF-файла: эффективная оценка представлений Word в пространстве векторов. Реализация в этом модуле основана на библиотеке женсим для Word2Vec.
Теория Фасттекст объясняется в этом документе, который можно скачать в формате PDF: расширяя векторы слов с информацией о подсловах. Реализация в этом модуле основана на библиотеке женсим для фасттекст.
Предварительно обученная модель специализированный — специализированный-wiki-гигаворд-100. Это коллекция предварительно обученных векторов, основанных на тексте Википедии совокупности, который содержит маркеры 5 600 000 000 и 400 000 нерегистровых слов. Доступна загрузка PDF-файла: специализированный: глобальные векторы для представления Word.