Проверка данных в Excel, выпадающих список, ограничение символов и значений
Во время работы с большими объемами информации, особенно когда ее обработка осуществляется формулами или макросами, важно, чтобы данные не имели ошибок, которые способны повлиять на итог. Сложности в получении корректных исходников появляются, когда они поступают из неструктурированных источников (плохо спроектированные базы данных, ручное заполнение таблиц и форм незаинтересованными в результате людьми). Особенно трудно добиться правильного оформления по определенной маске (шаблону). Например, дату в виде строки можно записать несколькими способами:
- 01.01.2001;
- 01/01/2001;
- 1 января 2001 года и т.д.
В статье описывается функционал, позволяющий упростить процесс сбора и проверки данных в Excel.
Где находится?
Для настройки параметров проверки вводимых значений необходимо на вкладке «Данные» в области «Работа с данными» кликнуть по иконке «Проверка данных» либо выбрать аналогичный пункт из раскрывающегося меню:
На экране появиться окно с настройками по умолчанию, где в качестве типа данных может быть использовано любое значение:
Настройка условия проверки
Изначально требуется выбрать тип проверяемых данных, что будет являться первым условием. Всего предоставлено 8 вариантов:
- Целое число;
- Действительное число;
- Список;
- Дата;
- Время;
- Длина текста;
- Другой.
В соответствии с выбранным пунктом, появляется возможность выбора дополнительных условий. Для чисел, дат, времени и длины текста возможно указать ограничения: меньше, больше, диапазон и т.п. К списку обязательно привязывается источник, а пункт «другой» предлагает ввести формулу, возвращающую логическое значение.
Самым необычным видом является выпадающий список.
Он позволяет выбирать значения, указанные в качестве источника и ограничивать допустимые значения им же. Также возможно создавать динамические выпадающие списки.
Всплывающая подсказка ячейки Excel
Функционал проверки данных в Excel позволяет настраивать всплывающие подсказки для ячеек листа. Для этого следует перейти на вторую вкладку окна проверки вводимых значений – «Сообщение для ввода».
На изображении показан пример возможного сообщения для ячейки, в которую вносятся целые числа от 1 до 31 (настройки вкладки «Параметры»). Заголовок и сообщения указываются по Вашему усмотрению, каких-либо правил к их оформлению нет. Не забудьте установить галочку на поле «Отображать подсказку, если ячейка является текущей», иначе сообщение будет деактивировано.
Пример всплывающей подсказки в Excel:
Вывод сообщения об ошибке
Последняя вкладка окна проверки данных позволяет настроить поведение и вывод сообщений при обнаружении ошибочного значения.
Существует три варианта сообщений, отличающихся по поведению:
- Останов;
- Предупреждение;
- Сообщение.
Останов является сообщением об ошибке и позволяет произвести только 2 действия: отменить ввод и повторить ввод. В случае отмены новое значение будет изменено на предыдущее. Повтор ввода дает возможность скорректировать новое значение.
Предупреждение более лояльно в сравнении с остановом, так как позволяет оставлять значение, не соответствующее условиям проверки, после подтверждения ввода пользователем.
Сообщение выводить ошибку в виде простой информации и дает возможность отменить последнее действие.
Заголовок и сообщение заполняются по Вашему желанию.
Пример вывода одной и той же ошибки, но под разными видами:
- < Назад
- Вперёд >
Похожие статьи:
Новые статьи:
- Критерий Манна-Уитни
- Подключение MySQL в Excel
- Подключение Excel к SQL Server
Если материалы office-menu.ru Вам помогли, то поддержите, пожалуйста, проект, чтобы я мог развивать его дальше.
Добавить комментарий
Excel. Проверка данных
Недавно дочь обратилась с вопросом, нельзя ли в Excel выпадающий в ячейке список сделать контекстным, например, зависящим от содержания ячейки, находящейся слева от ячейки со списком? Я довольно давно не использовал в работе выпадающие списки, поэтому для начала решил освежить свои знания по вопросу проверки данных в Excel. Собственно, ответ на вопрос дочери см. Как обойти ограничение Excel, и сделать выпадающий список зависимым.
Средство проверки данных
Excel позволяет задать определенные правила, по которым будет определяться, какие данные могут содержаться в ячейке. [1] Например, необходимо, чтобы число, содержащееся в ячейке, принадлежало диапазону от 1 до 12. В случае если пользователь введет неправильное значение, программа выведет соответствующее сообщение (рис. 1).
Рис. 1. Вывод сообщения о неправильном вводе данных
Скачать заметку в формате Word или pdf, примеры в формате Excel2007
Excel позволяет легко создавать критерии для проверки данных, в том числе с использованием формул для создания более сложных критериев.
Средство проверки вводимых данных имеет принципиальный недостаток — если пользователь скопирует ячейку, а потом вставит ее в ячейку, в которой производится проверка вводимых данных, то все определенные для проверки формулы исчезнут.
Определение критерия проверки
Для определения типа данных, которые могут содержаться в ячейке или диапазоне ячеек, необходимо выполнить следующие действия.
2. Выберите вкладку Данные, область Работа с данными → Проверка данных. Excel отобразит диалоговое окно Проверка вводимых значений.
3. Щелкните на вкладке Параметры (рис. 2).
Рис. 2. Вкладка Параметры диалогового окна Проверка вводимых значений
4. Выберите одну из опций из раскрывающегося списка Тип данных. В зависимости от выбранной опции может измениться внешний вид вкладки Параметры путем добавления или удаления дополнительных элементов управления (для определения формулы нужно выбрать опцию Другой).
5. С помощью имеющихся на этой вкладке элементов управления задайте критерий проверки данных. Доступные элементы управления зависят от выбора, сделанного на предыдущем шаге.
6. (Опционально) Щелкните на вкладке Сообщение для ввода и введите сообщение, которое должно появиться на экране при выделении указанной ячейки. Это сообщение выводится для того, чтобы сообщить пользователю, какие данные можно вводить. Если пропустить этот шаг, то при выделении ячейки не появится никакого сообщения.
7. (Опционально) Щелкните на вкладке Сообщение об ошибке и введите сообщение, которое должно появляться в случае, когда пользователь введет недопустимое значение. Выбор вида сообщения в списке Вид определит, какой выбор будет у пользователя при внесении неверных данных. Для предотвращения ввода неправильных значений нужно выбрать вид сообщения Останов. Если пропустить этот шаг, то при возникновении ошибки будет появляться стандартное сообщение об ошибке.
8. Щелкните ОК.
После выполнения этих действий в выделенной ячейке или диапазоне будет производиться проверка вводимых данных.
Типы проверяемых данных
Вкладка Параметры диалогового окна Проверка вводимых значений предоставляет большой выбор типов данных для условий проверки. Выбрать тип допустимых данных можно в раскрывающемся списке Тип данных (как уже отмечалось, остальные элементы управления этой вкладки изменяются в зависимости от выбранного типа данных). Можно выбрать следующие типы данных.
- Любое значение. Выбор этой опции удаляет условие проверки данных. Однако сообщение для ввода все равно будет выводиться, если не снять флажок Выводить сообщение об ошибке во вкладке Сообщение для ввода.
- Целое число. Пользователь должен ввести целое число. С помощью раскрывающегося списка Значение можно определить допустимый диапазон значений. Например, можно определить, что вводимое значение должно быть целым числом и большим или равным 100.
- Действительное. Пользователь должен ввести действительное число. Диапазон допустимых значений можно определить с помощью раскрывающегося списка Значение. Например, можно определить, что вводимое число должно быть больше или равно 0 и меньше или равно 1.
- Список. Пользователь должен выбрать значение из предложенного списка значений. Подробнее см. ниже раздел Создание раскрывающегося списка.
- Дата. Пользователь должен ввести дату. С помощью раскрывающегося списка Значение можно определить допустимый диапазон дат. Например, можно определить, что вводимая дата должна быть больше или равна 1 января 2012 года и меньше или равна 31 декабря 2012 года.
- Время. Пользователь должен ввести значение времени. С помощью раскрывающегося списка
- Длина текста. Ограничивается длина вводимой строки (количество символов). С помощью раскрывающегося списка Значение можно определить допустимую длину строки. Например, можно определить, что длина вводимой строки должна равняться 1 (один символ).
- Другой. Логическая формула, которая определяет правильность вводимых пользователем данных. Формулу можно занести непосредственно в поле Формула (которое появляется при выборе этого типа) или определить ссылку на ячейку с формулой. Ниже приводятся примере нескольких полезных формул.
Во вкладке Параметры диалогового окна Проверка вводимых значений содержатся две опции.
- Игнорировать пустые ячейки. Если установлен флажок этой опции, то допускаются пустые записи в ячейках, для которых определена проверка данных. Этот флажок действует немного странно. Если флажок снять и определить в ячейке какое-нибудь правило проверки данных, то флажок позволит оставить ячейку пустой. Но как только вы попытаетесь в ячейке ввести что-то недопустимое, и после этого попробуете оставить ячейку пустой, то это не получится.
- Распространить изменения на другие ячейки с тем же условием. Если флажок этой опции установлен, то все внесенные изменения будут применяться также и к другим ячейкам, которые содержат исходные условия проверки данных. Если вы определили некое правило в одной или нескольких ячейках, а затем выбрали диапазон, включающий эти ячейки и некоторые другие, и кликнули в меню Проверка данных
Важно помнить, что даже после того, как была определена проверка вводимых данных, пользователь все равно может внести неправильные значения. Даже если в раскрывающемся списке Вид вкладки Сообщение об ошибке выбран вид сообщения Останов, вероятность внесения неверных данных все еще существует. Также стоит обратить внимание на то, что проверка вводимых данных не реагирует на результаты вычисления формул. Другими словами, применение проверки данных к ячейке, содержащей формулу, не даст никакого результата.
В Excel имеется команда Данные → Работа с данными → Проверка данных → Обвести неверные данные, после выбора которой все неверные значения будут обведены красным кружком (рис. 3).
Рис. 3. Ячейки с неверными значениями (значения которых больше 100) обведены кружками
Создание раскрывающегося списка
Возможно, проверка вводимых данных чаще всего используется для создания раскрывающегося списка значений. На рис. 4 приведен пример, в котором имена месяцев, содержащиеся в диапазоне А1:А12, используются для создания раскрывающегося списка.
Рис. 4. Список, созданный с помощью средства проверки данных
Чтобы создать такой список:
1. Введите список значений в один столбец или строку. Эти значения будут использоваться в раскрывающемся списке.
2. Выберите ячейку, которая должна содержать раскрывающийся список (в нашем примере – D3).
3. Во вкладке Параметры диалогового окна Проверка вводимых данных выберите тип данных Список и в поле Источник укажите диапазон, который содержит список значений (в нашем примере – $А$1:$А$12).
4. Удостоверьтесь, что установлен флажок Список допустимых значений.
5. Сделайте другие установки в диалоговом окне Проверка вводимых данных, как описано в предыдущем разделе.
После выполнения этих действий при активизации ячейки справа от нее будет появляться кнопка раскрывающегося списка. Щелкните на этой кнопке, чтобы развернуть список и выбрать необходимое значение.
Если список должен содержать небольшое количество значений, то их можно ввести непосредственно в поле Источник во вкладке Параметры диалогового окна Проверка вводимых значений (это поле появится, если выбрать из раскрывающегося списка Тип данных тип Список). Между вводимыми значениями нужно вставить разделитель, определенный в соответствии с региональными настройками (для России – это точка с запятой).
Если для задания раскрывающегося списка используется диапазон, то он обязательно должен находиться на том же листе, что и активизированная ячейка. В случае если список должен использовать значения из диапазона, который находится на другим листе, ему можно присвоить имя и затем использовать это имя в поле Источник (после символа равно). Например, если список содержит значения из списка МойСписок, нужно ввести следующую формулу: =МойСписок
Проверка данных с использованием формул
Создавать простые проверки данных с помощью средства проверки вводимых данных достаточно просто. Но настоящую мощь этого свойства можно ощутить только в том случае, если работать с формулами проверки данных.
Формула, определенная для проверки данных, должна возвращать логическое значение ИСТИНА или ЛОЖЬ. Если она вернет значение ИСТИНА, то введенное значение будет записано в ячейку. Если же результат вычисления формулы будет равен значению ЛОЖЬ, то появится сообщение об ошибке, в котором будет содержаться предупреждение, определенное во вкладке Сообщение об ошибке диалогового окна Проверка вводимых значений.
Определить формулу можно в диалоговом окне Проверка вводимых значений. Для этого из раскрывающегося списка Тип данных вкладки Параметры выберите тип Другой. Формулу можно ввести непосредственно в поле Формула или же вставить ссылку на ячейку, содержащую эту формулу. Поле Формула появляется во вкладке Параметры только в том случае, если выбран тип Другой.
Тип ссылок на ячейки в формулах для проверки данных
Если формула, введенная в диалоговое окно Проверка вводимых значений, содержит ссылку на ячейку, то она будет рассматриваться как относительная ссылка по отношению к верхней левой ячейке выделенного диапазона.
Следующий пример пояснит, почему именно относительные ссылки надо использовать в формулах для проверки данных. Предположим, что в диапазон В2:В10 необходимо только нечетные числа. В диалоговом окне Проверка вводимых значений нет такого типа данных, поэтому для создания критерия проверки данных надо использовать формулу. Для создания такого критерия проверки данных выполните следующие действия.
1. Выделите диапазон В2:В10 таким образом, чтобы ячейка В2 стала активизированной.
2. Выберите команду Данные → Работа с данными → Проверка данных, чтобы открыть диалоговое окно Проверка вводимых значений.
3. Перейдите на вкладку Параметры и в списке Тип данных выберите Другой.
4. Введите следующую формулу в поле Формула (рис. 5) =ЕНЕЧЁТ(В2). В этой формуле применена функция ЕНЕЧЁТ, которая возвращает значение ИСТИНА, если ее аргумент является нечетным числом.
5. Перейдите на вкладку Сообщение об ошибке и выберите вид сообщения Останов. Также введите текст сообщения «Разрешается ввод только нечетных чисел».
6. Щелкните на кнопке ОК, чтобы закрыть диалоговое окно Проверка вводимых значений.
Рис. 5. Ввод формулы в диалоговое окно Проверка вводимых значений
Заметьте, что введенная формула содержит ссылку на верхнюю левую ячейку выделенного диапазона. Эта формула должна применяться ко всему диапазону ячеек, поэтому следует ожидать, что каждая ячейка этого диапазона содержит такую же формулу. Поскольку в формуле ссыпка на ячейку относительная, то эта формула изменяется для каждой отдельной ячейки диапазона В2:В10. Чтобы в этом удостовериться, поставьте курсор, например, в ячейку В5, и откройте диалоговое окно Проверка вводимых значений. В этом окне вы должны увидеть формулу =ЕНЕЧЁТ(В5)
В общем случае, когда вводится формула для проверки данных в диапазон ячеек, следует использовать относительную ссылку на активизированную ячейку, которой, как правило, является верхняя левая ячейка выделенного диапазона. Исключение составляют ситуации, когда надо сделать ссылку на некоторую конкретную ячейку. Например, вы хотите, чтобы в диапазон А1:В10 вводились только такие значения, которые превышают значение в ячейке С1. Для этого используется формула =А1>$С$1
В таком случае ссылка на ячейку С1 делается абсолютной и поэтому данная ссылка не меняется во всех ячейках выделенного диапазона.
Примеры формул для проверки данных
Здесь приведено несколько примеров, в которых для проверки вводимых данных используются формулы. Все формулы были введены непосредственно в поле Формула во вкладке Параметры диалогового окна Проверка вводимых значений.
Ввод только текста. Для того чтобы разрешить ввод только текста (и запретить ввод числовых значений) в ячейку или диапазон, используется следующая формула: =ЕТЕКСТ(А1). Здесь предполагается, что А1 является активизированной ячейкой выделенного диапазона.
Ввод значений, больших, чем в предыдущей ячейке. Следующая формула проверки данных позволяет ввести число в ячейку только в том случае, если оно больше, чем значение в предыдущей ячейке: =А2>А1. В формуле предполагается, что активизированной ячейкой выделенного диапазона является ячейка А2. Заметьте, что эту формулу нельзя использовать в первой строке рабочего листа.
Ввод только уникальных значений. Следующая формула проверки вводимых данных не позволит пользователю ввести в диапазоне А1:С20 повторяющиеся значения: =СЧЁТЕСЛИ($А$1:$С$20;А1)=1. Здесь предполагается, что А1 является активизированной ячейкой выделенного диапазона. Обратите внимание на то, что в качестве первого аргумента функции СЧЁТЕСЛИ ($А$1:$С$20) используется абсолютная ссылка. Вторым аргументом (А1) является относительная ссылка, которая меняется для каждой ячейки выделенного диапазона. На рис. 6 показано, как работает эта формула. Здесь сделана попытка ввести в ячейку А5 значение 2, которое уже есть в диапазоне А1:С20.
Рис. 6. Использование средства проверки данных для предотвращения ввода дублирующихся значений
Ввод текста, начинающегося с буквы А. В следующей формуле используется прием, который позволяет проводить проверку по заданному символу. В данном случае формула вернет значение ИСТИНА, если ввести в ячейку строку, которая будет начинаться с буквы А (независимо от регистра): =ЛЕВСИМВ(А1)="
а"
. В этой формуле предполагается, что активизированной ячейкой выделенного диапазона является ячейка А1.
Ниже приведена немного модифицированная формула проверки данных. С помощью этой формулы можно организовать ввод строки, которая состоит из пяти букв и начинается с буквы А:
=СЧЁТЕСЛИ (А1; "
А????"
) =1
Возможно, вас также заинтересует Проверка формул в Excel, или что означает зеленый треугольник
[1] Цитируется по книге Джон Уокенбах. Microsoft Excel 2007. Библия пользователя. – М: ООО «И.Д. Вильямс», 2008. – С. 482–489.
5 Базовая проверка качества данных об анализе данных | by Pathairush Seeda
Очистка данных
Подробный контрольный список, чтобы вы не пропустили ничего важного
Фото Адли Вахида на UnsplashВ процессе генерации, основанной на данных, мы выбираем конкретный отчет об анализе данных.
Последствия решения могут ничего не стоить до миллиона долларов.
Данные всегда заставляют вас чувствовать себя уверенно и комфортно, прежде чем предпринимать какие-либо серьезные действия. Однако что делать, если анализ у вас неправильный? Что бы это было тогда…
На самом деле, проверка данных является критическим процессом любой операции с данными, начиная от отчетов, инструментальных панелей и моделирования. Если вы обрабатываете ошибочные данные, вы не можете ожидать от них каких-либо правильных действий. И вы также чувствуете себя несчастным, если кто-то использует его для принятия решения.
Однажды я ошибся в анализе в течение моей трудовой жизни. К счастью, у меня был шанс исправить это
Но, возможно, вам не так повезло, как мне.
Вот почему я делаю вывод о том, с чем сам столкнулся раньше по темам качества данных, чтобы помочь вам, ребята, провести любой анализ. Имейте это в виду, прежде чем пропустить это.
Фото Эндрю Нила на UnsplashПолучив данные, вы можете начать любой анализ с простого бизнес-вопроса. После этого вы можете выполнять исследовательский анализ данных столько, сколько захотите. Это проще, когда у вас есть только один набор данных.
Но что, если вам нужно объединить несколько наборов данных вместе. Важную роль здесь играет единица анализа.
Начнем с простого примера; у вас есть данные о клиентах, каждая строка которых представляет каждого клиента. Вы хотите знать, сколько кредитных карт у каждого клиента. Вам необходимо соединить данные клиента (1 строка на клиента) с данными кредитной карты членства (1 строка на карту).
Следует помнить, что один клиент может иметь несколько кредитных карт. Когда мы объединяем оба набора данных вместе, вам нужно тщательно следить за номером строки. Поскольку ваш набор данных больше не будет оставаться на уровне клиента, вместо этого он будет на уровне кредитной карты. Независимо от того, делаете ли вы левое, правое, внутреннее или внешнее соединение. Это приведет к вашему заключению анализа.
Пример выглядит так, что вам не о чем беспокоиться, если вы можете отслеживать уровень каждого набора данных и знать, что делаете. Если у вас есть так много времени, чтобы понять единицу анализа для каждого набора данных, это может не быть проблемой.
Однако, если вам нужно провести специальный анализ в течение 3 часов, чтобы представить его руководителю высокого уровня. Кроме того, вы вообще никогда не смотрите на набор данных.
Вот когда возникают проблемы, и это может случиться с вами в любое время. Поверьте мне; Мне приходится пройти через множество неожиданных ad-hoc с ограниченным временем.
В настоящее время это первое, что я должен иметь в виду, когда я нарезаю данные. Многие люди ошибаются в этом, и это то, что каждый должен знать, прежде чем представлять свой анализ другим сторонам.
Photo by Michael Dziedzic on UnsplashОтсутствующее значение может быть любым: пустым, без пробела, NULL, NaN и т. д. Возможности безграничны в зависимости от вашего набора данных и инструмента (панды, искра, превосходство и т. д.), который вы используете. использовать для анализа данных. Иногда он уже кодируется числовым значением, таким как -999, 9999999 и т. д.
Это вызывает головную боль, если вы не знакомы с набором данных или системой, с которой имеете дело. Вы можете сделать простое предположение, что эти пустые значения в некоторых случаях являются отсутствующими значениями. Но что касается кодирования, вы можете догадаться, каким оно должно быть, или спросить у источника данных о значении этих странных значений.
В худшем случае вам не у кого спросить. И, иногда, никто даже не знает об этом.
Кроме того, если вы пройдете первый этап проверки отсутствующего значения, отсутствующее значение все равно может привести к неправильному выводу.
Например, если вы используете библиотеку Pandas для обработки данных, есть метод «подсчета значений», который я обычно часто использую во время анализа. Поведение этого метода по умолчанию не учитывает отсутствующее значение.
Это то, что вам нужно понять, прежде чем полностью использовать какие-либо инструменты. Вы можете сообщить количество каждого отдельного значения, но вы забудете сообщить, что в этом столбце отсутствует около 80 %.
В итоге это приводит к другому выводу.
Кроме того, для задачи моделирования вам нужно выбрать, что делать, потому что многие реализованные алгоритмы не поддерживают отсутствующее значение в наборе данных. И ваше отношение к этому может привести к предвзятости прогноза в некоторых случаях.
Я написал статью о пропаже данных в прошлом. Пожалуйста, не стесняйтесь взглянуть на него. Нет простого ответа, чтобы решить эту проблему. Было бы лучше, если бы вы сделали это более ясным, спросив и подтвердив это с другими. По этому вопросу может быть достигнут консенсус между командой аналитиков и пользователем.
Фото Честера Уэйда на UnsplashСбор данных может варьироваться в зависимости от бизнес-процесса.
То, как исходная система собирает данные, может привести к дублированию.
Предположим, вы обрабатываете данные без метода подсчета отдельных. Вы вообще никогда об этом не узнаете. Дублирование может происходить на разных уровнях. Уровень дублирования зависит от количества столбцов и единицы анализа, которую вы хотите выполнить.
Допустим, вы хотите проверить дублирование на уровне кредитной карты. Было бы лучше, если бы вы удалили дублирование как для customer_id, так и для credit_card_number. Но если вас интересует только customer_id, то вводить credit_card_number нет необходимости.
Недавно я сам столкнулся с дублированием данных. Я получил набор данных о парковке автомобилей в моем рабочем здании. Из-за исходной системы необработанные данные будут фиксироваться как для входных, так и для выходных транзакций.
Однако входная транзакция выглядит макетом. Дублирование было введено здесь.
Нет полезной информации о входной транзакции, и это может привести к удвоению количества реальных транзакций в здании. Мне повезло, что у меня есть эталонные данные, которые операционная группа использовала для сравнения в прошлом. Я могу достичь аналогичного результата после удаления этих строк.
К сожалению, при получении данных мне никто не говорит, что внутри есть такое дублирование. Я должен перепроверить это сам, и мне повезло в этом случае.
Представил, что сообщаю номер, не зная, что дублирование внутри данных. Это было бы ужасной вещью, случившейся в моей трудовой жизни.
Любопытство играет здесь важную роль. Вы всегда должны спрашивать себя во время анализа. Имеет ли это число смысл для вас на основе других чисел?
Например, у вас есть парковочное место примерно на 2000 мест, но у вас есть членство около 4000 клиентов. Было бы возможно? Будет или нет. Вы тот, кто должен найти ответ.
Фото Гэри Баттерфилда на UnsplashАнализ данных — это задача, которую вам приходится решать между несколькими сторонами. Каждая сторона имеет свое собственное понимание данных. Они видят это с другой точки зрения. В большинстве случаев они имеют в виду знакомое число данных. Ваша задача — связать эти числа вместе. И сделать большую картину из каждой части информации.
Трудность в том, что вы можете не знать обычный номер данных. Вот почему я поднимаю здесь вопрос о том, имеют ли данные смысл для вас?
Я полагаю, что вы всегда должны подозревать, что номер правильный все время. Из предыдущего примера с дублированием данных видно, что оно может быть неверным на 100 %, даже если число кажется вам правильным на первый взгляд. Вы никогда не узнаете, правильное это значение или нет, пока не зададите себе вопрос.
Я видел, что этот номер может иметь какое-то значение для вас, но не для других сторон.
Бизнес-группа тесно сотрудничает с оператором. Они должны отслеживать число метрик ежедневно или еженедельно.
Я рекомендую вам сначала проверить номер каждого заключения с операционной группой, прежде чем доводить его до руководства для каждого анализа данных.
Когда-то я доверял данным и продолжал их анализировать, пока у меня не появилась возможность обсудить это с бизнес-группой. Затем меня сильно поразил тот факт, что мой вывод невозможен. Этот сценарий не должен происходить в реальном рабочем процессе. Таким образом, мне потребовалось больше узнать о том, что происходит с данными.
Даже в конце концов все кажется правильным. Но, это может быть неправильно с самого начала.
Почаще задавайте себе вопрос о числе, и не берите на себя ничего большого. Здесь необходима ваша любознательность и общение с окружающими.
Фото Vlad Sarge на UnsplashОднажды я сдал анализ своему лиду. А через 2 недели он вернулся ко мне и спросил, какой текущий номер анализа. Я повторно провел анализ и сообщил об обновленном числе. Тем не менее, я получил вопрос.
Почему этот номер так изменился за 2 недели?
Простой вопрос, на решение которого у меня ушло несколько дней. Проблема в том, что спустя сутки я сдал анализ. Команда инженеров данных исправила таблицу в озере данных. Это привело к изменению числа в некоторых строках, что привело к другому количеству моих обновлений.
Но какой правильный номер для этого анализа? Ответ заключается в том, что это зависит от дня, когда вы запрашиваете данные. Данные были действительны в то время 2 недели назад, но сейчас есть более достоверные данные.
Правда о данных может измениться со временем
Вы единственный, кто страдает от этой проблемы, потому что вы должны гарантировать достоверность вашего анализа. Если вы сохраните данные запроса отдельно, вы можете воспроизвести результат, чтобы доказать свою достоверность. Иногда бизнес-команда не понимает этого момента и снижает доверие к вашему будущему анализу.
Тогда как решить эту проблему?
Существует передовая практика проектирования озера данных с учетом этой проблемы. Вы можете найти его в «Руководстве по обработке данных для начинающих — часть II», написанном Робертом Чангом. Это называется Применить идемпотентность . Очень рекомендую ознакомиться со статьей. Это превосходный уровень объяснения и решает проблемы, о которых мы говорили ранее.
Но если у вас нет команды инженеров данных, которая позаботится об этой проблеме. Я могу предложить вам сделать резервную копию вашего источника данных. Это просто для того, чтобы убедиться, что вы можете воспроизвести число из прошлого. Иногда это спасет вашу кредитоспособность.
Здесь мы рассмотрели множество тем. В каждой части я делюсь своими ошибками в прошлом. Есть надежный способ решить некоторые проблемы, но вам нужно помнить и отмечать его самостоятельно для некоторых. Анализ данных — задача, требующая вашего внимания.
Одна ошибка в вашем коде может привести к ужасному результату.
Кредитоспособность — важный фактор, когда вы имеете дело с другими. Если вы поддержите свой кредит на высоком уровне, это заставит других чувствовать себя комфортно, принимая решение на основе вашего отчета.
Однако, если вы допустили ошибку, вам нужно набраться смелости, чтобы признать ее и исправить.
Это часть того, как вы вырастете, чтобы занять старшую или более высокую должность в карьере. Вы берете на себя ответственность за то, что делаете! Мы можем учиться, падая. Каждый вырос на своей ошибке, как известная цитата в истории.
Единственный человек, который не делает ошибок, это человек, который никогда ничего не делает». — Президент Рузвельт.
Не бойтесь!
Проверка данных и проверка данных: в чем разница?
Проверка данных | Проверка данных | |
Цель | Проверить, попадают ли данные в допустимый диапазон значений | Проверка данных на предмет их точности и согласованности |
Обычно выполняется | При создании или обновлении данных | При переносе или объединении данных |
Пример | Введенный пользователем код ZIP | Проверка того, что все почтовые индексы в наборе данных имеют формат ZIP+4 |
Проще говоря, проверка данных и проверка данных могут показаться одним и тем же. Однако когда вы углубляетесь в тонкости качества данных, эти две важные части головоломки совершенно разные. Знание различий может помочь вам лучше понять общую картину качества данных.
Что такое проверка данных?
В двух словах, проверка данных — это процесс определения того, попадает ли конкретная часть информации в допустимый диапазон значений для данного поля.
В США, например, каждый почтовый адрес должен включать отдельное поле для штата. Некоторые значения, такие как NH, ND, AK и TX, соответствуют списку сокращений штатов, определенному Почтовой службой США. Как вы знаете, эти аббревиатуры обозначают определенные состояния.
Существуют также двухсимвольные сокращения для территорий США, таких как Гуам («GU») и Северные Марианские острова («MP»). Если бы вы ввели «ZP» или «A7» в поле штата, вы, по сути, аннулировали бы весь адрес, потому что такого штата или территории не существует. Проверка данных будет выполнять проверку существующих значений в базе данных, чтобы убедиться, что они соответствуют допустимым параметрам.
Для списка адресов, который включает страны за пределами США, поле штат/провинция/территория должно быть проверено по значительно более длинному списку возможных значений, но основная предпосылка та же; введенные значения должны соответствовать списку или диапазону допустимых значений. (К сведению, компания Precisely предлагает решения для проверки адресов)
Например, в некоторых случаях вам может понадобиться установить пределы возможных числовых значений для данного поля, хотя и с немного меньшей точностью, чем в предыдущем примере. Если вы записываете рост человека, вы можете запретить значения, выходящие за пределы ожидаемого диапазона. Если в вашей базе данных указан человек ростом 12 футов (около 3 метров), то вы, вероятно, можете предположить, что данные неверны. Точно так же вы не хотели бы разрешать отрицательные числа для этого поля.
К счастью, такие проверки обычно выполняются на уровне приложения или базы данных. Например, если вы вводите адрес доставки в США на веб-сайте электронной коммерции, маловероятно, что вы сможете ввести код штата, который недействителен для США.
Прочтите нашу электронную книгу
Ознакомьтесь с ключевыми выводами специалистов по данным в обзоре качества данных
Что такое проверка данных и чем она отличается?
Проверка данных, с другой стороны, на самом деле сильно отличается от проверки данных. Верификация выполняет проверку текущих данных, чтобы убедиться, что они точны, непротиворечивы и отражают предназначение.
Проверка также может произойти в любое время. Другими словами, проверка может происходить как часть повторяющегося процесса качества данных, тогда как проверка обычно происходит при первоначальном создании или обновлении записи.
Проверка играет особенно важную роль при переносе или объединении данных из внешних источников данных. Рассмотрим случай с компанией, которая только что приобрела мелкого конкурента. Они решили объединить клиентские данные приобретенного конкурента в свою собственную биллинговую систему. В рамках процесса миграции важно убедиться, что записи правильно перенесены из исходной системы.
Небольшие ошибки при подготовке данных к переносу иногда могут привести к большим проблемам. Если ключевое поле в основной записи клиента назначено неправильно (например, если диапазон ячеек в электронной таблице был непреднамеренно смещен вверх или вниз во время подготовки данных), это может привести к назначению адресов доставки или неоплаченных счетов-фактур неправильный клиент.
Поэтому важно убедиться, что информация в целевой системе соответствует информации из исходной системы. Это можно сделать путем выборки данных как из исходной, так и из целевой систем, чтобы вручную проверить точность, или это может включать автоматизированные процессы, которые выполняют полную проверку импортированных данных, сопоставляя все записи и помечая исключения.
Проверка как непрерывный процесс
Проверка не ограничивается переносом данных. Он также играет важную роль в обеспечении точности и согласованности корпоративных данных с течением времени.
Представьте, что у вас есть база данных потребителей, которые приобрели ваш продукт, и вы хотите отправить им по почте рекламу нового аксессуара для этого продукта. Часть этой информации о клиентах может быть устаревшей, поэтому стоит проверить данные перед отправкой по почте.
Проверяя адреса клиентов по изменению базы данных адресов почтовой службы, вы можете идентифицировать записи клиентов с устаревшими адресами. Во многих случаях вы можете даже обновить информацию о клиенте как часть этого процесса.
Выявление повторяющихся записей — еще одно важное действие по проверке данных. Если в вашей базе данных клиентов один и тот же клиент указан три или четыре раза, вы, скорее всего, отправите им дублирующиеся рассылки. Это не только стоит вам больше денег, но и приводит к негативному опыту клиентов.
Чтобы усложнить процесс дедупликации, несколько записей для одного и того же клиента могли быть созданы с использованием немного разных вариаций имени человека. Инструменты, использующие нечеткую логику для определения возможных и вероятных совпадений, могут улучшить работу процесса.
Мандат по обеспечению качества данных
Все больше и больше бизнес-лидеров начинают понимать стратегическую ценность данных в выводах, которые можно извлечь из них с помощью искусственного интеллекта/машинного обучения и современных инструментов бизнес-аналитики.