Image by Freepik
Стартап DВrain, занимающийся автоматизацией документов с использованием искусственного интеллекта, отдает выполнять задания, с которыми не справился ИИ, сторонним работникам всего за 10 копеек. Задачи размещены на краудсорсинговой платформе "Яндекс Задания" и представляют собой перепечатку текста из документов, в частности, паспортов.
© ComNews
26.07.2024

Пользователи краудсорсинговой платформы "Яндекс Задания" пожаловались на низкую оплату за перепечатку текста из документов - она составила 10 копеек. Автором заданий является стартап по оцифровке документов ООО "Дибрейн" (DВrain, резидент "Сколково"). Как отмечают пользователи платформы, им встречались подобные задания за еще более низкую стоимость - одну, две или три копейки.

Пресс-служба DВrain рассказала корреспонденту ComNews, что DВrain размещает задания по оцифровке документов на сторонних краудсорсинговых площадках в дополнение, чтобы дораспознать кейсы, с которыми не справился искусственный интеллект: "Например, на печатных прописках в паспорте у нас ИИ распознает 95% штампов. Оставшиеся 5% мы по тем или иным причинам не можем разобрать (очень плохо видно и пр.). Если заказчику нужно 100% распознавание, и он согласен на привлечение разметчиков (люди, которые помогают определить, что написано в трудночитаемых полях), мы идем на "Яндекс Задания". Или на "Толоку", как было раньше. Некоторые клиенты верифицируют нераспознанные данные внутри компании, привлекая сотрудника изнутри. Некоторые хотят отдать полный цикл нам".

В 2023 г. краудсорсинговая платформа "Толока" отмежевалась от "Яндекса", ушла на международный рынок и теперь называется Toloka AI. Но появилась платформа "Яндекс Задания" - она стала работать на российском рынке.

"Яндекс Задания" работает по следующему принципу: на ней компания размещает задания, например DВrain размещает вырезанный кусочек документа, а желающий выполнить задание человек и заработать должен вбить в поле текст, который увидел на картинке.

На вопрос корреспондента ComNews, на какой стадии развития находится ИИ-модель DBrain, существует ли она вообще или все документы расшифровывают люди за оплату, пресс-служба DBrain ответила, что стартап гарантирует клиентам, что абсолютное большинство документов распознается до 5 секунд - за это время задачи даже не успеют создаться в "Яндекс Заданиях", соответственно ИИ-модели DBrain существуют: "Таких моделей десятки: они определяют тип документа, ищут поля, переводят картинки в машиночитаемый текст, ищут подделки в документах. И только если у этих алгоритмов есть сомнения, мы в редких случаях отправляем часть данных на ручную верификацию. DBrain разрабатывает решения по извлечению данных из документов с 2019 г., у нас есть ML-отдел, который занимается обучением и разработкой наших моделей для работы с документами. Это in-house-решение".

Как формируется ставка за выполнение задания

"Яндекс Задания" - это двухсторонний маркетплейс, как, например, YouDo или "Профи.ру". Автор задания назначает цену, а исполнители берут или не берут задачи.

"У DBrain внутри существует алгоритм, который контролирует цену в зависимости от количества задач, необходимой скорости и качества. Раньше на Toloka AI задание не могло стоить меньше одного цента. Мы считали эту цену для части задач очень высокой, но опустить ее ниже не было возможно технически. Само задание - это нажать "да" или "нет" или перепечатать одно или несколько слов с картинки. Затем мы написали интеграцию для переезда на "Яндекс Задания". При переезде туда у нас автоматически переехала и цена - только вместо одного цента стала одна копейка", - объясняет пресс-служба DBrain.

"Мы дали время алгоритму разобраться с ценой, а сами наблюдали, что из этого выйдет. Ожидаемо люди стали писать, что это маленькие деньги. Но все равно продолжали брать задания, хотя могли этого не делать. Дальше цена поднялась в 10 раз. Минимальная цена на наши задания теперь - от пяти копеек, причем за самый простой вопрос, где надо нажать "да-нет". И 30 копеек мы платим за набор вопросов. Если качество и скорость все еще нас не устроят - цена будет сама подниматься", - добавил представитель пресс-службы DBrain.

Как обезличиваются данные

В России существуют стандарты по деперсонификации данных. Основной нормативный акт, регулирующий обработку и защиту ПД, включая деперсонификацию, - это Федеральный закон от 27 июля 2006 г. №152-ФЗ "О персональных данных". Согласно этому закону, деперсонификация данных означает действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту персональных данных (п.9 ст.3).

Если банки передают сторонним организациям данные для анализа, банки должны соблюсти условия, определенные ФЗ №152-ФЗ "О персональных данных", ФЗ "О банках и банковской деятельности" и в приказе Роскомнадзора от 5 сентября 2013 г. №996. - банки должны получить согласие субъектов данных и заключение договоров с третьими сторонами, обеспечивающими их защиту; рекомендуется деперсонификация данных и использование шифрования; операторы должны информировать субъектов о передаче данных, принимать технические и организационные меры безопасности и оперативно реагировать на инциденты.

Как объясняет юрист практики разрешения судебных споров и санкционного законодательства "Сапожников и Партнеры" Юрий Черкасов, разрозненные данные, не относящиеся к конкретному человеку и которые невозможно соотнести с конкретным человеком, не подпадают под действие ФЗ №152-ФЗ "О персональных данных" и ФЗ "О банках и банковской деятельности".

По данным DBrain, в "Яндекс Заданиях" оказывается вырезанная часть документа - так называемый кроп.

"Чтобы определить лицо, нужна минимум пара элементов данных о человеке: например, дата рождения + фамилия или номер телефона + фото. Мы внимательно проверяем, что в "Яндекс" попадает только один элемент, отделенный от остального документа. Такую же проверку делает и сам "Яндекс". К примеру, в какой-то момент мы спорили, является ли адрес в прописке и дата его проставки персональной информацией. Мы утверждали, что нет, а "Яндекс" - что да. В итоге мы поделили эти изображения на два разных", - рассказала пресс-служба DBrain.

"Этот пример с пропиской не идентифицирует человека. Все, что мы здесь видим, - что существует квартира 1 в доме 2 в городе Ангарске Иркутской области. Мы можем посмотреть, что такой адрес существует, в любом адресном справочнике. Кто там зарегистрирован? По этой картинке понять невозможно", - объяснила пресс-служба DBrain.

Пресс-служба "Яндекса" сообщила, что задания, которые размещает клиент на платформе "Яндекс Задания", не должны содержать данные, по которым можно было бы установить личность исполнителя или третьих лиц - ответственность за это берут на себя авторы заданий.

"Эти правила четко прописаны в требованиях к заданиям, которые являются частью договора-оферты. При этом "Яндекс Задания", со своей стороны, модерируют весь контент платформы и при необходимости имеют право заблокировать как отдельные задачи, так и аккаунт клиента в целом", - добавил представитель пресс-службы "Яндекса".

В чем подвох?

Руководитель практики "Медиаправо" юридической фирмы Intellect, эксперт Центра компетенций по направлению "Персональные данные" Роскомнадзора по УрФО Михаил Хохолков отметил, что ситуации, когда под видом искусственного интеллекта могут работать простые люди, готовые выполнять механическую работу за "копейки", встречаются часто, а также происходят случаи, когда функции штатных сотрудников передаются на аутсорсинг.

"Проблема в том, что за плохую работу и нарушения закона такого сотрудника можно привлечь к ответственности, а нанятого в интернете фрилансера - практически нет. Ведь зачастую оператор даже не знает его. Кроме того, возникают вопросы к законности передачи этих документов, так как корректно оформить согласие на обработку персональных данных в этой ситуации практически невозможно. А еще большие вопросы - к конфиденциальности и безопасности. Кто даст гарантии, что "внештатник из интернета" не накопит базу сканов паспортов и не передаст их мошенникам?" - задается вопросом Михаил Хохолков.

Генеральный директор Smart Engines (стартап, также занимающийся автоматизацией документов с помощью ИИ), доктор технических наук Владимир Арлазаров рассказал, что, когда встает вопрос о размещении и управлении ИТ-инфраструктурой, компании-заказчики оказываются на перепутье: "У них есть выбор: или обратиться к услугам облачных сервисов (on-cloud), или развернуть собственный сервер, где и будут запускаться все системы (on-premise). Хотя существует мнение, что использование облаков - это дешевле и проще, мы недавно, буквально на прошлой неделе, на примере сбоев SaaS-технологий Microsoft увидели, чем это чревато. И это не говоря о пресловутых утечках данных.

https://www.comnews.ru/content/232448/2024-04-04/2024-w14/1008/zakonoproekt-ob-autsorsinge-oblachnykh-uslug-dlya-bankov-zavis-rassmotrenii-vo-vtorom-chtenii

Летом 2023 г. депутаты и сенаторы РФ внесли в Государственную Думу РФ законопроект №404786-8, который снимает правовые ограничения на аутсорсинг финансовыми организациями облачных услуг. Привлечение подрядчиков с внешнего рынка должно помочь банкам оптимизировать затраты на поддержание информационной инфраструктуры - следует из пояснительной записки к законопроекту. Пока законопроект не прошел рассмотрение во всех трех чтения.

Руководитель отдела консалтинга и аудита "Ангара технолоджиз груп" (системный интегратор, разрабатывающий решения по информационной безопасности Angara Security) Александр Хонин отметил, что, несмотря на то что аутсорс облачных услуг и передача ПД за пределы компании - немного разные кейсы, все равно оператор, который передает ПД третьей стороне, может это делать при соблюдении условий: наличия целей такой передачи, согласия от клиентов. Но, по словам Александра Хонина, далеко не все игроки соблюдают требования законодательства в части обработки ПД, поэтому вполне могут встречаться случаи передачи необезличенных ПД при аутсорсе облачных услуг.

Новости из связанных рубрик