Младенцы учатся говорить, слыша, как другие люди — в основном их родители — постоянно издают звуки. Постепенно, повторяя и обнаруживая закономерности, младенцы начинают связывать эти звуки со значением. Благодаря большой практике им в конечном итоге удается издавать звуки, которые могут понять окружающие их люди.
Машинное обучение Алгоритмы работают во многом таким же образом, но вместо того, чтобы иметь пару родителей для копирования, они используют данные, тщательно классифицированные тысячами людей, которым приходится вручную просматривать дата и скажите машине, что это значит.
Однако этот утомительный и трудоемкий процесс — не единственная проблема с реальными данными, используемыми для обучения алгоритмов машинного обучения.
Возьмем обнаружение мошенничества в страховых претензиях. Чтобы алгоритм мог точно отличить случай мошенничества от законных требований, он должен видеть и то, и другое. Тысячи и тысячи того и другого. И потому что AI системы часто поставляются третьими сторонами, поэтому не управляются самой страховой компанией — этим третьим сторонам должен быть предоставлен доступ ко всем этим конфиденциальным данным. Вы понимаете, к чему все идет, потому что то же самое относится к медицинским записям и финансовым данным.
Более эзотерическими, но столь же тревожными являются все алгоритмы, обученные на тексте, изображениях и видео. Помимо вопросы авторского права, много Создатели выразили несогласие их работа втягивается в набор данных для обучения машина, которая может в конечном итоге взять (часть) их работы. И это при условии, что их творения не являются расистскими или проблематичными в других отношениях, что, в свою очередь, может привести к проблематичным результатам.
Кроме того, что, если просто недостаточно данных для обучения ИИ на все случаи жизни? В Отчет корпорации RAND за 2016 г., авторы рассчитали, сколько миль «парк из 100 автономных транспортных средств, движущихся 24 часа в сутки, 365 дней в году со средней скоростью 25 миль в час», должен будет проехать, чтобы показать, что их частота отказов (что приводит к погибших или раненых), был достоверно ниже, чем у людей. Их ответ? 500 лет и 11 миллиардов миль.
Не нужно быть сверхмозглым гением, чтобы понять, что нынешний процесс неидеален. Так что мы можем сделать? Как мы можем создать достаточно, уважающих конфиденциальность, беспроблемных, охватывающих все возможности и точно помеченных данных? Как вы уже догадались: больше ИИ.
Поддельные данные могут помочь ИИ работать с реальными данными
Еще до отчета RAND компаниям, работающим над беспилотным вождением, было совершенно ясно, что они крайне не оснащены для сбора достаточного количества данных для надежного обучения алгоритмов безопасному вождению в любых условиях и обстоятельствах.
Возьмем, к примеру, Waymo, компанию Alphabet, занимающуюся беспилотным вождением. Вместо того, чтобы полагаться исключительно на свои транспортные средства из реального мира, они создали полностью смоделированный мир, в котором смоделированные автомобили с смоделированными датчиками могли ездить бесконечно, собирая реальные данные на смоделированном пути. По данным компании, к 2020 году он собрал данные о 15 миллиардах миль симуляции вождения — по сравнению с жалкими 20 миллионами миль реального вождения.
На языке ИИ это называется синтетическими данными или «данными, применимыми к данной ситуации, которые не получены прямым измерением», если вы хотите получить техническую информацию. Или менее технически: ИИ производят поддельные данные, чтобы другие ИИ могли быстрее узнавать о реальном мире.
Одним из примеров является Task2Sim, модель искусственного интеллекта, созданная лабораторией искусственного интеллекта MIT-IBM Watson, которая создает синтетические данные для обучения классификаторов. Вместо того, чтобы учить классификатор распознавать один объект за раз, модель создает изображения, которые можно использовать для обучения нескольким задачам. масштабируемость этого типа модели делает сбор данных менее трудоемким и менее дорогостоящим для предприятий, которым требуется информация.
В дополнение к этому Рожерио Ферис, IBM исследователь, соавтор статьи о Task2Sim, сказал:
Прелесть синтетических изображений в том, что вы можете управлять их параметрами — фоном, освещением и постановкой объектов.
Благодаря всем вышеперечисленным опасениям производство всех видов синтетических данных резко возросло за последние несколько лет. десятки стартапов в сфере цветения и получить сотни миллионов долларов инвестиций.
Генерируемые синтетические данные варьируются от «человеческих данных», таких как медицинские или финансовые отчеты, до синтезированных изображений разнообразных человеческих лиц — до более абстрактных наборов данных, таких как геномные данные, которые имитируют структуру ДНК.
Как сделать действительно фальшивые данные
Существует несколько способов создания синтетических данных, наиболее распространенный и хорошо зарекомендовавший себя из которых называется GAN или генеративно-состязательными сетями.
В GAN два ИИ противостоят друг другу. Один ИИ создает синтетический набор данных, а другой пытается установить, являются ли сгенерированные данные подлинными. Обратная связь от последнего возвращается к первому, «обучая» его, чтобы он стал более точным в создании убедительных поддельных данных. Вы, наверное, видели один из многих этого-X-не-существует веб-сайты — от людей до кошек и зданий — которые генерируют свои изображения на основе GAN.
В последнее время все большее распространение получают методы получения синтетических данных. Первые известны как диффузионные модели, в котором ИИ обучаются восстанавливать определенные типы данных, в то время как к реальным данным добавляется все больше и больше шума — данных, которые постепенно искажают обучающие данные. В конце концов, ИИ можно передавать случайные данные, которые он обрабатывает в формате, на котором он был изначально обучен.
Поддельные данные похожи на настоящие данные, но без реальности.
Синтетические данные, как бы они ни производились, предлагают ряд очень конкретных преимуществ по сравнению с использованием реальных данных. Во-первых, его легче собрать в большем количестве, потому что вам не нужно полагаться на то, что его создадут люди. Во-вторых, синтетические данные идеально маркируются, поэтому нет необходимости полагаться на трудоемкие центры обработки данных для (иногда неправильно) маркировки данных. В-третьих, он может защитить конфиденциальность и авторские права, поскольку данные являются синтетическими. И, наконец, и, возможно, самое главное, это может уменьшить предвзятость результатов.
Поскольку ИИ играет все более важную роль в технологиях и обществе, ожидания в отношении синтетических данных довольно оптимистичны. Gartner классно подсчитал, что К 60 году 2024% обучающих данных будут синтетическими.. Аналитик рынка Cognilytica оценила рынок генерация синтетических данных составит 110 миллионов долларов в 2021 году и вырастет до 1.15 миллиарда долларов к 2027 году.
Данные называют самым ценным товаром в эпоху цифровых технологий. Крупные технологии опирались на горы пользовательских данных, что давало им преимущество перед более мелкими соперниками в области ИИ. Синтетические данные могут дать мелким игрокам возможность изменить ситуацию.
Как вы могли подозревать, большой вопрос, касающийся синтетических данных, связан с так называемой достоверностью — или с тем, насколько точно они соответствуют реальным данным. Жюри еще не вынесено по этому поводу, но исследования кажется, показывает что объединение синтетических данных с реальными данными дает статистически достоверные результаты. В этом году исследователи из MIT и MIT-IBM AI Watson Lab показали, что классификатор изображений, предварительно обученный на синтетических данных в сочетании с реальными данными, выполнено, а также классификатор изображений, обученный исключительно на реальных данных.
В целом, синтетические и реальные стоп-сигналы кажутся зелеными для ближайшего будущего доминирования синтетических данных в обучении безопасных и безопасных моделей ИИ, и с этим возможное будущее более умных ИИ для нас уже за горизонтом. .
[…] Технократия.ньюс […]
[...] https://www.technocracy.news/training-ai-fake-data-is-cheaper-than-real-data/ [...]
[…] Обучение искусственному интеллекту: поддельные данные дешевле, чем настоящие […]