Не надо думать об ИИ как о волшебной технологии, - выдаваемые результаты базируются на машинном обучении, волшебство может случаться в самообучении на основе изученного. ИИ не обязательно означает "подключи и работай"
Большие языковые модели пока не умеют делать сложные логические выводы, к которым способен приходить эксперт в своей области, сопоставляя множество факторов и специфических знаний. То есть нынешние модели обладают широкими знаниями о мире, но пока не умеют ими эффективно пользоваться для решения комплексных задач, требующих анализа фактов и критического мышления.
Так и с моделью: если не научить ее разбираться, искать узкоспециализированные источники знаний, перепроверять сведения и логически рассуждать, то сама она этого не сделает.
Обучение искусственного интеллекта требует больших ресурсов, финансовых и временных, и возможно, новости про SAC-RND даст толчок для развития. Поэтому думайте об ИИ с точки зрения бизнес-процессов.
По сути, системы искусственного интеллекта и машинного обучения учатся на данных, которые им предоставляются, поэтому эти данные должны соответствовать трем основным критериям: они должны быть актуальными, правильно фиксироваться и администрироваться, и, наконец, они должны предоставляться в огромных количествах; если этого не было, их ответ не всегда будет полным или полностью верным (возможно, преукрашенным). Неважно, намерены ли компании использовать ИИ, чтобы узнать больше о своих клиентах или их внутренних делах, чем больше данных будет у этих систем, тем более информированными и точными будут их выводы.
Особенность нового мультимодального ИИ в возможности обрабатывать сразу и текст, и изображения, и аудио с видео. По словам экспертов, кульминацией мультимодальности станут VLM-модели, обучающиеся не на текстах, а на видеофайлах.
Как повысить точность систем искусственного интеллекта с помощью диверсифицированных данных.
Поскольку ИИ будет играть все большую роль, важно обеспечить, чтобы проекты ИИ работали для всех участников индустрии. Это включает в себя минимизацию предвзятых данных за счет определения приоритетов точных и ответственных методов маркировки данных.
Модели искусственного интеллекта, построенные на частичных, ограниченных или некачественных данных, не принесут одинаковой выгоды всем заинтересованным.
Проект искусственного интеллекта, который работает не для всех одинаково, не работает ни для кого - ни для пользователей, ни для компаний, которые его разрабатывают.
Предвзятые данные аналогичным образом исказят или подорвут приложения на базе ИИ, от механизмов рекомендаций и оптимизации цепочки поставок до более сложной диагностики.
Что такое уровень галлюцинаций?
Это показатель, как часто ИИ выдаёт ложные или неподтверждённые данные. Чем ниже процент, тем точнее модель.
Исследование от Vectara, Топ моделей с самыми низкими уровнями галлюцинаций:
1️⃣ Zhipu AI GLM-4-9B-Chat — 1.3%
1️⃣ Google Gemini-2.0-Flash-Exp — 1.3%
2⃣ OpenAI-o1-mini — 1.4%
3⃣ GPT-4o — 1.5%
4⃣ GPT-4o-mini — 1.7%
5⃣ GPT-4-Turbo — 1.7%
6⃣ GPT-4 — 1.8%
7⃣ GPT-3.5-Turbo — 1.9%
8⃣ DeepSeek-V2.5 — 2.4%
0⃣ Microsoft Orca-2-13b — 2.5%
Устранение недостатка данных и связанных с этим возможных "галлюцинаций" зависит от правильного обучения модели. Перед обработкой алгоритмом данные обучения должны быть собраны, очищены и аннотированы людьми.
Аннотация относится к применению меток и тегов к необработанным данным. Эти теги определяют ключевые особенности, относящиеся к решениям, которые примет алгоритм машинного обучения. Точность этих этикеток напрямую влияет на точность прогнозов машины на будущее. Машина, обученная на плохо размеченных данных, будет совершать ошибки, делать прогнозы с низкой степенью достоверности и в конечном итоге не давать желаемых результатов.
Единственный способ обеспечить беспристрастную и точную маркировку - это положиться на обширную и очень разнообразную группу или «толпу» умных, преданных своему делу комментаторов (аннотаторов), представляющих самый широкий спектр ценностей, культур, образования и опыта. Обеспечение такого разнообразия также называют «ответственным ИИ». Количество таких аннотаторов AI уже исчисляется миллионами во всем мире, но, сколько их существует в индустрии упаковки?
Но большие языковые модели уже развиваются в сторону доменно-специфических знаний (знание об отрасли, компании, продуктах)
https://www.technologika.ru/blog/machine-learning-model-training-system доступно про машинное обучение
Узнать больше: Использование каталогов данных для предоставления бизнесу полезной информации.
Мультимодальность: теперь OpenAI o1 работает одновременно с текстом и изображениями - анализирует изображение и текст вместе: от решения инженерных задач до объяснения научных концепций.
Об аннотаторах и ответсвенном подходе
Потребность в множестве новых аннотаторов, несомненно, откроет новые возможности для тех, кто хочет стать частью экономики искусственного интеллекта, построенной на потоке новых приложений. Тем не менее, руководители ИИ несут этическую ответственность за понимание, кто эти аннотаторы, и за справедливое обращение с ними. Это правильный поступок, и таким образом они смогут обеспечить стабильные высококачественные результаты.
Аннотаторы и сборщики данных действительно являются незамеченными героями экономики ИИ, гарантируя, что ИИ работает в реальном мире. Они обладают уникальными навыками и историями, а их различный опыт и знания делают эту глобальную толпу важным сообществом, заставляющим ИИ работать. Большинство комментаторов - подрядчики или люди, которые просто рады участвовать в обучении ИИ. Они гордятся своим влиянием на работу ИИ в реальном мире. Как поделился один аннотатор из Бразилии: «Алгоритмы учатся у нас, а затем учатся друг у друга. Если мы сможем улучшить их с помощью хороших знаний, основанных на строгой этике, мы будем двигаться вперед как общество ». А комментатор из Индии написал: «Мой вклад в создание ИИ для будущих поколений не только дает мне чувство гордости, но и дает мне большее чувство удовлетворения. Я чувствую, что мы как команда выстраиваем передний план для одного из важных технологических достижений завтрашнего дня ».
Чтобы услышать эти истории и признать важность этих участников для успеха ИИ, мы должны придерживаться ответственного подхода к ИИ . Предприятия и правительства должны принять этический кодекс AI-аннотаторов. Разработка этического кодекса ИИ-аннотатора также имеет хороший бизнес-смысл, поскольку может помочь обеспечить стабильные поставки высококачественных обучающих данных, создаваемых участниками.
ИИ будет является частью нашей повседневной жизни, поэтому все мы должны сделать так, чтобы ИИ работал для всех. Компании, которые берут на себя обязательства по ответственным проектам искусственного интеллекта, основанным на беспристрастных и высококачественных данных, обеспечат успех проекта и получат более полное представление о бизнесе, ускорят инновации и получат повышенную рентабельность инвестиций - и все это при соблюдении ответственного и этичного подхода, который защищает их бренды и делает мир лучше. место.
На основе https://smartzakupka.ru/news/kak-povyisit-tochnos ... -diversificzirovannyix-dannyix
*LoRA – способ дообучения модели, при котором к уже обученной модели добавляют дополнительные обучаемые слои – так можно легко изменить стиль, внешний вид или добавить новые знания, не перетренировывая всю модель
А тем временем в РФ определён новый ПНСТ 943—2024 стандарт для архитектуры систем машинного обучения (МО) в сетях будущего, включая IMT-2020. Ключевые идеи:
Поддержка интеграции МО с базовыми телеком-сетями.
Создание гибкой среды для обучения и тестирования моделей.
Унификация стандартных интерфейсов для обмена данными и обученными моделями.
Дополнительные источники для серьезного изучения
> naklecha.notion.site/a-reinforcement-learning-guide
> practicum.yandex.ru/blog/modeli-mashinnogo-obucheniya/
> monolithai.com/blog/what-is-a-self-learning-model
> disk.yandex.ru/d/p0oEidZ1ho5sKQ
> amazon.science/blog/aws-vp-of-ai-and-data-on-computer-vision-research-at-amazon про компьютерное зрение
> winpak.com/star-wars-the-singularity-and-the-future-of-packaging
Large Language Model Course - популярный бесплатный LLM курс.
Это пошаговое руководство с полезными ресурсами и ноутбуками, как для новичков, так и для тех, кто уже обладает мл-базой
Курс разбит на 3 части:
1️⃣LLM Fundamentals: Блок дает фундаментальные знания по математике, Python и нейронным сетям.
2️⃣ LLM Scientist: В этом блоке упор сделан на внутреннем устройстве LLM и их создание с использованием новейших технологий и фреймворков.
3️⃣ The LLM Engineer: Здесь вы научитесь писать приложений на практике и научитесь развертывать их.
Курс (> github.com/mlabonne/llm-course)
Foundations of Large Language Models - бесплатная книга по LLM появилась на > arxiv.org/pdf/2501.09223
Более 230+ страниц! Книга состоит из четырех частей и посвящена: предварительному обучению, генеративным моделям, промпт-инжинирингу и методам оптимизации LLM. Это хорошее введение в большие языковые модели для разработчиков и студентов.