Время проверки контента Gemini сократилось с 30 до 15 минут

Post Thumbnail

Тревожные сигналы из внутренней кухни Google опубликовало издание The Guardian. Оценщики контента для модели Gemini поделились с ними интересной информацией о снижении стандартов проверки. Сотрудники подрядчика GlobalLogic, ответственные за оценку качества и безопасности ответов искусственного интеллекта перед выпуском, бьют тревогу. За последние полгода время на проверку 1 ответа сократилось вдвое. С 30 до 15 минут. За этот мизерный промежуток необходимо проанализировать текст в 500 слов, проверить фактическую точность и составить подробный отчёт. Ребекка Джексон-Артис, присоединившаяся к команде осенью прошлого года, рассказала, что после минимального обучения ей поручили не только оценку, но и загрузку в систему чувствительной информации. По здравоохранению, финансам и развитию детей. Первоначальная установка на качество быстро сменилась требованием «просто выполнять план». Другой сотрудник, Рэйчел Сойер, отметила существенное смягчение критериев в этом году. Материалы, ранее считавшиеся неприемлемыми, теперь получают зелёный свет. Возможно, Google осознал, что даже 30 минут недостаточно для тщательной проверки, и вместо имитации безопасности решила сосредоточиться на улучшении алгоритмических ограничений. Но всё равно. 15 минут на анализ 500 слов — это за гранью.

Почитать из последнего
Инженеры ИИ-компаний тайком используют Claude вместо своего ИИ
Корпорации вливают миллиарды в собственные разработки ИИ и пиарят их на каждом углу. А собственные инженеры втихаря пользуются продуктом конкурентов. Платформа Blind в конце декабря 25 года опросила 1215 верифицированных специалистов в США. И результаты получились убийственные. Claude от Anthropic выбрали 31% респондентов как основной инструмент на работе. Оставив позади ChatGPT с 19%, Gemini с 15% и GitHub Copilot с 14%.
Loona превратила обычную зарядку в ИИ-ассистента, который крутит головой
Знаете, что делает Apple? Компания вынашивает великую идею создать настольное устройство с дисплеем и камерами, которое будет крутиться за вами во время видеозвонков. Вынашивает, обдумывает, разрабатывает. А пока гигант думает, стартап Loona просто взял и сделал это на коленке. Причём использовав тот же iPhone.
Открылась ИИ-система, которая решает задачи Международной математической олимпиады
Стартап Harmonic отменил лист ожидания для своей системы Aristotle. И теперь любой может зарегистрироваться и сразу получить доступ к API. Aristotle — это система автоматического доказательства теорем. Которая в июле 25 года решила 5 из 6 задач Международной математической олимпиады, показав результат на уровне золотой медали. В отличие от аналогов OpenAI и Google DeepMind, которые достигли того же уровня, но остаются закрытыми, Aristotle стал первым публично доступным ИИ такого класса с формальной верификацией.
Программисты либо обесценятся в 10 раз, либо станут в 10 раз ценнее
Django — это очень популярный бесплатный фреймворк с открытым исходным кодом для языка Python. И вот 1 из создателей Django Саймон Уиллисон, озвучил интересные мысли.
Ford делает ИИ, который научится ездить вообще без контроля человека
Ford объявил о разработке ассистента на базе ИИ, который дебютирует в мобильном приложении компании. А потом в 27 году переедет в автомобили. Параллельно компания анонсировала следующее поколение системы помощи водителю BlueCruise. Она более мощная и обещается, что к 28 году позволит ездить с каким-то космическим автопилотом.