Проблема в китайской версии GPT-4o может привести к снижению производительности и ошибочным ответам.
                               
		
		
	
	
		 
	
                         
                      
     
 
14 мая Тяньле Цай, аспирант Принстонского университета, изучающий эффективность вывода в крупных языковых моделях, получил доступ к публичной библиотеке токенов и составил список из 100 самых длинных токенов на китайском языке, используемых моделью для обработки китайских запросов.
 
Оказалось, что только 3 из них были достаточно распространены, чтобы использоваться в повседневных разговорах; остальные представляли собой слова и выражения, связанные с азартными играми и порнографией. Самый длинный токен длился 10,5 китайских иероглифов и буквально означал «бесплатное японское порнографическое видео для просмотра».
 
В OpenAI не предоставили комментариев по ситуации.
 
GPT-4o должен был превзойти своих предшественников в обработке многоязычных задач благодаря новому инструменту токенизации, который лучше сжимает тексты на неанглийских языках. Однако для китайского языка новая токенизация привела к появлению большого количества бессмысленных фраз. Эксперты объясняют это недостаточной очисткой данных перед обучением модели.
 
Неправильные токены затрудняют понимание их смысла моделью, что может приводить к генерации ошибочных или небезопасных ответов, что позволяет исследователям обходить меры безопасности OpenAI.
 
Модели проще всего обрабатывать текст посимвольно, но это требует больше времени и ресурсов. Токены, представляющие собой последовательности символов с определённым значением, позволяют модели работать быстрее и эффективнее. С выходом GPT-4o OpenAI
 
 
Инвестор в области ИИ Диди Дас считает, что основное преимущество нового токенизатора заключается в снижении стоимости обработки запросов на этих языках, а не в повышении качества. Дас также отметил, что токены на хинди и бенгали отражают обсуждения людей, включающие имена и названия, без спамных и порнографических выражений, в отличие от китайских токенов.
 
Разница обусловлена качеством обучающих данных: в китайских токенах много спам-слов, используемых в контексте порнографии и азартных игр. Это говорит о том, что корпус данных для китайского языка был загрязнен и не был должным образом очищен.
 
Такие загрязненные данные могут быть результатом практики, когда спам-сайты встраивают свою рекламу в контент других сайтов, чтобы обходить фильтры и индексироваться поисковыми системами, что
 
Дас утверждает, что решение проблемы спама несложное и может включать простые методы фильтрации. Однако OpenAI, по мнению Даса, не провела должную очистку данных для китайского языка перед выпуском GPT-4o. Стоит отметить, что подобные проблемы отсутствовали в предыдущих версиях – GPT-3.5 и GPT-4.
 
Пользователи также обнаружили, что токены можно использовать для обхода защитных механизмов модели, заставляя её генерировать запрещенные ответы. Например, запрос на перевод длинных китайских токенов может привести к появлению слов, не включенных в запрос, что является признаком «галлюцинаций» модели.
 
Проблема возникает, когда токенизатор и сама языковая модель обучаются на разных наборах данных. Из-за этого модель не понимает редко используемые токены, что может вызывать странные и небезопасные ответы.
 
Решение проблемы заключается в том, чтобы набор данных для токенизатора соответствовал набору данных для модели, чтобы избежать расхождений. Однако это сложно реализовать на практике, так как обучение языковых моделей занимает месяцы и требует постоянного улучшения и фильтрации данных.
 
Эксперты считают, что проблема несложна для решения, но может усложниться с развитием модели, особенно в мультимодальных системах, включающих текстовые и визуальные элементы. Если проблема с китайскими токенами не будет решена, она может усугубиться при работе с визуальными токенами, что требует еще более сложной фильтрации данных.
            
				
			 
	
	 Для просмотра ссылки необходимо нажать
		Вход или Регистрация
 13 мая   представила        свою новейшую модель искусственного интеллекта GPT-4o (Omni). Однако спустя несколько дней после выпуска модели китайские пользователи заметили, что в новой версии что-то пошло не так: токены, используемые для разбора текста, содержали множество спамных и порнографических фраз.14 мая Тяньле Цай, аспирант Принстонского университета, изучающий эффективность вывода в крупных языковых моделях, получил доступ к публичной библиотеке токенов и составил список из 100 самых длинных токенов на китайском языке, используемых моделью для обработки китайских запросов.
Оказалось, что только 3 из них были достаточно распространены, чтобы использоваться в повседневных разговорах; остальные представляли собой слова и выражения, связанные с азартными играми и порнографией. Самый длинный токен длился 10,5 китайских иероглифов и буквально означал «бесплатное японское порнографическое видео для просмотра».
В OpenAI не предоставили комментариев по ситуации.
GPT-4o должен был превзойти своих предшественников в обработке многоязычных задач благодаря новому инструменту токенизации, который лучше сжимает тексты на неанглийских языках. Однако для китайского языка новая токенизация привела к появлению большого количества бессмысленных фраз. Эксперты объясняют это недостаточной очисткой данных перед обучением модели.
Неправильные токены затрудняют понимание их смысла моделью, что может приводить к генерации ошибочных или небезопасных ответов, что позволяет исследователям обходить меры безопасности OpenAI.
Модели проще всего обрабатывать текст посимвольно, но это требует больше времени и ресурсов. Токены, представляющие собой последовательности символов с определённым значением, позволяют модели работать быстрее и эффективнее. С выходом GPT-4o OpenAI
	 Для просмотра ссылки необходимо нажать
		Вход или Регистрация
   новый токенизатор, который добавил поддержку неанглийских языков. Всего в новом токенизаторе 200 000 токенов, около 24% из которых   
	 Для просмотра ссылки необходимо нажать
		Вход или Регистрация
       включая русский, арабский и вьетнамский.
	 Для просмотра ссылки необходимо нажать
		Вход или Регистрация
Инвестор в области ИИ Диди Дас считает, что основное преимущество нового токенизатора заключается в снижении стоимости обработки запросов на этих языках, а не в повышении качества. Дас также отметил, что токены на хинди и бенгали отражают обсуждения людей, включающие имена и названия, без спамных и порнографических выражений, в отличие от китайских токенов.
Разница обусловлена качеством обучающих данных: в китайских токенах много спам-слов, используемых в контексте порнографии и азартных игр. Это говорит о том, что корпус данных для китайского языка был загрязнен и не был должным образом очищен.
Такие загрязненные данные могут быть результатом практики, когда спам-сайты встраивают свою рекламу в контент других сайтов, чтобы обходить фильтры и индексироваться поисковыми системами, что
	 Для просмотра ссылки необходимо нажать
		Вход или Регистрация
   китайские пользователи, которые сообщают о частом появлении спамных сайтов в результатах поиска Google.Дас утверждает, что решение проблемы спама несложное и может включать простые методы фильтрации. Однако OpenAI, по мнению Даса, не провела должную очистку данных для китайского языка перед выпуском GPT-4o. Стоит отметить, что подобные проблемы отсутствовали в предыдущих версиях – GPT-3.5 и GPT-4.
Пользователи также обнаружили, что токены можно использовать для обхода защитных механизмов модели, заставляя её генерировать запрещенные ответы. Например, запрос на перевод длинных китайских токенов может привести к появлению слов, не включенных в запрос, что является признаком «галлюцинаций» модели.
Проблема возникает, когда токенизатор и сама языковая модель обучаются на разных наборах данных. Из-за этого модель не понимает редко используемые токены, что может вызывать странные и небезопасные ответы.
Решение проблемы заключается в том, чтобы набор данных для токенизатора соответствовал набору данных для модели, чтобы избежать расхождений. Однако это сложно реализовать на практике, так как обучение языковых моделей занимает месяцы и требует постоянного улучшения и фильтрации данных.
Эксперты считают, что проблема несложна для решения, но может усложниться с развитием модели, особенно в мультимодальных системах, включающих текстовые и визуальные элементы. Если проблема с китайскими токенами не будет решена, она может усугубиться при работе с визуальными токенами, что требует еще более сложной фильтрации данных.
	 Для просмотра ссылки необходимо нажать
		Вход или Регистрация
 
					


 
 
 
 
 
 
 
 
 
 

 
		
 
			




 
		 
		 
 
		 
                                 
                                 
                                 
 
		 
 
		 
	 
	 
	 
	