Специалисты из OpenAI опубликовали исследование, в котором описали, как при помощи языковой модели GPT-4 они пытались объяснить работу нейронов ее предшественницы, GPT-2. Сейчас разработчики компании стремятся продвинуться в "интерпретируемости" нейросетей и понять, почему те создают именно тот контент, который мы получаем.
В первом же предложении своей статьи авторы из OpenAI признаются: "Языковые модели стали более функциональными и более распространенными, но мы не понимаем, как они работают". Это "незнание" того, как именно отдельные нейроны в нейронной сети ведут себя для получения выходных данных, называют "черным ящиком". Как пишет Ars Technica, пытаясь заглянуть внутрь "черного ящика", исследователи из OpenAI использовали свою языковую модель GPT-4 для создания и оценки естественно-языковых объяснений поведения нейронов в более простой языковой модели, GPT-2. В идеале наличие интерпретируемой модели ИИ помогло бы достичь более глобальной цели, которую называют "согласование ИИ". В этом случае у нас появились бы гарантии, что системы ИИ будут вести себя так, как задумано, и отражать человеческие ценности.
В OpenAI хотели выяснить, какие шаблоны в тексте вызывают активацию нейрона, и двигались поэтапно. На первом этапе предполагалось объяснить активацию нейронов с помощью GPT-4. На втором смоделировать активацию нейронов с помощью GPT-4, учитывая объяснение из первого этапа. На третьем оценить объяснение, сравнив смоделированные и реальные активации. GPT-4 выявляла конкретные нейроны, нейронные цепи, и "головы внимания" (attention head) и создавала удобочитаемые объяснения роли этих компонентов. Также большая языковая модель генерировала оценку объяснения, которую в OpenAI называют "мерой способности языковой модели сжимать и реконструировать активации нейронов с использованием естественного языка".
В процессе исследования специалисты OpenAI предложили продублировать работу GPT-4 человеку и сравнили их результаты. Как признали авторы статьи, и нейросеть, и человек "показали плохие результаты в абсолютном выражении".
Одно из объяснений этой неудачи, предложенное в OpenAI, заключается в том, что нейроны могут быть "полисемантичными", что означает, что типичный нейрон в контексте исследования может иметь несколько значений или быть связанным с несколькими понятиями. Кроме того, языковые модели могут содержать "чуждые понятия", для которых у людей просто нет слов. Такой парадокс мог возникнуть из-за разных причин: например, из-за того, что языковые модели заботятся о статистических конструкциях, используемых для прогнозирования следующей лексемы; или из-за того, что модель обнаружила естественные абстракции, которые людям еще предстоит открыть, например, семейство аналогичных понятий в несопоставимых областях.
В итоге в OpenAI пришли к тому, что не все нейроны можно объяснить на естественном языке; и пока исследователи способны увидеть только корреляции между входными данными и интерпретируемым нейроном при фиксированном распределении, причем прошлые научные работы показывают, что это может не отражать причинно-следственную связь между ними. Несмотря на это, исследователи настроены достаточно оптимистично и уверены, что им удалось создать основу для машинной интерпретируемости. Сейчас они выложили на GitHub код системы автоматической интерпретации, нейроны GPT-2 XL и наборы данных объяснений.
-----------------
Короче говоря, люди создали то, что сами же не могут объяснить.
В первом же предложении своей статьи авторы из OpenAI признаются: "Языковые модели стали более функциональными и более распространенными, но мы не понимаем, как они работают". Это "незнание" того, как именно отдельные нейроны в нейронной сети ведут себя для получения выходных данных, называют "черным ящиком". Как пишет Ars Technica, пытаясь заглянуть внутрь "черного ящика", исследователи из OpenAI использовали свою языковую модель GPT-4 для создания и оценки естественно-языковых объяснений поведения нейронов в более простой языковой модели, GPT-2. В идеале наличие интерпретируемой модели ИИ помогло бы достичь более глобальной цели, которую называют "согласование ИИ". В этом случае у нас появились бы гарантии, что системы ИИ будут вести себя так, как задумано, и отражать человеческие ценности.
В OpenAI хотели выяснить, какие шаблоны в тексте вызывают активацию нейрона, и двигались поэтапно. На первом этапе предполагалось объяснить активацию нейронов с помощью GPT-4. На втором смоделировать активацию нейронов с помощью GPT-4, учитывая объяснение из первого этапа. На третьем оценить объяснение, сравнив смоделированные и реальные активации. GPT-4 выявляла конкретные нейроны, нейронные цепи, и "головы внимания" (attention head) и создавала удобочитаемые объяснения роли этих компонентов. Также большая языковая модель генерировала оценку объяснения, которую в OpenAI называют "мерой способности языковой модели сжимать и реконструировать активации нейронов с использованием естественного языка".
В процессе исследования специалисты OpenAI предложили продублировать работу GPT-4 человеку и сравнили их результаты. Как признали авторы статьи, и нейросеть, и человек "показали плохие результаты в абсолютном выражении".
Одно из объяснений этой неудачи, предложенное в OpenAI, заключается в том, что нейроны могут быть "полисемантичными", что означает, что типичный нейрон в контексте исследования может иметь несколько значений или быть связанным с несколькими понятиями. Кроме того, языковые модели могут содержать "чуждые понятия", для которых у людей просто нет слов. Такой парадокс мог возникнуть из-за разных причин: например, из-за того, что языковые модели заботятся о статистических конструкциях, используемых для прогнозирования следующей лексемы; или из-за того, что модель обнаружила естественные абстракции, которые людям еще предстоит открыть, например, семейство аналогичных понятий в несопоставимых областях.
В итоге в OpenAI пришли к тому, что не все нейроны можно объяснить на естественном языке; и пока исследователи способны увидеть только корреляции между входными данными и интерпретируемым нейроном при фиксированном распределении, причем прошлые научные работы показывают, что это может не отражать причинно-следственную связь между ними. Несмотря на это, исследователи настроены достаточно оптимистично и уверены, что им удалось создать основу для машинной интерпретируемости. Сейчас они выложили на GitHub код системы автоматической интерпретации, нейроны GPT-2 XL и наборы данных объяснений.
-----------------
Короче говоря, люди создали то, что сами же не могут объяснить.
Комментарий