?Машинное обучение сексистское
Мы много слышим о разнообразии и инклюзивности в последнее время, и одна из областей, которая вызывает особый интерес и волнение, — это применение машинного обучения для устранения предвзятости. При правильном подходе это может стать огромным стимулом для поддержки наших усилий по преодолению предвзятости во всех областях организации. Но есть и потенциальные подводные камни; если сделать неправильно, машинное обучение может фактически сделать ваш бизнес более предвзятым. Давайте рассмотрим, например, word2vec от Google. Используя миллионы данных из Google News, исследователи Google извлекли шаблоны слов, которые связаны друг с другом. Представив термины в векторном пространстве, они смогли вывести отношения между словами с помощью простой векторной алгебры. Например, система может правильно отвечать на вопросы типа «сестра для женщины, как брат для чего?» (сестра:женщина :: брат:?) — «мужчина». Но именно здесь кроется проблема этих правил: поскольку система обучена на существующих новостях, она также будет следовать предвзятости, присутствующей в этих статьях. И в наборе Google News эти статьи оказались шокирующе предвзятыми.