微软 一直 都 号称 拥有 最 大 的 人 脸 数据 库 , 任何 人 都 可以 使用 它 来 训练 面部 识别 算法 。 因为 媒体 的 报道 引发 了 关于 隐私 和 道德 问题 的 关注 , 曾经 公开 可用 的 数据 集 已经 悄然 消失 。 现 已 删除 的 数据 集 中 包含 超过 1000 万 张 面孔 , 这些 面孔 来自 Flickr 等 网站 , 这些 网站 储存 的 是 根据 知识 共享 许可 上传 的 照片 —— 这 意味 着 许多 都 可以 免费 , 但 可能 有 版权 问题 。 其中 的 许多 面孔 不 属于 名人 —— 包括 记者 和 隐私 研究 人员 —— 并且 他们 不 知道 自己 的 图像 被 包括 在 内 。
当然 , 微软 并 不是 唯一 一 家 通过 从 开放 的 互联网 上 抓取 照片 来 组装 大型 数据 集 的 公司 。 调查 显示 , 很多 创业 公司 一直 在 使用 照片 收集 应用程序 暗中 收集 数 百万 张 面孔 , 而 其他 公司 则 一直 在 扫描 大量 的 大 头 照 。
微软微軟 [wēi ruǎn] Microsoft
号称號稱 [hào chēng] государство
库庫 [kù] Библиотека
媒体媒體 [méi tǐ] средства массовой информации
引发引發 [yǐn fā] Спусковой крючок
隐私隱私 [yǐn sī] конфиденциальность
关注關注 [guān zhù] внимание
可用可用 [kě yòng] Доступный
集集 [jí] набор
悄然悄然 [qiǎo rán] Тихо
面孔面孔 [miàn kǒng] лицо
储存儲存 [chǔ cún] Магазин
共享共享 [gòng xiǎng] делиться
许可許可 [xǔ kě] лицензия
意味意味 [yì wèi] означать
版权版權 [bǎn quán] авторское право
名人名人 [míng rén] знаменитость
研究研究 [yán jiū] учеба, исследование
图像圖像 [tú xiàng] изображение
互联网互聯網 [hù lián wǎng] интернет
抓取抓取 [zhuā qǔ] Захватить
组装組裝 [zǔ zhuāng] Собрание
创业創業 [chuàng yè] Запуск
收集收集 [shōu jí] собирать
应用程序應用程序 [yìng yòng chéng xù] приложение
暗中暗中 [àn zhōng] Тайно
扫描掃描 [sǎo miáo] сканирующий
大量大量 [dà liàng] Масса
Microsoft всегда утверждала, что обладает самой большой базой данных лиц, и любой желающий может использовать ее для обучения алгоритмам распознавания лиц. Поскольку сообщения средств массовой информации вызвали обеспокоенность по поводу конфиденциальности и этических вопросов, наборы данных, которые были общедоступны, незаметно исчезли. Удаленный набор данных содержит более 10 миллионов лиц с таких сайтов, как Flickr, которые хранят фотографии, загруженные по лицензии Creative Commo s, что означает, что многие из них бесплатны, но могут иметь проблемы с авторским правом. Многие из этих лиц не являются знаменитостями, включая журналистов и исследователей конфиденциальности, и они не знают, что их изображения включены в список.
Конечно, Microsoft — не единственная компания, которая собирает большие массивы данных, используя фотографии из открытого Интернета. Опрос показывает, что многие стартапы используют приложение для сбора фотографий, чтобы тайно собирать миллионы лиц, в то время как другие компании сканируют множество крупных снимков.