Apple dit avoir adopté une approche 'responsable' pour former ses modèles d'intelligence artificielle

Apple a publié un document technique détaillant les modèles qu'elle a développés pour alimenter l'Apple Intelligence, la gamme de fonctionnalités d'intelligence artificielle générative prévue pour iOS, macOS et iPadOS au cours des prochains mois.

Dans le document, Apple réfute les accusations selon lesquelles elle aurait adopté une approche éthiquement discutable pour former certains de ses modèles, réitérant qu'elle n'a pas utilisé de données utilisateur privées et s'est appuyée sur une combinaison de données disponibles publiquement et sous licence pour l'Apple Intelligence.

'L'ensemble de données de pré-entraînement se compose de ... des données que nous avons sous licence auprès d'éditeurs, des ensembles de données disponibles publiquement ou open source et des informations disponibles publiquement récupérées par notre robot d'indexation web, Applebot', écrit Apple dans le document. 'Compte tenu de notre accent sur la protection de la vie privée des utilisateurs, nous soulignons que aucune donnée utilisateur privée d'Apple n'est incluse dans le mélange de données.'

En juillet, Proof News a rapporté qu'Apple avait utilisé un ensemble de données appelé The Pile, contenant des sous-titres provenant de centaines de milliers de vidéos YouTube, pour former une famille de modèles conçus pour un traitement sur l'appareil. De nombreux créateurs de vidéos YouTube dont les sous-titres ont été inclus dans The Pile n'étaient pas au courant et n'ont pas consenti à cela; Apple a ensuite publié une déclaration indiquant qu'elle n'avait pas l'intention d'utiliser ces modèles pour alimenter des fonctionnalités d'IA dans ses produits.

Le document technique, qui dévoile les modèles qu'Apple a présentés pour la première fois lors du WWDC 2024 en juin, appelés les Modèles Fondamentaux Apple (AFM), souligne que les données d'entraînement pour les modèles AFM ont été sourcées de manière 'responsable' - ou du moins selon la définition d'Apple.

Les données d'entraînement des modèles AFM comprennent des données Web disponibles publiquement ainsi que des données sous licence provenant d'éditeurs non divulgués. Selon le New York Times, Apple a contacté plusieurs éditeurs à la fin de 2023, dont NBC, Condé Nast et IAC, pour des accords de plusieurs années valant au moins 50 millions de dollars afin de former des modèles sur les archives de nouvelles des éditeurs. Les modèles AFM d'Apple ont également été formés sur du code open source hébergé sur GitHub, notamment du code Swift, Python, C, Objective-C, C++, JavaScript, Java et Go.

Former des modèles sur du code sans permission, même du code open source, est un point de discorde parmi les développeurs. Certains argue que certaines bases de code open source ne sont pas sous licence ou n'autorisent pas la formation d'IA dans leurs conditions d'utilisation, mais Apple affirme qu'elle a 'filtré les licences' pour le code afin d'inclure uniquement les dépôts avec des restrictions d'utilisation minimales, comme ceux sous licence MIT, ISC ou Apache.

Pour améliorer les compétences mathématiques des modèles AFM, Apple a spécifiquement inclus dans l'ensemble d'entraînement des questions et des réponses mathématiques provenant de pages Web, de forums mathématiques, de blogs, de tutoriels et de séminaires, selon le document. La société a également utilisé des ensembles de données 'de haute qualité, disponibles publiquement' (que le document ne nomme pas) avec des 'licences permettant l'utilisation pour l'entraînement des modèles...', filtrés pour supprimer les informations sensibles.

En tout, l'ensemble de données d'entraînement pour les modèles AFM pèse environ 6,3 billions de tokens. (Les tokens sont des morceaux de données de taille réduite qui sont généralement plus faciles à ingérer pour les modèles d'IA générative.) Pour comparaison, c'est moins de la moitié du nombre de tokens - 15 billions - que Meta a utilisés pour entraîner son modèle phare de génération de texte, Llama 3.1 405B.

Apple a sourcé des données supplémentaires, y compris des données de feedback humain et des données synthétiques, pour affiner les modèles AFM et tenter de atténuer tout comportement indésirable, comme l'émission de toxicité.

'Nos modèles ont été créés dans le but d'aider les utilisateurs à réaliser des activités quotidiennes sur l'ensemble de leurs produits Apple, ancrés dans les valeurs fondamentales d'Apple, et enracinés dans nos principes d'IA responsables à chaque étape', indique la société.

Il n'y a pas de révélation choquante dans le document - et c'est délibérément fait. Rarement ces documents sont très révélateurs, en raison des pressions concurrentielles, mais aussi parce que divulguer trop pourrait entraîner des ennuis juridiques pour les entreprises.

Certaines entreprises formant des modèles en extrayant des données publiques sur le Web affirment que leur pratique est protégée par la doctrine d'usage équitable. Mais c'est une question très débattue et le sujet de nombreux litiges en augmentation.

Apple note dans le document qu'elle permet aux webmasters de bloquer son robot d'indexation pour ne pas extraire leurs données. Mais cela laisse les créateurs individuels dans l'embarras. Que doit faire un artiste si, par exemple, son portfolio est hébergé sur un site qui refuse de bloquer l'extraction de données par Apple?

Les batailles judiciaires décideront du sort des modèles d'IA générative et de la manière dont ils sont formés. Pour l'instant, cependant, Apple essaie de se positionner en tant qu'acteur éthique tout en évitant un examen juridique indésirable.