AI haters build tarpits to trap and trick AI scrapers that ignore robots.txt

Face aux robots d’IA qui ignorent les règles et aspirent les contenus web sans permission, une parade émerge : les “tarpits” (fosses à goudron). Ces pièges numériques, inspirés des techniques anti-spam, sont conçus pour embourber les crawlers dans des données inutiles. Un petit pied de nez aux géants de l’IA, même si la bataille reste symbolique. Cela confirme encore, s’il en était besoin, que la guerre à la donnée fait rage. Et il faudra trouver une solution pour que les modèles continuent de s’améliorer.

Meta’s LibGen controversy reveals how desperate AI companies are for quality training data

On connaissait le manque chronique de données d’entrainement, dont certains voient une explication aux LLM qui commencent à plafonner en performance. Mais de là à ce que Meta utilise sciemment, avec l’accord de Mark Zuckerberg, une base de données de livres piratés sur Bit Torrent, et en plus effacent leurs traces ! Et on parle de contenus “US”. Un retard qui est peu évoqué : quid de la représentativité des autres cultures ? Surtout quand la régulation (pourtant nécessaire) va dans le mauvais sens et les rend encore moins accessibles ? Il est urgent de régler cette question de droits voisins vs “fair use”.

Publishers are selling papers to train AIs — and making millions of dollars

Toujours plus gourmands en données après des accords avec la presse, les fournisseurs de LLM signent avec les éditeurs de livres scolaires aux Etats-Unis. Des deals à plusieurs dizaines de millions de dollars. Et les droits d’auteurs sont respectés, la republication interdite (quoique, à voir…). Quid des éditeurs français et européen ? Les LLM vont devenir meilleurs, mais qu’avec la culture et le savoir anglo-saxon. D’accord, on est déjà bien biberonnés, ce serait l’occasion de renverser la tendance ?

Pour améliorer les intelligences artificielles, des entreprises ont recours au travail des enfants

Rien de nouveau malheureusement, on sait que dans l’hémisphère sud le Modern Slavery se développe notamment du fait des sociétés qui ont besoin de Reinforcement Learning grâce aux humains pour améliorer les modèles IA (le fameux RLFH). OpenAI avait déjà été cité du temps de ChatGPT 3.5. Payées 1$ de l’heure (plus que le salaire moyen local) ces personnes sont particulièrement exposés à des contenus insoutenables. Cela a été caractérisé comme de la torture. La nouveauté dans cette enquête de Wired c’est qu’il s’agit d’enfants. Et dans la plus grande indifférence.

Why AI bias may be easier to fix than humanity’s

Nous sommes truffés de biais, nos décisions en sont influencées, ce qui fait de chacun d’entre nous des racistes, misogynes et classistes. Oui, oui, aujourd’hui dans nos entreprises. Même si on essaie de s’améliorer, avouons que les progrès sont lents. On reproche souvent à l’IA ses biais. Mais ils viennent de nous. D’où les scénarii dystopiques. Et si l’IA était la solution ? Bien entraînée, elle pourrait devenir meilleure que l’humain pour prendre des décisions sur un emploi, un prêt, etc. Cela n’engage que moi, mais je ferai plus confiance à une telle IA qu’à des humains.

La BNF prête à ouvrir ses archives pour franciser des modèles d’IA

Probablement une excellente nouvelle pour les business aussi : plus les données d’entrainement seront locales ou européennes, plus les résultats que les LLM produisent sembleront pertinents. On oublie souvent que les LLM actuels sont entrainés sur les données du Web, elles-mêmes pas représentative de la société ou l’histoire américaine. C’est d’ailleurs pour que ça que tous les acteurs essaient de négocier avec les groupes de presse. Autant dire qu’on n’a pas être surpris des “hallucinations” sur des recherches spécifiques sur l’histoire ou l’économie française.

OpenAI: Our approach to data and AI

Media Manager permettra en 2025 aux artistes et aux créateurs de contenus, y compris les médias, de revendiquer la paternité de leurs productions et de spécifier s’ils souhaitaient ou non autoriser la société à les utiliser pour entraîner ses modèles d’IA générative. Ca sent l’IA Act mais ne règle pas tout, de loin.