Google calls for weakened copyright and export rules in AI policy proposal

Google et OpenAI profitent de la tendance politique aux US pour tenter de se débarrasser des questions de droits d’auteurs / voisins sur les data d’entrainement et de garder les modèles en mode boîte noire. Cela va à l’opposé de la plupart des “bills” dans les États et bien sûr de l’IA Act en Europe. Ce sont deux piliers fondamentaux de l’IA Éthique qui sont à risque.

AI haters build tarpits to trap and trick AI scrapers that ignore robots.txt

Face aux robots d’IA qui ignorent les règles et aspirent les contenus web sans permission, une parade émerge : les “tarpits” (fosses à goudron). Ces pièges numériques, inspirés des techniques anti-spam, sont conçus pour embourber les crawlers dans des données inutiles. Un petit pied de nez aux géants de l’IA, même si la bataille reste symbolique. Cela confirme encore, s’il en était besoin, que la guerre à la donnée fait rage. Et il faudra trouver une solution pour que les modèles continuent de s’améliorer.

DeepSeek’s Popular AI App Is Explicitly Sending US Data to China

Concernant DeepSeek vs les US, je ne participerai pas ici à l’excitation générale sur des éléments probablement fantasmés (des deux côtés). Par contre, très factuellement, le nombre d’utilisateurs en dehors de la Chine est énorme. Sur des applications en entreprise, on déconseille déjà le Shadow IA avec un ChatGPT gratuit qui fait la même chose, mais là, on va passer un cran supérieur avec DeepSeek.

Meta’s LibGen controversy reveals how desperate AI companies are for quality training data

On connaissait le manque chronique de données d’entrainement, dont certains voient une explication aux LLM qui commencent à plafonner en performance. Mais de là à ce que Meta utilise sciemment, avec l’accord de Mark Zuckerberg, une base de données de livres piratés sur Bit Torrent, et en plus effacent leurs traces ! Et on parle de contenus “US”. Un retard qui est peu évoqué : quid de la représentativité des autres cultures ? Surtout quand la régulation (pourtant nécessaire) va dans le mauvais sens et les rend encore moins accessibles ? Il est urgent de régler cette question de droits voisins vs “fair use”.

Publishers are selling papers to train AIs — and making millions of dollars

Toujours plus gourmands en données après des accords avec la presse, les fournisseurs de LLM signent avec les éditeurs de livres scolaires aux Etats-Unis. Des deals à plusieurs dizaines de millions de dollars. Et les droits d’auteurs sont respectés, la republication interdite (quoique, à voir…). Quid des éditeurs français et européen ? Les LLM vont devenir meilleurs, mais qu’avec la culture et le savoir anglo-saxon. D’accord, on est déjà bien biberonnés, ce serait l’occasion de renverser la tendance ?

Trump’s Silicon Valley advisers have AI ‘censorship’ in their crosshairs

Quand la modération de contenu devient censure vue par les soutiens tech de Donald Trump. Ils commencent à viser Google, Facebook ou OpenAI dans leur tentative d’augmenter la pertinence et réduire les dangers dans les réponses (RLHF). Elon a créé Grok pour proposer une IA “non woke” et reste déçu, certaines réponses ne correspondent toujours pas à sa vision du monde. Cela a le mérite de clarifier un point : les IA ne sont évidemment pas neutres et très influencées par leurs créateurs, pour le meilleur comme pour le pire…

Pour améliorer les intelligences artificielles, des entreprises ont recours au travail des enfants

Rien de nouveau malheureusement, on sait que dans l’hémisphère sud le Modern Slavery se développe notamment du fait des sociétés qui ont besoin de Reinforcement Learning grâce aux humains pour améliorer les modèles IA (le fameux RLFH). OpenAI avait déjà été cité du temps de ChatGPT 3.5. Payées 1$ de l’heure (plus que le salaire moyen local) ces personnes sont particulièrement exposés à des contenus insoutenables. Cela a été caractérisé comme de la torture. La nouveauté dans cette enquête de Wired c’est qu’il s’agit d’enfants. Et dans la plus grande indifférence.

IA générative et droit d’auteur : quelle place pour les données européennes protégées à l’ère de l’IA ?

Beau cadeau de France Digitale à deux titres : une très didactique explication des différentes composantes de l’IA et une proposition de modèle pour sortir des deux mauvaises solutions vers lesquelles on se dirige. D’un part, les droits d’auteurs doivent être respectés et les médias ne devraient pas de se faire piller leurs contenus. Mais de l’autre côté, s’ils bloquent, c’est l’assurance de n’avoir que des modèles américains ou chinois et de voir les LLM ignorer des pans de la culture européenne dans ses réponses. La solution proposée ne prétend pas être parfaite, mais elle a le mérite de poser le débat au bon endroit.

Why AI bias may be easier to fix than humanity’s

Nous sommes truffés de biais, nos décisions en sont influencées, ce qui fait de chacun d’entre nous des racistes, misogynes et classistes. Oui, oui, aujourd’hui dans nos entreprises. Même si on essaie de s’améliorer, avouons que les progrès sont lents. On reproche souvent à l’IA ses biais. Mais ils viennent de nous. D’où les scénarii dystopiques. Et si l’IA était la solution ? Bien entraînée, elle pourrait devenir meilleure que l’humain pour prendre des décisions sur un emploi, un prêt, etc. Cela n’engage que moi, mais je ferai plus confiance à une telle IA qu’à des humains.

Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools

Fascinante étude qui prend enfin le temps d’entrer sur des tests très précis et documentés de la performance des modèles d’IA dans le juridique. Un clan fermé d’acteurs très bien installés et financés et pourtant des performances très éloignées de leur discours marketing. Bien sûr que les progrès vont venir, mais pourquoi faire croire que les hallucinations n’existent plus, même avec du RAG et surtout dans un domaine aussi sensible que le juridique ?
Si vous voulez éviter les 38 pages, les principaux passages en 3 ou 4 pages…