RSS

AI Snake Oil

Les agents de codage IA ne remplacent pas les ingénieurs logiciels. Contrairement aux attentes, ces outils restent des technologies auxiliaires limitées par des défis d'intégration, de fiabilité et de contexte complexe.

Génération de code Agents IA

SIG

HYP

AI Snake Oil·16 avr.

Open-world evaluations for measuring frontier AI capabilities

CRUX est un nouveau projet d'évaluation pour mesurer les capacités des modèles IA frontière sur des tâches longues et complexes en environnement ouvert, au-delà des benchmarks traditionnels.

Évaluations Benchmarks

SIG

HYP

AI Snake Oil·24 févr.

New Paper: Towards a science of AI agent reliability

Un nouveau papier étudie la fiabilité des agents IA en quantifiant l'écart entre leurs capacités déclarées et leur performance réelle. L'étude propose des méthodes pour mesurer cette divergence et améliorer la robustesse des systèmes d'agents.

Agents IA Évaluations Sécurité IA

SIG

HYP

AI Snake Oil·12 févr.

AI Won’t Automatically Make Legal Services Cheaper

L'IA ne réduira pas automatiquement les coûts des services juridiques. L'article applique le cadre « IA comme technologie normale » au secteur légal, remettant en question l'hypothèse que l'automatisation IA entraînera systématiquement une baisse des prix.

Business Régulation

SIG

HYP

AI Snake Oil·29 janv.

Fact checking Moravec's paradox

Critique de la pertinence du paradoxe de Moravec, affirmation célèbre selon laquelle les tâches faciles pour les humains sont difficiles pour l'IA et vice-versa. L'article remet en question la validité et l'utilité de ce principe dans le contexte actuel.

Raisonnement Évaluations

SIG

HYP

AI Snake Oil·9 sept.

A guide to understanding AI as normal technology

Article positionnant l'IA comme technologie ordinaire plutôt que révolutionnaire. Remet en question le discours hype dominant et propose une perspective plus nuancée sur les capacités et limites réelles des systèmes actuels.

Sécurité IA Alignement

SIG

HYP

AI Snake Oil·16 juil.

Could AI slow science?

Article questionnant si l'IA pourrait ralentir la science en créant un paradoxe production-progrès : augmentation du volume de publications sans amélioration proportionnelle de la qualité ou de la compréhension scientifique réelle.

Papers Évaluations Sécurité IA

SIG

HYP

AI Snake Oil·1 mai

AGI is not a milestone

L'article conteste l'idée que l'AGI représente un seuil de capacité déclenchant des impacts soudains. Il remet en question le modèle de progression par étapes vers une intelligence générale.

Raisonnement Alignement Sécurité IA

SIG

HYP

AI Snake Oil·18 déc.

Is AI progress slowing down?

Analyse des tendances récentes en IA pour évaluer si le progrès ralentit. Examine les affirmations technologiques actuelles et leur fondement empirique.

Benchmarks Évaluations

SIG

HYP

AI Snake Oil·13 déc.

We Looked at 78 Election Deepfakes. Political Misinformation is not an AI Problem.

Analyse de 78 deepfakes électoraux : la désinformation politique ne provient pas principalement de l'IA. Les problèmes de manipulation électorale précèdent la technologie et ne peuvent être résolus par des solutions technologiques seules.

Sécurité IA Régulation Génération de vidéos

SIG

HYP

AI Snake Oil·11 nov.

Does the UK’s liver transplant matching algorithm systematically exclude younger patients?

Un algorithme d'appariement pour les transplantations hépatiques au Royaume-Uni pourrait exclure systématiquement les patients plus jeunes. Des choix techniques apparemment mineurs peuvent avoir des conséquences vitales.

Alignement Sécurité IA Régulation

SIG

HYP

AI Snake Oil·18 sept.

Can AI automate computational reproducibility?

Un nouveau benchmark évalue la capacité de l'IA à automatiser la reproductibilité computationnelle en science. L'étude mesure l'impact des modèles d'IA sur l'amélioration des pratiques de reproduction des résultats scientifiques.

Benchmarks Papers Évaluations

SIG

HYP

AI Snake Oil·19 août

AI companies are pivoting from creating gods to building products. Good.

Les entreprises IA abandonnent la rhétorique de l'AGI pour se concentrer sur des produits concrets. L'article identifie cinq défis majeurs dans cette transition : monétisation, intégration utilisateur, coûts d'inférence, différenciation technique et conformité réglementaire.

Business Régulation

SIG

HYP

AI Snake Oil·26 juil.

AI existential risk probabilities are too unreliable to inform policy

Critique des estimations de probabilité de risque existentiel IA présentées comme quantifiées. L'article dénonce comment la spéculation est transformée en chiffres apparemment rigoureux pour influencer les politiques publiques, sans fondement empirique solide.

Sécurité IA Alignement Régulation

SIG

HYP

AI Snake Oil·3 juil.

New paper: AI agents that matter

Un article critique sur l'évaluation des agents IA. Remet en question les méthodes actuelles de benchmarking et propose une réflexion sur ce qui constitue un agent IA pertinent.

Agents IA Évaluations Benchmarks

SIG

HYP

AI Snake Oil·27 juin

AI scaling myths

L'article remet en question les mythes autour du scaling de l'IA, affirmant que la croissance des modèles atteindra ses limites. Le moment de cette saturation reste incertain.

Raisonnement Benchmarks

SIG

HYP

AI Snake Oil·3 juin

Scientists should use AI as a tool, not an oracle

Les scientifiques doivent traiter l'IA comme un outil, non comme un oracle infaillible. L'hype autour de l'IA conduit à des recherches défectueuses qui alimentent davantage de hype, créant un cycle vicieux.

Sécurité IA Alignement Évaluations

SIG

HYP

AI Snake Oil·30 avr.

AI leaderboards are no longer useful. It's time to switch to Pareto curves.

Les classements IA traditionnels deviennent obsolètes face à la complexité coût-performance. L'article propose de remplacer les leaderboards par des courbes de Pareto pour évaluer les agents IA, illustrant comment $2,000 de dépenses révèlent les vrais compromis entre efficacité et ressources.

Évaluations Agents IA Benchmarks

SIG

HYP