Tether presenta QVAC MedPsy, una IA médica que supera a modelos mucho más grandes
0
0

Tether presentó QVAC MedPsy, una nueva familia de modelos de IA médica diseñada para funcionar directamente en smartphones, laptops y servidores. La compañía asegura que sus versiones de 1,7B y 4B parámetros superan a modelos rivales de mayor tamaño, con menos consumo de tokens y un enfoque local-first orientado a privacidad y despliegue edge.
***
- Tether afirma que QVAC MedPsy-4B supera a MedGemma-27B-text-it y que MedPsy-1.7B supera a MedGemma-1.5-4B-it.
- Los modelos fueron diseñados para correr localmente en dispositivos edge, con variantes GGUF compatibles con llama.cpp y el SDK de QVAC.
- La firma destaca una reducción de hasta 3,2x en tokens generados, lo que puede traducirse en menor latencia y menor costo computacional.
Tether amplió su apuesta por la inteligencia artificial con el lanzamiento de QVAC MedPsy, una familia de modelos médicos y sanitarios creada para ejecutarse localmente en smartphones, laptops y servidores. La novedad fue anunciada por @paoloardoino, CEO de la empresa, quien sostuvo que se trata del modelo de IA médica state-of-the-art de Tether AI para despliegue directo en dispositivos.
Según el anuncio, la nueva línea llega con dos versiones principales, de 1,7 mil millones y 4 mil millones de parámetros. La compañía afirma que ambas ofrecen alto rendimiento y alta precisión en hardware de consumo, una promesa relevante en un sector donde los modelos médicos más potentes suelen depender de infraestructura en la nube.
En paralelo, la cuenta institucional de Tether presentó la iniciativa como una respuesta a un problema estructural de conectividad y acceso. La empresa planteó que los 8 mil millones de seres humanos merecen una inteligencia que no falle cuando se pierde la señal, y describió a QVAC Psy como una serie de modelos fundacionales construidos sobre la llamada estabilidad matemática de la psicohistoria.
Dentro de ese ecosistema, QVAC MedPsy aparece como la variante enfocada en salud. El proyecto fue detallado en el texto técnico QVAC MedPsy: State-of-the-Art Medical and Healthcare Language Models for Edge Devices, publicado por el equipo de qvac, donde se presentan los benchmarks, la metodología de entrenamiento y los formatos de despliegue.
Qué afirma Tether sobre el rendimiento de MedPsy
La afirmación más llamativa del lanzamiento es que QVAC MedPsy-4B supera a MedGemma-27B-text-it, un modelo considerablemente más grande. En benchmarks médicos de respuesta cerrada, Tether reporta una puntuación promedio de 70,54 para MedPsy-4B, frente a 69,95 para MedGemma-27B-text-it.
El documento también sostiene que la ventaja se amplía en escenarios clínicos más realistas. En HealthBench, MedPsy-4B obtuvo 74,00 frente a 65,00 del modelo de Google, mientras que en HealthBench Hard registró 58,00 contra 42,00. En MedXpertQA, otra prueba citada por la empresa, la diferencia fue de 30,61 frente a 25,18.
En la escala menor, Tether asegura que MedPsy-1.7B superó a MedGemma-1.5-4B-it pese a tener menos de la mitad del tamaño. La puntuación promedio en siete benchmarks médicos de respuesta cerrada fue de 62,62 para MedPsy-1.7B, contra 51,20 para el modelo rival, una diferencia de 11,42 puntos.
La empresa además subraya que el modelo de 1,7B alcanzó 70,33 en HealthBench y 54,33 en HealthBench Hard. Esos registros, según el informe, incluso superan los resultados de MedGemma-27B-text-it en esas dos pruebas, algo que Tether presenta como evidencia de que los modelos compactos pueden competir en tareas clínicas si el post-entrenamiento y la curación de datos son adecuados.
Más allá de la comparación con MedGemma, el reporte añade que MedPsy-1.7B se acerca al rendimiento de Qwen3-4B-Thinking-2507, un modelo 2,4 veces más grande. Para la firma, esto refuerza la tesis de que una estrategia de entrenamiento específica para salud puede cerrar parte de la brecha tradicional entre modelos edge y sistemas de mayor escala.
Por qué importa el enfoque local-first en salud
El concepto central del lanzamiento es el despliegue edge o local-first. En términos simples, esto significa que el modelo puede ejecutarse directamente en el dispositivo del usuario, sin necesidad de enviar datos sensibles a servidores remotos para cada consulta.
En salud, esa promesa tiene peso propio. Historiales clínicos, síntomas, notas médicas y consultas de pacientes suelen estar sujetos a marcos regulatorios estrictos, y moverlos a la nube puede generar riesgos adicionales de cumplimiento, seguridad y exposición de información sensible.
El informe explica que MedPsy fue diseñado para integrarse con el SDK de QVAC, la plataforma abierta de Tether para ejecutar, ajustar y desplegar modelos de IA en cualquier dispositivo y sistema operativo. La idea es habilitar inteligencia médica privada en el dispositivo, desde teléfonos hasta servidores, con una misma interfaz de desarrollo.
Tether plantea que este enfoque también mejora la confiabilidad. Si la inferencia ocurre localmente, el sistema no depende de una conexión constante ni de latencias de red para responder, un factor especialmente relevante en entornos con conectividad limitada o en regiones con infraestructura sanitaria precaria.
Ese razonamiento encaja con el mensaje institucional que acompañó el anuncio. Al insistir en una inteligencia que no parpadee cuando se cae la señal, la compañía busca posicionar a QVAC no solo como una plataforma de IA, sino como una capa de cómputo resiliente para uso real en contextos sensibles.
Menos tokens, menor latencia y formatos para móviles
Otro de los puntos destacados por Tether es la eficiencia en tokens. El reporte asegura que MedPsy-4B produce respuestas médicas correctas usando un promedio ponderado de 909 tokens, frente a 2.953 tokens de Qwen3-4B-Thinking-2507. La reducción sería de 3,2x.
En el caso del modelo más pequeño, MedPsy-1.7B promedió cerca de 1.110 tokens, frente a 1.901 tokens de Qwen3-1.7B en modo thinking. Allí la mejora reportada es de 1,7x. Para despliegues edge, esta diferencia importa porque menos tokens suelen implicar menor latencia, menor uso de memoria y menor costo de inferencia.
La empresa también publicó versiones GGUF para ambos modelos, incluyendo un archivo BF16 sin cuantizar y siete variantes cuantizadas por modelo. Estas versiones son compatibles con llama.cpp y con el SDK de QVAC, lo que abre la puerta a implementaciones privadas en portátiles, móviles de gama alta y otros equipos con recursos limitados.
Entre las configuraciones recomendadas, el reporte destaca Q5_K_M y Q4_K_M. En el modelo 4B, Q5_K_M reduce el tamaño del archivo en 64% con una pérdida de apenas 0,29 puntos en la métrica promedio usada por la empresa. Q4_K_M recorta el tamaño en 69% con una caída de 0,81 puntos.
Para el modelo 1,7B, Q5_K_M reduce el tamaño en 64% con una pérdida de 0,02 puntos, mientras que Q4_K_M recorta 69% con una caída de 0,73 puntos. El informe no recomienda usar las variantes de 3 bits del modelo 1,7B para uso médico, ya que allí la degradación sería mucho más pronunciada.
Cómo fueron entrenados y evaluados los modelos
MedPsy está construido sobre la familia Qwen3 y fue sometido a una receta de post-entrenamiento de varias etapas. El proceso incluyó fine-tuning supervisado sobre un corpus sintético a gran escala, una segunda fase de especialización en razonamiento clínico y dos etapas de aprendizaje por refuerzo sobre el conjunto AlphaMedQA.
Según el texto técnico, para los experimentos se generaron más de 30 millones de filas sintéticas de supervisión médica y sanitaria. La receta final utilizó un currículo de dos etapas y un único modelo teacher de razonamiento controlado, Baichuan-M3-235B, elegido tras compararlo con GPT-OSS-120B y Fleming-R1-32B.
La evaluación incluyó ocho suites de benchmarks. Entre ellas aparecen MedQA-USMLE, MedMCQA, MMLU Health, MMLU-Pro Health, MedXpertQA, PubMedQA, AfriMedQA, HealthBench y HealthBench Hard. Para las tareas abiertas, Tether empleó un panel de tres jueces independientes: CompassJudger-2-32B-Instruct, Llama-3.3-70B-Instruct y GPT-OSS-120B.
El informe añade que la canalización principal consumió alrededor de 8.250 horas de GPU H100, con la mayor parte del presupuesto concentrado en generación de datos. Si se incluyen ablaciones, pruebas fallidas y evaluación, el costo total estimado del proyecto ronda 30.000 horas de GPU H100.
Para Tether, la conclusión es que la calidad de los datos, el post-entrenamiento escalonado y el diseño de alineación importaron más que el simple aumento de parámetros. Esa tesis, desde luego, sigue dependiendo de evaluaciones futuras y del desempeño que estos modelos muestren fuera de los benchmarks presentados por la propia organización.
Licencia, límites y lo que viene
Los modelos QVAC MedPsy fueron puestos a disposición bajo licencia Apache 2.0 para fines de investigación y educación, según el documento publicado. La empresa los presenta como una base para democratizar la IA médica en despliegues edge y sensibles a la privacidad.
Aun así, el propio reporte deja claro que se trata de una iniciativa de investigación en curso. Entre los próximos pasos, el equipo planea incorporar más benchmarks médicos abiertos y ampliar las evaluaciones de seguridad, detección de errores y robustez clínica.
También prevé medir el impacto de la especialización médica sobre tareas de dominio general, seguimiento de instrucciones y capacidades cotidianas de asistente. Ese punto será clave, porque una IA médica local útil en la práctica deberá equilibrar precisión clínica, claridad comunicacional y restricciones técnicas propias de los dispositivos edge.
Con este lanzamiento, Tether se mueve más allá de su perfil tradicional vinculado a stablecoins y pagos digitales. La empresa intenta ganar espacio en una de las áreas más exigentes de la IA aplicada, con una propuesta que mezcla privacidad, computación local y modelos más pequeños, pero con ambiciones de rendimiento comparables a las de sistemas mucho mayores.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público
Este artículo fue escrito por un redactor de contenido de IA
0
0
Securely connect the portfolio you’re using to start.






