Job title: Research Scientist, Vision Generation
Job type: Permanent
Emp type: Full-time
Industry: Generative AI
Skills: Diffusion Generative AI Video Applied Research
Salary type: Annual
Salary: negotiable
Location: New York, NY
Job published: 17/12/2025
Job ID: 32690

Job Description

Want to define how AI generates coherent video over minutes, not seconds?

This role sits at the heart of one of the hardest open problems in generative media: long-form video generation!

You’ll join a small, research-driven team building a multi-modal foundation model that reasons jointly across image, text, and audio. Their work powers a creative platform used to generate controllable, expressive video - and the underlying model is already in production.

As a Research Scientist focused on long video generation, you’ll work on the architectural problems that emerge once sequences stop being toy-length.

You’ll spend your time pushing sequence models to handle multi-minute videos without collapse. 

What you’ll work on

  • Architectures for long-form, auto-regressive video generation
  • Causal attention and long-context modelling strategies
  • Techniques for temporal and semantic coherence over extended sequences
  • Memory-efficient transformers and sequence compression
  • Translating research into production-grade pipelines
  • Publishing and presenting work internally and externally

You’ll fit well here if you’re comfortable operating at the intersection of theory and systems. 

Someone who can read the latest long-context papers, prototype quickly in PyTorch, and reason about what scales when models move from experiments to real users.

The team works fully in-person in San Francisco or New York.

What you’ll bring

  • PhD or equivalent research/industry experience in ML or sequence modelling
  • Deep understanding of transformers, attention, and auto-regressive generation
  • Experience with long-context or memory-efficient modelling
  • Strong Python and PyTorch skills
  • Evidence of real research impact or large-scale deployment

Package

  • Salary: Negotiable depending on experience
  • Meaningful equity
  • Medical, dental, and vision cover
  • 401(k)
  • Lunch and snacks provided
  • Fully in-person role (SF or NYC)

If you want to work on long-form video generation problems, this is one of the few places doing it properly - please apply now!

All applicants will receive a response.