Flux: Công cụ tạo ảnh AI mã nguồn mở vượt mặt Midjourney, SD3 và Auraflow

Flux là một mô hình text-to-image (chuyển văn bản thành hình ảnh) tiên tiến, mã nguồn mở với 12 tỷ tham số. Bài viết này so sánh Flux với ba đối thủ hàng đầu và kết quả thật đáng kinh ngạc.

Black Forest Labs – nhóm đã phát triển Stable Diffusion ban đầu – vừa ra mắt Flux, mô hình text-to-image mã nguồn mở lớn nhất từ trước đến nay. Với 12 tỷ tham số đáng kinh ngạc, Flux có thể tạo ra hình ảnh cạnh tranh với Midjourney và có thể vượt qua bất kỳ mô hình nào hiện có – dù là mã nguồn mở hay độc quyền.

Flux có ba phiên bản:

Flux Dev: Mã nguồn mở với giấy phép phi thương mại dành cho cộng đồng phát triển.
Flux Schnell: Phiên bản chưng cất nhanh hơn, hoạt động nhanh hơn gấp 10 lần, có sẵn theo giấy phép Apache 2.
Flux Pro: Phiên bản nguồn đóng, có sẵn thông qua API.

Bạn có thể tải xuống Flux Dev và Flux Schnell trên Hugging Face. ComfyUI cũng đã được cập nhật để hỗ trợ các mô hình mới trong quy trình làm việc cục bộ.

Black Forest Labs đã đưa ra thông báo vào thứ Năm, nhấn mạnh thành tích đã được chứng minh của nhóm trong việc phát triển AI tạo sinh cho truyền thông.

“Các đổi mới của chúng tôi bao gồm việc tạo ra VQGAN và Latent Diffusion, các mô hình Stable Diffusion của Stability AI để tạo hình ảnh và video (Stable Diffusion XL, Stable Video Diffusion, Rectified Flow Transformers) và Adversarial Diffusion Distillation để tổng hợp hình ảnh siêu nhanh, thời gian thực”, nhóm nghiên cứu cho biết.

Việc ra mắt diễn ra sau vòng gọi vốn hạt giống thành công trị giá 31 triệu đô la, dẫn đầu bởi Andreessen Horowitz và được hỗ trợ bởi các nhà đầu tư đáng chú ý bao gồm Brendan Iribe, Michael Ovitz và Garry Tan.

Trong các bài kiểm tra benchmark, Flux cho biết các mô hình của họ đã thiết lập các tiêu chuẩn mới trong tổng hợp hình ảnh, vượt qua các mô hình như Midjourney v6.0, Dall-E 3 (HD) và SD3 Ultra về chất lượng hình ảnh, tuân theo prompt, khả năng thay đổi kích thước/khía cạnh, kiểu chữ và tính đa dạng đầu ra. Biểu đồ của Black Forest tuyên bố rằng các mô hình Pro và Dev của họ là những trình tạo hình ảnh tốt nhất cho đến nay, và Schnell kém mạnh hơn xếp hạng giữa Midjourney v5 và Ideogram.

Tuy nhiên, người dùng có GPU nhỏ hơn có thể không gặp may. Các mô hình mã nguồn mở nặng khoảng 23GB, có nghĩa là có thể sẽ cần gần 24GB VRAM để chạy cho đến khi phiên bản lượng tử hóa được phát hành – nếu có. Nhưng ngay cả như vậy, có vẻ như người dùng có GPU với 6 và 8 GB VRAM sẽ sớm phải nói lời tạm biệt với cảm giác hồi hộp khi thử nghiệm các mô hình AI mới.

Tuy nhiên, Black Forest đã hợp tác với Fal AI – nhà phát triển của mô hình mã nguồn mở Auraflow – để hỗ trợ tạo đám mây. Các mô hình cũng có sẵn để thử nghiệm miễn phí trên Replicate.com. Khi người dùng đạt đến hạn ngạch hàng ngày của họ, họ sẽ phải trả 1 đô la để tạo 33 hình ảnh với Flux Pro hoặc 333 hình ảnh với Flux Schell.

Đây là một đề xuất giá trị tốt hơn so với Midjourney hoặc Ideogram. Gói Basic của Midjourney có giá 96 đô la/năm và cho phép người dùng tạo khoảng 200 hình ảnh mỗi tháng, tương đương với khoảng 25 hình ảnh cho mỗi đô la. Gói cơ bản của Ideogram có giá 84 đô la một năm và cung cấp tối đa 400 hình ảnh mỗi tháng hoặc 50 hình ảnh cho mỗi đô la.

Kiểm tra Flux

Flux trông rất tuyệt trong các bài kiểm tra benchmark, nhưng chất lượng hình ảnh nó tạo ra thực sự như thế nào? Chúng tôi đã so sánh nó với các trình tạo hình ảnh mã nguồn mở nổi bật nhất hiện có và có thể xác nhận rằng chúng tôi rất ấn tượng. Hãy so sánh Flux, SD3 Medium và Auraflow – sau đó đối đầu trực tiếp với Midjourney.

Minh họa

Prompt 1: “Hình minh họa vẽ tay về một con nhện khổng lồ đang đuổi theo một người phụ nữ trong rừng rậm, cực kỳ đáng sợ, đau đớn, khung cảnh tối tăm và rùng rợn, kinh dị, gợi ý về ảnh hưởng của nhiếp ảnh analog, phác thảo.”

Flux thể hiện khả năng sử dụng ánh sáng và bóng tối trong khí quyển tuyệt vời. Thiết kế của con nhện thực sự rất dữ tợn, với đôi chân sắc nhọn và khuôn mặt đáng sợ. Tư thế dễ bị tổn thương của người phụ nữ truyền tải nỗi đau khổ rất tốt. Nó là đại diện chính xác nhất về giải phẫu.
Bảng màu xanh teal của Auraflow mang đến cảm giác kỳ lạ, kỳ quái, nhưng không nắm bắt được hết yêu cầu “tối và rùng rợn”. Thiết kế con nhện ít đáng sợ hơn và cách điệu hơn.
Phong cách đen trắng của SD3 Medium mang đến chất lượng phác thảo mạnh mẽ. Thiết kế của con nhện rất chi tiết và dữ tợn nhưng có một số lỗi hình thái ở các chi.

Xếp hạng của chúng tôi:

Flux: Nắm bắt tốt nhất sự kinh dị, đau khổ và bầu không khí rùng rợn. Nó là sáng tạo chính xác nhất mà không có sai sót hình thái.
SD3 Medium: Mặc dù ấn tượng về mặt hình ảnh, nhưng nó ít phù hợp nhất với khía cạnh “nhiếp ảnh analog” của prompt. Phong cách kinh dị là đáng chú ý.
Auraflow: Gần nhất với bản phác thảo và nhiếp ảnh analog nói chung. Tuy nhiên, nó là ít rùng rợn nhất, ít đáng sợ nhất và là thứ ít truyền tải nhất bầu không khí chung của khung cảnh.

Nhận thức không gian

Prompt 2: “Một con chó đứng trên TV hiển thị chữ ‘Decrypt’ trên màn hình. Bên trái có một người phụ nữ mặc vest công sở cầm một đồng xu, bên phải có một con robot đứng trên hộp sơ cứu. Khung cảnh tổng thể là siêu thực.”

Flux là mô hình phù hợp nhất với các yêu cầu của prompt. Nó có tất cả các yếu tố ở các vị trí bắt buộc. Bố cục cân đối và vị trí bất ngờ của các yếu tố và sự xung đột giữa retro-tương lai làm tăng thêm chất lượng siêu thực. Mặc dù nó tạo ra một cái nhìn thoáng qua về một bàn tay bổ sung, nhưng phiên bản này nắm bắt được bản chất của prompt một cách chính xác nhất.
SD3 Medium là tốt thứ hai. Nó hiểu tất cả các yếu tố nhưng cũng có một số biến thể – như phong cách hoạt hình và con chó ngồi thay vì đứng. Nó nắm bắt được một số yếu tố của prompt nhưng bỏ lỡ những yếu tố khác, nằm giữa Flux và Auraflow về độ chính xác.
Auraflow có một số quyền tự do với prompt. Con chó ở trên TV nhưng đang ngồi chứ không phải đứng, người phụ nữ có vẻ ngoài cổ điển những năm 1950 hơn là một bộ vest công sở hiện đại, con robot ở trên bệ màu xanh lam chứ không phải hộp sơ cứu, và phong cách tổng thể là retro và nhiều màu sắc hơn, ít siêu thực hơn. Các chữ cái cũng được hiển thị kém.

Mặc dù sáng tạo, nhưng nó đi chệch khỏi prompt ban đầu nhiều hơn so với phiên bản Flux.

Xếp hạng của chúng tôi:

Flux: Chính xác nhất với prompt và đạt được chất lượng siêu thực.
SD3 Medium: Nắm bắt các yếu tố chính nhưng bỏ lỡ một số chi tiết.
Auraflow: Diễn giải sáng tạo nhưng đi chệch nhiều nhất so với prompt ban đầu.

Tính chân thực

Prompt 3: “Một bức ảnh có độ phân giải cao về một con phố nhộn nhịp vào ban đêm, biển hiệu neon chiếu sáng khung cảnh, mọi người đi bộ dọc theo vỉa hè, ô tô chạy ngang qua, một người bán hàng rong bán xúc xích, phản chiếu ánh đèn trên mặt đường ướt, phong cách tổng thể là siêu thực tế với sự chú ý đến từng chi tiết và ánh sáng, biển hiệu neon có nội dung ‘Decrypt’.”

Flux phù hợp với các yêu cầu của prompt. Nó có một con phố nhộn nhịp vào ban đêm với biển hiệu neon chiếu sáng khung cảnh, mọi người đi bộ dọc theo vỉa hè và ô tô chạy ngang qua. Hình ảnh phản chiếu của ánh đèn trên mặt đường ướt rất chân thực và biển hiệu “Decrypt” được hiển thị nổi bật.
Auraflow có một số quyền tự do với prompt. Ánh sáng neon rực rỡ tạo nên một bầu không khí nhộn nhịp và hình ảnh phản chiếu trên mặt đường ướt làm tăng thêm tính chân thực. Người bán hàng rong có thể nhìn thấy rõ ràng và tương tác với khung cảnh. Tuy nhiên, hình ảnh có vẻ hơi quá bão hòa và những người bán hàng rong trông giống như hoạt hình, điều này làm giảm đi phong cách siêu thực. Các biển hiệu neon bị mờ và không có sự phân biệt rõ ràng giữa vỉa hè và đường phố vì mô hình tạo ra một góc nhìn kỳ lạ.
SD3 Medium cũng nắm bắt được các yếu tố chính của prompt nhưng có một số biến thể. Bố cục cân bằng tập trung vào cả người đi bộ và môi trường, với ánh sáng và hình ảnh phản chiếu chân thực làm tăng thêm cảm giác thành phố về đêm. Biển hiệu “Decrypt” rất nổi bật và người bán hàng rong góp phần tạo nên bầu không khí sôi động. Tuy nhiên, khi xem xét kỹ hơn, có thể dễ dàng nhận ra một số yếu tố khiến khung cảnh trở nên phi thực tế. Ví dụ, mọi người đi bộ trên đường và vỉa hè mở rộng để phù hợp với quầy bán xúc xích.

Xếp hạng của chúng tôi:

Flux: Chi tiết và ánh sáng tốt. Nắm bắt tốt con phố nhộn nhịp, biển báo dễ đọc và người đi bộ được thể hiện tốt.
SD3 Medium: Nắm bắt các yêu cầu của prompt với bố cục cân bằng, ánh sáng chân thực và các yếu tố được tích hợp tốt, bao gồm biển hiệu “Decrypt” và người bán hàng rong. Nhưng người đi bộ không được thể hiện chân thực như trong thế hệ Flux.
Auraflow: Diễn giải sáng tạo với ánh sáng rực rỡ, nhưng đi chệch khỏi phong cách siêu thực với những người bán hàng rong theo phong cách hoạt hình và biển hiệu neon lộn xộn. Nó có một số vấn đề với góc nhìn, đây là một vấn đề nếu mục tiêu là tính chân thực về hình ảnh.

Cấp độ Boss: Flux đấu với Midjourney

Chúng tôi cũng đã so sánh Flux với Midjourney. Nhưng thay vì sử dụng các thế hệ của riêng mình, chúng tôi đã sao chép các prompt cho những lựa chọn hàng đầu của Midjourney theo trang “khám phá” của họ. Dưới đây là cách hai mô hình đối đầu với nhau.

Tính chân thực

Prompt 1: Một bức ảnh đen trắng về một người phụ nữ tóc dài thẳng, mặc trang phục toàn màu đen tôn lên những đường cong của cô ấy, ngồi trên sàn trước một chiếc ghế sofa hiện đại. Cô ấy đang tự tin tạo dáng trước ống kính, khoe đôi chân thon gọn khi cô ấy cúi người xuống… Xem prompt đầy đủ tại đây.

Midjourney phù hợp với các yêu cầu. Nó có một người phụ nữ trong tư thế cúi người năng động trên một bề mặt mềm mại, nắm bắt được bản chất của một bức ảnh thời trang cao cấp. Các chi tiết về mái tóc, đường nét trên khuôn mặt và quần áo của cô ấy được thể hiện với độ chính xác cao, tăng cường tính chân thực. Tuy nhiên, tư thế, mặc dù năng động, nhưng lại không tự nhiên. Bàn tay phải của người phụ nữ trông giống như hỗn hợp của bàn tay và bàn chân, chân phải của cô ấy biến mất không biết từ đâu và bàn chân trái của cô ấy cũng có hình dạng giống bàn tay.
Mặt khác, Flux nắm bắt được các yếu tố chính của prompt với bố cục cân bằng. Người phụ nữ ngồi trên sàn với hai chân bắt chéo, trong tư thế thoải mái và tự nhiên hơn. Độ chính xác cao trong việc thể hiện các đường nét trên khuôn mặt, mái tóc và quần áo góp phần tạo nên vẻ ngoài chân thực. Ánh sáng dịu và khuếch tán, tạo ra bóng đổ và điểm nhấn nhẹ nhàng xác định các đặc điểm của chủ thể.

Tuy nhiên, thế hệ không phải là không có sai sót. Cô ấy dường như có thêm một chân, mặc dù có thể dễ dàng sửa chữa bằng cách vẽ lại hoặc các công cụ như Photoshop, vì khung cảnh tối chung giúp bạn dễ dàng làm việc.

Xếp hạng của chúng tôi:

Flux: Nắm bắt các yêu cầu của prompt với tư thế tự nhiên, bối cảnh theo ngữ cảnh và kết xuất chi tiết. Nó là chính xác nhất về mặt hình thái.
Midjourney: Có tư thế năng động và mức độ chi tiết cao, nhưng thiếu sự phong phú về ngữ cảnh của hình ảnh Flux và cơ thể không được thể hiện chính xác như với Flux.

Tuân thủ Prompt

Prompt 2: Một con mèo trắng chơi piano, đeo kính râm và đội mũ, mặc đồ theo phong cách Hawaii màu tím, ảnh chụp toàn thân trên nền studio màu xám, ảnh chụp màn hình video thương mại. Nguồn: Chestnutmuffin.

Diễn giải của Midjourney về prompt nắm bắt được bản chất kỳ quái của khung cảnh. Chiếc áo sơ mi Hawaii màu tím rực rỡ tạo thêm nét tinh nghịch. Ánh sáng dịu, làm nổi bật các họa tiết và màu sắc một cách hiệu quả. Tuy nhiên, ảnh chụp cận cảnh đi chệch khỏi “ảnh chụp toàn thân” được chỉ định trong prompt và hậu cảnh không phải là bối cảnh studio màu xám theo yêu cầu, mà là một môi trường tự nhiên và ít được kiểm soát hơn. Bố cục tổng thể, mặc dù quyến rũ, vượt trội về tính chân thực và phong cách nhưng lại bỏ lỡ một số yếu tố chính của prompt.
Flux mang đến sự tuân thủ chặt chẽ hơn với prompt với ảnh chụp toàn thân con mèo trắng đang chơi piano, nắm bắt được tất cả các yếu tố của prompt. Bố cục ít phong cách hơn nhưng bao gồm toàn bộ cơ thể của con mèo, đảm bảo tất cả các chi tiết được chỉ định đều hiển thị. Ánh sáng và kết xuất được thực hiện tốt, làm nổi bật tư thế của con mèo và toàn bộ khung cảnh. Tuy nhiên, mặc dù hình ảnh rất chi tiết và chính xác, nhưng nó có thể thiếu sự quyến rũ và biểu cảm tức thì của ảnh chụp cận cảnh do Midjourney tạo ra (được biết là ưu tiên vẻ đẹp hơn độ chính xác).

Xếp hạng của chúng tôi:

Flux: Ảnh chụp toàn thân, nền studio màu xám và trang phục được chỉ định được chụp chính xác. Bố cục chuyên nghiệp và trau chuốt, phù hợp hoàn hảo với các yêu cầu của prompt.
Midjourney: Mang đến một bức ảnh chụp cận cảnh quyến rũ và chi tiết với các đặc điểm biểu cảm, nhưng bỏ lỡ các yếu tố chính như ảnh chụp toàn thân và nền studio. Mặc dù hấp dẫn về mặt hình ảnh, nhưng nó đi chệch khỏi các chi tiết cụ thể của prompt.

Kết luận

Chúng tôi đã rất ngạc nhiên một cách thú vị với Flux, công cụ đã vượt lên dẫn đầu trong tất cả các bài kiểm tra của chúng tôi. Phiên bản “Pro” của nó chắc chắn mang lại kết quả chất lượng tuyệt vời và có thể là một đối thủ cạnh tranh đáng gờm với Midjourney và các tùy chọn trả phí khác. Nó yêu cầu prompt phong phú hơn, nhưng kết quả rất chính xác, chân thực và đúng với những gì được nhắc.

Đối với những người sẵn sàng trả tiền cho một trình tạo hình ảnh tốt, Flux Pro dường như là lựa chọn giá trị tốt nhất. Các phiên bản “Dev” và “Schnell” tốt hơn so với SD3 Medium và Auraflow cơ bản, vì vậy ngay cả trong không gian mã nguồn mở, Flux là một đối thủ cạnh tranh khá mạnh.

Flux kết xuất cơ thể con người tốt hơn SD3, đây là một điểm chính cần xem xét. Tuy nhiên, những người có GPU khiêm tốn hơn có thể xoay sở với SD3—hoặc thậm chí là các phiên bản tinh chỉnh của SDXL—cho rằng các mô hình mới như Auraflow hoặc Flux cực kỳ nặng.

Kiến thức AI

Flux: Công cụ tạo ảnh AI mã nguồn mở vượt mặt Midjourney, SD3 và Auraflow