中米AI競争、激化を続ける。
2023年2月10日、アリババとバイトダンスは同じ日に新たな画像生成モデルを発表し、両社ともGoogleのNano Banana Proを標準に掲げている。
その中で、アリババのQwen-Image-2.0は意味理解と実用的編集に焦点を当て、生成と編集を統一したアーキテクチャを採用し、中国語漢字のレンダリング能力を強化、長く複雑な実用指示の理解を向上させている。一方、バイトダンスのSeedream5.0 Previewは画像検索と細かな調整に主眼を置き、プロンプト理解の精度を大幅に向上させ、より詳細なテクスチャ生成とコントロールをサポートし、コンテンツ制作の全工程に深く適応している。
2月11日、ある計算能力運用事業者は《每日経済新聞》の記者に対し、現在AIはEC(電子商取引)シーンで多くの応用例があると述べた。一つはデジタル人間によるトークン(最小テキスト単位)の消費が顕著なケース、もう一つはECのAI画像生成による消費だ。千問大規模モデルの上級ソリューションアーキテクト熊撼天はインタビューで、今回のQwen-Image-2.0モデルの更新も、商品生産の詳細や文字のコントロール、二次編集などの面でECシーンに最適化されていると語った。
注目すべきは、現在のAI画像生成は視覚的な創作にとどまらず、企業向けの大規模応用の道を歩み始めていることだ。2025年には画像生成技術がECシーンやドラマ市場に徐々に浸透し、AI画像生成技術の進歩とともに、2026年には大規模な応用市場が実現する可能性がある。
Nano Banana Proに対抗、国産AI画像生成モデルの進化
2023年2月10日、アリババとバイトダンスはともに画像生成モデルを発表した。アリババの千問は新世代の画像生成・編集モデルQwen-Image-2.0をリリースし、バイトダンスの剪映やAIクリエイティブプラットフォームの小雲雀などのプラットフォームもSeedream5.0 Previewを導入、両モデルともGoogleのNano Banana Proを標準にしている。
アリババの千問関係者によると、Qwen-Image-2.0は1Kトークンの超長文入力と2K高解像度に対応し、複雑な指示を正確にレンダリング、専門的なプレゼン資料やインフォグラフィックの生成も容易だという。さらに、Qwen-Image-2.0はQwen-ImageとQwen-Image-Editの二大モデルを基盤に全面的にアップグレードされ、画像生成と編集を初めて一つのモデルに統合、より軽量なアーキテクチャで画像の生成と修正の性能を大きく向上させている。
一方、バイトダンスはSeedream 5.0 Previewが2Kと4Kの解像度出力をサポートしており、現在ユーザーは即夢プラットフォームで無料で2K出力を体験できると述べている。
上場企業の上級研究開発幹部は、以前からAI画像生成技術を用いてプレゼン資料や企業製品の画像を作成してきたが、文字の詳細や画像の一貫性などには依然として課題があると指摘した。
千問のビジュアル生成責任者・吴晨飞は、AI画像生成における文字の詳細崩壊の主な原因は二つあると述べた。一つは、現在の画像生成モデルが一般的にVAE(変分自己符号化器)技術を採用しており、VAEの再構成過程が画像内の文字の処理に大きく影響し、特に小さな文字に顕著だという。これはVAEが本質的に圧縮メカニズムであり、文字内容が多い画像では生成が難しくなる上、VAEの処理能力の上限に制約されるためだ。もう一つは、画像生成モデルのモデリング能力の制約であり、VAEがモデルの能力上限を決定し、生成モデルのモデリング能力が画像のリアルさや細部の再現性に直接影響を与える。
AI画像生成は企業向け応用までどれだけ遠いか?
現在、AI画像生成モデルの進化に伴い、ECやドラマ市場での応用が注目されており、資本市場ではAIドラマの概念が高まっている。
2月11日、アイメディアリサーチのCEO兼チーフアナリスト・張毅は、現在のAIドラマ制作の主流はAI生成画像を動画化し、AI音声や字幕と組み合わせて完成させる方法だと述べた。
東吴証券のリサーチレポートでは、AIによってドラマ制作コストが90%削減できると指摘している。中文在线のAIアニメ部門の総経理・周立強は、AIが従来のドラマの複雑な11工程を、脚本作成、画像生成、動画変換、後処理の4工程に簡素化し、生産速度を大きく向上させると述べた。
しかし、問題の一つは、AIドラマが非常に抽選生成に依存している点だ。この方式の最大の問題は、最終的な生成結果がほぼAI自身の理解と推論能力に依存し、抽選師ができることは提示提示の微調整だけに限られることだ。
iMedia Research(アイメディアリサーチ)の調査によると、多くのユーザーはAI技術が制作コスト削減(51.2%)やIP変換の加速(47.7%)に価値を認めている。一方、約半数のユーザーは、映像のスタイル統一性(47.1%)や音声の感情表現(46.7%)に明らかな不足を感じている。
張毅は、現在のAIドラマ市場は爆発的な成長を迎えていると考える。AI技術は、コスト削減やIP変換の促進を通じて、業界の生産効率とコンテンツの形態をアップグレードする一方、画風の統一性や音声の質感、キャラクターの造形などの品質問題により、規模拡大とともにコンテンツの創造性と品質管理を強化する必要に迫られている。
AIドラマ以外にも、AI画像生成は静かにECシーンの大きな市場を変えつつある。
ECの購買シーンでは、多数の画像使用需要が存在する。2月11日、ある計算能力運用事業者は記者に対し、AI画像生成はデジタル人間以外で、EC顧客のトークン消費が比較的大きい需要だと述べた。
熊撼天は、ECシーンは千問Qwen-Imageモデルの主要な適用場面の一つであり、今回のQwen-Image-2.0もECシーンに基づき、既存モデルをアップグレード・最適化したもので、企業向け応用の推進が期待できると語った。
具体的には、商品詳細ページの説明画像やモデルのコーディネート効果など、新しい画像生成モデルを用いてより良く連携できるとし、従来のモデルでは二次編集などを経てコントロールされた商品画像を作成していたのに対し、新モデルは画像編集と生成を一つのモデルに融合させることで、EC販売者の効率向上を実現している。
3.42K 人気度
1.33K 人気度
544 人気度
31.43K 人気度
242.7K 人気度
Nano Banana Proに対抗して、AlibabaやByteDanceが同じ日に画像生成モデルを発表。AI生成画像は規模化された応用市場を迎えるのか?
中米AI競争、激化を続ける。
2023年2月10日、アリババとバイトダンスは同じ日に新たな画像生成モデルを発表し、両社ともGoogleのNano Banana Proを標準に掲げている。
その中で、アリババのQwen-Image-2.0は意味理解と実用的編集に焦点を当て、生成と編集を統一したアーキテクチャを採用し、中国語漢字のレンダリング能力を強化、長く複雑な実用指示の理解を向上させている。一方、バイトダンスのSeedream5.0 Previewは画像検索と細かな調整に主眼を置き、プロンプト理解の精度を大幅に向上させ、より詳細なテクスチャ生成とコントロールをサポートし、コンテンツ制作の全工程に深く適応している。
2月11日、ある計算能力運用事業者は《每日経済新聞》の記者に対し、現在AIはEC(電子商取引)シーンで多くの応用例があると述べた。一つはデジタル人間によるトークン(最小テキスト単位)の消費が顕著なケース、もう一つはECのAI画像生成による消費だ。千問大規模モデルの上級ソリューションアーキテクト熊撼天はインタビューで、今回のQwen-Image-2.0モデルの更新も、商品生産の詳細や文字のコントロール、二次編集などの面でECシーンに最適化されていると語った。
注目すべきは、現在のAI画像生成は視覚的な創作にとどまらず、企業向けの大規模応用の道を歩み始めていることだ。2025年には画像生成技術がECシーンやドラマ市場に徐々に浸透し、AI画像生成技術の進歩とともに、2026年には大規模な応用市場が実現する可能性がある。
Nano Banana Proに対抗、国産AI画像生成モデルの進化
2023年2月10日、アリババとバイトダンスはともに画像生成モデルを発表した。アリババの千問は新世代の画像生成・編集モデルQwen-Image-2.0をリリースし、バイトダンスの剪映やAIクリエイティブプラットフォームの小雲雀などのプラットフォームもSeedream5.0 Previewを導入、両モデルともGoogleのNano Banana Proを標準にしている。
アリババの千問関係者によると、Qwen-Image-2.0は1Kトークンの超長文入力と2K高解像度に対応し、複雑な指示を正確にレンダリング、専門的なプレゼン資料やインフォグラフィックの生成も容易だという。さらに、Qwen-Image-2.0はQwen-ImageとQwen-Image-Editの二大モデルを基盤に全面的にアップグレードされ、画像生成と編集を初めて一つのモデルに統合、より軽量なアーキテクチャで画像の生成と修正の性能を大きく向上させている。
一方、バイトダンスはSeedream 5.0 Previewが2Kと4Kの解像度出力をサポートしており、現在ユーザーは即夢プラットフォームで無料で2K出力を体験できると述べている。
上場企業の上級研究開発幹部は、以前からAI画像生成技術を用いてプレゼン資料や企業製品の画像を作成してきたが、文字の詳細や画像の一貫性などには依然として課題があると指摘した。
千問のビジュアル生成責任者・吴晨飞は、AI画像生成における文字の詳細崩壊の主な原因は二つあると述べた。一つは、現在の画像生成モデルが一般的にVAE(変分自己符号化器)技術を採用しており、VAEの再構成過程が画像内の文字の処理に大きく影響し、特に小さな文字に顕著だという。これはVAEが本質的に圧縮メカニズムであり、文字内容が多い画像では生成が難しくなる上、VAEの処理能力の上限に制約されるためだ。もう一つは、画像生成モデルのモデリング能力の制約であり、VAEがモデルの能力上限を決定し、生成モデルのモデリング能力が画像のリアルさや細部の再現性に直接影響を与える。
AI画像生成は企業向け応用までどれだけ遠いか?
現在、AI画像生成モデルの進化に伴い、ECやドラマ市場での応用が注目されており、資本市場ではAIドラマの概念が高まっている。
2月11日、アイメディアリサーチのCEO兼チーフアナリスト・張毅は、現在のAIドラマ制作の主流はAI生成画像を動画化し、AI音声や字幕と組み合わせて完成させる方法だと述べた。
東吴証券のリサーチレポートでは、AIによってドラマ制作コストが90%削減できると指摘している。中文在线のAIアニメ部門の総経理・周立強は、AIが従来のドラマの複雑な11工程を、脚本作成、画像生成、動画変換、後処理の4工程に簡素化し、生産速度を大きく向上させると述べた。
しかし、問題の一つは、AIドラマが非常に抽選生成に依存している点だ。この方式の最大の問題は、最終的な生成結果がほぼAI自身の理解と推論能力に依存し、抽選師ができることは提示提示の微調整だけに限られることだ。
iMedia Research(アイメディアリサーチ)の調査によると、多くのユーザーはAI技術が制作コスト削減(51.2%)やIP変換の加速(47.7%)に価値を認めている。一方、約半数のユーザーは、映像のスタイル統一性(47.1%)や音声の感情表現(46.7%)に明らかな不足を感じている。
張毅は、現在のAIドラマ市場は爆発的な成長を迎えていると考える。AI技術は、コスト削減やIP変換の促進を通じて、業界の生産効率とコンテンツの形態をアップグレードする一方、画風の統一性や音声の質感、キャラクターの造形などの品質問題により、規模拡大とともにコンテンツの創造性と品質管理を強化する必要に迫られている。
AIドラマ以外にも、AI画像生成は静かにECシーンの大きな市場を変えつつある。
ECの購買シーンでは、多数の画像使用需要が存在する。2月11日、ある計算能力運用事業者は記者に対し、AI画像生成はデジタル人間以外で、EC顧客のトークン消費が比較的大きい需要だと述べた。
熊撼天は、ECシーンは千問Qwen-Imageモデルの主要な適用場面の一つであり、今回のQwen-Image-2.0もECシーンに基づき、既存モデルをアップグレード・最適化したもので、企業向け応用の推進が期待できると語った。
具体的には、商品詳細ページの説明画像やモデルのコーディネート効果など、新しい画像生成モデルを用いてより良く連携できるとし、従来のモデルでは二次編集などを経てコントロールされた商品画像を作成していたのに対し、新モデルは画像編集と生成を一つのモデルに融合させることで、EC販売者の効率向上を実現している。