オーディオおよびビデオ技術開発ウィークリー | 320

この週刊誌では、オーディオおよびビデオ技術の最新ニュースの概要を提供します。

ニュース寄稿:[email protected]

一週間カウントダウン!深セン駅会議のハイライトのプレビュー

LiveVideoStackCon 深セン局では 1 週間のカウントダウンがあり、1 週間後には刺激的な基調講演が開催されます。皆様のご参加をお待ちしております!

日時:2023年11月24~25日
●場所:深センセントーサホテル(ジェイドブランチ)
●相談:13520771810(WeChatでも同じ番号)詳しくは。

●公式リンク: https: //sz2023.livevideostack.com/topics


Douyin の背後にある経験値の成長の秘密がここで明らかになります

特別トピック [Douyin の背後にある実践的なエクスペリエンスの成長を明らかにする] では、Douyin の背後にあるエクスペリエンス成長の実践を深く分析し、それをDouyin の数億人の毎日のアクティブ ユーザーの蓄積された経験と組み合わせ、コンテキスト内でそれを達成する方法を分析します。大規模ユーザーのコストを削減し、効率を向上させます。

リンクをコピーして、火山の講義に無料で登録してください。
http://livevideostack.mikecrm.com/EIvkisN
10日間の世界の天気を1分で予測!Google DeepMind の新しい AI 天気予報が Science に掲載され、業界の SOTA を粉砕
Google DeepMind は、天気予報という科学的ニッチ分野で再び重要な一歩を踏み出しました。新しい AI モデル GraphCast は、10 日間の世界の天気を 1 分以内に正確に予測でき、異常気象現象も予測できます。
LLaMA に基づいていますが、テンソル名を変更している Kai-Fu Lee の大きなモデルは物議を醸しました。公式の回答はこちらです
一部の研究者は、Kai-Fu Lee 氏の「Zero One Thousand Things」会社の Yi-34B モデルが基本的に LLaMA アーキテクチャを採用しているが、2 つのテンソルの名前を変更しているだけであることを発見しました。これに対し「ゼロワンワールド」は正式な返答を行った。
スタンフォード大学は、対照的嗜好学習を提案しています。強化学習を行わずに人間のフィードバックから学習します。
ChatGPT の成功は RLHF の「秘密兵器」と切り離せないことを私たちは知っています。ただし、RLHF は 完璧ではなく、対処が難しい最適化問題が存在します。この記事では、スタンフォード大学などの研究機関のチームが、「強化学習」を速度とパフォーマンスの点で優れた性能を持つ「対照選好学習」に置き換えることを検討しています。

ChatGPT iPhone版がついに登場!サム・アルトマンが元Apple従業員と協力してAppleキラーを生み出す

Sam Altman 氏が投資したコンシューマー ハードウェアのスタートアップ、Humane が参加しました。Ai Pin と呼ばれるウェアラブル デバイスは OpenAI を利用しており、大規模なモデルと対話できるように設計されています。ChatGPT は iPhone に革命をもたらすのでしょうか?

LLM 幻覚の問題をすべて解決してください。ハルビン工業大学チームが50ページのレビューを発表

最近、ハルビン工業大学とファーウェイの研究チームは、LLM 錯視について知っておくべきすべてのことを慎重に検討した 50 ページの総説を発表しました。

拡散モデルを終了し、IGN はワンステップでリアルな画像を生成します。カリフォルニア大学バークレー校 Google が LLM を革新、アメリカのドラマがインスピレーションの源に

生成 AI モデルの新しいパラダイムが到来します。カリフォルニア大学バークレー校と Google は、1 ステップでグラフを生成できる冪等生成ネットワーク (IGN) を提案しました。
Github が Octoverse オープンソース レポートをリリース! インドは米国を超えて最大の開発者コミュニティになり、生成 AI は 248% 成長し、Copilot は GitHub を再構築します

GitHub が今年の Octoverse オープンソース状況レポートを発表し、AI が議論の余地のない主役になりました。インドは米国に代わって最大の開発者コミュニティになるだろう。開発者が見逃せないトレンドと詳細は他にもあります。

NeRFと自動運転の過去と現在、10本近くの論文をまとめました!
Neural Radiance Fieldsは2020年に提案されて以来、関連する論文の数が飛躍的に増加し、3次元再構築の重要な分野となっただけでなく、自動運転の重要なツールとして研究の最前線でも徐々に活発になってきています。
清華大学などが発表 | 写真レベルの一貫した3Dオブジェクト生成、超リアル!
DreamCraft3D は、高忠実度で一貫性のある 3D オブジェクトを生成できる階層型 3D コンテンツ生成方法です。私たちは、2D 参照画像を利用して幾何学的彫刻とテクスチャ強化の段階をガイドすることで、この問題を解決しました。この作業の主な焦点は、既存の作業で遭遇する一貫性の問題に対処することです。3D 以前のモデルは、テクスチャの忠実性を犠牲にして幾何学的一貫性を優先します。
国立国防技術大学が高速かつ正確なディープ ループ クロージャと信頼性の高い Lidar SLAM 再配置をリリース
ループ閉鎖と再局在化は、姿勢推定のドリフトと劣化を解決し、信頼性が高く堅牢な長期 SLAM を確立するための重要な テクノロジー。この記事では、まず、統一されたフレームワーク内でループの閉鎖と再配置を定式化します。そこで本論文では、これら 2 つのタスクを効率的に処理するための新しいマルチヘッド ネットワーク LCR-Net を提案します。新しい特徴抽出と姿勢認識アテンション メカニズムを利用して、ペアワイズ LiDAR スキャン間の類似性と 6-DoF 姿勢を正確に推定します。
最も強力なAIチップNVIDIA H200が深夜にリリース、Llama2-70B推論速度が90%向上、2024年第2四半期に出荷予定

NVIDIA は、2023 年グローバル スーパーコンピューティング カンファレンス (SC2023) で、現在世界で最も強力な AI チップである H200 を発表しました。

サムスン、ASML株を10億ドルで売却
火曜日に発表された第3四半期の規制報告書によると、世界最大のメモリチップメーカーであるサムスン電子は、オランダのチップ機器メーカーASML Holdings NVの株式0.3%を約1兆3,400億ウォン(10億ドル)で売却した。
世界初の2D半導体チップ:1,000個のトランジスタ
情報通信技術 (ICT) がデータを処理する際、電気エネルギーが熱に変換されます。現在、世界の ICT エコシステムの CO2 排出量は航空業界の CO2 排出量に匹敵します。しかし、コンピュータ プロセッサによって消費されるエネルギーのほとんどは、計算の実行には使用されないことが判明しました。その代わり、データの処理に使用されるエネルギーのほとんどは、メモリとプロセッサ間のバイト転送に費やされます。
XRテクノロジーが医療を支援:欠点も多いが徐々に主流になりつつある
昨年、初めての大規模な肩置換手術の数日前に、ジェイク・シャイン医師は VR ヘッドセットを装着して仕事を始めました。

iPhone 15 Proシリーズが空間ビデオ録画を正式サポート、Appleのリング入力デバイスの新特許が公開される

immerGallery は、2022 年 4 月に初めてリリースされた VR フォト アルバム APP です。APP Lab でのアプリケーションの現在の価格は 15 ユーロです。最近、immerGallery が更新され、Quest 3 デバイスでの 3D 写真とビデオの撮影がサポートされるようになりました。
テンセントは2024年末までに中国本土でメタVRヘッドセットを販売する総代理店になると報じられている。
ウォール・ストリート・ジャーナルの最近の報道によると、メタは新しい低価格VRヘッドセットを中国本土で販売することでテンセントと予備合意に達したという。

イベントカメラがコンピュータビジョンの未来となる理由

コンピューター ビジョンは革命的な自己革新を起こそうとしているのでしょうか?

最も強力なオープンソースの大規模モデルが手を替えました。Kai-Fu Lee はチームを率いて、400,000 件のテキストを処理し、記録を破り、多くの世界ランキングで優勝しました。

100モデルバトルで最も期待されていた出場者の一人がついに正式デビューしました!これは、Kaifu Li-Yi 博士によって設立された AI 2.0 会社による最初のオープンソースの大型モデルです。Yi シリーズの大型モデルです。

リアルな音色クローン、Bert-vits2 テキスト読み上げによるゴースト ビデオの作成 (Python3.10)

現在最も素晴らしい TTS 無料オープンソース プロジェクトがどれか知っている人はいますか? そう、それは他にはない Bert-vits2 です。これは、Bert ラージ モデルを既に非常に強力な Vits プロジェクトに統合しており、基本的に VITS のトーンとリズムの問​​題を解決しており、効果が非常に優れている場合、トレーニングのコストは一般の人にとって完全に受け入れられるものです。
ASRU2023 | 潜在空間変換に基づく微分可能な話者の匿名性
说话人匿名 (Speaker Anonymization) 的旨在保留原语音的音质和可懂度的情况下,隐藏说话人的身份,该任务的目标是满足以下要求:(a)输出语音波形;(b)隐藏说话人的身份;(c)保持语言内容和副语言属性不变;(d)确保来自给定说话人的所有数据均由同一个伪说话人发出,而来自不同说话人的语音由不同的伪说话人发出。目前主流方案通过将说话人表征和语义信息解耦,而后通过修改说话人表征来实现匿名。

GitHub 开源神器 Bark模型,让文本转语音更简单!

Bark 是由Suno创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如大笑、叹息和哭泣。

语聊房架构演进实践

罗马不是一天建成的。语聊房当前架构也是不断演进的结果。在技术架构层面,语聊房作为搭建在直播体系上的业务,使用既有技术架构体系可以帮助我们快速搭建早期产品,但随着业务迭代,已有技术体系又成为新的技术架构的负债。

多容器动态化方案在游戏SDK中的实践

从产品运营角度来说,功能的用户触达是实现用户价值转化的最基本前提。所以如何快速将一个新的功能触达到用户,同时减少触达过程中对运营推广、用户带来额外的成本就成了一个必须被重视的课题。

音视频通信&边缘平台产品干货库

腾讯云音视频通信&边缘平台产品干货库
OpenAI开出1000万美元天价年薪,挖走谷歌顶尖工程师?北大AI博士未毕业拿百万offer

OpenAI和谷歌抢人抢疯了,一边给出500万到1000万美元的天价年薪,另一边许诺自己的offer薪水更高。而国内的AI博士也是遭到疯抢,还没毕业就要被几百万年薪挖走了。

大模型幻觉率排行:GPT-4 3%最低,谷歌Palm竟然高达27.2%

人工智能发展进步神速,但问题频出。OpenAI 新出的 GPT 视觉 API 前脚让人感叹效果极好,后脚又因幻觉问题令人不禁吐槽。

HTC Vive发布针对400名美军使用VR实训的调查报告

HTC日前发布了一份关于美军使用XR的报告《The State of Extended Reality (XR) Training in the U.S. Military/美国军队的扩展现实训练状况》。据介绍,这份报告对美国陆军、海军、空军、海军陆战队和海岸警卫队的400名现役军事培训师和专家进行了调查。

点击阅读原文

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

本文分享自微信公众号 - LiveVideoStack(livevideostack)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

微软推出全新“Windows App” .NET 8 正式 GA,最新 LTS 版本 小米官宣 Xiaomi Vela 全面开源,底层内核为 NuttX 阿里云 11.12 故障原因曝光:访问密钥服务 (Access Key) 异常 Vite 5 正式发布 GitHub 报告:TypeScript 取代 Java 成为第三受欢迎语言 悬赏十几万元以用 Rust 重写 Prettier 向开源作者提问“项目还活着吗”非常粗鲁且无礼 字节跳动:利用 AI 自动调优 Linux 内核参数 运营商神操作:后台断网、停用宽带账号,强迫用户更换光猫
{{o.name}}
{{m.name}}

おすすめ

転載: my.oschina.net/u/3521704/blog/10149394