NVIDIA Jarvis - 3Dチャットボット

May 25, 2020

#Jarvis#Deep Learning

GTC 2020 Keynote Part 5: NVIDIA Jarvis for Conversational AI
Pre-Trained Model
ここが凄そう

こんにちは、うしじです。

5/14のGTC2020で、NVIDIAが対話型AIのフレームワークであるJarvisを発表しました。

https://developer.nvidia.com/nvidia-jarvis

GTC 2020 Keynote Part 5: NVIDIA Jarvis for Conversational AI

まずは、GTC 2020の下記動画を見てみてください。
CGのキャラクターが人のように話して面白くないですか！？

Jarvisを使えば、このような3Dチャットボットを作成することができるようです。
（3Dモデルの開発とか、どこまで追加対応が必要かはよくわかりませんが。）

また、今はまだEarly Accessの募集中の段階で、自由に使うということはできなさそうです。

Pre-Trained Model

Jarvisには、下記のPre-Trained Modelを利用することができ、これらのモデルを必要に応じて追加で学習させることにより、自身の用途に合わせた開発ができるようです。

Jarvis-Pipeline （参照：https://developer.nvidia.com/nvidia-jarvis）

ASR (Automatic Speech Recognition)
NLU (Natural Language Understanding)
TTS (Text to Speech)
Gesture Recognition
Lip Activity Detection
Object Detection
Gaze Detection
Sentiment Detection

（音声に合わせて3D CGを動かす、Audio2Faceは別なんですかね？）

ここが凄そう

GTC 2020の動画を見ると、Audio2Faceのところを売りにしているように思えますが、個人的には、Gesture RecognitionやGaze Detection、Sentiment Detection等のカメラから得られる情報も組み合わせて会話AIを構築している点がすごいと思っています。

NLUやTTS、STT（Speech to Text）、Transformer等を利用した会話AIは、かなり発展してきていると思いますが、ジェスチャー等のNonーverbalなコミュニケーションや、表情や口調に現れる感情も理解して対話可能なAIはまだ出てきていないと思っています。

また、そういった対話を成り立たせる際に、Misty等の何かしらのキャラクターも重要になってくると思っています。会話する対象がいて、目を合わせて会話することで、より自然な会話を実現できると思っています。

早く日本語に対応されて、自由に使えるようになって欲しいですね。