gpt-4o前两天发布会有了视频聊天版本,再模仿前两天谷歌发布会的多模态AI项目Project Astra,粗略挫了个视觉聊天模型。现在能跟他自由交谈,它会根据摄像头拍到的画面与使用者的语言进行反映,并实时声音输出。目前英语效果是最好的,中文也算能支持。演示程序未加速未剪辑,视觉反映过程比较快,但是文转声会有延迟。 在Github项目DIY-Astra的基础上进行改进,现在可以做到拿着摄像头自由聊天。 目前感觉Gemini 1.5 Flash效果不错,不敢想象以后手机、甚至个人穿戴设备都被这些低功耗AI模型改造一遍的时代。 DIY-Astra地址:https://github.com/Doriandarko/DIY-Astra
TOP AI Developers by monthly star count
TOP AI Organization Account by AI repo star count
Top AI Project by Category star count
Top Growing Speed list by the speed of gaining stars
Top List of who create influential repos with little people known