Mitsubishi Electric phát triển công cụ giám sát đám đông trí tuệ nhân tạo

Hệ thống có thể ứng dụng để quét các khu vực tập trung đông người để tìm ra người có hành vi đáng nghi hay đơn giản là cần giúp đỡ. Hãng điện tử Nhật Bản cho biết hệ thống tận dụng công nghệ deep learning, trong đó máy tính học được đặc điểm của các chủ thể đặc biệt. Công ty hi vọng có thể tiếp thị sản phẩm trước Olympics 2020 tại Tokyo khi lượng du khách được dự đoán tăng mạnh.

Hệ thống theo dõi nguồn video từ camera an ninh và phát hiện người nào có biểu hiện trùng với cơ sở dữ liệu sẵn có một cách tự động, theo thời gian thực. Chẳng hạn, nó biết ai đang mang theo đồ vật nghi ngờ như can xăng, ai đang đẩy xe đẩy hay người già đang chống gậy. Nó cũng nhận diện được các chuyển động đặc biệt để báo động nhân viên an ninh. Trong video minh họa, hệ thống khoanh vùng người đang xách một can dầu bằng khung trắng trong số nhiều người đi bộ.

Theo Hidenobu Kanda, Giám đốc bộ phận hệ thống an ninh Mitsubishi, việc sử dụng công nghệ deep learning cho phép lập trình để tìm ra người có hành vi khác thường dễ dàng hơn. Để có thể nhận diện được xe đẩy, hệ thống ban đầu phải ghi nhớ hình ảnh chụp vật thể từ nhiều góc độ, từ đó tự động nhận ra khi nó xuất hiện trước camera an ninh. Theo thời gian, phán đoán ngày càng chính xác hơn.

Ngược lại, hệ thống nhận diện hình ảnh thông thường lại phải học nhiều chi tiết hơn về một chủ thể, đòi hỏi lập trình phức tạp hơn. Trong trường hợp một người, nó đầu tiên phải học con người như một đối tượng có tỉ lệ chiều rộng – chiều cao là 2-8, di chuyển ở vận tốc khoảng 20 km/giờ… Tiếp đến, nó phải học chi tiết của xe đẩy trước khi nhận ra một người đang sử dụng.

Mitsubishi cho biết hệ thống đặc biệt hữu dụng trong các trung tâm thương mại, địa điểm tổ chức sự kiện, giúp nhân viên quản lý tiếp cận nhanh chóng những người cần giúp đỡ hay nhân viên bảo vệ giám sát người trong diện nghi ngờ.

Mitsubishi cũng đang tìm kiếm các ứng dụng khác cho hệ thống. Cùng với các nhà nghiên cứu của Đại học Tokyo, công ty phát triển hệ thống phân tích hình ảnh, dự đoán bao nhiêu tuyến đường khác nhau giữa một địa điểm và nhà ga gần nhất. Để làm điều đó, họ dự định sử dụng hệ thống giám sát đám đông trí tuệ nhân tạo để lọc ra phân khúc đối tượng để các nhà tổ chức giải quyết nhu cầu của người tham dự.

Tuy nhiên, trước khi được thương mại hóa, một số vấn đề cần được giải quyết. Chẳng hạn, mức độ giám sát là khác nhau giữa việc phát hiện một người vừa tiến vào địa điểm và một người có hành vi bất thường. Ông Kanda cho biết công ty phải bổ sung thêm nhiều dữ liệu vào hệ thống deep learning để nâng cao tính chính xác nhưng chi phí sẽ tăng lên.

Về số lượng hình ảnh mà hệ thống cần học, có nhiều ý kiến bất đồng giữa nhóm phát triển khi một số cho rằng chỉ cần 100 đến 1.000 hình ảnh/đối tượng là đủ, số khác lại nhấn mạnh cần tới hơn 10.000 hình ảnh.