Mô-đun nhận dạng giọng nói: Quy trình làm việc và ứng dụng

Hãy Thử Công Cụ CủA Chúng Tôi Để LoạI Bỏ Các VấN Đề





Tiến bộ trong công nghệ đã phát triển một kỹ thuật giao diện người-máy thông minh tạo điều kiện cho máy tính hoặc máy móc hoặc rô bốt được vận hành bằng lệnh thoại của con người mà không cần sử dụng bất kỳ hệ thống đầu vào nào, chẳng hạn như bàn phím hoặc chuột. Giao diện người-máy (HMI) này có thể đạt được bằng cách sử dụng nhận diện giọng nói các mô-đun. Trong bài viết này, chúng tôi sẽ thảo luận về các mô-đun nhận dạng giọng nói cùng với quy trình làm việc và ứng dụng của chúng.

Mô-đun thoại

Mô-đun thoại



Mô-đun nhận dạng giọng nói

Nhận dạng giọng nói là một kỹ thuật tạo điều kiện thuận lợi và tự nhiên giao diện người-máy sử dụng mô-đun nhận dạng giọng nói. Nó trích xuất và phân tích các đặc điểm giọng nói của con người được gửi đến máy hoặc máy tính thông qua micrô. Kỹ thuật nhận dạng giọng nói được phân thành nhiều loại dựa trên các tiêu chí khác nhau như phạm vi đối tượng sử dụng, một số từ được sử dụng để nhận dạng, tính tự nhiên của giọng nói. Nếu mức độ nhận dạng giọng nói hơn 95%, thì trên thực tế chỉ có nhận dạng giọng nói được sử dụng.


Nguyên tắc hoạt động của mô-đun nhận dạng giọng nói

HM2007 là một chip đơn CMOS mô-đun nhận dạng giọng nói. Nó là một mạch tích hợp quy mô lớn tương tự trên chip với các quy trình điều khiển hệ thống nhận dạng giọng nói, nhận dạng giọng nói và phân tích giọng nói. HM2007 có thể hoạt động ở hai chế độ: chế độ thủ công và chế độ điều khiển CPU.



HM2007

Sơ đồ chân HM2007

Trong chế độ vận hành thủ công, mô-đun nhận dạng giọng nói HM2007 được sử dụng để xây dựng một hệ thống nhận dạng đơn giản bằng cách kết nối các thành phần như bàn phím, SRAM của bộ nhớ 8Kbyte và các thành phần khác. Nếu bật nguồn, HM2007 sẽ bắt đầu quá trình khởi tạo và nếu chân WAIT là L, thì HM2007 sẽ kiểm tra bộ nhớ ngoài: 8Kbyte SRAM - xem nó có hoàn hảo hay không. Tuy nhiên, nếu WAIT là H, thì quá trình kiểm tra bộ nhớ sẽ bị HM2007 bỏ qua. Sau quá trình khởi tạo này, HM2007 chuyển sang chế độ nhận dạng. Trong chế độ nhận dạng, nếu chân WAIT là H, thì HM2007 đã sẵn sàng chấp nhận giọng nói và bắt đầu quá trình nhận dạng. Nếu chân WAIT là L, thì HM2007 không chấp nhận giọng nói được nhận dạng. Sau đó, huấn luyện các mẫu mới bằng cách xóa các mẫu đã huấn luyện là hai thao tác được thực hiện bằng các phím chức năng: TRN và CLR. Tất cả các mẫu trong HM2007 có thể được xóa bằng cách nhập phím số 99 và nhấn CLR.

Trong chế độ điều khiển CPU hoạt động, một số chức năng như RECOG, TRAIN, RESULT, UPLOAD, DOWNLOAD, RESET các chức năng của mô-đun nhận dạng giọng nói HM2007 được cung cấp trong chế độ này. Tương tự như chế độ hoạt động thủ công, trong chế độ này cũng bật nguồn, các hoạt động nhận dạng, đào tạo, kết quả, tải lên, tải xuống và đặt lại được thực hiện dựa trên các tiêu chí khác nhau.

Các ứng dụng của mô-đun nhận dạng giọng nói

Xe rô bốt điều khiển bằng giọng nói

Bộ công cụ dự án xe robot điều khiển bằng giọng nói

Bộ công cụ dự án xe robot điều khiển bằng giọng nói

Phương tiện robot điều khiển bằng giọng nói với hệ thống nhận dạng giọng nói khoảng cách xa được thiết kế để điều khiển bằng cách sử dụng giao diện người-máy và ra lệnh bằng giọng nói cho các hoạt động từ xa của phương tiện robot. An Vi điều khiển 8051 được sử dụng cùng với mô-đun nhận dạng giọng nói hoặc mô-đun nhận dạng giọng nói để đạt được hoạt động mong muốn. Hướng chuyển động của xe robot có thể được điều khiển bằng cách sử dụng lệnh thoại hoặc nút nhấn. Các lệnh thoại được RF gửi từ đầu phát đến đầu nhận. Do đó, xe robot di chuyển theo các hướng tiến, lùi, trái hoặc phải dựa trên các lệnh mà người nhận nhận được.


Sơ đồ khối máy phát của phương tiện robot điều khiển bằng giọng nói

Sơ đồ khối máy phát của phương tiện robot điều khiển bằng giọng nói

Chuyển động này của phương tiện robot theo một hướng cụ thể có thể được điều khiển bằng cách sử dụng hai động cơ được giao tiếp với bộ vi điều khiển dòng 8051. Máy phát RF chuyển đổi các lệnh bằng cách nhấn nút chuyển đổi hoặc các lệnh thoại được chuyển đổi thành dữ liệu kỹ thuật số được mã hóa vì lợi ích của phạm vi chấp nhận được (lên đến 200 mét) từ phương tiện robot. Dữ liệu mã hóa nhận được ở mạch thu được giải mã để gửi đến một vi điều khiển khác để điều khiển động cơ DC bằng cách sử dụng IC điều khiển động cơ để điều khiển hướng và chuyển động của động cơ bằng cách sử dụng dữ liệu được giải mã của lệnh thoại.

Sơ đồ khối bộ thu của phương tiện robot điều khiển bằng giọng nói

Sơ đồ khối bộ thu của phương tiện robot điều khiển bằng giọng nói

Phương tiện robot điều khiển bằng giọng nói này với các dự án nhận dạng giọng nói đường dài có thể được tích hợp với Công nghệ DTMF tạo điều kiện thuận lợi cho việc điều khiển phương tiện robot bằng điện thoại di động. Công nghệ DTMF này cung cấp một giao tiếp tầm xa so với công nghệ RF - do đó các phương tiện robot có thể được điều khiển từ xa từ một khoảng cách rất xa.

Ghi âm giọng nói và mạch phát lại

APR 9301 IC

APR 9301 IC

APR 9301 IC

IC APR 9301 bao gồm 28 chân và bộ nhớ flash không biến đổi. Nó tạo điều kiện cho việc ghi lại 100K chu kỳ và lưu trữ bộ nhớ trong khoảng 100 năm. Chỉ cần điện áp thấp 5V và dòng điện 25mA để hoạt động bình thường của mạch tích hợp APR 9301.

Hoạt động của mạch ghi âm và phát lại giọng nói

IC APR 9301 thực hiện ghi âm và phát lại giọng nói các hoạt động. Thao tác ghi có thể được thực hiện bằng cách nhận tín hiệu thoại bằng mic tụ chất lượng tốt (dưới bất kỳ hình thức nào) được kết nối với chân 17 và 18 của mạch tích hợp. Nếu chúng ta đóng công tắc S1, thì chế độ ghi âm có thể được khởi động để dễ dàng ghi lại một tin nhắn thoại trong 20-30 giây. Là một chỉ báo ghi đèn LED được kết nối với chân 25 của IC APR 9301 sẽ nhấp nháy miễn là L chân 27 được nối đất.

Ghi âm giọng nói và mạch phát lại

Ghi âm giọng nói và mạch phát lại

Sau khi hoàn thành 20 chu kỳ với bộ nhớ cuối cùng, quá trình ghi tự động kết thúc bằng cách thay đổi giá trị của một điện trở R1 được kết nối với các chân 6 và 7 của IC APR 9301. Có thể đạt được khoảng thời gian ghi tối đa là 20 giây, 24 giây và 30 giây bằng cách thay đổi các giá trị của điện trở R1 tương ứng là 52K, 67K và 89K.

Phần đầu vào sẽ tự động tắt tiếng trong chế độ phát lại. Nếu công tắc S2 đóng, thì một thông báo sẽ đến từ loa kể từ đầu các tin nhắn đã ghi. Nếu các chức năng ghi hoặc phát lại được hoàn tất, thì IC APR 9301 sẽ chuyển sang chế độ chờ.

Mạch này có thể được tích lũy trên một PCB thông thường. Hàn đế IC APR 9301 cẩn thận để không xảy ra hiện tượng đoản mạch giữa các chân của mạch tích hợp. Kiểm tra mạch sau khi lắp ráp trên PCB, sau đó kết nối IC trong đế IC. Trước khi cấp nguồn cho mạch, hãy kiểm tra chặt chẽ các kết nối chân cắm. Bộ điều chỉnh 5 vôn dựa trên IC Nguồn điện được sử dụng để cung cấp điện cho mạch. Sử dụng loa chất lượng tốt 2 inch-8-ohms để có âm thanh rõ ràng. Ghi âm có thể được thực hiện bằng cách nhấn công tắc S1. Các tín hiệu âm thanh (Lời nói hoặc Nhạc) được mic thu nhận và được chuyển đến vi mạch, trong đó tín hiệu giọng nói được lưu trữ trong các ô nhớ. Nếu chúng ta đóng công tắc S2, thì quá trình phát lại bắt đầu và chúng ta có thể nghe thấy thông báo đã ghi qua loa.

Mô-đun nhận dạng giọng nói có thể được sử dụng trong nhiều ứng dụng như để điều khiển hệ thống máy bay bằng lệnh thoại của phi công, để điều khiển ô tô bánh hơi có động cơ bằng bộ xử lý đa xử lý kích hoạt bằng giọng nói, v.v. Nếu bạn muốn biết về dự án điện và điện tử dựa trên mô-đun nhận dạng giọng nói, sau đó bạn có thể liên hệ với chúng tôi bằng cách đăng ý kiến ​​của bạn trong phần bình luận bên dưới.

Tín ảnh: