// 创建语音识别对象
const recognition = new webkitSpeechRecognition();
// 语音设置成中文
recognition.lang = "zh-CN";
// 开始识别
recognition.start();
// 当识别到语音时触发事件
recognition.addEventListener("result", (event) => {
  console.log(event.results);
});

使用上述代码后，页面中会弹出权限请求，点击允许

然后我们直接说话就会有识别结果（需要挂vpn）

如果打开了麦克风，但是说话没有反应的，大概率是因为识别服务没请求到，需要挂vpn

此外，webkitSpeechRecognition类还有以下常用配置：

recognition.continuous = true 持续识别，直到调用stop，默认为false，识别一次就会自动关闭

recognition.interimResults = true 识别时是否打断并更新结果，默认为false，设置为true时会有如下效果

speechSynthesis

接下来看看语音合成

const speakText = new SpeechSynthesisUtterance("hello world");
speechSynthesis.speak(speakText);

在控制台输入以下代码，即可合成hellow world的语音效果

小例子

了解了上述用法，我们可以在浏览器上实现模仿自己说话的功能，代码如下

<!DOCTYPE html>
<html lang="en">
  <head>
    <meta charset="UTF-8" />
    <meta http-equiv="X-UA-Compatible" content="IE=edge" />
    <meta name="viewport" content="width=device-width, initial-scale=1.0" />
    <title>ASR-Node</title>
    <style>
      * {
        margin: 0;
        padding: 0;
      }
      #app {
        width: 1000px;
        margin: 100px auto 0;
        text-align: center;
      }
      h3 {
        margin-bottom: 20px;
      }
    </style>
  </head>
  <body>
    <div id="app">
      <h3>ASR-Bot</h3>
      <main>
        <span>发送：</span>
        <span id="send_msg"></span>
        <br />
        <span>接收：</span>
        <span id="rec_msg"></span>
      </main>
    </div>
    <script type="module">
      const speak = (str) => {
        rec_msg.textContent = str;
        const speakText = new SpeechSynthesisUtterance(str); // 转换字符
        speechSynthesis.speak(speakText); // 语音合成
      };
      const listen = () => {
        // 创建语音识别对象
        const recognition = new webkitSpeechRecognition();
        // 语音设置成中文
        recognition.lang = "zh-CN";
        // 当识别到语音时触发事件
        recognition.addEventListener("result", (event) => {
          const { results } = event;
          console.log(results);
          const len = results.length;
          const { transcript } = results[len - 1][0];
          send_msg.textContent = transcript;
          speak(transcript);
        });
        return recognition;
      };

      // 开始识别
      listen().start();
    </script>
  </body>
</html>

虽然放不了声音，但是效果还是很直观的：