Điều cần biết
- Trong Trình xem Ngram Sách của Google, nhập một cụm từ, chọn phạm vi ngày và ngữ liệu, đặt mức độ làm mịn và nhấp vào Tìm kiếm nhiều sách.
- Bạn có thể đi sâu vào dữ liệu. Ví dụ: để tìm kiếm dạng động từ cá, thay vì danh từ cá, hãy sử dụng thẻ: search for fish_VERB.
- Ngram Viewer xuất ra một biểu đồ đại diện cho việc sử dụng cụm từ theo thời gian. Đối với nhiều cụm từ, mỗi cụm từ được thể hiện bằng một dòng mã màu.
Bài viết này giải thích cách sử dụng công cụ Ngram Viewer trong Google Sách để thực hiện nghiên cứu và tìm kiếm hiệu quả.
Trình xem Ngram hoạt động như thế nào
An Ngram, còn được gọi là N-gram, là một phân tích thống kê về nội dung văn bản hoặc giọng nói để tìm ra n (một số) của một số loại mục trong văn bản.
Mục tìm kiếm có thể là tất cả các loại, bao gồm âm vị, tiền tố, cụm từ và chữ cái. Mặc dù một Ngram ít được biết đến bên ngoài cộng đồng nghiên cứu, nó được sử dụng trong nhiều lĩnh vực khác nhau và có rất nhiều ý nghĩa đối với các nhà phát triển đang mã hóa các chương trình máy tính hiểu và phản ứng với ngôn ngữ nói tự nhiên.
Trong trường hợp của Google Books Ngram Viewer, văn bản được phân tích đến từ rất nhiều sách trong miền công cộng mà Google đã quét để đưa vào công cụ tìm kiếm Google Sách của mình. Đối với Google Books Ngram Viewer, Google đề cập đến phần nội dung văn bản bạn sẽ tìm kiếm dưới dạng kho tài liệu. Ngram Viewer tổng hợp theo ngôn ngữ, mặc dù bạn có thể phân tích riêng tiếng Anh của Anh và Mỹ hoặc gộp chúng lại với nhau.
- Đi tới Trình xem Ngram của Google Sách tại books.google.com/ngrams.
-
Nhập bất kỳ cụm từ hoặc cụm từ nào bạn muốn phân tích. Phân cách từng cụm từ bằng dấu phẩy. Google gợi ý "Albert Einstein, Sherlock Holmes, Frankenstein" để bạn bắt đầu.
Trong các tìm kiếm của NGram Viewer, các mục có phân biệt chữ hoa chữ thường, không giống như trong các tìm kiếm trên web của Google.
- Chọn phạm vi ngày. Giá trị mặc định là 1800 đến 2000.
- Chọn một kho dữ liệu. Bạn có thể tìm kiếm văn bản tiếng nước ngoài hoặc văn bản tiếng Anh, và ngoài các lựa chọn tiêu chuẩn, bạn có thể nhận thấy các mục nhập như "Tiếng Anh (2009)" hoặc "Tiếng Anh Mỹ (2009)" ở cuối danh sách. Đây là những tập dữ liệu cũ hơn mà Google đã cập nhật, nhưng bạn có thể có một số lý do để so sánh với các tập dữ liệu cũ. Hầu hết người dùng có thể bỏ qua chúng và tập trung vào kho tài liệu gần đây nhất.
-
Đặt mức làm mịn. Làm mịn đề cập đến mức độ mượt mà của biểu đồ ở cuối. Biểu diễn chính xác nhất phản ánh mức độ làm mịn bằng 0, nhưng cài đặt đó có thể khó đọc. Giá trị mặc định được đặt thành 3. Trong hầu hết các trường hợp, bạn không cần điều chỉnh.
- Bấm Tìm kiếm nhiều sách.
Sử dụng Ngram Viewer của Google, bạn có thể đi sâu vào dữ liệu. Nếu bạn muốn tìm kiếm động từ cá thay vì cá danh từ, bạn có thể làm như vậy bằng cách sử dụng các thẻ. Trong trường hợp này, bạn sẽ tìm kiếm cá_VERB.
Google cung cấp danh sách đầy đủ các lệnh, tài liệu nâng cao khác để sử dụng với Ngram Viewer trên trang web của mình.
Bottom Line
Google Books Ngram Viewer xuất một biểu đồ thể hiện việc sử dụng một cụm từ cụ thể trong sách theo thời gian. Nếu bạn đã nhập nhiều từ hoặc cụm từ, mỗi từ hoặc cụm từ được biểu thị bằng một dòng mã màu để tương phản với các cụm từ tìm kiếm khác. Điều này tương tự với Google Xu hướng, chỉ là tìm kiếm bao gồm một khoảng thời gian dài hơn.
Nghiên cứu điển hình
Xem xét trường hợp nghiên cứu về bánh nướng nhân giấm. Chúng được nhắc đến trong Ngôi nhà nhỏ của Laura Ingalls Wilder trên loạt phim Prairie. Khám phá với tìm kiếm trên web của Google để tìm hiểu thêm về bánh nướng giấm cho thấy rằng chúng được coi là một phần của ẩm thực miền Nam Hoa Kỳ và thực sự được làm bằng giấm. Họ nhắc lại thời điểm mà không phải ai cũng được tiếp cận với sản phẩm tươi vào mọi thời điểm trong năm nhưng đó có phải là toàn bộ câu chuyện không?
Tìm kiếm trên Google Ngram Viewer để tìm món bánh giấm và bạn sẽ bắt gặp một số đề cập về món bánh trong cả những năm đầu và cuối những năm 1800, rất nhiều đề cập trong những năm 1940 và số lượng đề cập ngày càng tăng trong thời gian gần đây. Tuy nhiên, với mức độ làm mịn là 3, bạn sẽ thấy một sự ổn định so với các đề cập trong những năm 1800. Vì không có nhiều sách được xuất bản trong thời gian đó và vì dữ liệu được đặt ở chế độ mịn, nên hình ảnh bị méo. Có lẽ chỉ có một cuốn sách đề cập đến bánh giấm, và nó được tính trung bình để tránh tăng đột biến. Bằng cách đặt làm mịn thành 0, bạn có thể thấy rằng đây chính xác là trường hợp. Mức tăng đột biến tập trung vào năm 1869 và có một mức tăng đột biến khác vào năm 1897 và 1900.
Thời gian còn lại không ai nói về bánh tráng giấm: Có lẽ đã có những công thức nấu ăn trôi nổi khắp nơi, nhưng mọi người không viết về chúng trong sách, và đó là một hạn chế quan trọng của việc tìm kiếm Ngram.